Created attachment 159 [details] 附图 在本项目数据库中原有的一些文章内,某些单词的单引号可能并非是半角单引号',而是全角单引号’,这就导致wordfreqCMD.py内的remove_punctuation函数在处理单词时将这个引号转为空格符,使得原本的单词被分隔成两部分 例如以下附件所示,选中的文章包含 that's / don't / I've 这三个单词,而检索后 s/don/t/ve 却成为了独立的单词
Thanks, 温启涛同学 Hui
所选的三个单词 that's / don't / I've 都很简单,一般不会作为生词加入。 有其它难一点的(独立)单词吗? -Hui