您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

(生物医学)单词词干的所有可能的单词形式完成

(生物医学)单词词干的所有可能的单词形式完成

解决方案需要预处理您的语料库。但是一旦完成,这将是一个非常快速的字典查找。

from collections import defaultdict
from stemming.porter2 import stem

with open('/usr/share/dict/words') as f:
    words = f.read().splitlines()

stems = defaultdict(list)

for word in words:
    word_stem = stem(word)
    stems[word_stem].append(word)

if __name__ == '__main__':
    word = 'leukocyte'
    word_stem = stem(word)
    print(stems[word_stem])

对于/usr/share/dict/words语料库,这将产生结果

['leukocyte', "leukocyte's", 'leukocytes']

它使用stemming可以安装的模块

pip install stemming
其他 2022/1/1 18:48:21 有412人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶