该spotsigs纸由提到 joyceschan 地址内容重复检测,它含有大量的深思。
如果您正在寻找关键术语的快速比较,nltk
标准功能可能就足够了。
随着nltk
您可以通过查找拉你的项的同义词 所包含
>>> from nltk.corpus import wordnet
>>> wordnet.synsets('donation')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
>>> wordnet.synsets('donations')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
它可以理解复数,还可以告诉您同义词对应的词性
存储在树中,叶中有更多特定术语,根部有更多通用术语。根术语称为
您可以通过术语与常用 *
根据NLTK食谱,请注意语音的不同部分,它们没有重叠的路径,因此您不应尝试衡量它们之间的相似性。
说,您有 捐赠 和 礼物 这两个术语,可以从中获得它们,synsets
但是在此示例中,我直接对其进行了初始化:
>>> d = wordnet.synset('donation.n.01')
>>> g = wordnet.synset('gift.n.01')
食谱推荐Wu-Palmer相似方法
>>> d.wup_similarity(g)
0.93333333333333335
这种方法为您提供一种快速的方法来确定所使用的术语是否与相关概念相对应。看看使用Python进行自然语言处理,看看还有什么可以帮助您进行文本分析的。