前一段时间,我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案,但是您可以根据需要进行调整:@H_502_1@
wikipedia.py wiki2plain.py@H_502_1@
您可以像这样使用它:@H_502_1@
from wikipedia import Wikipedia
from wiki2plain import Wiki2Plain
lang = 'simple'
wiki = Wikipedia(lang)
try:
raw = wiki.article('Uruguay')
except:
raw = None
if raw:
wiki2plain = Wiki2Plain(raw)
content = wiki2plain.text