Python中也有此库:)
自从您提到Java以来??,有一个适用于样板程序的Python包装器,可让您在python脚本中直接使用它:https : //github.com/misja/python- boilerpipe
如果要使用纯python库,则有2个选项:
https://github.com/buriy/python-readability
和
https://github.com/grangier/python-goose
在这两者中,我更喜欢Goose,但是请注意,由于某些原因,它的最新版本有时无法提取文本(我的建议是现在使用1.0.22版)。
编辑:这是使用Goose的示例代码:
from goose import Goose
from requests import get
response = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-cancer-risk.html?src=me&ref=general')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text