您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

从存储的.html页面中提取新闻文章内容

从存储的.html页面中提取新闻文章内容

Python中也有此库:)

自从您提到Java以来??,有一个适用于样板程序的Python包装器,可让您在python脚本中直接使用它:https : //github.com/misja/python- boilerpipe

如果要使用纯python库,则有2个选项:

https://github.com/buriy/python-readability

https://github.com/grangier/python-goose

在这两者中,我更喜欢Goose,但是请注意,由于某些原因,它的最新版本有时无法提取文本(我的建议是现在使用1.0.22版)。

编辑:这是使用Goose的示例代码

from goose import Goose
from requests import get

response = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-cancer-risk.html?src=me&ref=general')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text
其他 2022/1/1 18:43:00 有490人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶