从存储的.html页面中提取新闻文章内容

Python中也有此库：)

自从您提到Java以来??，有一个适用于样板程序的Python包装器，可让您在python脚本中直接使用它：https : //github.com/misja/python- boilerpipe

如果要使用纯python库，则有2个选项：

https://github.com/buriy/python-readability

和

https://github.com/grangier/python-goose

在这两者中，我更喜欢Goose，但是请注意，由于某些原因，它的最新版本有时无法提取文本（我的建议是现在使用1.0.22版）。

编辑：这是使用Goose的示例代码：

from goose import Goose
from requests import get

response = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-cancer-risk.html?src=me&ref=general')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text

其他 2022/1/1 18:43:00 有490人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

mysql无法从存储引擎读取自动增量值

mysql无法从存储引擎读取自动增量值

MySQL 2022-01-01 401
无法使用Python游标从存储过程返回结果

无法使用Python游标从存储过程返回结果

python 2022-01-01 476
需要一个MySQL查询来从存储键值对的表中选择

需要一个MySQL查询来从存储键值对的表中选择

MySQL 2022-01-01 488
1030从存储引擎收到错误28

1030从存储引擎收到错误28

其他 2022-01-01 367
如何从存储过程中读取文本文件

如何从存储过程中读取文本文件

其他 2022-01-01 349
如何从存储在列表中的对象获取特定字段值的列表？

如何从存储在列表中的对象获取特定字段值的列表？

其他 2022-01-01 524
从存储的proc中的SELECT语句中获取标量值

从存储的proc中的SELECT语句中获取标量值

其他 2022-01-01 395
使用Maven Java API从存储库中检索Maven工件

使用Maven Java API从存储库中检索Maven工件

java 2022-01-01 454
从存储过程catch块处理死锁重试是一个好主意吗

从存储过程catch块处理死锁重试是一个好主意吗

其他 2022-01-01 464
从存储过程返回多个值

从存储过程返回多个值

其他 2022-01-01 430
如何从存储过程中返回表？

如何从存储过程中返回表？

其他 2022-01-01 454
如何从存储过程返回字符串值

如何从存储过程返回字符串值

其他 2022-01-01 376
是否可以使用LINQ从存储过程中返回返回值和结果集

是否可以使用LINQ从存储过程中返回返回值和结果集

其他 2022-01-01 465
从存储的.html页面中提取新闻文章内容

从存储的.html页面中提取新闻文章内容

其他 2022-01-01 490
为什么在关系数据库中不支持从存储过程中进行选择？

为什么在关系数据库中不支持从存储过程中进行选择？

其他 2022-01-01 564
从存储在数组中的波形播放声音

从存储在数组中的波形播放声音

其他 2022-01-01 469
如何将值从存储过程返回到EF

如何将值从存储过程返回到EF

其他 2022-01-01 350
如何从存储过程返回所有记录？

如何从存储过程返回所有记录？

其他 2022-01-01 439
如何使用Linq to SQL从存储过程中检索多行？

如何使用Linq to SQL从存储过程中检索多行？

SQLServer 2022-01-01 403
从存储过程结果集中插入/更新表上的数据

从存储过程结果集中插入/更新表上的数据

其他 2022-01-01 456

从存储的.html页面中提取新闻文章内容

撰写回答

推荐问题

mysql无法从存储引擎读取自动增量值

无法使用Python游标从存储过程返回结果

需要一个MySQL查询来从存储键值对的表中选择

1030从存储引擎收到错误28

如何从存储过程中读取文本文件

如何从存储在列表中的对象获取特定字段值的列表？

从存储的proc中的SELECT语句中获取标量值

使用Maven Java API从存储库中检索Maven工件

从存储过程catch块处理死锁重试是一个好主意吗

从存储过程返回多个值

如何从存储过程中返回表？

如何从存储过程返回字符串值

是否可以使用LINQ从存储过程中返回返回值和结果集

从存储的.html页面中提取新闻文章内容

为什么在关系数据库中不支持从存储过程中进行选择？

从存储在数组中的波形播放声音

如何将值从存储过程返回到EF

如何从存储过程返回所有记录？

如何使用Linq to SQL从存储过程中检索多行？

从存储过程结果集中插入/更新表上的数据

分类汇总

您的鼓励是对我最大的支持