您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

从Ruby到Python:Crawlers

从Ruby到Python:Crawlers

主要是,您必须将“抓取器” /抓取器(将从Web服务器下载文件/数据的python库/程序/函数)和将读取此数据并解释数据的解析器分开。就我而言,我必须抓取并获得一些“公开”的政府信息,但这些信息对下载/数据不友好。对于这个项目,我使用了scrapy [1]。

主要是设置“ starter_urls”,即我的机器人将抓取/获取的URL,并在使用函数“解析器”检索/解析此数据之后。

对于解析/检索,您将需要一些html,lxml提取器,因为90%的数据就是这样。

现在关注您的问题:

用于数据爬网

用于解析数据

并且请记住“抓取”,抓取不仅适用于网络,也适用于电子邮件。您可以在此处查看有关此问题的另一个问题[6]

[1] = http://scrapy.org/

[2] -http://docs.python-requests.org/en/latest/

[3]-http://docs.python.org/library/urllib.html

[4] -http://lxml.de/

[5]-http://www.crummy.com/software/BeautifulSoup/

[6] -Python读取我的Outlook电子邮件邮箱并解析消息

python 2022/1/1 18:48:35 有346人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶