从Ruby到Python：Crawlers

好

主要是，您必须将“抓取器” /抓取器（将从Web服务器下载文件/数据的python库/程序/函数）和将读取此数据并解释数据的解析器分开。就我而言，我必须抓取并获得一些“公开”的政府信息，但这些信息对下载/数据不友好。对于这个项目，我使用了scrapy [1]。

主要是设置“ starter_urls”，即我的机器人将抓取/获取的URL，并在使用函数“解析器”检索/解析此数据之后。

对于解析/检索，您将需要一些html，lxml提取器，因为90％的数据就是这样。

现在关注您的问题：

用于数据爬网

用于解析数据

并且请记住“抓取”，抓取不仅适用于网络，也适用于电子邮件。您可以在此处查看有关此问题的另一个问题[6]

[1] = http://scrapy.org/

[2] -http://docs.python-requests.org/en/latest/

[3]-http://docs.python.org/library/urllib.html

[4] -http://lxml.de/

[5]-http://www.crummy.com/software/BeautifulSoup/

[6] -Python读取我的Outlook电子邮件邮箱并解析消息

python 2022/1/1 18:48:35 有346人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

有没有办法一次从Redis列表中弹出所有列表项？

有没有办法一次从Redis列表中弹出所有列表项？

其他 2022-01-01 1111
从React组件中的外部加载的HTML访问内部函数

从React组件中的外部加载的HTML访问内部函数

其他 2022-01-01 905
如何从RichTextBox中选择文本，然后为其着色？

如何从RichTextBox中选择文本，然后为其着色？

其他 2022-01-01 737
如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

python 2022-01-01 603
将Message从RabbitMQ转换为string / json

将Message从RabbitMQ转换为string / json

其他 2022-01-01 879
如何使用日期范围从Redis（pub / sub）保存和检索频道数据？

如何使用日期范围从Redis（pub / sub）保存和检索频道数据？

其他 2022-01-01 739
如何从React组件渲染Markdown？

如何从React组件渲染Markdown？

其他 2022-01-01 682
如何从React中该组件外部的按钮提交表单？

如何从React中该组件外部的按钮提交表单？

其他 2022-01-01 661
Java：将DKIM私钥从RSA转换为JavaMail的DER

Java：将DKIM私钥从RSA转换为JavaMail的DER

java 2022-01-01 711
如何从reactjs发出Http请求？

如何从reactjs发出Http请求？

其他 2022-01-01 665
For循环从redis延迟获取项目

For循环从redis延迟获取项目

其他 2022-01-01 639
如何从Redis中的值填充UserAuth？

如何从Redis中的值填充UserAuth？

其他 2022-01-01 687
如何从React.js中的另一个类组件调用方法

如何从React.js中的另一个类组件调用方法

其他 2022-01-01 603
Flutter-从rest api遍历经纬度列表以获取两个坐标之间的距离

Flutter-从rest api遍历经纬度列表以获取两个坐标之间的距离

其他 2022-01-01 780
GatsbyJS从Restful API获取数据

GatsbyJS从Restful API获取数据

其他 2022-01-01 703
如何从Redis获取值并将其放在NGiNX中的变量中？

如何从Redis获取值并将其放在NGiNX中的变量中？

其他 2022-01-01 629
通过POST从React App发送数组到Spring Boot

通过POST从React App发送数组到Spring Boot

Java 2022-01-01 699
从Redis检索大型数据集

从Redis检索大型数据集

其他 2022-01-01 655
从redis封装Unicode

从redis封装Unicode

其他 2022-01-01 687
配置Nginx以使用密钥从Redis获取URL并将URL代理到其他服务器

配置Nginx以使用密钥从Redis获取URL并将URL代理到其他服务器

其他 2022-01-01 631

从Ruby到Python：Crawlers

撰写回答

推荐问题

有没有办法一次从Redis列表中弹出所有列表项？

从React组件中的外部加载的HTML访问内部函数

如何从RichTextBox中选择文本，然后为其着色？

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

将Message从RabbitMQ转换为string / json

如何使用日期范围从Redis（pub / sub）保存和检索频道数据？

如何从React组件渲染Markdown？

如何从React中该组件外部的按钮提交表单？

Java：将DKIM私钥从RSA转换为JavaMail的DER

如何从reactjs发出Http请求？

For循环从redis延迟获取项目

如何从Redis中的值填充UserAuth？

如何从React.js中的另一个类组件调用方法

Flutter-从rest api遍历经纬度列表以获取两个坐标之间的距离

GatsbyJS从Restful API获取数据

如何从Redis获取值并将其放在NGiNX中的变量中？

通过POST从React App发送数组到Spring Boot

从Redis检索大型数据集

从redis封装Unicode

配置Nginx以使用密钥从Redis获取URL并将URL代理到其他服务器

分类汇总

您的鼓励是对我最大的支持