Scrapy-不断获取URL以从数据库中进行爬网

我个人建议您每次必须爬网时都启动一个新的蜘蛛，但是如果您想使该过程继续下去，我建议您使用spider_idle信号：

@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
    spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs)
    crawler.signals.connect(spider.spider_closed, signals.spider_closed)
    crawler.signals.connect(spider.spider_idle, signals.spider_idle)
    return spider
...
def spider_idle(self, spider):
    # read database again and send new requests

    # check that sending new requests here is different
    self.crawler.engine.crawl(
                    Request(
                        new_url,
                        callback=self.parse),
                    spider
                )

在这里，您将在蜘蛛实际上关闭之前发送新请求。

其他 2022/1/1 18:38:41 有592人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在JavaScript中将浮点数转换为整数？

如何在JavaScript中将浮点数转换为整数？

javascript 2022-01-01 1271
如何枚举JavaScript对象的属性？

如何枚举JavaScript对象的属性？

javascript 2022-01-01 1225
java.lang.ClassCastException

java.lang.ClassCastException

java 2022-01-01 1087
在JavaScript中删除数组元素-Delete与Splice

在JavaScript中删除数组元素-Delete与Splice

SQL 2022-01-01 1245
JavaScriptWays to circumvent the same-origin policy

JavaScriptWays to circumvent the same-origin policy

javascript 2022-01-01 1102
带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Java 2022-01-01 1096
如何获取JavaScript对象的类？

如何获取JavaScript对象的类？

javascript 2022-01-01 960
如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

其他 2022-01-01 957
JavaScript中两个日期之间的月份差异

JavaScript中两个日期之间的月份差异

javascript 2022-01-01 890
查看JavaScript中的所有超时/时间间隔？

查看JavaScript中的所有超时/时间间隔？

javascript 2022-01-01 797
如何从javascript中的Razor Model对象获取JSON对象

如何从javascript中的Razor Model对象获取JSON对象

javascript 2022-01-01 939
[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

其他 2022-01-01 994
javascript属性名称中允许使用破折号吗？

javascript属性名称中允许使用破折号吗？

javascript 2022-01-01 751
如何检查是否使用Javascript加载了外部（跨域）CSS文件

如何检查是否使用Javascript加载了外部（跨域）CSS文件

javascript 2022-01-01 892
iTunesConnect TestFlight的iOS应用版本和内部版本号

iTunesConnect TestFlight的iOS应用版本和内部版本号

其他 2022-01-01 1020
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 843
如何使用JavaScript创建文档对象

如何使用JavaScript创建文档对象

javascript 2022-01-01 910
从javascript对象访问父对象的父对象

从javascript对象访问父对象的父对象

javascript 2022-01-01 908
Java正则表达式以匹配ASCII字符

Java正则表达式以匹配ASCII字符

java 2022-01-01 704
使用javascript和服务器端禁用/启用requiredFieldValidators

使用javascript和服务器端禁用/启用requiredFieldValidators

javascript 2022-01-01 914

Scrapy-不断获取URL以从数据库中进行爬网

撰写回答

推荐问题

如何在JavaScript中将浮点数转换为整数？

如何枚举JavaScript对象的属性？

java.lang.ClassCastException

在JavaScript中删除数组元素-Delete与Splice

JavaScriptWays to circumvent the same-origin policy

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

如何获取JavaScript对象的类？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

JavaScript中两个日期之间的月份差异

查看JavaScript中的所有超时/时间间隔？

如何从javascript中的Razor Model对象获取JSON对象

[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

javascript属性名称中允许使用破折号吗？

如何检查是否使用Javascript加载了外部（跨域）CSS文件

iTunesConnect TestFlight的iOS应用版本和内部版本号

怎么把PascalCase转换成pascal_case？

如何使用JavaScript创建文档对象

从javascript对象访问父对象的父对象

Java正则表达式以匹配ASCII字符

使用javascript和服务器端禁用/启用requiredFieldValidators

分类汇总

您的鼓励是对我最大的支持