您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

Scrapy-不断获取URL以从数据库中进行爬网

Scrapy-不断获取URL以从数据库中进行爬网

我个人建议您每次必须爬网时都启动一个新的蜘蛛,但是如果您想使该过程继续下去,我建议您使用spider_idle信号:

@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
    spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs)
    crawler.signals.connect(spider.spider_closed, signals.spider_closed)
    crawler.signals.connect(spider.spider_idle, signals.spider_idle)
    return spider
...
def spider_idle(self, spider):
    # read database again and send new requests

    # check that sending new requests here is different
    self.crawler.engine.crawl(
                    Request(
                        new_url,
                        callback=self.parse),
                    spider
                )

在这里,您将在蜘蛛实际上关闭之前发送新请求。

其他 2022/1/1 18:38:41 有592人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶