您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 我怎么能告诉Scrapy只抓取Xpath中的链接?

5b51 2022/1/14 8:22:04 python 字数 2582 阅读 514 来源 www.jb51.cc/python

我是Scrapy的新手,我想做的是创建一个只跟踪给定start_urls上 HTML元素内部链接的爬虫 就像一个例子,我只想让一个爬行器通过将start_urls设置为https://www.airbnb.com/s?location=New+York%2C+NY&checkin=&checkout=&guests=1的AirBnB列表 而不是抓取URL中的所有链接,我只想抓取xpath内的链接/

概述

就像一个例子,我只想让一个爬行器通过将start_urls设置为https://www.airbnb.com/s?location=New+York%2C+NY&checkin=&checkout=&guests=1的AirBnB列表

而不是抓取URL中的所有链接,我只想抓取xpath内的链接// * [@ id =“results”]

目前我正在使用以下代码来抓取所有链接,我如何才能使其仅适用于抓取// * [@ id =“results”]

from scrapy.selector import HtmlXPathSelector
    from tutorial.items import DmozItem
    from scrapy.contrib.spiders import CrawlSpider,Rule
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    from scrapy.selector import HtmlXPathSelector


    class BSpider(CrawlSpider):
            name = "bt"
            #follow = True
            allowed_domains = ["mydomain.com"]
            start_urls = ["http://myurl.com/path"]
            rules =(Rule(SgmlLinkExtractor(allow = ()),callback = 'parse_item',follow=True),)


        def parse_item(self,response):
        {parse code}

正确方向的任何提示将非常感激,
谢谢!

> restrict_xpaths(str或list) – 是一个XPath(或XPath列表),用于定义响应中应从中提取链接的区域.如果给定,则仅扫描由这些XPath选择的文本以获取链接.

总结

以上是编程之家为你收集整理的python – 我怎么能告诉Scrapy只抓取Xpath中的链接?全部内容,希望文章能够帮你解决python – 我怎么能告诉Scrapy只抓取Xpath中的链接?所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶