为什么在Python中用'j'而不是'i'表示复数？

在上面的代码中，FormRequest用于进行身份验证的将该after_login函数设置为其回调。这意味着该after_login函数将被调用并传递登录尝试得到的页面作为响应。

然后，通过在页面中搜索特定的字符串（在本例中为）来检查您是否成功登录"authentication Failed"。如果找到它，蜘蛛就会结束。

现在，一旦蜘蛛走了那么远，它就知道它已经成功通过了身份验证，您就可以开始产生新的请求和/或抓取数据了。因此，在这种情况下：

from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request

# ...

def after_login(self, response):
    # check login succeed before going on
    if "authentication Failed" in response.body:
        self.log("Login Failed", level=log.ERROR)
        return
    # We've successfully authenticated, let's have some fun!
    else:
        return Request(url="http://www.example.com/tastypage/",
               callback=self.parse_tastypage)

def parse_tastypage(self, response):
    hxs = HtmlXPathSelector(response)
    yum = hxs.select('//img')

    # etc.

如果您，则有一个蜘蛛示例，该示例会在刮刮之前进行身份验证。

在这种情况下，它将处理parse函数中的内容（任何请求的默认回调）。

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    if hxs.select("//form[@id='UsernameLoginForm_LoginForm']"):
        return self.login(response)
    else:
        return self.get_section_links(response)

因此，无论何时发出请求，都会检查响应中是否存在登录表单。如果存在，那么我们知道我们需要登录，所以我们调用相关的函数，如果不存在，则调用负责从响应中抓取数据的函数。

我希望这很清楚，请随时询问您还有其他问题！

好的，所以您要做的不只是产生单个请求并将其抓取。您想点击链接。

为此，您需要做的就是从页面上抓取相关链接，并使用这些URL生成请求。例如：

def parse_page(self, response):
    """ Scrape useful stuff from page, and spawn new requests

    """
    hxs = HtmlXPathSelector(response)
    images = hxs.select('//img')
    # .. do something with them
    links = hxs.select('//a/@href')

    # Yield a new request for each link we found
    for link in links:
        yield Request(url=link, callback=self.parse_page)

如您所见，它为页面上的每个URL生成了一个新请求，并且这些请求中的每一个都将使用其响应调用此相同的函数，因此我们正在进行一些递归的抓取。

我上面写的只是一个例子。如果要“抓取”页面，则应调查CrawlSpider而不是手动处理。

python 2022/1/1 18:35:16 有222人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

为什么在Python中用'j'而不是'i'表示复数？

撰写回答

推荐问题

PHP中的全局变量是否被视为不良做法？如果是这样，为什么？

为什么需要将匿名函数传递给onClick事件？

为什么Class.newInstance（）是“evil”？

在为该对象分配其他内容时，为什么不通过引用传递该对象？

为什么我们将firefoxdriver实例分配给webdriver

为什么新的Java 8日期时间API不具有纳秒精度？

为什么浮点数打印方式如此不同？

为什么说深度优先搜索会遭受无限循环的困扰？

为什么找不到SSL握手的信任库？

为什么没有输入，民意调查仍会返回？

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

为什么Hibernate切换为通过CLOB使用LONG？

为什么“无”映像出现在Docker中以及我们如何避免它

为什么在pom.xml的第1行中出现Unknown错误？

为什么数据传输对象（DTO）是反模式？

为什么某些技术上可序列化的输入属性不能序列化？

什么是仓库和标签？为什么在使用docker build时它们会出现？

为什么无法在Java中扩展注释？

Java Map为什么不扩展Collection？

分类汇总

您的鼓励是对我最大的支持