您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

为什么在Python中用'j'而不是'i'表示复数?

为什么在Python中用'j'而不是'i'表示复数?

在上面的代码中,FormRequest用于进行身份验证的将该after_login函数设置为其回调。这意味着该after_login函数将被调用并传递登录尝试得到的页面作为响应。

然后,通过在页面搜索特定的字符串(在本例中为)来检查您是否成功登录"authentication Failed"。如果找到它,蜘蛛就会结束。

现在,一旦蜘蛛走了那么远,它就知道它已经成功通过了身份验证,您就可以开始产生新的请求和/或抓取数据了。因此,在这种情况下:

from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request

# ...

def after_login(self, response):
    # check login succeed before going on
    if "authentication Failed" in response.body:
        self.log("Login Failed", level=log.ERROR)
        return
    # We've successfully authenticated, let's have some fun!
    else:
        return Request(url="http://www.example.com/tastypage/",
               callback=self.parse_tastypage)

def parse_tastypage(self, response):
    hxs = HtmlXPathSelector(response)
    yum = hxs.select('//img')

    # etc.

如果您 ,则有一个蜘蛛示例,该示例会在刮刮之前进行身份验证。

在这种情况下,它将处理parse函数中的内容(任何请求的认回调)。

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    if hxs.select("//form[@id='UsernameLoginForm_LoginForm']"):
        return self.login(response)
    else:
        return self.get_section_links(response)

因此,无论何时发出请求,都会检查响应中是否存在登录表单。如果存在,那么我们知道我们需要登录,所以我们调用相关的函数,如果不存在,则调用负责从响应中抓取数据的函数

我希望这很清楚,请随时询问您还有其他问题!

好的,所以您要做的不只是产生单个请求并将其抓取。您想点击链接

为此,您需要做的就是从页面上抓取相关链接,并使用这些URL生成请求。例如:

def parse_page(self, response):
    """ Scrape useful stuff from page, and spawn new requests

    """
    hxs = HtmlXPathSelector(response)
    images = hxs.select('//img')
    # .. do something with them
    links = hxs.select('//a/@href')

    # Yield a new request for each link we found
    for link in links:
        yield Request(url=link, callback=self.parse_page)

如您所见,它为页面上的每个URL生成一个新请求,并且这些请求中的每一个都将使用其响应调用此相同的函数,因此我们正在进行一些递归的抓取。

我上面写的只是一个例子。如果要“抓取”页面,则应调查CrawlSpider而不是手动处理。

python 2022/1/1 18:35:16 有222人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶