使用PostBack数据在页面中爬行javascript Python Scrapy

这种分页并不是看起来那么简单。解决它是一个有趣的挑战。以下是有关该解决方案的一些重要说明：

编码：

import re

from scrapy.http import FormRequest
from scrapy.spider import BaseSpider


HEADERS = {
    'X-MicrosoftAjax': 'Delta=true',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.76 Safari/537.36'
}
URL = 'http://exitrealty.com/agent_list.aspx?firstName=&lastName=&country=USA&state=NY'


class ExitRealtySpider(BaseSpider):
    name = "exit_realty"

    allowed_domains = ["exitrealty.com"]
    start_urls = [URL]

    def parse(self, response):
        # submit a form (first page)
        self.data = {}
        for form_input in response.css('form#aspnetForm input'):
            name = form_input.xpath('@name').extract()[0]
            try:
                value = form_input.xpath('@value').extract()[0]
            except IndexError:
                value = ""
            self.data[name] = value

        self.data['ctl00$MainContent$ScriptManager1'] = 'ctl00$MainContent$UpdatePanel1|ctl00$MainContent$agentList'
        self.data['__EVENTTARGET'] = 'ctl00$MainContent$List'
        self.data['__EVENTARGUMENT'] = 'Page$1'

        return FormRequest(url=URL,
                           method='POST',
                           callback=self.parse_page,
                           formdata=self.data,
                           Meta={'page': 1},
                           dont_filter=True,
                           headers=HEADERS)

    def parse_page(self, response):
        current_page = response.Meta['page'] + 1

        # parse agents (TODO: yield items instead of printing)
        for agent in response.xpath('//a[@class="regtext"]/text()'):
            print agent.extract()
        print "------"

        # request the next page
        data = {
            '__EVENTARGUMENT': 'Page$%d' % current_page,
            '__EVENTVALIDATION': re.search(r"__EVENTVALIDATION\|(.*?)\|", response.body, re.MULTILINE).group(1),
            '__VIEWSTATE': re.search(r"__VIEWSTATE\|(.*?)\|", response.body, re.MULTILINE).group(1),
            '__ASYNCPOST': 'true',
            '__EVENTTARGET': 'ctl00$MainContent$agentList',
            'ctl00$MainContent$ScriptManager1': 'ctl00$MainContent$UpdatePanel1|ctl00$MainContent$agentList',
            '': ''
        }

        return FormRequest(url=URL,
                           method='POST',
                           formdata=data,
                           callback=self.parse_page,
                           Meta={'page': current_page},
                           dont_filter=True,
                           headers=HEADERS)

python 2022/1/1 18:31:06 有200人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

使用PostBack数据在页面中爬行javascript Python Scrapy

撰写回答

推荐问题

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何在Spring MVC中使用AJAX渲染视图

使用动态where子句休眠

如何使用jQuery访问父窗口对象？

使用Curl和PHP使会话保持活动状态

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

使用LESS构建选择器列表

如何使用CSS将跨度更改为类似pre？

在mysql sproc中使用变量作为表名

如何使用C＃获取两个DateTime对象之间的时差？

我可以在php中的SESSION数组上使用array_push吗？

Django-如何使用South重命名模型字段？

使用Spring Functional Web Framework的REST端点的背压

使用GhostDriver时如何设置屏幕/窗口大小

如何使用最新版本的jQuery并在RichFaces中为jQuery取回“ $”？

我可以使用BeautifulSoup删除脚本标签吗？

多态对象的JSON使用者

我如何重新连接使用selenium的webdriver打开的浏览器？

如何使用Servlet和Ajax？

分类汇总

您的鼓励是对我最大的支持