提取Google搜索结果

正则表达式对于解析HTML是个坏主意。读取并依赖格式正确的HTML是很神秘的。

尝试使用BeautifulSoup forPython。这是一个示例脚本，该脚本从site：domain.com Google查询的前10个页面返回URL。

import sys # Used to add the BeautifulSoup folder the import path
import urllib2 # Used to read the html document

if __name__ == "__main__":
    ### Import Beautiful Soup
    ### Here, I have the BeautifulSoup folder in the level of this Python script
    ### So I need to tell Python where to look.
    sys.path.append("./BeautifulSoup")
    from BeautifulSoup import BeautifulSoup

    ### Create opener with Google-friendly user agent
    opener = urllib2.build_opener()
    opener.addheaders = [('User-agent', 'Mozilla/5.0')]

    ### Open page & generate soup
    ### the "start" variable will be used to iterate through 10 pages.
    for start in range(0,10):
        url = "http://www.google.com/search?q=site:stackoverflow.com&start=" + str(start*10)
        page = opener.open(url)
        soup = BeautifulSoup(page)

        ### Parse and find
        ### Looks like google contains URLs in <cite> tags.
        ### So for each cite tag on each page (10), print its contents (url)
        for cite in soup.findAll('cite'):
            print cite.text

输出：

stackoverflow.com/
stackoverflow.com/questions
stackoverflow.com/unanswered
stackoverflow.com/users
Meta.stackoverflow.com/
blog.stackoverflow.com/
chat.Meta.stackoverflow.com/
...

当然，您可以将每个结果附加到列表中，以便可以将其解析为子域。我几天前刚接触Python并抓取内容，但这应该可以帮助您入门。

Go 2022/1/1 18:27:16 有315人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何从C＃中的MS Office文档中提取文本

如何从C＃中的MS Office文档中提取文本

c# 2022-01-01 889
如何仅提取ELF部分的原始内容？

如何仅提取ELF部分的原始内容？

其他 2022-01-01 624
JSON字符串数组（无对象），提取数据

JSON字符串数组（无对象），提取数据

其他 2022-01-01 547
在Java（JSP）中提取.tar.gz文件

在Java（JSP）中提取.tar.gz文件

java 2022-01-01 580
如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

python 2022-01-01 602
为目录中的每个zip文件创建一个专用文件夹并提取zip文件

为目录中的每个zip文件创建一个专用文件夹并提取zip文件

其他 2022-01-01 683
PHP子字符串提取。获取第一个'/'之前的字符串或整个字符串

PHP子字符串提取。获取第一个'/'之前的字符串或整个字符串

php 2022-01-01 510
Golang-如何将XML文件的一部分提取为字符串？

Golang-如何将XML文件的一部分提取为字符串？

Go 2022-01-01 608
使用Swift提取字符串中的最后一个单词

使用Swift提取字符串中的最后一个单词

Swift 2022-01-01 621
尝试从专用ECR提取图像时“没有基本身份验证凭据”

尝试从专用ECR提取图像时“没有基本身份验证凭据”

其他 2022-01-01 884
jar文件如何执行？这些课程会被提取吗？

jar文件如何执行？这些课程会被提取吗？

其他 2022-01-01 533
从HTML Java提取文本

从HTML Java提取文本

java 2022-01-01 610
查询以提取超过30m年前更新的时间戳不起作用

查询以提取超过30m年前更新的时间戳不起作用

其他 2022-01-01 637
提取API请求超时？

提取API请求超时？

其他 2022-01-01 609
Linux bash脚本提取IP地址

Linux bash脚本提取IP地址

其他 2022-01-01 611
Spring-Cloud-Stream Kafka Azure-提取数据时出现意外错误代码13

Spring-Cloud-Stream Kafka Azure-提取数据时出现意外错误代码13

Java 2022-01-01 478
在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

php 2022-01-01 644
如何使用JS提取API上传文件？

如何使用JS提取API上传文件？

其他 2022-01-01 477
有没有一种方法可以使用PDO提取按指定列的值分组的关联数组？

有没有一种方法可以使用PDO提取按指定列的值分组的关联数组？

其他 2022-01-01 574
如何在Perl中从HTML提取URL和链接文本？

如何在Perl中从HTML提取URL和链接文本？

其他 2022-01-01 576

提取Google搜索结果

撰写回答

推荐问题

如何从C＃中的MS Office文档中提取文本

如何仅提取ELF部分的原始内容？

JSON字符串数组（无对象），提取数据

在Java（JSP）中提取.tar.gz文件

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

为目录中的每个zip文件创建一个专用文件夹并提取zip文件

PHP子字符串提取。获取第一个'/'之前的字符串或整个字符串

Golang-如何将XML文件的一部分提取为字符串？

使用Swift提取字符串中的最后一个单词

尝试从专用ECR提取图像时“没有基本身份验证凭据”

jar文件如何执行？这些课程会被提取吗？

从HTML Java提取文本

查询以提取超过30m年前更新的时间戳不起作用

提取API请求超时？

Linux bash脚本提取IP地址

Spring-Cloud-Stream Kafka Azure-提取数据时出现意外错误代码13

在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

如何使用JS提取API上传文件？

有没有一种方法可以使用PDO提取按指定列的值分组的关联数组？

如何在Perl中从HTML提取URL和链接文本？

分类汇总

您的鼓励是对我最大的支持