从python调用url时获取“错误”页面源

这里有几个问题。根本原因是您要抓取的网站知道您不是真实的人，并且正在阻止您。许多网站只是通过检查标头以查看请求是否来自浏览器（机器人）来执行此操作。但是，此站点看起来像他们在使用Incapsula，旨在提供更复杂的保护。您可以尝试通过设置标头来不同地设置您的请求，以欺骗页面上的安全性- 但我怀疑这样做是否可行。

import requests

def get_page_source(n):
    url = 'https://www.whoscored.com/Matches/' + str(n) + '/live'
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
    response = requests.get(url, headers=headers)
    return response.text

n = 1006233
text = get_page_source(n)
print text

该网站似乎还使用了验证码-旨在防止网页抓取。如果网站正在努力防止刮擦-这很可能是因为它们提供的数据是专有数据。我建议您找到另一个提供此数据的站点- 或尝试使用官方API。

不久前即可查看此答案。好像whoscored.com使用OPTAAPI来提供信息。您也许可以跳过中间人，直接进入数据源。祝好运！

UEFA或FIFA似乎没有提供任何API来获取您想要的信息。但是，有一些第三方服务支持该功能：

OPTA-商业和免费。他们有关于比赛的不可思议的数据库。Whoscored.com当前正在使用它。

其他：排行榜，xmlsoccer，…

python 2022/1/1 18:42:38 有543人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从Python访问errno？

从Python访问errno？

python 2022-01-01 1043
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1068
从python读取json文件

从python读取json文件

python 2022-01-01 954
为什么从Promise`.then`中进行回调是一种反模式

为什么从Promise`.then`中进行回调是一种反模式

其他 2022-01-01 820
从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

SQLServer 2022-01-01 933
自动从PHP代码中删除注释的最佳方法

自动从PHP代码中删除注释的最佳方法

php 2022-01-01 816
为什么从PHP 5.4开始永久启用“ echo”短标签？

为什么从PHP 5.4开始永久启用“ echo”短标签？

php 2022-01-01 859
如何将变量和数据从PHP传递到JavaScript？

如何将变量和数据从PHP传递到JavaScript？

php 2022-01-01 729
如何从PHP中的XML文件获取属性的值？

如何从PHP中的XML文件获取属性的值？

php 2022-01-01 733
如何从Perl CGI程序发送JSON响应？

如何从Perl CGI程序发送JSON响应？

其他 2022-01-01 786
如何从PHP文本中删除空白行？

如何从PHP文本中删除空白行？

php 2022-01-01 807
从POST获取复选框数组值

从POST获取复选框数组值

其他 2022-01-01 802
从print_r输出重新创建原始PHP数组

从print_r输出重新创建原始PHP数组

php 2022-01-01 813
尝试使用Spring Boot REST从POST读取JSON字符串

尝试使用Spring Boot REST从POST读取JSON字符串

Java 2022-01-01 821
如何从Postman Rest Client发送Spring CSRF令牌？

如何从Postman Rest Client发送Spring CSRF令牌？

Java 2022-01-01 795
LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

php 2022-01-01 870
从PHP运行返回错误。AJAX？

从PHP运行返回错误。AJAX？

php 2022-01-01 778
如何从python mysql查询中转义％

如何从python mysql查询中转义％

MySQL 2022-01-01 786
从PHP中的小数中删除无用的零数字

从PHP中的小数中删除无用的零数字

php 2022-01-01 837
如何从PHP脚本发送500 Internal Server Error错误

如何从PHP脚本发送500 Internal Server Error错误

php 2022-01-01 605

从python调用url时获取“错误”页面源

撰写回答

推荐问题

从Python访问errno？

从Python字符串中删除不在允许列表中的HTML标签

从python读取json文件

为什么从Promise`.then`中进行回调是一种反模式

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

自动从PHP代码中删除注释的最佳方法

为什么从PHP 5.4开始永久启用“ echo”短标签？

如何将变量和数据从PHP传递到JavaScript？

如何从PHP中的XML文件获取属性的值？

如何从Perl CGI程序发送JSON响应？

如何从PHP文本中删除空白行？

从POST获取复选框数组值

从print_r输出重新创建原始PHP数组

尝试使用Spring Boot REST从POST读取JSON字符串

如何从Postman Rest Client发送Spring CSRF令牌？

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

从PHP运行返回错误。AJAX？

如何从python mysql查询中转义％

从PHP中的小数中删除无用的零数字

如何从PHP脚本发送500 Internal Server Error错误

分类汇总

您的鼓励是对我最大的支持