您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 使用Beautiful Soup进行刮擦

5b51 2022/1/14 8:20:48 python 字数 2341 阅读 467 来源 www.jb51.cc/python

在使用同样的技术之前,我一直在抓网站.但是这个网站似乎不起作用.import urllib2 from BeautifulSoup import BeautifulSoup url = 'http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CO

概述

在使用同样的技术之前,我一直在抓网站.但是这个网站似乎不起作用.

import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
page=urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
print soup

输出应该是网页的内容,但我只是得到这个:

GIF89a(它也跟着我在这里不能复制的一些符号)

关于问题是什么以及我应该如何进行的任何想法.

but I want to kNow why I am getting a gif accesing the url like that
and when I access it via my browser I get the website perfectly.

因为这些人很聪明,不希望他们的网站在网络浏览器外访问.您需要做的是通过向标头添加User-agent来伪造已知的浏览器.这是一个可行的修改示例

>>> import urllib2
>>> opener = urllib2.build_opener()
>>> opener.addheaders = [('User-agent','Mozilla/5.0')]
>>> url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
>>> response = opener.open(url)
>>> page = response.read()
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(page)

总结

以上是编程之家为你收集整理的python – 使用Beautiful Soup进行刮擦全部内容,希望文章能够帮你解决python – 使用Beautiful Soup进行刮擦所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶