概述
Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块
Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块
Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块
关于urllib.request.urlopen参数的介绍:urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
url参数的使用
先写一个简单的例子:
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))
urlopen一般常用的有三个参数,它的参数如下:urllib.requeset.urlopen(url,data,timeout)response.read()可以获取到网页的内容,如果没有read(),将返回如下内容
data参数的使用
上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求这里通过模拟各种请求操作)。
import urllib.parse import urllib.requestdata = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())
data = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())
data = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())
这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式
timeout参数的使用在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给请求设置一个超时时间,而不是让程序一直在等待结果。例子如下:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=1)
print(response.read())
运行之后我们看到可以正常的返回结果,接着我们将timeout时间设置为0.1运行程序会提示如下错误
所以我们需要对异常进行抓取,代码更改为
import socket import urllib.request import urllib.errortry:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')
try:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')
try:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')
如果您也喜欢它,动动您的小指点个赞吧