您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

小白学爬虫(三) - 之 Urllib库的基本使用

5b51 2022/1/14 8:24:07 python 字数 4396 阅读 587 来源 www.jb51.cc/python

官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.r

概述

 官方文档地址:

Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块

Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块

Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块

关于urllib.request.urlopen参数的介绍:urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

url参数的使用

先写一个简单的例子:

response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))

urlopen一般常用的有三个参数,它的参数如下:urllib.requeset.urlopen(url,data,timeout)response.read()可以获取到网页的内容,如果没有read(),将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求这里通过模拟各种请求操作)。

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

data = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

data = bytes(urllib.parse.urlencode({'word': 'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式

timeout参数的使用在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给请求设置一个超时时间,而不是让程序一直在等待结果。例子如下:

response = urllib.request.urlopen('http://httpbin.org/get',timeout=1)
print(response.read())

运行之后我们看到可以正常的返回结果,接着我们将timeout时间设置为0.1运行程序会提示如下错误

所以我们需要对异常进行抓取,代码更改为

import socket
import urllib.request
import urllib.error

try:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')

try:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')

try:
response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
if isinstance(e.reason,socket.timeout):
print('TIME OUT')


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶