玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！ -清零世界

概述

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！

进群：960410445 即可获取数十套PDF！

如果我们在页面上【右击-显示网页源代码】可以看到竖向有两千多行的html标签代码，你可以在这里找到页面上看到的各个职位的对应文字，比如按【ctrl+F】搜索“华夏高科”就可以找到它。

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！

2. 请求页面数据

使用阿里云天池的Notebook或者Anaconda的Jupyter Notebook都可以，编写以下代码，获取整个页面的html文件数据。

url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1'
import requests
from bs4 import BeautifulSoup
html=requests.get(url)
print(html.text)

url是复制粘贴的浏览器地址，在这里中文部分自动变成了乱码，不用担心，一样可以使用。

运行这个代码，会output输出页面的标记代码，但你仔细看会发觉有什么不对，好像少了很多，而且会看到这个信息。


由于您当前网络访问页面过于频繁，可能存在安全风险，我们暂时阻止了您的本次访问，24小时将自动解除限制。

由于您当前网络访问页面过于频繁，可能存在安全风险，我们暂时阻止了您的本次访问，24小时将自动解除限制。

这表示服务器识别我们的请求是爬虫了！

但是如果我们把网址复制到浏览器里，仍然可以正常打开的。这是为什么？

Python默认发送的请求和浏览器发送的请求是有不同的。最主要的不同就是浏览器发送的请求除了http地址之外还包含了看不到的header头信息。

3. 认识请求头 Request header

还是在刚才的Boss直聘工作列表页面，右击检查之后，注意Elements元素面板边上还有【Network网络】面板，点开看上去如下图：

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！

Network网络面板包含了所有向服务器发出的请求的信息，如图所示，这一行 ?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1就是我们代码里面发送的那个请求，点击它，可以看到它的更多信息：

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！

所以，浏览器向服务器发送的信息很多，除了基本的 RequestURL地址，还发送了 RequestHeaders请求头和 QueryStringParameters查询字符串参数。

QueryStringParameters很简单，其实就是我们地址栏最后 ?问号后面的部分 ?query=人工智能&page=1。

RequestHeaders请求头包含了很多信息，非常复杂，我们这里不逐个解释了，你可以稍后自己在Google里面搜索到相关教程，这里只重点解释其中下面的三个：

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！

4. 添加请求头

我们改进一下代码：

url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1'
headers={
 'user-agent':'Mozilla/5.0'
}
import requests
from bs4 import BeautifulSoup
html=requests.get(url,headers=headers)
print(html.text)

再次运行，就可以得到完整的页面数据了。

这里主要是添加了 headers={...}对象（一对大括号包裹）， headers对象只有一个 user-agent字段属性，用冒号隔开它的值 Mozilla/5.0（这里我们偷懒只留了开头Mozila火狐浏览器的信息）

5. 循环获取更多内容

改进后获取10页共300条招聘信息：

url='https://www.zhipin.com/c101020100/h_101020100/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page='
headers={
 'user-agent':'Mozilla/5.0'
}
page=1
hud=['职位名','薪资1','薪资2','职位名','地点','经验','学历','公司行业','融资阶段','公司人数','发布日期','发布人']
print(' '.join(hud))
import requests
from bs4 import BeautifulSoup
import time
for n in range(1,11): 
 html=requests.get(url+str(page),headers=headers)
 page+=1 
 soup = BeautifulSoup(html.text,'html.parser')
 for item in soup.find_all('div','job-primary'):
 shuchu=[]
 shuchu.append(item.find('div','job-title').string) #职位名
 xinzi=item.find('span','red').string
 xinzi=xinzi.replace('k','')
 xinzi=xinzi.split('-')
 shuchu.append(xinzi[0]) #薪资起始数
 shuchu.append(xinzi[1]) #薪资起始数
 yaoqiu=item.find('p').contents
 shuchu.append(yaoqiu[0].string if len(yaoqiu)>0 else 'None') #地点
 shuchu.append(yaoqiu[2].string if len(yaoqiu)>2 else 'None') #经验
 shuchu.append(yaoqiu[4].string if len(yaoqiu)>4 else 'None') #学历
 gongsi=item.find('div','info-company').find('p').contents
 shuchu.append(gongsi[0].string if len(gongsi)>0 else 'None') #公司行业
 shuchu.append(gongsi[2].string if len(gongsi)>2 else 'None') #融资阶段
 shuchu.append(gongsi[4].string if len(gongsi)>4 else 'None') #公司人数
 shuchu.append(item.find('div','info-publis').find('p').string.replace('发布于','')) #发布日期
 shuchu.append(item.find('div','info-publis').find('h3').contents[3].string) #发布人
 print('    '.join(shuchu))
 time.sleep(1)

这里是有了几个新的知识点：

最终得到的Excel结果如下：

玩爬虫的时候记得伪装成浏览器！这样就不可能被封了哦！