概述
进群:960410445 即可获取数十套PDF!
如果我们在页面上【右击-显示网页源代码】可以看到竖向有两千多行的html标签代码,你可以在这里找到页面上看到的各个职位的对应文字,比如按【ctrl+F】搜索“华夏高科”就可以找到它。
2. 请求页面数据
使用阿里云天池的Notebook或者Anaconda的Jupyter Notebook都可以,编写以下代码,获取整个页面的html文件数据。
url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1' import requests from bs4 import BeautifulSoup html=requests.get(url) print(html.text)
url是复制粘贴的浏览器地址,在这里中文部分自动变成了乱码,不用担心,一样可以使用。
运行这个代码,会output输出页面的标记代码,但你仔细看会发觉有什么不对,好像少了很多,而且会看到这个信息。
由于您当前网络访问页面过于频繁,可能存在安全风险,我们暂时阻止了您的本次访问,24小时将自动解除限制。
由于您当前网络访问页面过于频繁,可能存在安全风险,我们暂时阻止了您的本次访问,24小时将自动解除限制。
这表示服务器识别我们的请求是爬虫了!
但是如果我们把网址复制到浏览器里,仍然可以正常打开的。这是为什么?
Python默认发送的请求和浏览器发送的请求是有不同的。最主要的不同就是浏览器发送的请求除了http地址之外还包含了看不到的header头信息。
3. 认识请求头 Request header
还是在刚才的Boss直聘工作列表页面,右击检查之后,注意Elements元素面板边上还有【Network网络】面板,点开看上去如下图:
Network网络面板包含了所有向服务器发出的请求的信息,如图所示,这一行 ?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1就是我们代码里面发送的那个请求,点击它,可以看到它的更多信息:
所以,浏览器向服务器发送的信息很多,除了基本的 RequestURL地址,还发送了 RequestHeaders请求头和 QueryStringParameters查询字符串参数。
QueryStringParameters很简单,其实就是我们地址栏最后 ?问号后面的部分 ?query=人工智能&page=1。
RequestHeaders请求头包含了很多信息,非常复杂,我们这里不逐个解释了,你可以稍后自己在Google里面搜索到相关教程,这里只重点解释其中下面的三个:
4. 添加请求头
我们改进一下代码:
url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1' headers={ 'user-agent':'Mozilla/5.0' } import requests from bs4 import BeautifulSoup html=requests.get(url,headers=headers) print(html.text)
再次运行,就可以得到完整的页面数据了。
这里主要是添加了 headers={...}对象(一对大括号包裹), headers对象只有一个 user-agent字段属性,用冒号隔开它的值 Mozilla/5.0(这里我们偷懒只留了开头Mozila火狐浏览器的信息)
改进后获取10页共300条招聘信息:
url='https://www.zhipin.com/c101020100/h_101020100/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=' headers={ 'user-agent':'Mozilla/5.0' } page=1 hud=['职位名','薪资1','薪资2','职位名','地点','经验','学历','公司行业','融资阶段','公司人数','发布日期','发布人'] print(' '.join(hud)) import requests from bs4 import BeautifulSoup import time for n in range(1,11): html=requests.get(url+str(page),headers=headers) page+=1 soup = BeautifulSoup(html.text,'html.parser') for item in soup.find_all('div','job-primary'): shuchu=[] shuchu.append(item.find('div','job-title').string) #职位名 xinzi=item.find('span','red').string xinzi=xinzi.replace('k','') xinzi=xinzi.split('-') shuchu.append(xinzi[0]) #薪资起始数 shuchu.append(xinzi[1]) #薪资起始数 yaoqiu=item.find('p').contents shuchu.append(yaoqiu[0].string if len(yaoqiu)>0 else 'None') #地点 shuchu.append(yaoqiu[2].string if len(yaoqiu)>2 else 'None') #经验 shuchu.append(yaoqiu[4].string if len(yaoqiu)>4 else 'None') #学历 gongsi=item.find('div','info-company').find('p').contents shuchu.append(gongsi[0].string if len(gongsi)>0 else 'None') #公司行业 shuchu.append(gongsi[2].string if len(gongsi)>2 else 'None') #融资阶段 shuchu.append(gongsi[4].string if len(gongsi)>4 else 'None') #公司人数 shuchu.append(item.find('div','info-publis').find('p').string.replace('发布于','')) #发布日期 shuchu.append(item.find('div','info-publis').find('h3').contents[3].string) #发布人 print(' '.join(shuchu)) time.sleep(1)
这里是有了几个新的知识点:
最终得到的Excel结果如下:
下面是利用上一篇文章介绍的Excel数据透视表方法绘制的统计图:
注,300个职位数据规模还很小,而且由于Boss直聘的搜索问题,其中掺杂了大量的实际与人工智能无关的职位,我们的分析方法还是很原始很粗糙的,仅供参考。随着后续学习我们会逐步加深这方面的研究。
6. 后续学习资源
作为一个互联网或科技企业的你,一定很关注你当前的职位的分布情况吧,现在可以自己动手从Boss直聘网站的大数据上进行科学分析了!
换一个城市,换一个行业,尝试更多的可能,从分析图表中总结规律,推测趋势。
如果要做更多的练习,还是推荐你花一点时间翻翻Html和Python的知识,不要有太大压力,用心阅读就可以,适当的时候可以跟着教程做做代码实验。
以上就是本文的全部内容,希望对大家的学习有所帮助。如果觉得文章不错,动手转发支持一下哦!
总结
以上是编程之家为你收集整理的玩爬虫的时候记得伪装成浏览器!这样就不可能被封了哦!全部内容,希望文章能够帮你解决玩爬虫的时候记得伪装成浏览器!这样就不可能被封了哦!所遇到的程序开发问题。
如果您也喜欢它,动动您的小指点个赞吧