零基础写python爬虫之抓取糗事百科代码分享 -清零世界

概述

项目内容：

用Python写的糗事百科的网络爬虫。

使用方法：

新建一个Bug.py文件，然后将代码复制到里面后，双击运行。

程序功能：

在命令提示行中浏览糗事百科。

原理解释：

首先，先浏览一下糗事百科的主页：http://www.qiushibaike.com/hot/page/1
可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为以后的编写做准备。
然后，右击查看页面源码：

观察发现，每一个段子都用div标记，其中class必为content，title是发帖时间，我们只需要用正则表达式将其“扣”出来就可以了。
明白了原理之后，剩下的就是正则表达式的内容了，可以参照这篇文章：
https://www.oudahe.com/p/10128/

运行效果：

Q&A：
1.为什么有段时间显示糗事百科不可用？
答：前段时间因为糗事百科添加了Header的检验，导致无法爬取，需要在代码中模拟Header。现在代码已经作了修改，可以正常使用。

2.为什么需要单独新建个线程？
答：基本流程是这样的：爬虫在后台新起一个线程，一直爬取两页的糗事百科，如果剩余不足两页，则再爬一页。用户按下回车只是从库存中获取最新的内容，而不是上网获取，所以浏览更顺畅。也可以把加载放在主线程，不过这样会导致爬取过程中等待时间过长的问题。

如果您也喜欢它,动动您的小指点个赞吧