您好, 欢迎来到 ! 登录 | 注册 | | 设为首页 | 收藏本站

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

5b51 2022/1/14 8:24:45 python 字数 3704 阅读 650 来源 www.jb51.cc/python

自从看了师傅爬了顶点全站之后，我也手痒痒的，也想爬一个比较牛逼的小说网看看，于是选了宜搜这个网站，好了，马上开干，这次用的是mogodb数据库，感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

概述

自从看了师傅爬了顶点全站之后，我也手痒痒的，也想爬一个比较牛逼的小说网看看，于是选了宜搜这个网站，好了，马上开干，这次用的是mogodb数据库，感觉MysqL太麻烦了下图是我选择宜搜里面遍历的网站

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

先看代码框架图

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

进群：548377875 即可获取数十套PDF哦！

第一个，肯定先提取排行榜里面每个类别的链接啊，然后进入链接进行爬取，先看all_theme文件

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

看看运行结果，这是书籍类目的

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

这是构造出的每一个类目里面所有的页数链接，也是我们爬虫的入口，一共5000多页

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

接下来是封装的数据库操作，因为用到了多进程以及多线程每个进程，他们需要知道那些URL爬取过了、哪些URL需要爬取！我们来给每个URL设置两种状态：

嗯！当一个所有初始的URL状态都为outstanding；当开始爬取的时候状态改为：processing；爬取完成状态改为：complete；失败的URL重置状态为：outstanding。

为了能够处理URL进程被终止的情况、我们设置一个计时参数，当超过这个值时；我们则将状态重置为outstanding。

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

接下来是爬虫主程序

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

让我们来看看结果吧

无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下

里面因为很多都是重复的，所有去重之后只有十几万本，好失望......

总结

以上是编程之家为你收集整理的无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下全部内容，希望文章能够帮你解决无聊就喜欢看书！经常闹书荒！我爬取了十几万本小说！云盘放不下所遇到的程序开发问题。

如果您也喜欢它,动动您的小指点个赞吧

除非注明，文章均由 laddyq.com 整理发布，欢迎转载。

转载请注明：
链接：http://laddyq.com
来源：laddyq.com
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

分类汇总

联系我

联系我

602392714

清零编程群
置顶