您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

5b51 2022/1/14 8:24:58 python 字数 5185 阅读 774 来源 www.jb51.cc/python

今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂!

概述

今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂!

概述

简介

首先呢,简单的验证码是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

不是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

进群:548377875   即可获取数十套PDF哦!

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

pillow 的缘由:由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新Python 3.x,又加入了许多新特性。

32 位系统

pip install PIL

64 位系统

pip install pillow

安装 Tesseract-OCR

在使用 PyTesseract 之前,必须安装 tesseract-ocr ,因为 PyTesserat 依赖于 tesseract-ocr ,否则无法使用

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

使用 PyTesseract 识别验证码

首先将图像灰度化

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

二值化的图像是这个样子的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

最后进行识别

# 识别

text = PyTesseract.image_to_string(out)

print("识别结果:"+text)

识别结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

高级玩法 - 除线

上面的知识简单的处理,在日常网络冲浪中,我们还会遇到这样的验证码:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

这个给我们的识别增加了难度,我们要做的就是将这条线去掉。详细代码如下:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

那么我们的运行结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

总结

经过这么一些折腾,我们总算是看到了我们想要的结果,但是我很遗憾地告诉你,PyTesseract 还是无法识别处理过的图片,他的识别结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

结果有点令人痛心,不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗?嗯,是的,这篇文章就这样完了。不过好在 PyTesseract 提供了自定义训练功能,来提高识别能力(也可以自建神经网络进行识别),这个暂且放到下一篇文章来写吧,因为昨天是七夕耶。

总结

以上是编程之家为你收集整理的如何用Python来识别最简单的验证码?然后在识别12306的验证码?全部内容,希望文章能够帮你解决如何用Python来识别最简单的验证码?然后在识别12306的验证码?所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶