如何使用Tesseract训练基于Python的OCR，以训练不同的国民身份证？

1）清洁图像阵列，以使只有文本（生成字体，而不是手写字体）。字母的边缘应无扭曲。。同时应用一些平滑过滤器。我还建议使用Morfholofical开/关-但这仅是一个奖励。这是应该以数组形式输入PyTesseract识别的夸张示例：@L_403_0@://i.ytimg.com/vi/1ns8tGgdpLY/maxresdefault.jpg

2）使用您要识别的文字将图像调整为更高的分辨率

3）PyTesseract通常应该识别任何类型的字母，但是通过安装用于书写文本的字体，可以极大地提高准确性。

1）以TIFF格式获取所需字体

2）将其上传到 http://trainyourtesseract.com/并将经过培训的数据接收到您的电子邮件中

3）将训练后的数据文件（* .traineddata）添加到此文件夹C：\ Program Files（x86）\ Tesseract-OCR \ tessdata

4）将此字符串命令添加到PyTesseract重构函数中：

假设您有2种经过训练的字体：font1.traineddata和font2.traineddata

要同时使用这两个命令

txt = PyTesseract.image_to_string（img，lang = ）

import cv2
import PyTesseract
import cv2
import numpy as np
import urllib
import requests
PyTesseract.PyTesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
TESSDATA_PREFIX = 'C:/Program Files (x86)/Tesseract-OCR'
from PIL import Image

def url_to_image(url):
    resp = urllib.request.urlopen(url)
    image = np.asarray(bytearray(resp.read()), dtype="uint8")
    image = cv2.imdecode(image, cv2.IMREAD_COLOR)
    return image

url='http://jeroen.github.io/images/testocr.png'


img = url_to_image(url)


#img = cv2.GaussianBlur(img,(5,5),0)
img = cv2.medianBlur(img,5) 
retval, img = cv2.threshold(img,150,255, cv2.THRESH_BINARY)
txt = PyTesseract.image_to_string(img, lang='eng')
print('recognition:', txt)
>>> txt
'This ts a lot of 12 point text to test the\nocr code and see if it works on all types\nof file format\n\nThe quick brown dog jumped over the\nlazy fox The quick brown dog jumped\nover the lazy fox The quick brown dog\njumped over the lazy fox The quick\nbrown dog jumped over the lazy fox'

python 2022/1/1 18:32:55 有315人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何通过忽略Swift中的关联值来比较枚举和关联值？

Swift 2022-01-01 1139
如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

其他 2022-01-01 1405
如何在JavaScript中将浮点数转换为整数？

如何在JavaScript中将浮点数转换为整数？

javascript 2022-01-01 1282
如何基于EXPLAIN计划优化MySQL查询

如何基于EXPLAIN计划优化MySQL查询

MySQL 2022-01-01 1267
如何在C＃/。NET中查找本地计算机的FQDN？

如何在C＃/。NET中查找本地计算机的FQDN？

c# 2022-01-01 1120
如何在Spring MVC中使用AJAX渲染视图

如何在Spring MVC中使用AJAX渲染视图

Java 2022-01-01 1261
如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 1191
如何枚举JavaScript对象的属性？

如何枚举JavaScript对象的属性？

javascript 2022-01-01 1242
如何立即关闭Node.js HTTP服务器？

如何立即关闭Node.js HTTP服务器？

Node 2022-01-01 1148
如何在IE8和9中支持占位符属性

如何在IE8和9中支持占位符属性

其他 2022-01-01 1172
如何使用jQuery访问父窗口对象？

如何使用jQuery访问父窗口对象？

JS 2022-01-01 1191
如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

其他 2022-01-01 1255
如何使用CSS将跨度更改为类似pre？

如何使用CSS将跨度更改为类似pre？

CSS 2022-01-01 1230
如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

其他 2022-01-01 1242
如何使用C＃获取两个DateTime对象之间的时差？

如何使用C＃获取两个DateTime对象之间的时差？

c# 2022-01-01 1203
Django-如何使用South重命名模型字段？

Django-如何使用South重命名模型字段？

Go 2022-01-01 1448
如何计算回溯算法的时间复杂度？

如何计算回溯算法的时间复杂度？

其他 2022-01-01 1237
如何在.htaccess中隐藏.php扩展名

如何在.htaccess中隐藏.php扩展名

php 2022-01-01 1278
使用GhostDriver时如何设置屏幕/窗口大小

使用GhostDriver时如何设置屏幕/窗口大小

其他 2022-01-01 1320
如何在html5中制作透明画布？

如何在html5中制作透明画布？

其他 2022-01-01 1203

如何使用Tesseract训练基于Python的OCR，以训练不同的国民身份证？

撰写回答

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何在JavaScript中将浮点数转换为整数？

如何基于EXPLAIN计划优化MySQL查询

如何在C＃/。NET中查找本地计算机的FQDN？

如何在Spring MVC中使用AJAX渲染视图

如何在PHP变量中去除空格？

如何枚举JavaScript对象的属性？

如何立即关闭Node.js HTTP服务器？

如何在IE8和9中支持占位符属性

如何使用jQuery访问父窗口对象？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何使用CSS将跨度更改为类似pre？

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何使用C＃获取两个DateTime对象之间的时差？

Django-如何使用South重命名模型字段？

如何计算回溯算法的时间复杂度？

如何在.htaccess中隐藏.php扩展名

使用GhostDriver时如何设置屏幕/窗口大小

如何在html5中制作透明画布？

分类汇总

您的鼓励是对我最大的支持