python+tesseract+jTessBoxEditor训练+破解验证码

sharembweb 33次浏览
python+tesseract+jTessBoxEditor训练+破解验证码


cmd里运行
tesseract-ocr 4.0

pip install Pillow
pip install pytesseract
python -m pip install --upgrade pip PIP升级


1、下载jTessBoxEditor
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 选择有FX可识别中文

2、运行train.bat
Tools >> Merge TIFF >> 选择两种png图片

3、生成.BOX
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox

4、使用 jTessBoxEditor 调整 .box 训练文件
Box Editor >> Open >> .Box文件

5、使用echo命令创建字体特征文件
echo font 0 0 0 0 0>font_properties

6、使用 tesseract 生成 chi_my.font.exp0.tr 训练文件
tesseract chi_my.font.exp0.tif chi_my.font.exp0 nobatch box.train

7、生成字符集文件
unicharset_extractor chi_my.font.exp0.box

8、生成字典数据
mftraining -F font_properties -U unicharset -O chi_my.unicharset chi_my.font.exp0.tr
cntraining chi_my.font.exp0.tr

9、合并数据文件
combine_tessdata chi_my.

10、验证训练生成的语言包
tesseract a1.png result -l chi_my --psm 7

11、教程网址
http://blog.csdn.net/dcrmg/article/details/78233459?locationNum=7&fps=1

本文版权归作者所有,转摘请注明作者和出处!
作者:云祥孙
首发:http://sharembweb.com

随机内容

表情

共2条评论
  • 网友评论:

    赞一个

    2020-07-24 16:26:24 回复

  • 网友评论:

    学习了

    2020-07-24 16:26:24 回复

友情链接