python验证码识别大数据（Python验证码识别的最高境界）

小君 2023-06-27 01:28:23 284

python验证码识别大数据（Python验证码识别的最高境界）2、conf_path：指定自定义模型yaml配置文件（绝对路径）pip install muggle-ocr #模块比较新不知道最新国内源，有没有同步，估计已经同步了，没细看哈。 SDK类参数1、model_type：指定预置模型类型，预置模型包含了[ModelType.OCR ModelType.Captcha] 两种其中 ModelType.OCR 用于识别普通印刷文本 ModelType.Captcha 用于识别4-6位英文数字验证码。版本要求：Python >=3.6话说，在2020不平凡的一年，6月1日，在pypi仓库中偷偷潜入一位新同学，他就是麻瓜OCR模块——MuggleOCR。orc本地的模块，很小，才6.7M

图/文：迷神

各位网上使用Python爬虫抓取别人网站或者进行各种python模拟登陆的时候是否遇到烦人的验证码？

迷神为大家推荐一款识别模块就是这个专为麻瓜设计的本地OCR识别模块：

模块地址：https://pypi.org/project/muggle-ocr

版本要求：Python >=3.6

话说，在2020不平凡的一年，6月1日，在pypi仓库中偷偷潜入一位新同学，他就是麻瓜OCR模块——MuggleOCR。

python验证码识别大数据（Python验证码识别的最高境界）(1)

python验证码识别大数据（Python验证码识别的最高境界）(2)

orc本地的模块，很小，才6.7M

安装方法

pip install muggle-ocr #模块比较新不知道最新国内源，有没有同步，估计已经同步了，没细看哈。SDK类参数

1、model_type：指定预置模型类型，预置模型包含了[ModelType.OCR ModelType.Captcha] 两种其中 ModelType.OCR 用于识别普通印刷文本 ModelType.Captcha 用于识别4-6位英文数字验证码。

2、conf_path：指定自定义模型yaml配置文件（绝对路径）

模块评测

网上找了几张验证码图片来测试下看看，到底准确率咋样:

python验证码识别大数据（Python验证码识别的最高境界）(3)

验证码

演示代码：

python验证码识别大数据（Python验证码识别的最高境界）(4)

演示代码

演示输出结果：

MuggleOCR Session [captcha] Loaded. 1a2v1_444cbc94c5a3bf1682ab71cc1e5319c0.jpg 1a2v1 0.009941816329956055 1a2yc_1534434561732.jpg 1a2yc 0.009974956512451172 2a3ka_1d94eaff16ab6612fc6445c6b5d56684.jpg 2a3ka 0.009972333908081055 2a3w_900a9e3672ded254e63ef4cba6e1f465.jpg 2a3w 0.009982109069824219 dU5g_c406889e89ca47e5a2d632798baead21.jpg du5g 0.010939359664916992 LGKX_85bbfbe824074944bd4529b61f8ccb75.png lgkx 0.011968135833740234 mhhm_3085e25cd1ee6b062d02522bb1133257.bmp mhhm 0.011968612670898438 Q8U7_4fab05a68b694d54842e1165d0539ce4.jpg q8u7 0.011966943740844727

通过测试，基本上常用的验证码形式都是可以识别出来的。而且在速度上也是极快，0.01s是什么概念。要知道市面上很多售卖的验证码识别也才50-100ms啊。。

怎么样？就是这么神仙的，这么简单好用的模块，这么神仙的工具，让我怎么能不安利它，对，用它用它用它！！

这个模块还支持自定义训练模型，以下内容来自官方文档：

""" 使用自定义模型支持基于 https://github.com/kerlomz/captcha_trainer 框架训练的模型训练完成后，进入导出编译模型的[out]路径下把[graph]路径下的pb模型和[model]下的yaml配置文件放到同一路径下。将 conf_path 参数指定为 yaml配置文件的绝对或项目相对路径即可，其他步骤一致，如下示例： """ with open(r"test3.jpg" "rb") as f: b = f.read() sdk = muggle_ocr.SDK(conf_path="./ocr.yaml") text = sdk.predict(image_bytes=b)

对工具核心感兴趣的可以自行了解，自己研究训练使用，这里就不做多介绍了。

有问题欢迎给我留言，觉得不错，记得关注迷神哦，后续将会分享更多精彩内容。

网站首页

返回栏目

python验证码识别大数据（Python验证码识别的最高境界）

猜您喜欢：

相关文章