快捷搜索:  汽车  科技

python验证码识别大数据(Python验证码识别的最高境界)

python验证码识别大数据(Python验证码识别的最高境界)2、conf_path:指定自定义模型yaml配置文件(绝对路径)pip install muggle-ocr #模块比较新不知道最新国内源,有没有同步,估计已经同步了,没细看哈。 SDK类参数1、model_type:指定预置模型类型,预置模型包含了[ModelType.OCR ModelType.Captcha] 两种 其中 ModelType.OCR 用于识别普通印刷文本 ModelType.Captcha 用于识别4-6位英文数字验证码。版本要求:Python >=3.6话说,在2020不平凡的一年,6月1日,在pypi仓库中偷偷潜入一位新同学,他就是麻瓜OCR模块——MuggleOCR。orc本地的模块,很小,才6.7M

图/文:迷神

各位网上使用Python爬虫抓取别人网站或者进行各种python模拟登陆的时候是否遇到烦人的验证码?

迷神为大家推荐一款识别模块就是这个专为麻瓜设计的本地OCR识别模块:

模块地址:https://pypi.org/project/muggle-ocr

版本要求:Python >=3.6

话说,在2020不平凡的一年,6月1日,在pypi仓库中偷偷潜入一位新同学,他就是麻瓜OCR模块——MuggleOCR。

python验证码识别大数据(Python验证码识别的最高境界)(1)

python验证码识别大数据(Python验证码识别的最高境界)(2)

orc本地的模块,很小,才6.7M

安装方法

pip install muggle-ocr #模块比较新不知道最新国内源,有没有同步,估计已经同步了,没细看哈。 SDK类参数

1、model_type:指定预置模型类型,预置模型包含了[ModelType.OCR ModelType.Captcha] 两种 其中 ModelType.OCR 用于识别普通印刷文本 ModelType.Captcha 用于识别4-6位英文数字验证码。

2、conf_path:指定自定义模型yaml配置文件(绝对路径)

模块评测

网上找了几张验证码图片来测试下看看,到底准确率咋样:

python验证码识别大数据(Python验证码识别的最高境界)(3)

验证码

演示代码:

python验证码识别大数据(Python验证码识别的最高境界)(4)

演示代码

演示输出结果:

MuggleOCR Session [captcha] Loaded. 1a2v1_444cbc94c5a3bf1682ab71cc1e5319c0.jpg 1a2v1 0.009941816329956055 1a2yc_1534434561732.jpg 1a2yc 0.009974956512451172 2a3ka_1d94eaff16ab6612fc6445c6b5d56684.jpg 2a3ka 0.009972333908081055 2a3w_900a9e3672ded254e63ef4cba6e1f465.jpg 2a3w 0.009982109069824219 dU5g_c406889e89ca47e5a2d632798baead21.jpg du5g 0.010939359664916992 LGKX_85bbfbe824074944bd4529b61f8ccb75.png lgkx 0.011968135833740234 mhhm_3085e25cd1ee6b062d02522bb1133257.bmp mhhm 0.011968612670898438 Q8U7_4fab05a68b694d54842e1165d0539ce4.jpg q8u7 0.011966943740844727

通过测试,基本上常用的验证码形式都是可以识别出来的。而且在速度上也是极快,0.01s是什么概念。要知道市面上很多售卖的验证码识别也才50-100ms啊。。

怎么样?就是这么神仙的,这么简单好用的模块,这么神仙的工具,让我怎么能不安利它,对,用它用它用它!!

这个模块还支持自定义训练模型,以下内容来自官方文档:

""" 使用自定义模型 支持基于 https://github.com/kerlomz/captcha_trainer 框架训练的模型 训练完成后,进入导出编译模型的[out]路径下 把[graph]路径下的pb模型和[model]下的yaml配置文件放到同一路径下。 将 conf_path 参数指定为 yaml配置文件 的绝对或项目相对路径即可,其他步骤一致,如下示例: """ with open(r"test3.jpg" "rb") as f: b = f.read() sdk = muggle_ocr.SDK(conf_path="./ocr.yaml") text = sdk.predict(image_bytes=b)

对工具核心感兴趣的可以自行了解,自己研究训练使用,这里就不做多介绍了。

有问题欢迎给我留言,觉得不错,记得关注迷神哦,后续将会分享更多精彩内容。

猜您喜欢: