同盾中文点选验证码识别方法

中文验证码一直是识别的难题，首先他分类的种类很多，常见中文都有3500个，而且一般中文验证码都会有变形，导致每一个文字都需要大量训练样本。假设每一个汉字样本需要100个，100×3500=35万个样本，所以标记的样本数量巨大，训练周期长，成本高。

而且通常需要点选的文字数量很多，需要同时全对也是一件不容的事情。假设单个字的正确率是90%，假设需要点选4个汉字，全对的正确率就是0.9的4次方，正确率也只有65%。所以非常困难。

下面我们就以同盾中文验证码为例提供了一个识别方案。只需要点击的中文大图，决定点击顺序的中文小图。如下图所示

import base64
import requests
import datetime
from io import BytesIO
from PIL import Imaget1 = datetime.datetime.now()#PIL图片保存为base64编码
def PIL_base64(img, coding='utf-8'):img_format = img.formatif img_format == None:img_format = 'JPEG'format_str = 'JPEG'if 'png' == img_format.lower():format_str = 'PNG'if 'gif' == img_format.lower():format_str = 'gif'if img.mode == "P":img = img.convert('RGB')if img.mode == "RGBA":format_str = 'PNG'img_format = 'PNG'output_buffer = BytesIO()# img.save(output_buffer, format=format_str)img.save(output_buffer, quality=100, format=format_str)byte_data = output_buffer.getvalue()base64_str = 'data:image/' + img_format.lower() + ';base64,' + base64.b64encode(byte_data).decode(coding)# base64_str = base64.b64encode(byte_data).decode(coding)return base64_str# 加载图片
img1 = Image.open(r'E:\Python\lixin_project\OpenAPI接口测试\test_img\48-1.jpg')
# 图片转base64
img1_base64 = PIL_base64(img1)
# 加载图片
img2 = Image.open(r'E:\Python\lixin_project\OpenAPI接口测试\test_img\48-2.jpg')
# 图片转base64
img2_base64 = PIL_base64(img2)# 验证码识别接口
url = "http://www.detayun.cn/openapi/verify_code_identify/"
data = {# 用户的key"key":"JX61hWThaR9DQUT4gIBg",# 验证码类型"verify_idf_id":"48",# 点击中文大图"img1":img1_base64,# 点击顺序的中文小图"img2":img2_base64,
}
header = {"Content-Type": "application/json"}# 发送请求调用接口
response = requests.post(url=url, json=data, headers=header)# 获取响应数据，识别结果
print(response.text)
print("耗时：", datetime.datetime.now() - t1)

识别结果可视化效果如下