rhel 8.2不识别unicode_基于tensorflow 实现端到端的OCR:二代身份证号识别

342775fa3721657a52e42e0c728bb929.png

最近在研究OCR识别相关的东西,最终目标是能识别身份证上的所有中文汉字+数字,不过本文先设定一个小目标,先识别定长为18的身份证号,当然本文的思路也是可以复用来识别定长的验证码识别的。本文实现思路主要来源于Xlvector的博客,采用基于CNN实现端到端的OCR,下面引用博文介绍目前基于深度学习的两种OCR识别方法:
  • 把OCR的问题当做一个多标签学习的问题。4个数字组成的验证码就相当于有4个标签的图片识别问题(这里的标签还是有序的),用CNN来解决。
  • 把OCR的问题当做一个语音识别的问题,语音识别是把连续的音频转化为文本,验证码识别就是把连续的图片转化为文本,用CNN+LSTM+CTC来解决。
这里方法1主要用来解决固定长度标签的图片识别问题,而方法2主要用来解决不定长度标签的图片识别问题,本文实现方法1识别固定18个数字字符的身份证号。

   环境依赖      

本文基于tensorflow框架实现,依赖于tensorflow环境,建议使用anaconda进行python包管理及环境管理。本文使用freetype-py 进行训练集图片的实时生成,同时后续也可扩展为能生成中文字符图片的训练集,建议使用pip安装。
pip install freetype-py
同时本文还依赖于numpy和opencv等常用库
 pip install numpy cv2

    知识准备      

本文不具体介绍CNN (卷积神经网络)具体实现原理,不熟悉的建议参看集智博文卷积:如何成为一个很厉害的神经网络。

本文实现思路很容易理解,就是把一个有序排列18个数字组成的图片当做一个多标签学习的问题,标签的长度可以任意改变,只要是固定长度的,这个训练方法都是适用的,当然现实中很多情况是需要识别不定长度的标签的,这部分就需要使用方法2(CNN+lSTM+CTC)来解决了。

训练数据集生成 

首先先完成训练数据集图片的生成,主要依赖于freetype-py库生成数字/中文的图片。其中要注意的一点是就是生成图片的大小,本文经过多次尝试后,生成的图片是32 x 256大小的,如果图片太大,则可能导致训练不收敛。生成出来的示例图片如下:

b148088245f549934d04ce748a5fb0f9.png

gen_image()方法返回 image_data:图片像素数据 (32,256) label:图片标签 18位数字字符 477081933151463759 vec : 图片标签转成向量表示 (180,) 代表每个数字所处的列,总长度 18 * 10
#!/usr/bin/env python2# -*- coding: utf-8 -*-"""身份证文字+数字生成类@author: pengyuanjie"""import numpy as npimport freetypeimport copyimport randomimport cv2class put_chinese_text(object): def __init__(self, ttf): self._face = freetype.Face(ttf) def draw_text(self, image, pos, text, text_size, text_color): ''' draw chinese(or not) text with ttf :param image: image(numpy.ndarray) to draw text :param pos: where to draw text :param text: the context, for chinese should be unicode type :param text_size: text size :param text_color:text color :return: image ''' self._face.set_char_size(text_size * 64) metrics = self._face.size ascender = metrics.ascender/64.0 #descender = metrics.descender/64.0 #height = metrics.height/64.0 #linegap = height - ascender + descender ypos = int(ascender) if not isinstance(text, unicode): text = text.decode('utf-8') img = self.draw_string(image, pos[0], pos[1]+ypos, text, text_color) return img def draw_string(self, img, x_pos, y_pos, text, color): ''' draw string :param x_pos: text x-postion on img :param y_pos: text y-postion on img :param text: text (unicode) :param color: text color :return: image ''' prev_char = 0 pen = freetype.Vector() pen.x = x_pos << 6 # div 64 pen.y = y_pos << 6 hscale = 1.0 matrix = freetype.Matrix(int(hscale)*0x10000L, int(0.2*0x10000L),\ int(0.0*0x10000L), int(1.1*0x10000L)) cur_pen = freetype.Vector() pen_translate = freetype.Vector() image = copy.deepcopy(img) for cur_char in text: self._face.set_transform(matrix, pen_translate) self._face.load_char(cur_char) kerning = self._face.get_kerning(prev_char, cur_char) pen.x += kerning.x slot = self._face.glyph bitmap = slot.bitmap cur_pen.x = pen.x cur_pen.y = pen.y - slot.bitmap_top * 64 self.draw_ft_bitmap(image, bitmap, cur_pen, color) pen.x += slot.advance.x prev_char = cur_char return image def draw_ft_bitmap(self, img, bitmap, pen, color): ''' draw each char :param bitmap: bitmap :param pen: pen :param color: pen color e.g.(0,0,255) - red :return: image ''' x_pos = pen.x >> 6 y_pos = pen.y >> 6 cols = bitmap.width rows = bitmap.rows glyph_pixels = bitmap.buffer for row in range(rows): for col in range(cols): if glyph_pixels[row*cols + col] != 0: img[y_pos + row][x_pos + col][0] = color[0] img[y_pos + row][x_pos + col][1] = color[1] img[y_pos + row][x_pos + col][2] = color[2]class gen_id_card(object): def __init__(self): #self.words = open('AllWords.txt', 'r').read().split(' ') self.number = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'] self.char_set = self.number #self.char_set = self.words + self.number self.len = len(self.char_set) self.max_size = 18 self.ft = put_chinese_text('fonts/OCR-B.ttf') #随机生成字串,长度固定 #返回text,及对应的向量 def random_text(self): text = '' vecs = np.zeros((self.max_size * self.len)) #size = random.randint(1, self.max_size) size = self.max_size for i in range(size): c = random.choice(self.char_set) vec = self.char2vec(c) text = text + c vecs[i*self.len:(i+1)*self.len] = np.copy(vec) return text,vecs #根据生成的text,生成image,返回标签和图片元素数据 def gen_image(self): text,vec = self.random_text() img = np.zeros([32,256,3]) color_ = (255,255,255) # Write pos = (0, 0) text_size = 21 image = self.ft.draw_text(img, pos, text, text_size, color_) #仅返回单通道值,颜色对于汉字识别没有什么意义 return image[:,:,2],text,vec #单字转向量 def char2vec(self, c): vec = np.zeros((self.len)) for j in range(self.len): if self.char_set[j] == c: vec[j] = 1 return vec #向量转文本 def vec2text(self, vecs): text = '' v_len = len(vecs) for i in range(v_len): if(vecs[i] == 1): text = text + self.char_set[i % self.len] return textif __name__ == '__main__': genObj = gen_id_card() image_data,label,vec = genObj.gen_image() cv2.imshow('image', image_data) cv2.waitKey(0)

    开始训练      

首先定义生成一个batch的方法:

# 生成一个训练batchdef get_next_batch(batch_size=128): obj = gen_id_card() batch_x = np.zeros([batch_size, IMAGE_HEIGHT*IMAGE_WIDTH]) batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN]) for i in range(batch_size):		image, text, vec = obj.gen_image()		batch_x[i,:] = image.reshape((IMAGE_HEIGHT*IMAGE_WIDTH))		batch_y[i,:] = vec return batch_x, batch_y
用了Batch Normalization,个人还不是很理解,读者可自行百度,代码来源于参考博文
#Batch Normalization? 有空再理解,tflearn or slim都有封装## http://stackoverflow.com/a/34634291/2267819def batch_norm(x, beta, gamma, phase_train, scope='bn', decay=0.9, eps=1e-5):	with tf.variable_scope(scope):		#beta = tf.get_variable(name='beta', shape=[n_out], initializer=tf.constant_initializer(0.0), trainable=True)		#gamma = tf.get_variable(name='gamma', shape=[n_out], initializer=tf.random_normal_initializer(1.0, stddev), trainable=True)		batch_mean, batch_var = tf.nn.moments(x, [0, 1, 2], name='moments')		ema = tf.train.ExponentialMovingAverage(decay=decay)		def mean_var_with_update():			ema_apply_op = ema.apply([batch_mean, batch_var])			with tf.control_dependencies([ema_apply_op]):				return tf.identity(batch_mean), tf.identity(batch_var)		mean, var = tf.cond(phase_train, mean_var_with_update, lambda: (ema.average(batch_mean), ema.average(batch_var)))		normed = tf.nn.batch_normalization(x, mean, var, beta, gamma, eps)	return normed
定义4层CNN和一层全连接层,卷积核分别是2层5x5、2层3x3,每层均使用tf.nn.relu非线性化,并使用max_pool,网络结构读者可自行调参优化
# 定义CNNdef crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):	x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])	# 4 conv layer	w_c1 = tf.Variable(w_alpha*tf.random_normal([5, 5, 1, 32]))	b_c1 = tf.Variable(b_alpha*tf.random_normal([32]))	conv1 = tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding='SAME'), b_c1)	conv1 = batch_norm(conv1, tf.constant(0.0, shape=[32]), tf.random_normal(shape=[32], mean=1.0, stddev=0.02), train_phase, scope='bn_1')	conv1 = tf.nn.relu(conv1)	conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')	conv1 = tf.nn.dropout(conv1, keep_prob)	w_c2 = tf.Variable(w_alpha*tf.random_normal([5, 5, 32, 64]))	b_c2 = tf.Variable(b_alpha*tf.random_normal([64]))	conv2 = tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding='SAME'), b_c2)	conv2 = batch_norm(conv2, tf.constant(0.0, shape=[64]), tf.random_normal(shape=[64], mean=1.0, stddev=0.02), train_phase, scope='bn_2')	conv2 = tf.nn.relu(conv2)	conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')	conv2 = tf.nn.dropout(conv2, keep_prob)	w_c3 = tf.Variable(w_alpha*tf.random_normal([3, 3, 64, 64]))	b_c3 = tf.Variable(b_alpha*tf.random_normal([64]))	conv3 = tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding='SAME'), b_c3)	conv3 = batch_norm(conv3, tf.constant(0.0, shape=[64]), tf.random_normal(shape=[64], mean=1.0, stddev=0.02), train_phase, scope='bn_3')	conv3 = tf.nn.relu(conv3)	conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')	conv3 = tf.nn.dropout(conv3, keep_prob)	w_c4 = tf.Variable(w_alpha*tf.random_normal([3, 3, 64, 64]))	b_c4 = tf.Variable(b_alpha*tf.random_normal([64]))	conv4 = tf.nn.bias_add(tf.nn.conv2d(conv3, w_c4, strides=[1, 1, 1, 1], padding='SAME'), b_c4)	conv4 = batch_norm(conv4, tf.constant(0.0, shape=[64]), tf.random_normal(shape=[64], mean=1.0, stddev=0.02), train_phase, scope='bn_4')	conv4 = tf.nn.relu(conv4)	conv4 = tf.nn.max_pool(conv4, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')	conv4 = tf.nn.dropout(conv4, keep_prob)	# Fully connected layer	w_d = tf.Variable(w_alpha*tf.random_normal([2*16*64, 1024]))	b_d = tf.Variable(b_alpha*tf.random_normal([1024]))	dense = tf.reshape(conv4, [-1, w_d.get_shape().as_list()[0]])	dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))	dense = tf.nn.dropout(dense, keep_prob)	w_out = tf.Variable(w_alpha*tf.random_normal([1024, MAX_CAPTCHA*CHAR_SET_LEN]))	b_out = tf.Variable(b_alpha*tf.random_normal([MAX_CAPTCHA*CHAR_SET_LEN]))	out = tf.add(tf.matmul(dense, w_out), b_out)	return out
最后执行训练,使用sigmoid分类,每100次计算一次准确率,如果准确率超过80%,则保存模型并结束训练
# 训练def train_crack_captcha_cnn():	output = crack_captcha_cnn()	# loss	#loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=output, labels=Y))	loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y)) # 最后一层用来分类的softmax和sigmoid有什么不同?	# optimizer 为了加快训练 learning_rate应该开始大,然后慢慢衰	optimizer = tf.train.AdamOptimizer(learning_rate=0.002).minimize(loss)	predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])	max_idx_p = tf.argmax(predict, 2)	max_idx_l = tf.argmax(tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)	correct_pred = tf.equal(max_idx_p, max_idx_l)	accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))	saver = tf.train.Saver()	with tf.Session() as sess:		sess.run(tf.global_variables_initializer())		step = 0		while True:			batch_x, batch_y = get_next_batch(64)			_, loss_ = sess.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y, keep_prob: 0.75, train_phase:True})			print(step, loss_)			# 每100 step计算一次准确率			if step % 100 == 0 and step != 0:				batch_x_test, batch_y_test = get_next_batch(100)				acc = sess.run(accuracy, feed_dict={X: batch_x_test, Y: batch_y_test, keep_prob: 1., train_phase:False})				print "第%s步,训练准确率为:%s" % (step, acc)				# 如果准确率大80%,保存模型,完成训练				if acc > 0.8:					saver.save(sess, "crack_capcha.model", global_step=step)					break			step += 1
执行结果,笔者在大概500次训练后,得到准确率84.3%的结果

ea2609a9322ca320de0f8a078103d0e6.png

笔者在一开始训练的时候图片大小是64 x 512的,训练的时候发现训练速度很慢,而且训练的loss不收敛一直保持在33左右,缩小图片为32 x 256后解决,不知道为啥,猜测要么是网络层级不够,或者特征层数不够吧。小目标完成后,为了最终目标的完成,后续可能尝试方法2,去识别不定长的中文字符图片,不过要先去理解LSTM网络和 CTC模型了。下载地址:https://github.com/jimmyleaf/ocr_tensorflow_cnn/archive/master.zip

- END -

往期精彩

b0889d906d19cae2c4391ce6f6d24af0.png

◆  在家闷坏了吗?计算机仿真程序告诉你,现在还不能出门

◆  过于真实!程序员忙碌的真相

◆  python网络爬虫的基本原理详解

9179ad50e89e3791171736be7a469c6f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/355584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Lua和C++交互详细总结

转载自&#xff1a;http://www.cnblogs.com/sevenyuan/p/4511808.html 一、Lua堆栈 要理解Lua和C交互&#xff0c;首先要理解Lua堆栈。 简单来说&#xff0c;Lua和C/C语言通信的主要方法是一个无处不在的虚拟栈。栈的特点是先进后出。 在Lua中&#xff0c;Lua堆栈就是一个struc…

adf开发_ADF BC:创建绑定到业务组件的UI表

adf开发在此示例中&#xff0c;我们将展示如何创建绑定到业务组件的简单UI表&#xff08;af&#xff1a;table&#xff09;。 我再次尝试使用简单的标准在网上进行搜索&#xff1a; “如何创建绑定到业务组件ADF 11g的af&#xff1a;table” 我必须承认我没有得到我想要的答案…

java游戏热血江湖,热血江湖源码_附安装教程

释放双眼&#xff0c;带上耳机&#xff0c;听听看~&#xff01;源码里面可能有联系方式之类的不要相信&#xff0c;反正我在这里已经说过了&#xff0c;你们上当就不管我的事了还有&#xff0c;源码里面的联系方式跟我没关系!教程来了认真看&#xff01;&#xff01;&#xff0…

在没有适当上下文的情况下引发异常是一种不良习惯

Allison Anders等人的《四个房间》&#xff08;1995&#xff09;。 我不断重复同样的错误。 因此&#xff0c;该停止并制定规则以防止这种情况了。 错误不是致命的&#xff0c;但很烦人。 当查看生产日志时&#xff0c;经常会看到类似"File doesnt exist" &#xff…

内存压力测试软件_日常游戏,毫无压力,荣耀Magicbook 14锐龙版性能测试

上期蚂蚁给大家带来了荣耀Magicbook 14锐龙版的初见评测&#xff0c;本期将会带来性能的测试&#xff0c;究竟这台高性价比的电脑&#xff0c;能不能应付得了日常的游戏使用呢&#xff1f;蚂蚁这次使用的测试软件分别为&#xff1a;鲁大师、CPU-Z、Cinebench R15、CrystalDiskM…

c 解析java byte,深入解析Java编程中面向字节流的一些应用

文件输入输出流文件输入输出流 FileInputStream 和 FileOutputStream 负责完成对本地磁盘文件的顺序输入输出操作。【例】通过程序创建一个文件&#xff0c;从键盘输入字符&#xff0c;当遇到字符“#”时结束&#xff0c;在屏幕上显示该文件的所有内容import java.io.*;class e…

cdatabase读取excel第一行数据_pandas读取excel数据并对重复数据进行标记或者删除

pandas读取excel数据并对重复数据进行标记或者删除​mp.weixin.qq.compandas通常在读取excel数据之后&#xff0c;如果需要进行去重&#xff0c;有两种方式&#xff0c;一种是进行标记&#xff0c;另一种是在pandas中直接去重如下图所示&#xff0c;excel数据&#xff1a;&…

java 7.函数-递归_带有谓词的Java中的函数样式-第2部分

java 7.函数-递归在本文的第一部分中&#xff0c;我们介绍了谓词&#xff0c;这些谓词通过具有返回true或false的单一方法的简单接口&#xff0c;为Java等面向对象的语言带来了函数式编程的某些好处。 在第二部分和最后一部分中&#xff0c;我们将介绍一些更高级的概念&#xf…

apk改之理_一份礼物.apk-O泡果奶的逆向分析

事情起因是震惊全国大学生的1013事件&#xff01;&#xff01;&#xff01;刚好看到社团群里在讨论这个&#xff0c;于是就发挥专业特长分析一下拿到apk ,第一步肯定先放到虚拟机里跑一下看下效果emmm这似曾相识的页面,这熟悉的音量,唯一变化的就是音乐变成了O泡果奶的魔性洗脑…

python彩色螺旋线_解决python彩色螺旋线绘制引发的问题

彩色螺旋线的绘制代码如下&#xff1a; import turtle import time turtle.pensize(2) turtle.bgcolor(black) colors [red, yellow, purple, blue] turtle.tracer(False) for x in range(400): turtle.forward(2*x) turtle.color(colors[x % 4]) turtle.left(91) turtle.trac…

ID3和C4.5分类决策树算法 - 数据挖掘算法(7)

&#xff08;2017-05-18 银河统计&#xff09;决策树(Decision Tree&#xff09;是在已知各种情况发生概率的基础上&#xff0c;通过构成决策树来判断其可行性的决策分析方法&#xff0c;是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干&#xff0c…

mysql 聚簇索引和非聚簇索引_图文并茂,说说MySQL索引

点击上方 小伟后端笔记 &#xff0c;选择 星标 公众号重磅资讯、干货&#xff0c;第一时间送达作者&#xff1a;小小木的博客来源&#xff1a;cnblogs.com/wyc1994666/p/10831039.html序开门见山&#xff0c;直接上图&#xff0c;下面的思维导图即是现在要讲的内容&#xff0c;…

mysql数据库日志截断,MySQL基础(十一):查询截取分析

下面是小凰凰的简介&#xff0c;看下吧&#xff01;&#x1f497;人生态度&#xff1a;珍惜时间&#xff0c;渴望学习&#xff0c;热爱音乐&#xff0c;把握命运&#xff0c;享受生活&#x1f497;学习技能&#xff1a;网络 -> 云计算运维 -> python全栈( 当前正在学习中…

component是什么接口_阿里高级技术专家:整洁的应用架构“长”什么样?

很多同学不止一次和我反馈&#xff0c;我们的系统很混乱&#xff0c;主要表现在&#xff1a;应用的层次结构混乱&#xff1a;不知道应用应该如何分层、应该包含哪些组件、组件之间的关系是什么&#xff1b;缺少规范的指导和约束&#xff1a;新加一段业务逻辑不知道放在什么地方…

20155202 实验四 Android开发基础

20155202 实验四 Android开发基础 实验内容 1.基于Android Studio开发简单的Android应用并部署测试; 2.了解Android、组件、布局管理器的使用&#xff1b; 3&#xff0e;掌握Android中事件处理机制。 实验要求 第24章&#xff1a;初识Android任务一&#xff1a;完成Hello World…

python的代码在哪写_python代码在哪里编写

编写python代码&#xff0c;可以在自带的ide中写&#xff0c;也可以使用第三方编辑器&#xff0c;下面介绍几款常见的python IDE 1. VimVim 可以说是 Python 最好的 IDE。Vim 是高级文本编辑器&#xff0c;旨在提供实际的 Unix 编辑器‘Vi’功能&#xff0c;支持更多更完善的特…

如果您在2015年编写过Java代码-这是您不容错过的趋势

去年我们有机会遇到的最有趣趋势的实用概述 在这篇文章中&#xff0c;我们将回顾构成我们2015年对话的5个主题和新发展。与其他许多年终总结保持较高水平的不同&#xff0c;我们将做一个更实际的操作不用流行语 。 好吧&#xff0c;没有太多*流行语。 与往常一样&#xff0c;对…

mel滤波器组频率响应曲线_了解二阶滤波器的奈奎斯特图

在之前的文章中&#xff0c;我介绍了奈奎斯特图&#xff0c;然后我们通过检查奈奎斯特曲线和截止频率与一阶无源滤波器之间的关系&#xff0c;更详细地探索了这些类型的图。在本文中&#xff0c;我们将查看二阶滤波器的奈奎斯特图。二阶过滤器当我说“二阶”滤波器时&#xff0…

python爬取知乎标题_python爬虫 爬取知乎文章标题及评论

目的&#xff1a;学习笔记2.首先我们试着爬取下来一篇文章的评论&#xff0c;通过搜索发现在 response里面我们并没有匹配到评论&#xff0c;说明评论是动态加载的。3.此时我们清空请求&#xff0c;收起评论&#xff0c;再次打开评论 4.完成上面操作后&#xff0c;我们选择XHR&…

知道接口地址 如何传数据_如何选显示器连接线?四种主流接口要知道

前两天家里电脑显示器的线坏了&#xff0c;火急火燎的买了根线&#xff0c;谁知道买回来之后接口不匹配&#xff0c;不能用。显示器为什么要有这么多接口呢&#xff1f;这些接口又有什么区别呢&#xff1f;必须把它搞清楚&#xff01;这不&#xff0c;经过我的不屑努力&#xf…