学习内容为《动手学OCR.pdf》
1 OCR基础
1.1 OCR是什么
OCR(Optical Character Recognition,光学字符识别);
传统意义上的OCR:面向扫描文档类对象;
一般意义上的OCR:场景文字识别(Scene Text Recognition,STR),主要面向自然场景。
1.2 OCR应用场景
OCR应用场景:车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等;
与其它技术相结合(多模态场景中的通用OCR):使用OCR技术进行字幕自动翻译、内容安全监控等;与视觉特征相结合,完成视频理解、视频搜索等。
1.3 OCR技术挑战
- 算法层的问题:透视变换、尺度太小、文字弯曲、背景干扰、字体多变、多种语言、拍摄模糊、光照不足。
- 应用层问题:实时处理(要求模型的速度要快)、轻量(应用于移动端或嵌入式硬件)。
2 OCR相关算法
包括文本检测、文本识别、端到端文本识别、文档分析等