OCR学术前沿及产业应用高峰论坛
相关议程:https://mp.weixin.qq.com/s/LYoKHFad9D-gjhGlVF3Czg
广告OCR技术研究与应用-腾讯
视频制作ASR,ocr得到字幕
计算机动画CG
OCR实践与技术创新 - 蚂蚁
-
loss优化
-
数据合成
对比学习的方式,什么样是正样本,什么是负样本。
生成式自监督学习。
相连的字符块有风格比较像
内容与风格的解码
另外的应用场景:跨语言编辑,字体的变换
热力图查看效果
- 多模文档图像理解
位置关系,上下左右,高维关系的表征
前融合与后融合
- 先验知识表征
手写体文字识别新思考——数据、方法及应用-金连文/华南理工大学
几千-2w级别的key
后面两大类是主流
基于Gan学习风格库,学习风格
连笔的自然性
自编码器
GLRNet, 一维卷积是局部特征,encoder是全局特征
语义模块CTC
篡改文本图像的生成与检测-中科大
复杂背景的纹理识别效果不好
对帧操作
曲形文本的篡改
开放集文字识别:概念、框架、算法与应用-北京科技大学
传统的字符不一定是它自己,而是前后特征都有
开放问题情况下,应该以本身的识别特征为主,避免被错误纠正
面向文字的图形图像生成技术新进展-北京大学
OCR的全栈式研发及行业场景实践–华为
资质文档证书类图像的篡改检测及数字经济场景应用-阿里
数十种类型的文档
- 二分类
- 真假辨别
OCR产业化应用实践-上海合合信息
图像预处理,版面分析与还原是比较重要的
all in one模型
印章与文字进行分层
结合领域知识的端到端数学公式识别研究进展-中国科学技术大学
低质量场景文字识别技术研究-中科院信工所
从PaddleOCR看OCR产业落地的创新方向-百度
视频OCR技术与应用-字节
文本轨迹是query
滑动窗口
检测器漏检误检,匹配不上等情况
trackformer
OCR在垂直应用中的研究进展—海康威视
颜色校正
transformer在一些硬件平台上效果并不好,大模型在实际应用上不是很友好。
文档类应该使用多模态技术