文本检测及识别小组周报

1 Huang L的工作

https://blog.csdn.net/qq_44950283/article/details/127739829

OCR小组会议纪要 2022/11/12

任意形状文本检测
1、特征提取：输入图片通过共享卷积得到共享特征Fs
2、边界建议模型使用Fs，得到先验特征Fp(包括分类图、距离场图、方向场图)
3、通过Fp得到粗边界
4、在粗边界上选取N个控制点，提取它们的特征构成特征矩阵NxC，
5、特征矩阵X输入到边界变形模型进行特征学习和边界迭代

需解决的问题
1、p点怎么找到？参照物是哪一个，分类图怎么用
2、猜想p点是在文本框中线上的点
3、方向场和距离场是怎么来的？具体指什么
4、有了p点怎么找到边界点Bp？Bp怎么得到?
5、是否是监督学习？

后期工作：
1、p、Bp的确定是论文创新还是用的已有的技术直接得到
2、去看引用了本文的论文，看动机和理念，这篇论文还有哪些缺点不足，本文和引文的
区别，回过头反思自己没有想通的点，然后去找创新点。
3、看代码不要抓全部，要理清楚函数之间的逻辑关系，看函数名理解函数具体是看什么的
4、不能总去关注细节，论文的理念和动机很重要。

猜想：
1、粗边界的确定是通过已有的算法找到还是创新
2、将边界的中轴线当成p点，然后去找方向和距离场，最后去膨胀和变形

2022/11/23

2022/11/23会议纪要
一、调研内容

DewarpNet
1）卷曲和褶皱图片矫正后识别率明显提高；小角度（30°）旋转图片矫正后可以全部识别（矫正前基本不能识别），如果旋转角度较大（70°）则不能矫正为水平方向
2）对于有明显边界的扭曲文本图片可以较好地矫正
3）有两个模型，分别有160M和170M
4）可以调参控制输出图片的大小
DocGeoNet
1）梯形矫正的效果不是很好
2）褶皱图片矫正可以使文字尽量保持一行直线
3）矫正输出图片的文件大小是原来的10~20倍
4）有两个模型，预处理模型4M，矫正模型90M

二、继续调研

传统方法（非机器学习）矫正
通过几何形变矫正（主要方向）
如果有效果好的基于光学的矫正方法也可以跑下代码

csdn链接：
1）DewarpNet：
https://blog.csdn.net/weixin_39133209/article/details/127754001
https://blog.csdn.net/qq_44309220/article/details/127998327
2）DocGeoNet：
https://blog.csdn.net/qq_40206924/article/details/127869290

三、新调研的文献
Geometric Representation Learning for Document Image Rectification
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_27

Learning From Documents in the Wild to Improve Document Unwarping
https://dl.acm.org/doi/abs/10.1145/3528233.3530756

A new database for image retrieval of camera filmed printed documents
https://dl.acm.org/doi/abs/10.1145/3564533.3564569

Physics-Based Shadow Image Decomposition for Shadow Removal
https://ieeexplore.ieee.org/abstract/document/9601181

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction
https://arxiv.org/abs/2110.12942

End-to-end Piece-wise Unwarping of Document Images
https://openaccess.thecvf.com/content/ICCV2021/html/Das_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.html

Revisiting Document Image Dewarping by Grid Regularization
https://openaccess.thecvf.com/content/CVPR2022/html/Jiang_Revisiting_Document_Image_Dewarping_by_Grid_Regularization_CVPR_2022_paper.html

Learning an Isometric Surface Parameterization for Texture Unwrapping
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_33

A theoretical justification of warping generation for dewarping using CNN
https://www.sciencedirect.com/science/article/abs/pii/S0031320320304246

Intrinsic decomposition of document images in-the-wild
https://arxiv.org/abs/2011.14447

Document Dewarping with Control Points
https://link.springer.com/chapter/10.1007/978-3-030-86549-8_30

Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild
https://arxiv.org/abs/2207.11515

DocScanner: Robust Document Image Rectification with Progressive Learning
https://arxiv.org/abs/2110.14968

Automatic dewarping of camera-captured comic document images
https://link.springer.com/article/10.1007/s11042-022-13234-y

UDoc-GAN: Unpaired Document Illumination Correction with Background Light Prior
https://dl.acm.org/doi/abs/10.1145/3503161.3547916

Generic Document Image Dewarping by Probabilistic Discretization of Vanishing Points
https://ieeexplore.ieee.org/abstract/document/9412649

RectiNet-v2: A stacked network architecture for document image dewarping
https://www.sciencedirect.com/science/article/abs/pii/S016786552200023X

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/507295.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！