1 Huang L的工作
https://blog.csdn.net/qq_44950283/article/details/127739829
OCR小组会议纪要 2022/11/12
任意形状文本检测
1、特征提取:输入图片通过共享卷积得到共享特征Fs
2、边界建议模型使用Fs,得到先验特征Fp(包括分类图、距离场图、方向场图)
3、通过Fp得到粗边界
4、在粗边界上选取N个控制点,提取它们的特征构成特征矩阵NxC,
5、特征矩阵X输入到边界变形模型进行特征学习和边界迭代
需解决的问题
1、p点怎么找到?参照物是哪一个,分类图怎么用
2、猜想p点是在文本框中线上的点
3、方向场和距离场是怎么来的?具体指什么
4、有了p点怎么找到边界点Bp?Bp怎么得到?
5、是否是监督学习?
后期工作:
1、p、Bp的确定是论文创新还是用的已有的技术直接得到
2、去看引用了本文的论文,看动机和理念,这篇论文还有哪些缺点不足,本文和引文的
区别,回过头反思自己没有想通的点,然后去找创新点。
3、看代码不要抓全部,要理清楚函数之间的逻辑关系,看函数名理解函数具体是看什么的
4、不能总去关注细节,论文的理念和动机很重要。
猜想:
1、粗边界的确定是通过已有的算法找到还是创新
2、将边界的中轴线当成p点,然后去找方向和距离场,最后去膨胀和变形
2022/11/23
2022/11/23会议纪要
一、调研内容
-
DewarpNet
1)卷曲和褶皱图片矫正后识别率明显提高;小角度(30°)旋转图片矫正后可以全部识别(矫正前基本不能识别),如果旋转角度较大(70°)则不能矫正为水平方向
2)对于有明显边界的扭曲文本图片可以较好地矫正
3)有两个模型,分别有160M和170M
4)可以调参控制输出图片的大小 -
DocGeoNet
1)梯形矫正的效果不是很好
2)褶皱图片矫正可以使文字尽量保持一行直线
3)矫正输出图片的文件大小是原来的10~20倍
4)有两个模型,预处理模型4M,矫正模型90M
二、继续调研
- 传统方法(非机器学习)矫正
- 通过几何形变矫正(主要方向)
- 如果有效果好的基于光学的矫正方法也可以跑下代码
csdn链接:
1)DewarpNet:
https://blog.csdn.net/weixin_39133209/article/details/127754001
https://blog.csdn.net/qq_44309220/article/details/127998327
2)DocGeoNet:
https://blog.csdn.net/qq_40206924/article/details/127869290
三、新调研的文献
Geometric Representation Learning for Document Image Rectification
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_27
Learning From Documents in the Wild to Improve Document Unwarping
https://dl.acm.org/doi/abs/10.1145/3528233.3530756
A new database for image retrieval of camera filmed printed documents
https://dl.acm.org/doi/abs/10.1145/3564533.3564569
Physics-Based Shadow Image Decomposition for Shadow Removal
https://ieeexplore.ieee.org/abstract/document/9601181
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction
https://arxiv.org/abs/2110.12942
End-to-end Piece-wise Unwarping of Document Images
https://openaccess.thecvf.com/content/ICCV2021/html/Das_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.html
Revisiting Document Image Dewarping by Grid Regularization
https://openaccess.thecvf.com/content/CVPR2022/html/Jiang_Revisiting_Document_Image_Dewarping_by_Grid_Regularization_CVPR_2022_paper.html
Learning an Isometric Surface Parameterization for Texture Unwrapping
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_33
A theoretical justification of warping generation for dewarping using CNN
https://www.sciencedirect.com/science/article/abs/pii/S0031320320304246
Intrinsic decomposition of document images in-the-wild
https://arxiv.org/abs/2011.14447
Document Dewarping with Control Points
https://link.springer.com/chapter/10.1007/978-3-030-86549-8_30
Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild
https://arxiv.org/abs/2207.11515
DocScanner: Robust Document Image Rectification with Progressive Learning
https://arxiv.org/abs/2110.14968
Automatic dewarping of camera-captured comic document images
https://link.springer.com/article/10.1007/s11042-022-13234-y
UDoc-GAN: Unpaired Document Illumination Correction with Background Light Prior
https://dl.acm.org/doi/abs/10.1145/3503161.3547916
Generic Document Image Dewarping by Probabilistic Discretization of Vanishing Points
https://ieeexplore.ieee.org/abstract/document/9412649
RectiNet-v2: A stacked network architecture for document image dewarping
https://www.sciencedirect.com/science/article/abs/pii/S016786552200023X