文本检测及识别小组周报

1 Huang L的工作

https://blog.csdn.net/qq_44950283/article/details/127739829

OCR小组会议纪要 2022/11/12

任意形状文本检测
1、特征提取:输入图片通过共享卷积得到共享特征Fs
2、边界建议模型使用Fs,得到先验特征Fp(包括分类图、距离场图、方向场图)
3、通过Fp得到粗边界
4、在粗边界上选取N个控制点,提取它们的特征构成特征矩阵NxC,
5、特征矩阵X输入到边界变形模型进行特征学习和边界迭代

需解决的问题
1、p点怎么找到?参照物是哪一个,分类图怎么用
2、猜想p点是在文本框中线上的点
3、方向场和距离场是怎么来的?具体指什么
4、有了p点怎么找到边界点Bp?Bp怎么得到?
5、是否是监督学习?

后期工作:
1、p、Bp的确定是论文创新还是用的已有的技术直接得到
2、去看引用了本文的论文,看动机和理念,这篇论文还有哪些缺点不足,本文和引文的
区别,回过头反思自己没有想通的点,然后去找创新点。
3、看代码不要抓全部,要理清楚函数之间的逻辑关系,看函数名理解函数具体是看什么的
4、不能总去关注细节,论文的理念和动机很重要。

猜想:
1、粗边界的确定是通过已有的算法找到还是创新
2、将边界的中轴线当成p点,然后去找方向和距离场,最后去膨胀和变形

2022/11/23

2022/11/23会议纪要
一、调研内容

  1. DewarpNet
    1)卷曲和褶皱图片矫正后识别率明显提高;小角度(30°)旋转图片矫正后可以全部识别(矫正前基本不能识别),如果旋转角度较大(70°)则不能矫正为水平方向
    2)对于有明显边界的扭曲文本图片可以较好地矫正
    3)有两个模型,分别有160M和170M
    4)可以调参控制输出图片的大小

  2. DocGeoNet
    1)梯形矫正的效果不是很好
    2)褶皱图片矫正可以使文字尽量保持一行直线
    3)矫正输出图片的文件大小是原来的10~20倍
    4)有两个模型,预处理模型4M,矫正模型90M

二、继续调研

  1. 传统方法(非机器学习)矫正
  2. 通过几何形变矫正(主要方向)
  3. 如果有效果好的基于光学的矫正方法也可以跑下代码

csdn链接:
1)DewarpNet:
https://blog.csdn.net/weixin_39133209/article/details/127754001
https://blog.csdn.net/qq_44309220/article/details/127998327
2)DocGeoNet:
https://blog.csdn.net/qq_40206924/article/details/127869290

三、新调研的文献
Geometric Representation Learning for Document Image Rectification
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_27

Learning From Documents in the Wild to Improve Document Unwarping
https://dl.acm.org/doi/abs/10.1145/3528233.3530756

A new database for image retrieval of camera filmed printed documents
https://dl.acm.org/doi/abs/10.1145/3564533.3564569

Physics-Based Shadow Image Decomposition for Shadow Removal
https://ieeexplore.ieee.org/abstract/document/9601181

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction
https://arxiv.org/abs/2110.12942

End-to-end Piece-wise Unwarping of Document Images
https://openaccess.thecvf.com/content/ICCV2021/html/Das_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.html

Revisiting Document Image Dewarping by Grid Regularization
https://openaccess.thecvf.com/content/CVPR2022/html/Jiang_Revisiting_Document_Image_Dewarping_by_Grid_Regularization_CVPR_2022_paper.html

Learning an Isometric Surface Parameterization for Texture Unwrapping
https://link.springer.com/chapter/10.1007/978-3-031-19836-6_33

A theoretical justification of warping generation for dewarping using CNN
https://www.sciencedirect.com/science/article/abs/pii/S0031320320304246

Intrinsic decomposition of document images in-the-wild
https://arxiv.org/abs/2011.14447

Document Dewarping with Control Points
https://link.springer.com/chapter/10.1007/978-3-030-86549-8_30

Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild
https://arxiv.org/abs/2207.11515

DocScanner: Robust Document Image Rectification with Progressive Learning
https://arxiv.org/abs/2110.14968

Automatic dewarping of camera-captured comic document images
https://link.springer.com/article/10.1007/s11042-022-13234-y

UDoc-GAN: Unpaired Document Illumination Correction with Background Light Prior
https://dl.acm.org/doi/abs/10.1145/3503161.3547916

Generic Document Image Dewarping by Probabilistic Discretization of Vanishing Points
https://ieeexplore.ieee.org/abstract/document/9412649

RectiNet-v2: A stacked network architecture for document image dewarping
https://www.sciencedirect.com/science/article/abs/pii/S016786552200023X

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python回车换行怎么不行_使用Python编写换行符时避免写入回车'\r'

如果考虑到carriage return \r和line feed \nPython 3.5.1 (v3.5.1:37a07cee5969, Dec 6 2015, 01:38:48) [MSC v.1900 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>…

英特尔核显自定义分辨率_让免费的核显更好用!英特尔酷睿集成的GPU如何优化?...

点击上方电脑爱好者关注我们在笔记本领域,无论是英特尔酷睿还是AMD锐龙,都采取了“买一赠一”的策略,即都在处理器内集成了性能还不赖的核显,虽然它们无法驾驭3A游戏大作,但应对《英雄联盟》级别的游戏还是不成问题的。…

TextBPN:Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection学习笔记

1 动机 领域:任意形状的文本检测目的:不需要后处理,直接学习到任意形状文本的边界。 2 相关工作 3 算法分析 算法分为两个部分: 边界建议模型(a boundary proposal model):我的理解是这个部分先给出一个大致的边界…

python脚本式编程_Python编程入门(一)

Python编程入门(一)概述:编程语言 1.脚本编程语言★脚本编程语言如php,perl,python,java等为脚本编程语言,通常需要通过解释器解释运行。 ★python(java)程序的执行过程s…

for循环里面有异步操作_JS 线程与异步的那些事

已知,JavaScript 是单线程的,天生异步,适合 IO 密集型,不适合 CPU 密集型,但是,为什么是异步的喃,异步由何而来的喃,我们将在这里逐渐讨论实现。一、进程与线程1. 浏览器是多进程的它…

FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记

1 广告 这篇工作由字节跳动商业化技术团队与新加坡南洋理工大学合作完成。 话不都说,先看效果: FDRNet的效果看上去有点好,可惜没有源代码提供。 2 相关工作 2.1 几何形变恢复方法Geometric Document Restoration 由相机传感器捕获的文档…

python如何在所有线程结束后执行最后操作_Python线程的生命周期

在线程的生命周期中,从创建到执行以及最终终止,线程通常处于四种状态之一:开始态、可调度状态、阻塞态和终止态。 父线程和子线程 当一个新的进程或程序开始运行时,它将以一个线程开始,这个线程被称为主线程。然后主线…

mac怎么安装python开发环境搭建_Mac OS搭建Python开发环境

简书 Wwwwei转载请注明原创出处,谢谢!前言最近在看一些关于机器学习的内容,其中大量代码需要Python的运行环境,所以搭建了Python开发环境,这里记录下,方便大家学习。安装PythonMac OS下安装Python主要方式有…

文本图形处理(扭曲变形、增强等)的源代码列表-1

文本图形扭曲变形 Google:Document image dewarping GitHub Document image dewarping using text-lines and line Segments https://github.com/taeho-kil/Document-Image-Dewarping Document Dewarping with Control Points https://github.com/gwxie/Document-Dewarping…

python小数补0,python用零填充小数

Im looking for a way to pad the float decimals with zeros:This one is my reference:In [37]: {:5.5}.format(round(4.123456, 5))Out[37]: 4.1235I have this:In [38]: {:5.5}.format(4.1)Out[38]: 4.1But I would like to have this:Out[38]: 4.1000解决方案To format a…

通讯可以并联吗_工业控制知识:吃透RS485通讯的连接方式,接485总线就简单多了...

RS485被广泛使用,可以支持ModBus协议。由于其简单、价优、可靠和成熟,因此,被广泛应用于工业控制、智能仪器和电力通信。我们来看看RS485的一个典型组网结构:理论上,RS485总线的传输距离可以达到1200米。然而&#xff…

python列表添加元素的三种方法定义集合数据对象_(1) List,tuple,dictionary,Python语法基础集,一,之,列表,元组,字典,集合...

Python序列(列表、元组、字典、集合) 一、列表(List)与列表推导式 (一)列表(list) 1.列表是Python内置 可变序列 (列表中元素可增加删除或修改); …

vue如何获取tree当前选中的节点_vue中element-ui 树形控件-树节点的选择(选中当前节点,获取当前id并且获取其父级id)...

出处:Element-ui官网给的方法getCheckedKeys() { console.log(this.$refs.tree.getCheckedKeys()); },1这种只有在所有子级都被选中的情况下才能获得父级的id,如果不选中所有的子级那么获取得到的id就只有子级的。但是一般提交数据时后台都需要父级id的。…

nodejs操作sqlserver数据_nodejs基于mssql模块连接sqlserver数据库的简单封装操作示例...

本文实例讲述了nodejs基于mssql模块连接sqlserver数据库的简单封装操作。分享给大家供大家参考,具体如下:注意:开启sqlserver服务器允许远程连接的步骤,自行百度,很多经验,nodejs连接sqlserver,最好把防火墙的入站规则关闭,或者允许入站.这个封装只是sql…

python解压_python解压

Python 的代码块不使用大括号( {} )来控制类,函数以及其他 逻辑判断。 python 最具特色的就是用缩进来写模块。 缩进的空白数量是可变的,但是所有代码块语句必须包含相同的缩进空白数量,这个必须严格执行。 Python 语句…

python编程a的x次方_「Python 面试」第四次更新

阅读本文大约需要 5 分钟。 15.说一说 GIL 前面有提到由于 Python 基于 C 语言编写的解释器中设置了一个 GIL 全局变量锁,该锁使得 Python 的多线程在处理 CPU 计算密集型任务时,同一时刻只能有一个线程在运行,这也是为什么说 Python 的多线程…

Exploiting Vector Fields for Geometric Rectification of Distorted Document Images学习笔记

1 广告 [1] Exploiting Vector Fields for Geometric Rectification of Distorted Document Images 利用矢量场对变形文档图像进行几何校正。 2018年发表在ECCV会议上的一篇非深度学习的文档去扭曲。 本文提出了一种对手持相机捕获的扭曲文档图像进行几何校正的无分段方法。…

java 单元测试_在springboot中写单元测试解决依赖注入和执行后事务回滚问题

往期文章「Java并发编程」谈谈Java中的内存模型JMM面试官:说说你知道多少种线程池拒绝策略为什么不要在MySQL中使用UTF-8编码方式前言很多公司都有写单元测试的硬性要求,在提交代码的时候,如果单测通不过或者说单元测试各种覆盖率不达标&…

文本图形处理(扭曲变形、增强等)的源代码列表-2

1 基于深度学习的文档扭曲矫正 Dewarping Document Image By Displacement Flow Estimation with Fully Convolutional Network https://github.com/gwxie/Dewarping-Document-Image-By-Displacement-Flow-Estimation Here are 12 public repositories matching this topic……

java编译_解析 Java 即时编译器原理。

↑ 点击上面 “时代Java”关注我们,关注新技术,学习新知识!一、导读常见的编译型语言如C,通常会把代码直接编译成CPU所能理解的机器码来运行。而Java为了实现“一次编译,处处运行”的特性,把编译的过程分成…