ChatGPT大升级,文档图像识别领域迎来技术革新

    • ​写在前面
    • ChatGPT迎来重大升级
    • 冲击与机遇并存
    • ​大模型时代的思考与探索
      • ■ 像素级OCR统一模型- UPOCR
      • ■ OCR大一统模型- SPTS v3
      • ■ 文档识别分析+LLM应用
    • 写在最后
    • 问卷抽奖


​写在前面

2023 年 12 月 31 日第十九届中国图象图形学学会青年科学家会议在广州召开,该会议由中国图象图形学学会主办,旨在促进青年科学家之间的交流与合作,提升我国在图像图形领域的科研水平和创新能力。

由中国图象图形学学会和上海合合信息(INTSIG)联合承办的《垂直领域大模型论坛》中,针对在以 ChatGPT 为代表的大语言模型时代下大模型技术对于图像图形学领域的研究方向或者说落地应用是否会有价值、有哪些价值进行了深入探讨。包括合合信息丁凯教授在内的多位业内专家针对大模型时代文档与图像识别领域的新探索进行了介绍。

在这里插入图片描述

ChatGPT迎来重大升级

2023 年 9 月 25日 OpenAI 宣布推出全新 GPT-4V(Vision)多模态大模型,ChatGPT 迎来重大升级!

GPT-4V 在原先基础上增加了图像与语音的输入能力,旨在为用户带来更加多元化的使用方式,让 ChatGPT 与人们的交流更加丰富多样。它的主要功能包括语音功能,提供 5 种不同的语音选项,具有高准确率的语音识别和语音合成功能;图像输入功能,用户可以拍摄自己感兴趣的事物,并上传到 GPT-4V 中,它还具有处理文本和图像形式的输入的能力,能够基于混合输入模式产生文本输出;自然语言任务处理,文本摘要、问答、文本生成、情感分析、机器翻译等;看图作答和识别地点,对于用户提供的图片,GPT-4V 能够识别并回答有关地点的问题。此外还有物体检测、文本识别、人脸识别、验证码求解等等。可以看出 GPT-4V 功能强大且在多个领域都有着广泛应用前景,包括图像与文档识别领域。

那么随着 GPT-4V 多模态大模型横空出世,是否会对 OCR 文档识别领域造成巨大冲击?来自上海合合信息的丁凯博士在中国图像图形学学会(CSIG)青年科学家会议 2023 中为我们做出了详细解答……

冲击与机遇并存

不可否认 GPT-4V 在文档识别领域中取得了重大成就,但同时也应关注到在这个领域(OCR 文档识别)中的一些核心问题是仍然存在的,诸如图像质量、文字识别、版面分析等,这些问题仍需解决。同时 GPT-4V 也会为文档识别领域带来诸多变化,那么从研究层面来看,冲击与机遇是并存的。

通过对 GPT-4V 文档处理领域的详细分析与的场景测试发现,GPT-4V 在场景文字识别、手写文档识别、几何图形与文字结合场景识别、公式识别、表格识别、信息抽取等方面做的都非常好,水平可以说完全超过了传统中的任何一种技术。

(场景文字识别、手写文档识别、公式识别测试)
在这里插入图片描述
但即使水平如此之高,GPT-4V 也并非完全解决了 OCR 文档识别领域中的所有问题。在测试过程中短板也很明显,首先就是对中文的识别,无论是手写还是印刷文字,GPT-4V 在识别之后都是输出大量与实际文章无关的内容,而且一些简单的手写公式 GPT-4V 也是无法完美识别的。

在这里插入图片描述
此外对于长文档,仍然有文档解析和识别的前置依赖,ChatGPT 调用了开源的 PyPDF2,而该插件效果一般,且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文。

在这里插入图片描述
综上可以看到 GPT-4V 的优势在于对端到端解决识别和理解问题、认知能力、支持识别和理解文档元素类型的能力远超传统算法,但是对于长文档需要依赖外部的OCR/文档解析引擎,这就说明外部引擎的性能会严重影响 GPT-4V 处理文档的性能,短板也非常明显。对于篡改检测、文本分割擦除、元素检测识别等像素级 OCR 任务时 GPT-4V 更是能力不足甚至是还没有具备此能力。

GPT-4V 在处理大规模行为数据方面的能力,以及在语言生成和理解方面的突破,它能够更自然、更复杂地处理和分析不同类型的行为特征,例如语言、声音、图像等。但 GPT-4V 并没有专门针对文档图像识别领域进行优化,因此我们应该做的是充分利 用GPT-4V 的潜力,对其进行适当的调整和改进,以适应文档识别的特定需求和挑战。同时其他OCR技术和工具仍然有其独特的优势和应用场景,因此 GPT-4V 并不会完全取代其他技术,而是一种与其共存并相互促进发展的关系,OCR 文档图像识别领域依然有着很大的研究空间。

​大模型时代的思考与探索

基于对以上 GPT-4V 与文档识别领域的分析和思考,其实为 OCR 文档识别领域的研究提供了新的方向,更高的识别精度与处理效率也成为了新的不断增长的应用需求。基于此,像素级 OCR 统一模型、OCR 大一统模型、文档识别分析+LLM 应用新方向应运而生。

在这里插入图片描述

■ 像素级OCR统一模型- UPOCR

像素级 OCR 统一模型是一种先进的OCR技术,旨在实现高精度的文字识别和图像处理。该模型将 OCR 技术和图像处理技术相结合,通过对图像进行像素级别的分析和处理,实现高精度的文字识别和图像处理。它可以用于各种类型的图像识别和处理任务,如车牌识别、人脸识别、遥感图像处理等。同时,该模型还可以根据不同的应用场景进行定制和优化,以满足不同用户的需求。

UPOCR(Towards Unified Pixel-Level OCR Interface)就是一个通用的 OCR 模型,统一了不同像素级 OCR 任务的范式、架构和训练策略。它将文本擦除、分割、篡改检测等像素级 OCR 任务进行了统一,引入可学习的任务提示来指导基于 ViT 的编码器-解码器架构。UPOCR 的通用能力在文本擦除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型。

在这里插入图片描述

■ OCR大一统模型- SPTS v3

OCR 大一统模型可以理解为是一种将多种 OCR 算法和模型集成在一起的模型,旨在实现更高效、更准确的文字识别。这种模型可以结合不同算法的优势,提高 OCR 的识别精度和适应性。通常包括多种算法和模型,如基于规则的方法、基于模板的方法、基于机器学习的方法和深度学习方法等。这些算法和模型可以在不同的场景和任务中发挥各自的优势,从而提高 OCR 的识别精度和效率。

当前的文档图像识别分析过程中有着非常多的任务,包括文本识别、段落识别、版面分析、表格识别、公式识别等等,将这些任务定义为序列预测的形式,然后通过不同的 prompt 引导模型完成不同的 OCR 任务,支持篇章级的文档图像识别分析,输出 Markdown/HTML/Text 等标准格式,最后将文档理解相关的工作交给 LLM 去做。

在这里插入图片描述
基于这样的思想,基于 SPTS 的 OCR 大一统模型 SPTS v3 应运而生,将多种 OCR 任务定义为序列预测的形式,通过不同的 prompt 引导模型完成不同的 OCR 任务。

SPTS v3 目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别。

在这里插入图片描述
根据长期的训练与分析,SPTS v3 在各个性能方面已有着很不错的效果。但是当前的任务数量还不是很多,还有大量工作需要做,功能和任务范围都有着很大的扩展空间。

■ 文档识别分析+LLM应用

对于文档识别分析领域与 LLM 应用相结合,合合信息提出的技术框架是这样的,当输入文档图像后,通过文档识别与版面分析技术获取文档信息,接下来进行文档的切分和召回,最后进行 LLM 问答。

在这里插入图片描述
将文档识别技术与 LLM(Large Language Model)应用相结合确实是一个有前景的领域,有许多潜在的应用和思考方向。比如:

  • 文档的摘要与总结。结合文档识别技术和大语言模型,对长篇文档进行自动摘要或总结,为用户提供简洁、关键的信息;

  • 自动问答。基于文档识别技术的问答系统根据文档内容回答用户的问题;

  • 文档分类与主题识别。利用文档识别技术对文档进行分类和主题识别,可以用于自动整理文档、摘要、信息抽取等任务等等。

不仅仅是这些,将大语言模型结合至文档图像识别领域将会互相催生出更多的研究主题与方向,同时这也要求各厂家与开发者不断探索新的技术和方法。

写在最后

以 GPT-4V 为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的 IDP 技术带来了挑战。但是大模型并没有完全解决 IDP 领域面临的问题,很多问题仍然值得我们继续研究。

如何结合大模型的能力更好的解决 IDP 的问题,值得在未来做更多的思考和探索。合合信息的 TextIn(Text Intelligence)研究团队便是一个典型代表。作为一个专注于智能文档处理领域的团队,经过 16 年的专注和深耕,该团队在智能文档图像识别、文字识别、自然语言处理等方面取得了显著的成果。他们在智能文档处理技术领域进行了广泛而深入的研究,涵盖了文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI 安全以及知识化、存储检索和管理等多个关键技术。

而这些研究成果也都汇聚到了合合 TextIn 智能文字识别产品中,合合信息将他们的研究成果通过这样一个智能文档处理云平台提供给全球的用户和企业,只要访问 textin.com 我们便可以体验到一站式智能文字识别服务。

在这里插入图片描述


问卷抽奖

最后大家可填写下方问卷参与抽奖,合合信息将抽 10 人送出 50 元京东卡(12 号开奖)。

问卷链接:https://qywx.wjx.cn/vm/exOhu6f.aspx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/598634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记一次 .NET 某新能源材料检测系统 崩溃分析

一:背景 1. 讲故事 上周有位朋友找到我,说他的程序经常会偶发性崩溃,一直没找到原因,自己也抓了dump 也没分析出个所以然,让我帮忙看下怎么回事,那既然有 dump,那就开始分析呗。 二&#xff…

【萤火虫系列教程】2/5-Adobe Firefly 文字​生成​图像

文字​生成​图像 登录账号后,在主页点击文字生成图像的【生成】按钮,进入到文字生成图像 查看图像 在文字生成图像页面,可以看到别人生成的图像。 点击某个图像,就可以进入图像详情,可以看到文字描述。 生成图像 我…

tolist()读取Excel列数据,(Excel列数据去重后,重新保存到新的Excel里)

从Excel列数据去重后,重新保存到新的Excel里 import pandas as pd# 读取Excel文件 file r"D:\\pythonXangmu\\quchong\\quchong.xlsx" # 使用原始字符串以避免转义字符 df pd.read_excel(file, sheet_namenameSheet)# 删除重复值 df2 df.drop_duplica…

Vue介绍和基本使用

0 前端的发展史 1.HTML(5)、CSS(3)、JavaScript(ES5、ES6):编写一个个的页面 -> 给后端(PHP、Python、Go、Java) -> 后端嵌入模板语法 -> 后端渲染完数据 -> 返回数据给前端 -> 在浏览器中查看 2.Ajax的出现 -> 后台发送异步请求,Re…

论Acrel-2000MG微电网能量管理系统在储能行业的应用-安科瑞 蒋静

一、概述: 在新型电力系统中新能源装机容量逐年提高,但是新能源比如光伏发电、风力发电是不稳定的能源,所以要维持电网稳定,促进新能源发电的消纳,储能将成为至关重要的一环,是分布式光伏、风电等新能源消纳以及电网安…

算法专题六:模拟

一.替换所有的问号 替换所有的问号 1.思路一 class Solution { public:string modifyString(string s) {for(int i0;i<s.size();i){if(s[i] ?){for(char j a ; j<z ; j){//1.注意数组越界if((i0 || s[i-1] ! j) && (is.size()-1 || s[i1] ! j)){s[i] j;brea…

【Python学习】Python学习1

目录 【Python学习】Python学习1 1.前言2.Python安装3.PyCharm安装4.PyCharm插件推荐5.参考 文章所属专区 Python学习 1.前言 Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python 由 Guido van Rossum 于 1989 年底发明&#xff0c;第一个公开发行版发…

【C/C++】轻量级跨平台 开源串口库 CSerialPort

文章目录 1、简介2、支持的平台3、已经支持的功能4、Linux下使用5、使用vcpkg安装CSerialPort6、交叉编译7、效果图8、基于CSerialPort的应用8.1、CommMaster通信大师8.2、CommLite串口调试器 1、简介 Qt 的QSerialPort 已经是跨平台的解决方案&#xff0c;但Qt开发后端需要 Q…

[C#]C# OpenVINO部署yolov8图像分类模型

【官方框架地址】 https://github.com/ultralytics/ultralytics.git 【算法介绍】 YOLOv8 抛弃了前几代模型的 Anchor-Base。 YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来&#xff0c;领域内的研究者们…

【React系列】Hook(二)高级使用

本文来自#React系列教程&#xff1a;https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzg5MDAzNzkwNA&actiongetalbum&album_id1566025152667107329) 一. Hook高级使用 1.1. useReducer 很多人看到useReducer的第一反应应该是redux的某个替代品&#xff0c;其实并不是…

解锁测试性能瓶颈:深度探讨JMeter分布式性能测试!

在做后端服务器性能测试中&#xff0c;我们会经常听到分布式。但你是否了解分布式呢&#xff1f;今天&#xff0c;我们就来给大家讲讲&#xff0c;在企业实战中&#xff0c;如何使用分布式进行性能测试&#xff0c;实战过程中&#xff0c;又有哪些地方要特别注意&#xff1f; 0…

什么是滚动码?什么工作原理?

一、什么是滚动码&#xff1f; 这里我们将简单了解什么是滚动码及其工作原理。首先简要描述其概念和操作。然后&#xff0c;我们将看一个示例来进一步阐明。最后&#xff0c;我们将研究滚动代码以防止攻击的原因。 滚动码&#xff0c;也称为跳跃码&#xff0c;是远程无钥匙进入…

两整数之和 -- 位运算

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 本题链接 力扣&#xff08;LeetCode&#xff09; 输入描述 输入两个要相加的数&#xff0c;a和b 输出描述 返回a和b的和&#xff0c;这里其实直接return ab; 直接就过了&#xff0c;但是人题目要求还是给点面子~ 算法…

【mars3d】批量关闭矢量数据的startFlicker()闪烁或者全部关闭startFlicker()

问题 1.graphic/entity/billboard怎么能够批量关闭startFlicker()闪烁或者 全部关闭startFlicker()呢&#xff1f; 相关链接 1.http://mars3d.cn/editor-vue.html?idgraphic/entity/billboard 2.http://mars3d.cn/apidoc.html#FlickerEntity 期望效果 1.graphic.stopFlic…

国图公考:2024年上半年中小学教师资格考试(笔试)报考须知

(一)信息填报时间&#xff1a;2024年1月12日9:00至1月15日16&#xff1a;00 (二)信息确认时间&#xff1a;2024年1月13日9:00至1月16日16&#xff1a;00 (三)网上缴费时间&#xff1a;2024年1月13日9:00至1月17日24&#xff1a;00

宝宝洗衣机哪个牌子质量好?好用的小型洗衣机推荐

当婴儿的到来&#xff0c;确实会给家庭带来许多变化&#xff0c;就好比如对于宝宝相关衣物的清洗需求。对于新生儿及婴幼儿的衣服&#xff0c;一般都要给予特殊的照顾与清洗&#xff0c;以保证不含细菌及过敏原。尤其是刚刚出生的婴儿&#xff0c;这时候宝宝们的皮肤很是幼嫩。…

python实现给定两个列表,“求同存异”

目录 问题描述&#xff1a; 代码实现&#xff1a; 问题描述&#xff1a; 给定两个列表&#xff0c;list1和list2。 python实现求list1和list中重复的元素&#xff0c;以及在list1中&#xff0c;不在list2的元素。 代码实现&#xff1a; def common_unique(pred_list, gold_l…

pyparamvalidate 项目背景和需求分析

目录 一、前置说明1、总体目录2、本节目标 二、项目背景三、需求分析三、后置说明1、要点小结2、下节准备 一、前置说明 1、总体目录 《 pyparamvalidate 参数校验器&#xff0c;从编码到发布全过程》 2、本节目标 阐述 pyparamvalidate 项目背景和需求分析。 二、项目背景…

由浅入深理解C#中的事件

目录 本文较长&#xff0c;给大家提供了目录&#xff0c;可以直接看自己感兴趣的部分。 前言有关事件的概念示例​ 简单示例​ 标准 .NET 事件模式​ 使用泛型版本的标准 .NET 事件模式​ 补充总结 参考前言 前面介绍了C#中的委托&#xff0c;事件的很多部分都与委托…

sql如何获取字段是数组中的数字【搬代码】

我们可以看到表中字段是一个数组怎么获取其中的数据呢&#xff1f; SELECT sim->>$[0] FROM fin_xxx如果使用左外链接&#xff0c;如下&#xff0c;其他连接时一样的 SELECT a.* FROM fin_aaaa a LEFT JOIN fin_xxx b ON b.sim_r->>$[0]a.corr WHERE b.tid20210 …