CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式

近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议由中国图象图形学学会(CSIG)主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。

当下,以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型,垂直领域大模型专注于特定场景的数据和知识,在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此,在主办单位中国图象图形学学会的指导下,合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》(简称“论坛”)。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家,共同分享前沿技术成果与实战思路,为大模型在垂直领域中的应用寻找新的落脚点。

文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下,版式丰富,文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月,继GPT-4后,Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”),具备突出的文档图像理解能力,引起行业广泛关注。

论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。

丁凯表示,GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地,GPT-4V在中文、手写公式,场景文字识别,表格识别上存在缺陷;面对多栏目、表格等复杂版式的文档时,大模型的处理效果距离当前SOTA(State Of The Art)的方法尚有较大差距。

“在智能文档处理领域,大模型支持识别和理解的文档元素类型远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不足在于,目前大模型的OCR精度距离领域最佳模型有较大差距,长文档依赖外部的文档解析引擎。”丁凯认为,技术公司可以把“感知”层面的事情做好,让大模型更好地去做“认知”,这种融合研究范式在智能文档处理领域中具有积极的意义。

目前,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究,相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外,实验室还通过创新的文档识别分析与LLM(自然语言模型)应用设计,充分利用序列预测的优势,更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。

合合信息是一家人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案,为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理(NLP)、计算机视觉(CV)、深度学习等人工智能技术,合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理,相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/599535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于入侵杂草算法优化的Elman神经网络数据预测 - 附代码

基于入侵杂草算法优化的Elman神经网络数据预测 - 附代码 文章目录 基于入侵杂草算法优化的Elman神经网络数据预测 - 附代码1.Elman 神经网络结构2.Elman 神经用络学习过程3.电力负荷预测概述3.1 模型建立 4.基于入侵杂草优化的Elman网络5.测试结果6.参考文献7.Matlab代码 摘要&…

APP端网络测试与弱网模拟!

当前APP网络环境比较复杂,网络制式有2G、3G、4G网络,还有越来越多的公共Wi-Fi。不同的网络环境和网络制式的差异,都会对用户使用app造成一定影响。另外,当前app使用场景多变,如进地铁、上公交、进电梯等,使…

Ribbon客户端负载均衡

简介 Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端负载均衡的工具。 简单的说,Ribbon是Netflix发布的开源项目,主要功能是提供客户端的软件负载均衡算法和服务调用。Ribbon客户端组件提供一系列完善的配置项如连接超时,重试等…

【操作系统】输入/输出系统

目录 l/O系统的功能、模型和接口 l/O设备和设备控制器 中断和中断处理程序 设备驱动程序 与设备无关的I/O 用户层的I/O软件 缓冲区管理 磁盘性能概述和磁盘调度 l/O系统的功能、模型和接口 I/O系统管理 1)主要对象: I/O设备和对应的设备控制器 …

IP代理测试:关于Ping测试你需要知道的一切干货

您在访问互联网时是否遇到过持续滞后或花费很长时间等待网站加载的情况?为了避免这种情况,您可以测试 ping 以查看连接速度。如果您使用代理,此 ping 测试还会显示代理服务器的响应速度。 ping 测试是一个很有价值的工具,可以帮助…

C++ 释放指针

在C中,释放指针通常使用delete或delete[]操作符; 如果指针指向的是单个对象,可以使用delete操作符进行释放; 在释放完内存后,最好将指针置为nullptr,以避免出现悬空指针(dangling pointer&#…

浅谈指数移动平均(ema)

经常在各种代码中看到指数移动平均(比如我专注的网络传输领域),但却不曾想到它就是诠释世界的方法,我们每个人都在被这种方式 “平均”… 今天说说指数移动平均(或移动指数平均,Exponential Moving Average)。 能查到的资料都侧重于其数学形…

且看迥然不同的 diff

文章目录 且看迥然不同的 diff语法默认比较两个文件并排显示方便比较context模式比较unified模式比较对比时忽略空格更多信息且看迥然不同的 diff Linux diff 命令用于比较文件的差异。 当然还有很多比较文件的专业工具,但是如果在Linux命令行,这个是最原始最初的,也是开机…

【Linux Shell】4. 数组

文章目录 【 1. 数组的定义 】【 2. 读取数组 】【 3. 关联数组 】3.1 关联数组的定义3.2 关联数组元素的调用 【 4. 获取数组中的所有元素 】【 5. 获取数组的长度 】 数组中可以存放多个值。 Bash Shell 只支持一维数组(不支持多维数组),初…

算法训练第五十九天|503. 下一个更大元素 II、42. 接雨水

503. 下一个更大元素 II: 题目链接 给定一个循环数组 nums ( nums[nums.length - 1] 的下一个元素是 nums[0] ),返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数组遍历顺序,这个数字之…

AutoCAD 中镜像 操作

在 AutoCAD 中,镜像是一种常用的操作,可以在绘图过程中快速进行镜像对称。以下是 AutoCAD 中进行镜像操作的常用快捷键命令: 1. 镜像命令:MIRROR 或 MI - 输入 MIRROR 或 MI,然后按 Enter 键启动镜像命令。 2. 指定第一点:F 或 F+Enter - 输入 F 或 F+Enter,然后选择…

影响服务器正常使用的有哪些因素

对于网站优化来说,网站服务器的优化绝对是基础。不管是用户还是搜索引擎对于网站的打开速度都是没有太多耐心的, 所以网站优化的就是要保证网站服务器稳定,网站正常且快速的打开 1.用户体验较差 现在越来越强调用户体验,设想一…

imgaug库指南(五):从入门到精通的【图像增强】之旅

引言 在深度学习和计算机视觉的世界里,数据是模型训练的基石,其质量与数量直接影响着模型的性能。然而,获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此,数据增强技术应运而生,成为了解决这一问题的…

游戏化教学在高校平台基础课程中的实践与学习体验提升

在高职计算机学院,无论计算机应用技术、软件技术、大数据应用技术还是人工智能应用等不同专业方向的学生,首先要接触和掌握一系列的基础平台课程。这些课程不仅包括政治、英语、数学等文化基础知识内容,更关键的是涉及网页设计基础、编程基础…

智慧校园全空间三维电子沙盘系统

一、概述 易图讯科技(www.3dgis.top)采用大数据、云计算、虚拟现实、物联网、AI等先进技术,自主可控高性能WebGIS可视化引擎,支持多用户客户端通过网络请求访问服务器地图和专题数据,提供地理信息数据、专题数据的并发…

MW Open - 高效率的API接口管理工具

本文将会详细介绍 MW Open,一个高效率的 API 接口管理工具,并提供相关代码示例。 一、简介 MW Open 是一款开源的 API 接口管理工具,支持管理 API 接口、测试 API 接口、生成 API 文档等功能。MW Open 拥有简洁明了的接口管理界面&#xff…

对象克隆学习

假如说你想复制一个简单变量。很简单: int apples 5; int pears apples; 不仅仅是int类型,其它七种原始数据类型(boolean,char,byte,short,float,double.long)同样适用于该类情况。 但是如果你复制的是一个对象,情况就有些复杂了。 …

vue插件--xterm封装

安装 npm install xterm xterm-addon-fit -D两种模式 log:日志输出shell:终端命令 <template><div :id"id" class"xterm"></div> </template> <script> import { defineComponent, onMounted, onBeforeUnmount, watch, n…

Centos7.9和Debian12部署Minio详细流程

一、安装minio Centos wget https://dl.min.io/server/minio/release/linux-amd64/archive/minio-20230227181045.0.0.x86_64.rpm -O minio.rpm sudo dnf install minio.rpmDebian wget https://dl.min.io/server/minio/release/linux-amd64/archive/minio_20230227181045.0…

axios的七大特性

1、在浏览器中发送 XMLHttpRequests 请求&#xff1b; 2、在 node.js 中发送 http请求&#xff1b; 3、基于 promise 的 HTTP 库&#xff0c;支持promise所有的API 4、拦截请求和响应&#xff1b;&#xff08;修改请求数据&#xff0c;只能用在PUT,POST和PATCH这几个请求方法&…