亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。

大模型技术正随着科技革新实现广泛应用,满足多行业图像处理需求。大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技术及其前沿应用》论坛,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高校、研究机构及企业的专家代表就大模型技术在图像领域的发展、应用进行了深入研讨。

行业关注者聆听《大模型技术及其前沿应用》论坛分享

大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。论坛上,合合信息智能创新事业部研发总监常扬分享了合合信息智能文档处理技术在文档解析领域的工作,给与会者带来了新的技术视角。

“文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注'物理版面分析'和'逻辑版面分析。' ”据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。

文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断,是文档处理领域典型的技术难题。通过十几年技术积淀,合合信息打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。

高校研究者、学生排队体验智能文档处理技术

“我们研究过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路,合合信息技术团队也将持续在智能文档处理领域深耕,让新技术在行业中更快速地产生价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/844269.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL问题的常用信息收集命令及解决思路 |OceanBase应用实践

面对SQL问题,大家的常用的分析思路是: 一、问题是否源于SQL本身?是的话需进行SQL调优。 二、SQL语句本身无误,但执行效果并未达到我们的预期效果。 检查当前的服务器负载状况,例如CPU利用率、内存占用、IO读写等关键…

敏感数据的授权和传输加密解决方案

需求背景:解决敏感数据的访问授权和安全传输。 KSP密钥管理系统结合USB Key实现CA证书签发的过程可以大致分为以下几个步骤: 1. 生成密钥对: 用户首先使用USB Key生成一对密钥,包括公钥和私钥。公钥用于加密和验证数字签名&…

教程来咯!如何在Windows10中设置代理IP?

很多用户在使用win10系统的时候,网络设置都是默认的,一般情况下代理服务器都是关闭的状态,而在一些特殊情况下,需要设置代理地址启动功能使用,有不少的用户不知道应该怎么进行设置添加,接下来就和各位用户们…

逍遥散人的“痛婚”,让《光夜》玩家悄悄破防了

网红博主的一场求婚,让《光与夜之恋》玩家破防了。 知名游戏博主逍遥散人发微博公布求婚成功,本来应该是一件喜事,但却因为求婚场景布满了《光与夜之恋》男主角之一陆沉的谷子(周边),遭到了“6推”&#x…

AI知识库和Agent简介及实现

AI知识库和Agent简介及实现 引言 随着人工智能的发展,大规模预训练模型(Large Pre-trained Models,简称大模型)成为了AI领域的重要研究方向。大模型通过大量的数据训练,能够在各种任务中展现出强大的性能。本文将重点…

深入解析多维数组与主对角线元素之和

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:多维数组的奥秘 二、多维数组的基本概念 1. 定义与创建 2. 维度与形…

Downie 4 for Mac:视频下载的新选择

对于Mac用户来说,想要轻松下载网上的视频内容,Downie 4无疑是一个绝佳的选择。这款专为Mac打造的视频下载工具,凭借其强大的功能和简洁的操作界面,让视频下载变得轻松又高效。 Downie 4支持从众多网站下载视频,包括各…

秋招突击——算法——模板题——区间DP(1)——加分二叉树

文章目录 题目描述思路分析实现代码分析总结 题目描述 思路分析 实现代码 不过我的代码写的真的不够简洁&#xff0c;逻辑不够清晰&#xff0c;后续多练练吧。 // 组合数问题 #include <iostream> #include <algorithm>using namespace std;const int N 35; int…

FreeSwitch视频会议同时支持内网和外网接入

我们在使用freeswitch进行视频会议时&#xff0c;之前所有的用户都是通过外网的方式接入&#xff0c;因为fs给其返回的sdp协议内容里&#xff0c;只需要fs配置的外网IP就可以了&#xff1b;最近由于引入新的业务需要有其他内网的服务器也可以直接接入fs的视频会议房间&#xff…

v4l2抓取rv1126图像

0.准备工作 本文是基于正点原子的rv1126开发板使用mx415摄像头对不同节点的图像进行抓取 1.数据流向 图1 mx415采集到的数据为原始的拜尔格式&#xff08;也就是raw格式&#xff09;&#xff0c;我们需要通过isp进行图像的调节才符合视觉&#xff0c;其中isp和ispp是两个处理的…

zynq PS端 GPIO

记录一下PS端 GPIO 1. GPIO 简介 ZYNQ PS 中包含一组丰富的外设&#xff0c;用于和外部设备进行通信。ZYNQ 的 IO 包括对外连接的 GPIO 和内部 PS 与 PL 通信的 AXIO。其中对外的 GPIO 又分为两种&#xff1a;MIO 和 EMIO。 MIO 和 EMIO 只是 GPIO 信号的两种接口&#xff0c…

从零到一建设数据中台 - 数据可视化

从零到一建设数据中台(八)- 数据可视化 一、数据可视化大屏 数据可视化是借助于图形化手段,清晰有效地传达与沟通信息。 将一些业务的关键指标通过数据可视化的方式展示到一块或多块LED大屏上,以大屏为主要展示载体的数据可视化设计。 在数据可视化大屏构建过程中,为了…

排序(前篇)

1.排序的概念及其运用 2.插入排序的概念及实现 3.希尔排序的概念及实现 4.选择排序概念及实现 总代码&#xff08;对比各个排序在大量的数据情况排序所化的时间&#xff09;&#xff1a; 1.排序的概念及其运用 1.1排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使…

Jetpack架构组件_4. 数据绑定库页面传递数据

本篇介绍数据源从activity_main&#xff08;1级页面&#xff09;传递给include布局&#xff08;2级页面&#xff09;。 1.实现步骤 step1.修改build.gradle文件 修改app模块下的build.gradle文件&#xff0c;增加如下内容&#xff1a; dataBinding {enabled true} step2.创建…

java版本数字化时代的智能ERP管理系统:引 领企业高 效管理与创新发展

随着数字化浪潮的席卷&#xff0c;现代企业对于高 效、稳定、易于扩展的管理系统需求愈发迫切。为了满足这一需求&#xff0c;我们倾力打造了一款基于Java技术的企业级资源规划&#xff08;ERP&#xff09;管理系统。该系统以Spring Cloud Alibaba、Spring Boot、MybatisPlus、…

理解多线程看这一篇就够了

一、基本概念与关系 程序 程序是含有指令和数据的文件&#xff0c;静态地存储在磁盘等存储设备上。它是软件的实体&#xff0c;但未被激活。 进程 进程是程序的一次执行过程&#xff0c;是系统运行程序的基本单位。当程序被操作系统加载并执行时&#xff0c;就成为一个进程&a…

Nacos 进阶篇---Nacos服务下线做了哪些事情 ?(八)

一、引言 本章节是第一阶段最后一篇&#xff0c;那么我们今天要学习的源码内容是 “服务下线”. 当Nacos客户端下线的时候&#xff0c;是要去通知服务端&#xff0c;告诉服务端 “ 我已经下线&#xff0c;不可用了 ”。并且在服务下线时&#xff0c;还要去通知其他客户端服务更…

Linux命令那么多,先来一篇文件和目录管理命令!

&#x1f4a1;本文建议大家收藏&#xff01; 文件和目录管理命令 1. ls - 列出目录内容 ls命令是Linux中最常用的命令之一&#xff0c;用于列出目录中的文件和子目录。 ls显示当前目录下的所有文件和目录。 ls -l以长格式列出目录内容&#xff0c;显示文件权限、所有者、大…

如何便捷申请免费SSL证书,实现网站HTTPS安全传输

申请免费SSL证书的教程可以概括为以下几个通用步骤&#xff0c;这里以Lets Encrypt为例&#xff0c;因为它是最受欢迎的免费SSL证书提供商之一&#xff0c;同时也适用于多数其他免费SSL证书提供商&#xff1a; 1.准备工作 确认域名&#xff1a;确保你拥有一个有效的域名&…

CSS学习笔记:响应式布局的原理——媒体查询

什么是响应式布局&#xff1f; 在实际书写代码时&#xff0c;我们不会自己去手写媒体查询来实现响应式布局&#xff0c;我们一般会调用现成的代码库或使用现成的框架&#xff08;但这些代码库或框架的底层原理是媒体查询&#xff0c;所以了解媒体查询也是很有必要的&#xff0…