VALSE 2024合合信息 | 文档解析与向量化技术加速多模态大模型训练与应用

第十四届视觉与学习青年学者研讨会(VALSE 2024)近期在重庆悦来国际会议中心圆满举行,由中国人工智能学会(CAAI)、中国图象图形学会(CSIG)、中国民族贸易促进会主办,重庆邮电大学承办。与会专家学者围绕计算机视觉、图像处理、模式识别与机器学习研究领域等国内外前沿热点进行深入研讨。

本次大会共计开展数十场AI领域学术精彩纷呈的研讨报告,同时也吸引数千名来自学术界及产业界的视觉和机器学习领域青年学者参与,为计算机视觉、图像处理、模式识别、多媒体与机器学习研究领域内的青年学者们提供了一个深层次、纯粹学术及技术交流的舞台。

在大会的 VALSE 2014 Workshop 环节,作为领先的人工智能厂商,合合信息就《文档解析与向量化技术加速多模态大模型训练与应用》主题进行了分享,针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

1、大模型与文档图像处理

2023年以CHAT GPT为代表的大规模语言模型风靡全球,同时以GPT-4V为代表的多模态大模型也倍受关注。多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。从微软对GPT-4V做的测评报告中可以看出GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。

但文档解析领域的核心问题依然存在,文档图像分析识别与理解的技术难题主要包括以下方面:

  • 1)场景及版式多样:文档图像可能来自不同的场景和版式,如报纸、书籍、手写笔记等,每种场景和版式都具有不同的特点和挑战,需要算法能够适应不同的场景和版式。
  • 2)采集设备不确定性:文档图像可能通过不同的采集设备获取,如扫描仪、手机相机等,不同设备的成像质量和参数不同,导致图像质量和特征的差异,需要算法具备鲁棒性,能够处理不同设备采集的图像。
  • 3)用户需求多样性:用户对文档图像的需求各不相同,有些用户可能只需要提取文本信息,而有些用户可能需要进行结构化的理解和分析,算法需要能够满足不同用户的需求。
  • 4)文档图像质量退化严重:由于文档的老化、损坏或存储条件等原因,文档图像的质量可能会受到严重的退化,如模糊、噪声、光照不均等,这会给文字检测、字符识别等任务带来困难。
  • 5)文字检测及版面分析困难:文档图像中的文字可能存在不同的字体、大小、颜色等变化,而且文字可能与背景颜色相似,导致文字检测和版面分析变得困难,算法需要具备高效准确的文字检测和版面分析能力。
  • 6)非限定条件文字识别率低:在非限定条件下,文档图像中的文字可能出现扭曲、变形、遮挡等情况,这会导致传统的文字识别算法的准确率下降,需要算法具备对非限定条件下的文字进行准确识别的能力。
  • 7)结构化智能理解能力差:文档图像中的信息不仅仅是文字,还包括表格、图表、图像等结构化信息,算法需要具备结构化智能理解的能力,能够对文档中的结构化信息进行提取、分析和理解。

2、文档图像解析领域的典型技术难点问题

文档中通常含有大量的图片、表格等非文字内容,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向文档解析系统输入文档图像后,系统会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。在文档解析的过程中,有如下几个典型的技术难点问题:

1)版面检测

文档中有各种复杂的布局和版面(比如双栏、跨页、三栏等),需要准确地识别出文档中版面结构。

2)阅读顺序还原

要有效识别文档中的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

3)表格还原

文档中可能包含有各种样式的表格数据或文字,要有效地还原这些表格,就需要识别出无线表格和合并单元格等关键信息。

4)公式识别

文档中可能在不同的位置嵌入了各种公式,比如单行公式、行内公式、表格内公式等。

3、合合信息的智能文档解析技术

为了解决上述文档解析的诸多技术难题,合合信息将智能文档处理研究主题分成了以下六个模块:

合合信息的文档解析技术框架如下所示:

合合信息通过图像分析、文档解析、版面分析、信息抽取、安全保障和知识化管理等方法,实现了智能文档解析处理的全流程,提供了高效、准确和安全的文档解析处理服务。

  • 文档图像分析与预处理:通过图像处理技术对文档图像进行分析和预处理,去除噪声、调整图像亮度和对比度等,以提高后续处理的准确性和效果。
  • 文档解析与识别:在图像预处理之后,采用光学字符识别(OCR)技术对文档进行解析和识别,将图像中的文字转换为可编辑和可搜索的文本格式,以便后续处理和分析。
  • 版面分析与还原:进行版面分析,识别文档中的标题、段落、表格、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。
  • 文档信息抽取与理解:利用自然语言处理(NLP)和机器学习技术,对文档中的关键信息进行抽取和理解,以获取业务实际场景所需要的关键信息。
  • AI图像内容安全:检查文档图像是否有篡改、合成、生成痕迹,保障文档图像安全。
  • 知识化&存储检索和管理:将处理后的文档信息进行知识化,以便于后续的存储、检索和管理,用户可快速找到所需的文档或信息。

4、合合信息文档图像专有模型

随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。

多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,如文本、图像、音频等,并借助大规模深度学习模型的训练,来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度,进而推动相关行业的数字化转型和智能化升级。

为了将大模型与文档图像解析技术有效地结合起来,合合信息推出了基于深度学习技术的文档图像专有模型。

该模型基于深度神经网络结构,经过了海量数据的训练和优化,拥有强大的文档图像处理能力。它可以识别和提取文档中的文字、表格、图形等信息,实现自动化的文档解析和理解。在多个领域都有广泛的应用,例如金融、法律、医疗等。它可以帮助企业和个人实现文档的自动化处理,提高工作效率,减少人工成本。

对于不同模态的数据具有不同的特点和表达方式,如何有效地将它们进行融合和交互是一个关键问题。其次,多模态大模型需要处理更加复杂和庞大的数据,对计算资源和模型设计提出了更高的要求。另外,多模态数据的标注和训练也是一个挑战,因为不同模态之间的关联和对齐需要更加精细的处理。

合合信息将文档图像识别分析的各种任务定义为序列预测的形式(文本,段落,版面分析,表格,公式等等),再通过不同的prompt引导模型完成不同的OCR任务,支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式,最后将文档理解相关的工作交给LLM去做。

总的来说,文档图像大模型主要包括以下功能:

  • 文字识别与提取:能够对文档图像中的文字进行准确识别,并提取出文字内容。无论是印刷体还是手写体,多种语言都可以被识别。
  • 文档结构分析:能够智能地分析文档的结构,识别出标题、段落、列表、表格等不同的结构元素,帮助用户更好地理解文档的组织结构。
  • 表格解析与提取:能够自动识别和解析文档中的表格结构,提取出表格中的数据,并将其转化为结构化的数据形式,方便后续的数据处理和分析。
  • 关键信息提取:能够从文档中提取出关键信息,如日期、金额、公司名称等,帮助用户快速获取文档中的重要内容。
  • 文档分类与检索:能够根据文档的内容和特征,将文档进行分类和索引,方便用户进行文档管理和检索,提高工作效率。

5、合合信息的文本向量化模型

在信息化时代,文本数据呈爆炸式增长,如何高效、准确地处理和分析这些文本数据,成为各行各业亟待解决的问题。基于此文本向量化技术应运而生,它可以将文本转换为数值向量(也就是计算机能够理解的数值形式),是自然语言处理中的一项基础技术。通过文本向量化,文本内容被转换为计算机可以处理的形式,从而便于后续的分析和挖掘工作。

近日合合信息基于其高效的文本处理能力以及强大的语义信息捕捉能力,发布了文本向量化模型 acge_text_embedding,该模型在 MTEB 中文榜单(C-MTEB)中一举夺魁,成为业内瞩目的焦点。

这次最新发布的acge_text_embedding 模型属于Word Embeddings模型,适用于情感分析、文本生成等复杂的NLP任务。这一模型获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高;应用场景广泛,在相似性检索、信息检索和推荐系统中都有很好的效果;模型在设计时考虑到不同行业,不算规模应用的需要,支持定制服务,满足多样化需求。不仅如此,与榜单前五名其他几个模型相比,acge模型占用资源少;模型输入长度较长,可以满足上下文关联的需求;支持可变输出维度,可以根据具体场景合理分配资源。

合合信息算法团队在模型升级迭代过程中采取了多项措施,以克服行业中存在的技术难点,并不断优化Embedding模型的性能和效果。在信息检索领域,该模型能够准确捕捉用户查询意图,提高检索结果的准确性和相关性;在自然语言理解领域,模型能够深入理解文本含义,为机器翻译、问答系统等应用提供强大支持;在情感分析领域,模型能够准确识别文本中的情感倾向,为企业决策提供有力依据。acge_text_embedding 模型具体主要应用领域如下:

  • 搜索优化:通过 acge_text_embedding 模型,搜索引擎可以根据查询字符串和文档之间的向量相似性来排名搜索结果。由于模型能够深入理解文本语义,因此排名靠前的内容通常与查询字符串最为相关,从而提高了搜索的准确性和效率。
  • 文本分类:在文本聚类任务中,acge_text_embedding 模型可以度量文本之间的相似性,从而将文本分组成不同的类别或簇。使用已经预训练好的 Embedding 模型来提取文本特征,并通过分类器(如 SVM、LR 等)对文本进行分类。例如,对于新闻文本,我们可以使用 Embedding 技术将文本转换为向量,然后利用分类器判断新闻的类别(如体育、科技、娱乐等)。
  • 语义相似度计算:acge_text_embedding 模型可以帮助构建用户和项目的表示特征,使得推荐系统可以根据用户的历史行为或偏好,计算用户向量与项目向量之间的相似度,从而向用户推荐具有相关性的项目。无论是电商产品推荐、音乐或视频推荐还是新闻资讯推荐,该模型都能发挥重要作用。
  • 异常检测:在异常检测任务中 acge_text_embedding 模型也可发挥重要作用,将文本数据映射到一个向量空间中,并通过度量文本向量与正常数据之间的距离或相似性来识别与正常行为不同的异常值。这对于监控网络舆情、发现欺诈行为或预测系统故障等方面非常有用。
  • 情感分析:利用 Embedding 技术将文本转换为向量,然后利用机器学习算法(如 SVM、神经网络等)对文本进行情感分析,判断文本的情感倾向(如正面、负面、中性)。

6、合合信息

上海合合信息科技股份有限公司(简称“合合信息”),是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

  • 合合信息官网:https://www.intsig.com/

公司C端业务主要为全球个人用户的3个APP产品,包括扫描全能王(智能扫描及文字识别APP)、名片全能王(智能名片及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品。公司B端业务为企业客户提供以智能文字识别、商业大数据为核心的服务,帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点,提供了较高的技术附加值。目前已在银行、保险、证券、基金、汽车金融、供应链金融、政务、制造、物流、地产、征信等多个行业实现成熟应用。

7、最后

合合信息采用文档解析与向量化技术来加速多模态大模型的训练与应用,这种技术的核心是将各种类型的文档(如文本、图像、音频等)转换成机器可理解的向量表示,从而实现对多模态数据的统一处理和分析。

  • 文档解析技术通常涉及对文档进行结构化处理,将文本内容提取出来,并根据需要进行标记、分类等操作。这有助于提高数据的可用性和可分析性。
  • 向量化技术则是将文档内容映射到向量空间中,从而将文档表示为数学上的向量形式。这种表示方法有利于计算机进行高效的数据处理和分析,同时也为模型训练提供了更好的数据表示。
  • 多模态大模型的训练与应用需要处理各种类型的数据,包括文本、图像、音频等。通过文档解析与向量化技术,可以将这些不同类型的数据统一表示为向量形式,从而使得模型可以更好地处理和理解多模态数据。

总的来说,文档解析与向量化技术为多模态大模型的训练与应用提供了重要的技术支持,能够加速模型的训练过程并提高模型的效果和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/12108.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AWS ECS On Fargate 监控可观测最佳实践

概述 Amazon ECS on Fargate 为用户提供了简单、高效且可靠的容器化解决方案,使用户能够专注于应用程序开发和运行,而无需担心基础设施管理的复杂性。与其同时,用户需要实时了解在该环境中应用程序运行的性能、可用性、健康状况和资源使用情…

【BUUCTF】Crypto_RSA(铜锁/openssl使用系列)

【BUUCTF】Crypto_RSA(铜锁/openssl使用系列) 1、题目 在一次RSA密钥对生成中,假设p473398607161,q4511491,e17 求解出d作为flga提交 2、解析 RSA加密过程: 1)选择素数:选择两个不…

rabbitmq交换机,死信队列的简单例子

假设我们有一个场景,生产者有消息发到某个直连交换机,这个交换机上有两个队列分别存储两种类型的消息,但是与这两个队列相连的消费者太不争气了,处理消息有点慢,我们想5秒钟这个消息在队列中还没有被消费的话&#xff…

【MIT6.S081】Lab7: Multithreading(详细解答版)

实验内容网址:https://xv6.dgs.zone/labs/requirements/lab7.html 本实验的代码分支:https://gitee.com/dragonlalala/xv6-labs-2020/tree/thread2/ Uthread: switching between threads 关键点:线程切换、swtch 思路: 本实验完成的任务为用户级线程系统设计上下文切换机制…

SGPM02陀螺仪模块通过惯性导航助力AGV小车的发展

之前我们介绍过SGPM01系列陀螺仪模块在智能泳池清洁机器人导航的方案(SGPM01)。这款惯性导航模块收到了许多企业的欢迎。由此,爱普生推出了SGPM02系列陀螺仪模块通过惯性导航,助力AGV小车的发展。 AGV是一种用于运输材料的无人驾驶车辆,并且A…

ICode国际青少年编程竞赛- Python-5级训练场-带参数函数

ICode国际青少年编程竞赛- Python-5级训练场-带参数函数 1、 def get_item(a):Dev.step(a)Dev.step(-a) get_item(4) Spaceship.step(2) get_item(2) Spaceship.step(3) get_item(5) Spaceship.step(2) get_item(3) Spaceship.step(3) get_item(4)2、 def get_item(a): D…

老杨说运维 | 金融业数据中心的发展趋势

【这是老杨在2023.10乌镇大会上的演讲(一)。接下来,6月初老杨又要在成都开讲了。到时候再发新的】 最近几年,“企业数字化转型”是行业内最热的一个词。当然,“新质生产力”又成了这个月最热的词。虽然新词热词层出不…

基于JAVA8的lambda递归的treeNode树形遍历

1.TreeNode类 import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor; import java.util.List;Data NoArgsConstructor AllArgsConstructor public class TreeNode {Integer id;String value;/** 子节点信息 */List<TreeNode> childr…

SHELL-双重循环习题练习

1.99乘法表 #!/bin/bash #99乘法表for ((second1; second<9; second)) dofor ((first1; first<second; first))do echo -n -e "${first}*${second}$[first*second]\t" done echo done ######### 首先定义了一个外循环变量second&#xff0c;初始值为1&am…

AI 情感聊天机器人工作之旅 —— 与复读机问题的相遇与别离

前言&#xff1a;先前在杭州的一家大模型公司从事海外闲聊机器人产品&#xff0c;目前已经离职&#xff0c;文章主要讨论在闲聊场景下遇到的“复读机”问题以及一些我个人的思考和解决方案。文章内部已经对相关公司和人员信息做了去敏&#xff0c;如仍涉及到机密等情况&#xf…

linux学习:多媒体开发库SDL+视频、音频、事件子系统+处理yuv视频源

目录 编译和移植 视频子系统 视频子系统产生图像的步骤 api 初始化 SDL 的相关子系统 使用指定的宽、高和色深来创建一个视窗 surface 使用 fmt 指定的格式创建一个像素点​编辑 将 dst 上的矩形 dstrect 填充为单色 color​编辑 将 src 快速叠加到 dst 上​编辑 更新…

连锁收银系统源代码有哪些功能,进销存+收银+会员+门店补货+线上商城

在现代零售行业&#xff0c;高效的管理系统是保持连锁店运营顺畅的关键。而开源连锁收银系统作为一款功能丰富的管理软件&#xff0c;为零售企业提供了全面的解决方案&#xff0c;涵盖了进销存管理、收银、会员、门店补货以及线上商城等多个方面&#xff0c;帮助企业实现精细化…

C语言判断字符旋转

前言 今天我们使用c语言来写代码来实现字符串选择的判断&#xff0c;我们来看题目 题目描述 写一个函数&#xff0c;判断一个字符串是否为另外一个字符串旋转之后的字符串。 例如&#xff1a;给定s1 AABCD和s2 BCDAA&#xff0c;返回1 给定s1abcd和s2ACBD&#xff0c;返回0. A…

想白嫖?音视频的文本提取和总结?NoteGPT满足你

NoteGPT实现了音频、录音以及视频的AI总结 NoteGPT最近做了一个功能&#xff1a;Audio Summary&#xff08;Audio Summary with AI - NoteGPT&#xff09; 1&#xff09;完全免费&#xff1b; 2&#xff09;支持mp3、mp4&#xff1b; 3&#xff09;支持URL和本地上传&…

【UE Niagara】在UI上生成粒子

效果 步骤 1. 在虚幻商城中将“Niagara UI Render”插件安装到引擎 2. 打开虚幻编辑器&#xff0c;勾选插件“Niagara UI Renderer”&#xff0c;然后重启编辑器 3. 先创建一个控件蓝图&#xff0c;该控件蓝图只包含一个按钮 这里设置尺寸框尺寸为200*50 4. 显示该控件 5. 新…

Excel——项目管理,设置时间到期自动提醒及颜色高亮

效果图 第一步、自动获取合同到期日期 1、首先合同【签约日期】和【到期日期】下面的数据必须是日期格式&#xff0c;不能是其它的格式否则无法计算&#xff0c;如果是其它格式需要转换成标准的日期格式&#xff0c;如下图所示。 2、在“到期日期”下面的第一个单元格中输入公…

如何让机器理解人类语言?Embedding技术详解

如何让机器理解人类语言&#xff1f;Embedding技术详解 文章目录 如何让机器理解人类语言&#xff1f;Embedding技术详解介绍什么是词嵌入&#xff1f;什么是句子嵌入&#xff1f;句子嵌入模型实现句子嵌入的方法值得尝试的句子嵌入模型 句子嵌入库实践Step 1Step 2Step 3 Doc2…

GBJ3510-ASEMI室内空调机GBJ3510

编辑&#xff1a;ll GBJ3510-ASEMI室内空调机GBJ3510 型号&#xff1a;GBJ3510 品牌&#xff1a;ASEMI 封装&#xff1a;GBJ-4 最大重复峰值反向电压&#xff1a;1000V 最大正向平均整流电流(Vdss)&#xff1a;35A 功率(Pd)&#xff1a;中小功率 芯片个数&#xff1a;4…

股东那些事儿:解锁企业背后的权力玩家与盈利秘籍

Hello&#xff0c;大家好啊&#xff0c;今天咱们要聊的主角&#xff0c;是每个企业背后不可或缺的隐形巨擘——股东。他们是谁&#xff1f;他们怎样从公司的经营中分一杯羹&#xff1f;又如何在商业棋盘上运筹帷幄&#xff1f;搬好小板凳&#xff0c;咱们这就开启股东世界的探秘…

Node.js 学习笔记 express框架

express express 使用express下载express 初体验 express 路由什么是路由1路由的使用验证的方法 2获取请求报文参数3获取路由参数4响应设置响应报文 express 中间件5中间件全局中间件路由中间件 6静态资源中间件注意事项案例 7请求体数据8防盗链实现防盗链 9路由模块化router E…