合合信息大模型加速器重磅上线,释放智能文档全新可能

目录

  • 0 写在前面
  • 1 高速文档解析引擎:拓宽大模型认知边界
  • 2 文本嵌入模型acge:克服大模型感知缺陷
  • 3 行业赋能:以百川智能为例
  • 总结

0 写在前面

随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。2024世界人工智能大会(WAIC)恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。

在这里插入图片描述

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示

互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。

高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。

在这里插入图片描述
下面就让我们一起看看吧~

1 高速文档解析引擎:拓宽大模型认知边界

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。中文高质量语料相对缺乏是国内外大模型面临的共同问题。目前已有的中文语料库不仅规模较小,且其电子化和网络化程度明显不足。

在这种情况下,电子书、报告、论文、报纸等高质量语料对大语言模型训练就产生了重要意义。首先,这些海量的语言数据源提供了丰富多样的文本内容——涵盖了各种领域的知识、专业术语、实际应用场景等,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,这些语料通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。因此,通过这类未完全开发的语料进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。

当前,大模型算力算法能力显著提升,进一步发展取决于数据和场景,应构建高质量的数据集。一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。然而,要推动数据供需双方建立合作并非易事,研究者需要明白:大模型语料处理中的“拦路虎”到底是什么?

答案是:表格、公式、图表等复杂元素的处理,这大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

本次人工智能大会上,合合信息带来的大模型加速器——高速文档解析引擎,为大语言模型受限于高质量语料版面解析的窘境提供了全新的解决方案,我们先来看一个案例:

案例一:如图所示为大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。对比显示,文档解析引擎分析了论文中关于电动车充电载荷的定量数据和图表,并能对用户“从电动车历史数据来看,哪辆车充电时长最短”的问题作出准确的回答。

在这里插入图片描述

为了应对复杂的图表文档解析任务,合合信息采集了折线图、饼图、柱状图、曲线图等十余种常见图表作为识别样本,使引擎能够提取图表中的关键信息,如数据趋势、比例、变化趋势等,帮助用户快速理解图表所传达的信息。这种能力不仅提高了文档处理的效率,还减少了人工处理过程中的错误和偏差,提升了数据分析的准确性和可靠性,为研究、决策和信息获取提供了强有力的支持。

在这里插入图片描述

文档解析引擎除了准,还需要快。大家不妨思考一下,如果文档解析引擎处理速度不够快,会发生什么?最直接地,大模型的整个训练流程的效率受影响,训练过程中的大量时间花费在等待文档解析上,而非实际的模型训练和优化上;在云计算环境下,可能需要更多的计算实例或更长时间的运行,从而增加成本;在在线学习或增量学习的情况下,解析引擎速度慢也会导致数据的流动延迟;在一些需要持续学习的场景下,大模型在动态数据环境中的适应能力也会受限。作为现阶段市面上同类文档解析引擎中处理速度最快的产品之一,合合信息文档解析引擎最快1.5秒就能解析百页长文档中的非结构化数据,是名副其实的大模型加速器

在这里插入图片描述

文档中还包含大量的逻辑信息、文档逻辑结构与复杂阅读顺序。文档解析引擎的能力直接关系到大模型能否理解其内容,并从中获取关键信息。这对于大模型的训练、调试,以及与真实世界数据的无缝集成和应用有着非常重要的作用。

下面的案例展示了引擎对专业图表的还原能力,即可以将研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表拆解为大模型能“读懂”的markdown格式

案例二:文档解析引擎将全国居民消费价格涨跌幅图表解析为带有具体数值的表格

在这里插入图片描述

2 文本嵌入模型acge:克服大模型感知缺陷

虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。

例如下面的例子直观地解释了什么是大模型幻觉。在准确率要求非常高的场景下幻觉是不可接受的,比如医疗领域、金融领域等

案例三:已有的知识是丹尼尔·瓦切克和汉娜·曼德利科娃都是职业网球运动员。我们问大模型一个很简单的问题:丹尼尔·瓦切克和哈娜·曼德利科娃在哪项运动中获得了职业地位?结果大模型错误地回答了从未出现过的信息:板球。

在这里插入图片描述

RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。

在这里插入图片描述

前段时间,合合信息发布的文本向量化模型acge_text_embedding(简称acge模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。

在这里插入图片描述

acge位居C-MTEB榜首

acge模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。

案例四:下面的文档排版引擎包含字符嵌入(Character embedding)文本行嵌入(Textline embedding)段落嵌入(Paragraph embedding)关系嵌入(Relation embedding)四部分嵌入向量

在这里插入图片描述

acge模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。灾难性遗忘指的是随着新任务的增加,先前学习的处理之前任务的能力不应(显著)随时间降低。类比人类的学习过程:人类在不断学习新概念的过程中可能会逐渐忘记一些已学习的概念,但是新信息的学习不会使得人们大量遗忘旧概念,例如人体的体感皮层可以在运动学习期间吸收新信息,而不会破坏先前获得的运动技能的稳定性;当回忆旧概念的时候,人类可以直接调取已学习的知识。

案例五:在缺陷分类方面,当有新类别的缺陷数据出现时,模型为了拟合新类别的缺陷数据,在旧类别缺陷数据的分类准确率就会大幅度下降,发生灾难性遗忘
在这里插入图片描述

灾难性遗忘最早出现在连接主义网络中,在一定条件下,学习一组新模式的过程中突然彻底地抹去了网络对其已学知识的了解,这种现象称为灾难性干扰,造成这一现象的根本原因就是网络共享一组权重。为了克服灾难性遗忘,学习系统应防止学习的新知识显著干扰甚至覆盖已有的知识。但是,在不针对这一问题改进训练过程的情况下,网络在学习过程随着新概念的学习,必将遭受旧概念的灾难性遗忘。这一问题的存在使得现在常用的人工神经网络等模型无法在常规训练方法下持续不断地学习不同任务的知识,而只能用于处理单一任务。

事实上,灾难性遗忘体现了神经网络的可塑性-稳定性矛盾:可塑性指的是模型学习新任务的能力,而稳定性则是指在更新时保留旧任务知识的能力。完全稳定的模型,可以很好的保留旧任务的知识,但没办法很好的学习新任务,而性能完全可塑的模型,可以即时学习好新任务,但无法很好的保留旧任务的知识。过度关注新任务的性能,必然会使得过去任务的性能下降,反之亦然。因此,如何设计一个能够同时对新输入敏感但不受新输入的干扰,是解决灾难性遗忘问题的关键。

通过引入持续学习训练方式,合合信息acge模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间

3 行业赋能:以百川智能为例

在金融报表、行业报告等高知识密度的文档中,版面包含的信息量巨大,总结来说包含两个关键点:

  • 物理版面(Physical Layout):即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;
  • 逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。

针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,实时性模型结构的设计方案缺失、文档的具体内容边界模糊等挑战性难题层出不穷。

在这里插入图片描述

挑战与机遇并存。对文档的智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:合合信息焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

在这里插入图片描述

本次世界人工智能大会现场,合合信息与百川智能携手,推动复杂专业领域与大模型接轨,促进大模型从“可用”朝着“好用”的水平发展,使大模型能够真正变成赋能千行百业的生产力。

总结

当前,大模型正从通用场景快速拓展到各行业的细分领域,为传统产业插上人工智能的翅膀。从文娱到医疗,从制造到金融,我们已经看到越来越多定制化的行业大模型应运而生,赋能各行业的数字化智能化转型。合合信息带来的大模型加速器方案,为高质量语料数据流通与治理、大模型专业化定制化落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。

让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Canvas:掌握图像变换合成与裁剪状态像素操作

想象一下,用几行代码就能创造出如此逼真的图像和动画,仿佛将艺术与科技完美融合,前端开发的Canvas技术正是这个数字化时代中最具魔力的一环,它不仅仅是网页的一部分,更是一个无限创意的画布,一个让你的想象…

java使用poi-tl模版引擎导出word之if判断条件的使用

文章目录 模版中if语句条件的使用1.数据为False或空集合2.非False或非空集合 模版中if语句条件的使用 如果区块对的值是 null 、false 或者空的集合,位于区块中的所有文档元素将不会显示,这就等同于if语句的条件为 false。语法示例:{{?stat…

视图库对接系列(GA-T 1400)十四、视图库对接系列(本级)新增、修改订阅

说明 之前我们已经对接的设备,设备的话比较简单,是设备主动推送数据到平台的。 相信大家已经会了,那今天开始的话,我们来做对接平台,相对难点点。 但搞懂了核心的订阅流程的话,其实就不难了。 对接平台 订阅接口 订阅接口的话,有几个,添加、查询、更新、删除、取消…

Linux镜像源设置不再难:一键脚本,新手也能成为优化高手(一键切换镜像源/Docker一键安装脚本)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 更换镜像源 📒📝 一键切换软件源📝 Docker一键安装脚本⚓️ 相关链接 ⚓️📖 介绍 📖 在国内,Linux系统用户经常会遇到下载软件包时速度慢的问题,这通常是因为默认的镜像源并不总是最优选择。对于新手来说,手动设置…

亚马逊速卖通卖家必看:自养号测评策略,下单高效防关联全攻略

在跨境电商的激烈竞争中,自养号测评策略已成为众多卖家追求低成本、高效推广的优选路径。然而,其成功实施离不开一系列精心策划与严格执行的关键要素。以下是对这些核心条件的深入剖析,旨在指导您安全、有效地构建并运营自养号测评体系。 一、…

【内网渗透】MSF渗透阶段的常用指令笔记

目录 渗透阶段划分 msfvenom 常用参数 各平台生成payload命令 Meterpreter Meterpreter的常用命令 基本命令 常用命令 针对安卓手机的一些命令 针对Windows的一些命令 文件系统命令 生成木马反弹shell(以linux靶机为例) 木马生成 配置监控 攻击利用 渗透阶段划分…

从零开学C++:入门

引言:经过C语言和数据结构等编程知识的洗礼,到了暑假,我们就将要踏上C编程语言的学习了,C的学习难度比python等其他语言的学习难度更大,但是我们已经熟练地掌握了C语言的知识,相信学习起来C应该还是会简单许…

RSRS研报复现——年化21.5%,含RSRS标准分,右偏标准分的Backtrader指标计算(代码+数据)

原创文章第583篇,专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 继续Backtrader,今天讲讲指标扩展。 作为规则型的量化框架,指标是非常重要的元素,它是策略的基础。 我们来扩展一个经典的指标,RSR…

matlab数值溢出该怎么解决?

🏆本文收录于《CSDN问答解惑》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

LabVIEW自动测控与故障识别系统

使用LabVIEW 2019在Win10 64位系统上开发自动测控软件,通过与基恩士NR-X100数据采集仪通讯,实时采集和分析数据,自动识别判断产品是否合格,并增加数据记录和仿真功能。 具体解决方案: 1. 系统架构设计 硬件接口&#…

前端面试题38(js原型与对象)

在JavaScript中,原型(prototype)是核心特性之一,它用于实现对象之间的继承和属性方法的共享。理解原型和对象的关系对于深入学习JavaScript至关重要。下面我会详细解释这两个概念以及它们是如何工作的,并给出一些示例代…

Java设计模式---(创建型模式)工厂、单例、建造者、原型

目录 前言一、工厂模式(Factory)1.1 工厂方法模式(Factory Method)1.1.1 普通工厂方法模式1.1.2 多个工厂方法模式1.1.3 静态工厂方法模式 1.2 抽象工厂模式(Abstract Factory) 二、单例模式(Si…

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【密钥协商(ArkTS)】

密钥协商(ArkTS) 以协商密钥类型为X25519 256,并密钥仅在HUKS内使用为例,完成密钥协商。 开发步骤 生成密钥 设备A、设备B各自生成一个非对称密钥,具体请参考[密钥生成]或[密钥导入]。 密钥生成时,可指定参数HUKS_TAG_DERIVE…

LLM-文本分块(langchain)与向量化(阿里云DashVector)存储,嵌入LLM实践

文章目录 前言向量、令牌、嵌入分块按字符拆分按字符递归拆分按token拆分 向量化使用 TextEmbedding 实现语义搜索数据准备通过 DashScope 生成 Embedding 向量通过 DashVector 构建检索:向量入库语义检索:向量查询完整代码 总结 前言 Transformer 架构…

[C++][ProtoBuf][Proto3语法][三]详细讲解

目录 1.默认值2.更新消息1.更新规则2.保留字段reserved 3.未知字段1.是什么?2.未知字段从哪获取 4.前后兼容性5.选项option1.选项分类2.常用选项列举3.设置自定义选项 1.默认值 反序列化消息时,如果被反序列化的⼆进制序列中不包含某个字段,…

基于Spring Boot的旅游信息推荐信息系统设计与实现(源码+lw+部署+讲解)

技术指标 开发语言:Java 框架:Spring BootJSP JDK版本:JDK1.8 数据库:MySQL5.7 数据库工具:Navicat16 开发软件:IDEA Maven包:Maven3.6.3 浏览器:IE浏览器 功能描述 旅游信…

Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析

章节内容 上一节我们完成了内容: Flume 启动测试Flume Conf编写Flume 测试发送和接收数据 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但…

深入探索大语言模型

深入探索大语言模型 引言 大语言模型(LLM)是现代人工智能领域中最为重要的突破之一。这些模型在自然语言处理(NLP)任务中展示了惊人的能力,从文本生成到问答系统,无所不包。本文将从多个角度全面介绍大语…

AGE agtype 简介

AGE 使用一种名为 agtype 的自定义数据类型,这是 AGE 返回的唯一数据类型。agtype 是 Json 的超集,也是 JsonB 的自定义实现。 简单数据类型 Null 在Cypher中,null用于表示缺失或未定义的值。概念上,null表示“缺失的未知值”&…

路径规划 | 基于蚁群算法的三维无人机航迹规划(Matlab)

目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 基于蚁群算法的三维无人机航迹规划(Matlab)。 蚁群算法(Ant Colony Optimization,ACO)是一种模拟蚂蚁觅食行为的启发式算法。该算法通过模拟蚂蚁在寻找食物时…