合合信息大模型“加速器”重磅上线

大模型技术的发展和应用,预示着更加智能化、个性化未来的到来。如果将大模型比喻为正在疾驰的科技列车,语料便是珍贵的“燃料”。本次世界人工智能大会期间,合合信息为大模型打造的“加速器”解决方案备受关注。

在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。

TextIn是合合信息旗下的智能文档处理平台,在智能文字识别领域深耕17年,致力于图像处理、模式识别、神经网络、深度学习、STR、NLP、知识图谱等人工智能领域研究。凭借行业领先的技术实力,为扫描全能王、名片全能王等智能文字识别产品提供强大的底层技术支持,并对企业、开发者、个人用户提供智能文字识别引擎、产品、云端服务。
立足AI时代,TextIn以深厚的技术积累为基础,接连推出通用文档解析、通用文本向量等技术,赋能大模型文档应用落地、RAG与Agent开发,成为大模型的“加速器”。
在这里插入图片描述

文档解析引擎:百页文档秒级处理,为大模型发展输送更加纯净的“燃料”

大模型如火如荼发展的背后,高质量的语料正在被急速消耗。对于中国的大模型企业而言,语料短缺问题更为严峻:当前大模型数据集主要为英文,全球通用的50亿大模型数据训练集里,中文语料占比极低。大批高价值语料数据“沉睡”在报告、论文、报纸等文档里,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力,使之无法被提取。

现阶段,无线表、跨页表格、复杂公式等元素的处理仍是大模型语料处理中的“拦路虎”。合合信息文档解析引擎“动能”强大,最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据,系现阶段市面上同类文档解析引擎中处理速度最快的产品之一;引擎还具备优秀的文档“理解力”,可智能还原文档阅读顺序,加速了模型在预训练、开发、使用落地等多方面的流程。

在现场,参观者可选择物理、医学、金融、社会学等多个知识领域的文档,向大模型提问专业问题,例如对特定表格内容的总结、关键要素的分析等。对比测试结果显示,加载了文档解析引擎的大模型,在回答问题的速度、详细程度、准确度上更胜一筹。

file
图:大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。

文档解析引擎的“理解力”从对于图表等对象的处理能力可见一斑。目前,市面上大多数大模型尚不具备对于图表内容的识别、解析能力,文档解析引擎可对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行“还原”,将其拆解为大模型能“读懂”的markdown格式。

file
图:文档解析引擎将地中海气候图表解析为带有具体数值的Excel表格

在文档解析引擎的帮助下,大模型可以直接获取图表原始的结构化数据,高效地学习理解商业研报和学术论文等专业文档中的论证逻辑,提升语言理解、数据处理、知识推理分析的效率和准确性,满足更高价值的金融和学术等应用场景的需要。此外,文档解析引擎也能做到在图表不显示具体数值的情况下,仅依据坐标轴区间估算具体数值,实现了行业级突破。

file
图:文档解析引擎基于坐标轴区间,对不显示具体数据的图表进行数值估算。

acge模型:为大模型发展打造“指南针”

除了语料质量问题,制约大模型发展的另一个关键点在于“幻觉”现象的产生。合合信息大模型“加速器”加载了acge_text_embedding模型(简称“acge模型”),通过对大量中文文本数据的深入学习,能够在应用中显著提高大模型信息搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图的特性。

如果将大模型比喻为一艘正在行驶的船,acge模型则充分发挥了“指南针”的作用,帮助大模型快速定位通往正确“思路”的航向,在信息的海洋里快速“捞针”,让大模型更准确地理解专业问题。acge模型具备广泛的应用场景,从相似性搜索、信息检索到推荐系统,模型均可提供强有力的技术支撑,极大地提升系统的性能和体验。

此外,acge模型还引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,可帮助大模型在多个行业中快速创造价值,为构建新质生产力提供强有力的技术支持。

当前,acge模型已在多个应用场景下展现其优势:
(a) 文档分类:通过ocr技术精确识别图片、文档等场景中的文字,利用acge强大的文本编码能力,结合语义相似度匹配技术,构建通用分类模型;
(b) 长文档信息抽取:通过文档解析引擎与层级切片技术,利用acge生成向量索引,检索抽取内容块,提升长文档信息抽取模型精度;
© 知识问答:通过文档解析引擎与层级切片技术,利用acge生成向量索引,定位文件内容,实现精准问答。

目前,合合信息大模型“加速器”已被应用于多家头部大模型厂商的预训练流程。此外,“加速器”有望在金融、财经、建筑、医疗等数据密集型领域中建立起“行业级知识库”,帮助企业实现知识资产管理、搜索效率提升,优化业务沟通流程,让大模型在“源头活水”的哺育下,更快速地润泽千行百业。

行业应用:百川智能

在金融报表、行业报告等高知识密度的文档中,表格的含义是最精华的数据指标。失之毫厘差之千里,一个单元格的理解问题,可能导致整个表格的识别结果产生误差,而表格的还原准确率,直接影响着模型问答的效果。本次世界人工智能大会现场,合合信息与百川智能携手,穿透双栏、多栏、表格、图片等复杂的版式,从金融、社科等多领域文档图像中快速提取关键信息,精准地回答用户“刁钻”的专业问题,引起了业内人士的关注。

百川智能是一家研发通用人工智能并提供相关服务的公司,核心业务是打造基础大模型及颠覆性上层应用。在大模型文档处理场景中,合合信息与百川共同探索技术应用新范式,破解困扰大模型产业已久的多文档元素识别、版面分析难题,将对百页文档的整体处理速率提升超过10倍。

在表格内容还原、复杂样本处理、多语言文档识别等方面,合合信息大模型“加速器”具备高准确性和稳定性,大幅提升了模型的理解力,并通过其强大的多语言识别、多类型支持能力,为多个行业提供了高效、准确、实用的文档解析服务。目前,大模型“加速器”已被多家大模型厂商应用于金融、医学、财经、媒体等多领域的文档的解析中,助力大模型更顺利地接轨“专业课”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计】021基于weixin小程序微信点餐

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Python学习中使用循环(for, while)

在Python编程语言中,循环是一个非常重要的概念,可以帮助我们在代码中重复执行某些操作。Python支持两种主要的循环结构:for 循环和 while 循环。 1. for 循环 for 循环用于遍历一个序列(如列表、元组、字符串)或其他…

第11章:标准化和软件知识产权

第11章:标准化和软件知识产权 标准化 国际标准(International Standard)是指国际标准化组织(ISO)、国际电工 委员会(IEC)所制定的标准。 标准 是对重复性事物和概念所做的统一规定。 标准化的特征包括横向综合性、政策性和统一性 。 标准化是指在经济、技术、科学…

JAVA学习-练习试用Java实现“分发糖果”

问题: 老师想给孩子们分发糖果,有 N 个孩子站成了一条直线,老师会根据每个孩子的表现,预先给他们评分。 需要按照以下要求,帮助老师给这些孩子分发糖果: 每个孩子至少分配到 1 个糖果。 评分更高的孩子…

FastAPI:高性能异步API框架

文章目录 引言官网链接FastAPI 原理1. 基于 Starlette 和 Pydantic2. 路由与依赖注入3. 自动文档 使用方法安装 FastAPI创建一个简单的API运行服务器 优缺点优点缺点 结论 引言 在快速发展的Web和移动应用时代,构建高效、可扩展的API成为了现代软件开发的关键需求之…

Thingsboard 系列之通过 ESP8266+MQTT 模拟设备上报数据到平台

前置工作 Thingsboard平台ESP 8266 NodeMCU 开发板IDE: Arduino 或 VScode 均可 服务端具体对接流程 系统管理员账号通过 Thingsboard 控制面板创建租户等信息并以租户账号登录 实体 —> 设备维护具体设备信息 创建完成后通过管理凭据修改或直接复制访问令牌…

python 冷知识 66 个 0708

66个有趣的Python冷知识 内联注释 可以在代码行尾使用 # 进行内联注释,例如 x 10 # 这是一个内联注释。 多行注释 多行注释可以用三个引号 或 """ 包裹。 分数 fractions 模块提供了分数类型,可以精确表示分数值。 小数 decimal 模块…

致远OA同步组织架构到企业微信

致远OA同步组织架构到企业微信 可适配任何系统 背景 原有的微协同无法满足人员同步,因为在启用微协同的时候,企业微信已经存在人员,所以配置微协同之后,人员会出现新增而不会同步修改 方案 重写同步,针对已经存在…

Visual Studio下安装引入Boost库

背景&#xff1a; 在 Win 上通过 Visual Studio 运行 c 代码&#xff0c;引入头文件 #include <boost/...>&#xff0c;显式无法打开&#xff0c;需要手动下载boost并进行配置。 1、下载boost&#xff1a; Boost官网&#xff1a;Boost Downloads 下载boost&#xff0c…

网安加·百家讲坛 | 关昕健:新时代企业数据安全运营思路

作者简介&#xff1a;关昕健&#xff0c;某运营商安全专家&#xff0c;2015年获CISSP认证&#xff0c;长期负责企业安全运营工作&#xff0c;关注国内外数据安全动态与解决方案&#xff0c;持续开展数据安全运营实践。 近年来&#xff0c;随着《数据安全法》的出台和国家数据局…

Pytorch中的DataLoader类

&#x1f4da;博客主页&#xff1a;knighthood2001 ✨公众号&#xff1a;认知up吧 &#xff08;目前正在带领大家一起提升认知&#xff0c;感兴趣可以来围观一下&#xff09; &#x1f383;知识星球&#xff1a;【认知up吧|成长|副业】介绍 ❤️如遇文章付费&#xff0c;可先看…

js逆向案例 | 加速乐反爬逆向

前言 加速乐作为一种常见的反爬虫技术&#xff0c;在网络上已有大量详尽深入的教程可供参考。然而&#xff0c;对于那些初次接触的人来说&#xff0c;直接面对它可能仍会感到困惑。 声明 本文仅用于学习交流&#xff0c;学习探讨逆向知识&#xff0c;欢迎私信共享学习心得。如…

oracle19 数据库介绍

1.1Oracle数据库概念和应用 每个人家里都会有冰箱&#xff0c;冰箱是用来干什么的&#xff1f;冰箱是用来存放食物的地方。同样的&#xff0c;数据库是存放数据的地方。正是因为有了数据库后&#xff0c;可以直接查找数据。例如你每天使用余额宝查看自己的账户收益&#xff0c;…

【YOLOv5/v7改进系列】改进池化层为RFB

一、导言 论文 "Receptive Field Block Net for Accurate and Fast Object Detection" 中提出的 RFB (Receptive Field Block) 模块旨在模仿人类视觉系统中的感受野结构&#xff0c;以增强深度学习模型对不同尺度和位置的目标检测能力。下面总结了RFB模块的主要优点…

MySQL数据库巡检步骤

MySQL巡检 系统基本信息 机型号 IP CPU 内存 磁盘 (业务)系统信息 操作系统 主机名 操作系统巡检 检查内容 说明 检查方法 结果&#xff08;异常需详细说明&#xff09; 正常输出结果 系统配置检查 操作系 统版本 #uname –a □正常 □异常 显示系统版本和核心补丁信…

AIGC时代程序员的跃迁——编程高手的密码武器

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

一、redis-万字长文读懂redis

高性能分布式缓存Redis `第一篇章`1.1缓存发展史&缓存分类1.1.1 大型网站中缓存的使用带来的问题1.1.2 常见缓存的分类及对比与memcache对比1.2 数据类型选择&应用场景1.2.1 string1.2.2 hash1.2.3 链表1.2.4 set1.2.5 sortedset有序集合类型1.2.6 总结1.3 Redis高级应…

[数仓]三、离线数仓(Hive数仓系统)

第1章 数仓分层 1.1 为什么要分层 DIM&#xff1a;dimensionality 维度 1.2 数据集市与数据仓库概念 1.3 数仓命名规范 1.3.1 表命名 ODS层命名为ods_表名DIM层命名为dim_表名DWD层命名为dwd_表名DWS层命名为dws_表名 DWT层命名为dwt_表名ADS层命名为ads_表名临时表命名为…

昇思25天训练营Day11 - 基于 MindSpore 实现 BERT 对话情绪识别

模型简介 BERT全称是来自变换器的双向编码器表征量&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;&#xff0c;它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、…

56、最近邻向量量化(LVQ) 网络训练对输入向量进行分类

1、LVQ 网络训练对输入向量进行分类简介 1&#xff09;简介 LVQ&#xff08;最近邻向量量化&#xff09;是一种简单而有效的神经网络模型&#xff0c;用于对输入向量进行分类。LVQ网络通过学习一组原型向量&#xff08;也称为代码矢量或参考向量&#xff09;&#xff0c;来表…