合合信息:TextIn文档解析技术与高精度文本向量化模型再加速

文章目录

  • 前言
  • 现有大模型文档解析问题
    • 表格无法解析
    • 无法按照阅读顺序解析
    • 文档编码错误
  • 诉求
  • 文档解析技术
    • 技术难点
    • 技术架构
    • 关键技术
    • 回根溯源
  • 文本向量化模型
  • 结语

前言

随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源(如学术论文、技术文档、新闻报道等)中提取和整合信息,构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。

那么什么是文档解析技术呢?文档解析技术是指对文档进行深入分解、分析和理解的过程,目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析,我们可以更好地理解文档的结构、内容和主题,从而更有效地利用这些信息。

现有大模型文档解析问题

既然文档解析这么重要,那他的发展应该引起大家足够的重视,我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢?

表格无法解析

在这里插入图片描述

如上图所示,我们将一篇文档输入给ChatGPT4,并让它根据文件来回答一下“精氨酸在40度的水中,溶解度是多少”。右图明确指出该答案是“31.9”,而ChatGPT4却给出了错误答案,这就意味着ChatGPT4并没有对提供的文档进行准确地解析。

无法按照阅读顺序解析

无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中,系统无法按照人类阅读的自然顺序(如从左到右、从上到下)来正确解析或展示文档内容。来看个例子

在这里插入图片描述

我们依旧给ChatGPT4提供了一篇文章,并让它根据文档内容回答一下本书致谢环节提到的致谢对象,它给出的结果依旧不理想。

文档编码错误

如下图所示,ChatGPT4在解析文档的过程中出现了文档编码错误,这表明在大模型训练或者应用过程中仍然存在文档编码问题。

在这里插入图片描述

诉求

当然出现以上问题都是我们所不能忍受的,毕竟我们不仅仅需要大模型帮我们提高工作的效率,更重要的是我们需要让他对准确度负责,因为准确性是使用他的前提。如果连准确度都不能做保证的话,那一切都将没有任何意义。

在这里插入图片描述

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分,可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确,尤其是表格、段落、公式、标题等多个方面。

说到这儿,我就不得不提一下合合信息推出的TextIn 平台了,如下图所示,TextIn不仅包含文档解析技术,还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

在这里插入图片描述

文档解析技术

在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧!据我所知,他的大模型训练所使用的文档种类比较丰富,比如:合同、书籍、论文、产品说明书、公文函、财报等。

技术难点

要想将以上多种文档进行准确无误的识别并且解析,在大模型的训练和应用过程中需要克服和解决各种各样的技术难点:

  • 版面检测:元素遮盖重叠、元素本身有多样性、复杂版式(双栏、跨页、三栏);
  • 阅读顺序还原困难:多栏的影响、多栏和插入表格的影响;
  • 表格还原:无线表格识别、合并单元格识别;
  • 公式识别:单行公式与行内公式、表格内公式;

技术架构

为了克服以上提到的种种技术难点,合合信息设计出了以下TextIn文档解析技术架构。

在这里插入图片描述
该技术架构底层是基于测评工具链和数据工具链的基建层,算法层分为文档解析引擎、检测引擎和图像识别引擎,算法层主要用来完成一个文档将多页拆分成单页,同时将其中的每一个元素进行检测和图像识别。
至于应用层的话,可以分为以下三步走:

  • 第一步:将多页文档进行拆分,并且将其中的电子档和扫描档经过不同的解析引擎进行解析,并最终形成了文档表征的基础特征。
  • 第二步:将基础的文档的表征,比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系,最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
  • 第三步:文档的重建,输出成一个markdown文件。

在这里插入图片描述

接入层的话为应用的最终形态,用于对外提供API、SDK、私有化镜像以及web端的产品。

关键技术

Layout-engine版面分析框架:将电子档和扫描档经过不同的物理和逻辑版面分析,拿到文档中所有的元素:段落、公式、目录、页眉、页脚等,在整合成可以被大模型顺利阅读的有顺序性的内容。

Catelog-engine文档树提取技术

  1. 通过输入整份文档的段落内容,以序列化形式传入模型。
  2. 文档树引擎提取当前段落的embedding值,预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。
  3. 最后基于每个段落的情况,构造该文档的文档树,并按 JSON 结构输出。

在这里插入图片描述

回根溯源

有了以上技术的加持之后,我们再来对ChatGPT4来进行下测验,此时我们不再上传PDF格式的文件,而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传,通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

在这里插入图片描述

至于其他两个问题,咱们直接上图,不做太多解释,就是这么自信。

在这里插入图片描述

在这里插入图片描述

文本向量化模型

近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在行业中产生应用价值。

在这里插入图片描述

结语

合合信息是一家深耕人工智能与大数据领域的科技企业,凭借独特的智能文字识别与商业大数据核心技术,为全球的个人用户(C端)和各行各业的企业客户(B端)提供前沿的数字化、智能化解决方案。

TextIn是合合信息推出的智能文档处理产品,旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们,前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度,以及文档内容的高效提取。更多精彩功能等待您的探索,快来开启您的智能化体验之旅吧!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/12492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基础(36)应用服务器优化技术有哪些

应用服务器优化是一个复杂的过程,涉及到服务器硬件资源、操作系统、网络、应用程序代码、数据库等多个层面。下面是一些深入详细的应用服务器优化技术: 系统级优化 硬件优化 提升CPU性能:使用更多核心的CPU或者升级到更高频率的CPU。增加内…

Scala基础

目录 1.安装与运行Scala 任务描述 了解Scala语言 了解Scala特性 安装Scala 运行Scala 2.定义函数识别号码类型 了解数据类型 定义与使用常量、变量 使用运算符 定义与使用数组 任务实现 3.基本语法 1 变量 2 字符串 3 数据类型&操作符 4 条件表达式 5 循环…

idea使用gitee基本操作流程

1.首先,每次要写代码前,先切换到自己负责的分支 点击签出。 然后拉取一次远程master分支,保证得到的是最新的代码。 写完代码后,在左侧栏有提交按钮。 点击后,选择更新的文件,输入描述内容(必填…

五分钟“手撕”时间复杂度与空间复杂度

目录 一、算法效率 什么是算法 如何衡量一个算法的好坏 算法效率 二、时间复杂度 时间复杂度的概念 大O的渐进表示法 推导大O阶方法 常见时间复杂度计算举例 三、空间复杂度 常见时间复杂度计算举例 一、算法效率 什么是算法 算法(Algorithm):就是定…

C++|多态性与虚函数(2)|虚析构函数|重载函数|纯虚函数|抽象类

前言 看这篇之前,可以先看多态性与虚函数(1)⬇️ C|多态性与虚函数(1)功能绑定|向上转换类型|虚函数-CSDN博客https://blog.csdn.net/weixin_74197067/article/details/138861418?spm1001.2014.3001.5501这篇文章会…

【Java开发面试系列】JVM相关面试题(精选)

【Java开发面试系列】JVM相关面试题(精选) 文章目录 【Java开发面试系列】JVM相关面试题(精选)前言一、JVM组成二、类加载器三、垃圾回收四、JVM实践(调优) 🌈你好呀!我是 山顶风景独…

【十大排序算法】----C语言版插入排序(详细图解)

目录 一:插入排序——原理 二:插入排序——分析 三:插入排序——实现 四:插入排序——效率 一:插入排序——原理 插入排序的原理和基本思想:把待排序的记录按其关键码值的大小逐个插入到一个已经排好序…

无需重启 NGINX 开源版即可实现 SSL/TLS 证书轮换

原文作者:Maxim Ivanitskiy of F5 原文链接:无需重启 NGINX 开源版即可实现 SSL/TLS 证书轮换 转载来源:NGINX 开源社区 NGINX 唯一中文官方社区 ,尽在 nginx.org.cn 在高性能 Web 服务器领域,NGINX 是一个广受欢迎的…

Django使用

一、根目录下安装 pip install django 二、创建djiango项目 django-admin startproject 项目名称 三、创建app python manage.py startapp app名称 四、启动 python manage.py runserver 五、编写URL与视图关系,相对路径 1、manage.py(见资源绑定…

mysql 8 创建用户并赋予改用户指定数据库权限

一、使用客户端工具登录mysql 二、创建用户 -- 低版本数据库 create user 用户名% identified by 密码; -- 高版本数据库 create user 用户名% identified with mysql_native_password by 密码; -- 示例1: create user test% identified with mysql_native_passwor…

apt和apt-get有什么区别

2024年5月15日,周三上午 apt 和 apt-get 都是 Debian 及其衍生版(如 Ubuntu)中用于软件包管理的工具,但它们之间存在一些差异。 功能和目的: apt 是 apt-get 的改进版本,提供了更简洁和更直观的命令选项。…

多元化、高辨识显示丨基于G32A1445的汽车尾灯解决方案

由刹车灯、倒车灯、转向灯、雾灯等组成的汽车尾灯,既能在光线低暗时发出照明信息,也可向周围环境传递车辆的行驶状态与意图信号,对于行车安全起着至关重要的作用。与传统尾灯相比,贯穿式汽车尾灯更加醒目、美观、安全,…

CSS2(一):CSS选择器

文章目录 1、CSS基础1.1 CSS简介1.2 CSS编写位置1.2.1 行内样式1.2.2 内部样式1.2.3 外部样式1.2.4 样式优先级 1.2.5 CSS代码风格 2、CSS选择器2.1、基本选择器2.1.1 通配选择器2.1.2 元素选择器2.1.3 类选择器2.1.4 ID选择器2.1.5 总结 2.2、CSS复合选择器2.2.1 交集选择器2.…

海外媒体宣发:新加坡.马来西亚如何在海外媒体投放新闻通稿-大舍传媒

导言 随着全球化的进程加速,海外市场对于企业的发展越来越重要。而在海外媒体上宣传企业的新闻通稿,成为了拓展海外市场和提升企业知名度的重要手段之一。本文将介绍大舍传媒对于如何在海外媒体上投放新闻通稿的经验和策略。 准备工作:了解…

Hive 特殊的数据类型 Array、Map、Struct

Array 数组类型,存储数据类型一致的列表数据。 我们可以使用 array 方法来创建一个数组,如下所示: select array(1,2,3,4,5);如果其中的数据类型不一致,那么它会转换成统一的数据类型(前提是能够进行转换&#xff0…

力扣HOT100 - 322. 零钱兑换

解题思路&#xff1a; 动态规划 class Solution {public int coinChange(int[] coins, int amount) {int[] dp new int[amount 1];Arrays.fill(dp, amount 1);dp[0] 0;for (int i 1; i < amount; i) {for (int j 0; j < coins.length; j) {if (coins[j] < i) …

word内容wxml转化html标签对照表

1. 标签 w:document document 文档w:bodybody文档的主体w:sectPrsection——w:pp/div段落w:rspan行内元素w:ttext文本w:tbltable表格w:trtr表格行w:tctd单元格w:brbr换行w:hyperlinka超链接w:roundrectdiv/canvas块w:pictimg图片w:inlinespan行元素w:oMathmath公式w:subsub下标…

宠物管理系统带万字文档

文章目录 宠物管理系统一、项目演示二、项目介绍三、19000字论文参考四、部分功能截图五、部分代码展示六、底部获取项目源码和万字论文参考&#xff08;9.9&#xffe5;带走&#xff09; 宠物管理系统 一、项目演示 宠物管理系统 二、项目介绍 基于springbootvue的前后端分离…

如何让Linux系统崩溃?

如何使 Linux 系统崩溃 警告 下面的代码行是 Bash shell 的一个简短而甜蜜的 fork 炸弹。分叉炸弹之所以有效&#xff0c;是因为它能够产生无限数量的进程。最终&#xff0c;Linux无法处理所有这些&#xff0c;并且会崩溃。 fork 炸弹的一大优点是你不需要 root 权限即可执行它…

Vu2之使用provide与inject调用方法案例

Vu2之使用provide与inject调用方法案例 文章目录 Vu2之使用provide与inject调用方法案例1. 祖先组件使用provide提供方法2. 后代组件使用inject注入并调用方法 在Vue 2中&#xff0c;provide和inject是用于在组件之间传递数据的一种高级技术。虽然它们通常用于传递数据&#xf…