打工人好用的大模型问答,还需要一款可靠的文档解析工具

如果说三四年前,我们对AI的展望还停留在科幻片的话,现在,通向AI智能的路径已经初现端倪。各行各业的朋友们不约而同地嗅到了大模型带来的生产方式变革气息。

LLM宣布了AI时代的正式到来。

2022年11月30日,ChatGPT发布,向我们展示了技术的颠覆性潜力,生成式人工智能一夜爆火,ChatGPT月活用户在两月内突破1亿。23年,国内外科技大厂、初创企业纷纷入场,打造“AI”之年。

LLM的落地应用,正在迅速推动各领域工作方式的变革。我们不禁要问:AI会取代我们?还是让我们变得更高效?

埃森哲2023年的研究报告指出,所有行业中 40% 的工作时间都将得到大语言模型的协助。其主要原因在于,语言任务占到了企业人员工作总时长的 62%,让AI成为副手协同作战,将重塑打工人的工作方式,通过自动化技术大幅度提升生产力。

愿景在前,行则将至。当前,在咨询建议、内容创建等常用领域,已经有许多小伙伴开始尝试给自己配备一位“AI助手”了。在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

1 知识问答,大模型的表现怎么样?

在文档交互中,我们需要大模型实现的功能包括:根据文件完成知识问答,给出关联信息建议,以及提供专业性分析参考等。

多数企业的工作环境中,存在大量电子档、扫描档文件,而全人工阅读分析,往往会造成不必要的时间成本消耗。尤其在面对扫描或图片文档时,常规办公软件无法完成关键词检索,导致信息收集更为不便。

对话AI可以帮助我们解决这个问题吗?

最近,合小研以国内某自然语言大模型为例进行了简单的测试。该模型处于国内第一梯队水平,合小研的小伙伴们平时也经常在工作中使用。

1.1 企业年报

首先,合小研上传了一份长度100页的扫描版企业年报(部分),并提出问题:根据文本内容,该公司在什么时间,在哪里上市,营业期限到什么时候?

大模型给出了正确的回答。

继续追问一个问题:根据报告,企业与客户间的销售商品合同包含什么内容?

大模型同样给出了答案。与原文档进行比对,回答详细且全面。

可见,在年报等长文档信息提取方面,大模型能够为我们提供有效的分析辅助。

1.2 经济报告

我们来尝试一份包含数据与图表的经济报告。上传报告后,合小研提出问题:依据报告,美国CPI食品的1月官方值是多少?

大模型告诉我:根据您提供的文件内容,报告中并没有直接提供美国CPI食品的1月官方值。如果需要1月的具体数值,可能需要查阅其他官方数据发布渠道或等待官方数据的公布。

然而,如果进行人工检索,我们将在报告中获得如下表格,标明了CPI食品的1月官方值。

为什么大模型对这一信息读取失败?

1.3 期刊论文

上传扫描版论文后,我们提出具体问题:根据所给文件,精氨酸在40度的水中,溶解度是多少?

大模型表示:文档中并没有直接提供精氨酸在40℃时的具体溶解度数值。同时,它补充道:如果文档中确实包含了40℃的溶解度数据,但由于文档不完整或扫描不清晰导致无法读取,请提供更详细的信息或完整的文档,以便进行准确回答。

但是,在人工阅读的情况下,我们可以看到清晰的有线表格,提供上述信息。

再一次,大模型无法找到相应的关键信息,并给出准确答案。

在实际工作场景中,我们需要识别的文件是多样、复杂的,其中既有清晰且便于机器读取的纯文字电子文件,也可能包含大量形式的图表,或来源时期不一的纸质扫描档、模糊或扭曲页面。当我们使用大模型作为工作助手,准确且稳定的输出是不可或缺的要素,当前的内容生成,显然需要进一步提升。

2 大模型回答不理想,原因何在?

在简短的测试里,我们考察了大模型对企业年报、经济报告以及期刊论文三份类型文件的问答效果,其中两项回答并不理想,无法为我们提供准确的内容。

发现这个问题后,合小研咨询了合合团队中的产品研发小伙伴们,试图推测可能的问题成因。

产品同学秒回合小研:用我们的文档解析工具把PDF转成Markdown格式了,你再发给大模型试试。

将转化后的经济报告发送给大模型,我们再次提出相同的问题。

这一次,大模型清晰地给出了正确答案。

在期刊论文案例中,有线表格中细节信息同样得到了正确提取。

产品同学表示:这说明就是文档解析环节出的问题,之前大模型没能从你给的文件里识别到需要的信息。我们的解析工具把图片格式、各类表格都精准识别,转化成机器可读格式,大模型就能给出正确答复了。

我们了解到,业界实践中,目前的问答产品落地存在几大挑战:

第一,文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误。

第二,逻辑结构解析不完整。段落语义划分错误,导致回答不全面或总结性偏差。

第三,召回效果差。可能由于训练数据不平衡,影响模型检索召回能力。

而面对前两种问题,稳定准确的文档解析工具将大大提升大模型的应答能力,优化用户体验。

3 专业文档解析工具,有效增强大模型的问题解决能力

专业的文档解析是如何实现的?为什么它对大模型如此重要呢?

针对这些问题,我们需要理解PDF解析与大模型的阅读方式。

目前,主流专业产品采用的路线结合了PDF提取技术与OCR识别技术。其中,PDF提取技术主要用于处理PDF格式的文档,通过直接解析PDF文件的结构来提取文本和其他内容;其优点是处理速度快,适合于结构简单的PDF文档,但在处理复杂布局或包含大量图表、图片的文档时,准确率可能较低。OCR(Optical Character Recognition)技术通过扫描文档图像,识别其中的文字信息。这种技术适用于各种格式的文档,特别是扫描的纸质文档或图像格式的电子文档。OCR技术可以处理复杂布局的文档,但处理速度相对较慢,且对图像质量有一定要求。

合合信息的文档解析工具在此基础上对文件进行阅读顺序还原,支持多种格式的输出,在信息识别这一环节提供给大模型最“舒适”的序列文字。

文档解析是文档问答类大模型产品不可或缺的底层工具,并对产品质量有着重要的影响。在上文的测试中,大模型读取失败的信息分别来自文档中以图片格式存在的数据,与扫描档有线表格,同样也是文档解析环节中的难点。

由此可知,大模型应用场景下,一款好用的PDF解析工具,至少需要具备三个特性:速度快、精度高、兼容性好。在文档解析这一专精领域,合合信息凭借先发优势,积累了丰富的版式识别能力,能够实现元素检测准确,阅读顺序还原准确与高效的快速识别。

美国管理学家劳伦斯·彼得提出的木桶理论在AI纪元仍然适用。一款用户体验良好的大模型问答产品,需要全面的技术底座,方能成为改革工作模式、推广落地场景的利器。如何打造真正适用、实用,让打工人觉得好用的产品,也是合小研的小伙伴们,以及更多AI从业者不断思考探索的问题。理想产品的打造,要从每一个技术难关的攻克开始,而专业的文档解析工具,正是我们的突破点之一。

4 如何试用文档解析工具

合合信息文档解析产品已经上架到TextIn平台,任何开发者都可以注册账号并开通使用。

访问链接:https://www.textin.com/market/detail/pdf_to_markdown

点击【免费体验】,即可在线试用,如下图所示:

如果想试试用代码调用,也可以访问对应的接口文档内容:

https://www.textin.com/document/pdf_to_markdown

平台提供了一个Playground,帮开发者们预先调试接口。

点击页面中【API调试】按钮,即可进入调试页面。

在这里可以简单配置一些接口参数,发起调用后,右侧就会出现调用结果。

如果想用python调用,既可以参考平台上的通用示例代码,也可添加本文最后的二维码,获取更全面的demo代码。

文档解析产品目前正处于内测阶段。正式产品通常有1000页的免费试用额度,在内测期间,平台给每位开发者提供每周7000页的额度福利,关注公众号《合研社》即可领取。欢迎大家与我们团队多多交流,提出意见或建议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/17324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“智能体时代:探索无限可能——零代码构建智能教练智能体“

随着智能体技术的飞速发展,各个领域正经历着空前的变革和新的发展机遇。作为人工智能的一个关键组成部分,智能体以其自我驱动、智能响应和适应能力,逐渐深入到我们日常生活的各个层面,成为促进社会发展和科技进步的新引擎。 顺应这…

30V MOS管 60VMOS管 100VMOS管 150VMOS管推荐

MOS管,即金属氧化物半导体场效应管,其工作原理是:在P型半导体与N型半导体之间形成PN结,当加在MOS管栅极上的电压改变时,PN结之间的沟道内载流子的数量会随之改变,沟道电阻也会发生改变,进而改变…

【JavaEE精炼宝库】多线程(3)线程安全 | synchronized

目录 一、线程安全 1.1 经典线程不安全案例: 1.2 线程安全的概念: 1.3 线程不安全的原因: 1.3.1 案例刨析: 1.3.2 线程不安全的名词解释: 1.3.3 Java 内存模型 (JMM): 1.3.4 解决线程不安全问题: 二…

工业AI的崛起,中国自主创新的新机遇

我们都知道,互联网已经深刻地改变了我们的生活方式,催生了无数的新型商业模式和创新产业,推动了社会的经济变革。中国在互联网领域的发展取得了举世瞩目的成就,建成了全球规模最大、技术领先的5G网络,互联网应用的普及…

linux文件编程api: creat

1.基本信息 功能 创建新文件 头文件 #include<fcntl.h> 函数形式 int creat(const char *pathname, mode_t mode); 返回值 如果成功&#xff0c;则返回文件描述符号 如果失败&#xff0c;则返回-1 参数 pathname: 创建的文件名 mode: 新建文件时&#xff0c;文件权限…

Django革新者:突破传统,构建下一代Web应用

书接上文 —— 家园建筑师&#xff1a;用Django打造你的Web帝国&#xff0c;从前面的学习中&#xff0c;咱们我们经历了一个完整的Django Web开发之旅&#xff0c;涵盖了从基础概念到高级特性的各个方面&#xff1a; 引言&#xff1a;介绍了企业级Web框架的需求&#xff0c;并概…

牛客NC67 汉诺塔问题【中等 递归 Java/Go/PHP/C++】 lintcode 169 · 汉诺塔

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/7d6cab7d435048c4b05251bf44e9f185 https://www.lintcode.com/problem/169/ 思路 相传在古印度圣庙中&#xff0c;有一种被称为汉诺塔(Hanoi)的游戏。该游戏是在一块铜板装置上&#xff0c;有三根杆(编号A、B、C…

使用Python操作Jenkins

大家好&#xff0c;Python作为一种简洁、灵活且功能丰富的编程语言&#xff0c;可以与各种API轻松集成&#xff0c;Jenkins的API也不例外。借助于Python中的python-jenkins模块&#xff0c;我们可以轻松地编写脚本来连接到Jenkins服务器&#xff0c;并执行各种操作&#xff0c;…

拌合楼系统开发(二十)解决海康DS-TVL224系列屏幕显示二维码思路

前言&#xff1a; 需求是想在通过程序动态控制显示屏显示二维码&#xff0c;最开始有些担心led这种点阵屏会不会对二维码显示出来后无法识别&#xff0c;实际测时候发现是没问题的。对于显示文字和语音播报&#xff0c;csdn上已经有大神有完整的代码。 海康威视道闸进出口LED屏…

100个 Unity小游戏系列三 -Unity 抽奖游戏专题二 水果机游戏

一、演示效果 二、知识点 2.1 布局 private void CreateItems(){for (int i 0; i < rewardDatas.Length; i){var reward_data rewardDatas[i];GameObject fruitOjb;if (i < itemRoot.childCount){fruitOjb itemRoot.GetChild(i).gameObject;}else{fruitOjb Instant…

数据中台建设方案(Word版源文档)

建设大数据管理中台&#xff0c;按照统一的数据规范和标准体系&#xff0c;构建统一数据采集&#xfe63;治理&#xfe63;共享标准、统一技术开发体系、统一接口 API &#xff0c;实现数据采集、平台治理&#xff0c;业务应用三层解耦&#xff0c;并按照统一标准格式提供高效的…

最新!!2024年上半年软考【中级软件设计师】综合知识真题解析

2024上半年软考考试已经结束了&#xff0c;为大家整理了网友回忆版的软件设计师真题及答案&#xff0c;总共30道题。 上半年考试的宝子们可以对答案预估分数&#xff01;准备下半年考的宝子可以提前把握考试知识点和出题方向&#xff0c;说不定会遇到相同考点的题目&#xff01…

[集群聊天服务器]----(十)Nginx的tcp负载均衡配置--附带截图

接着上文&#xff0c;我们剖析了服务端和客户端的代码&#xff0c;但是单台服务器的并发量是有限的&#xff0c;面对并发量的要求&#xff0c;我们就需要引入Nginx来实现并发量的要求&#xff0c;将用户请求分发到不同的服务器上分担压力&#xff0c;这就是负载均衡。 选择负…

汽车制造业安全有效的设计图纸文件外发系统是什么样的?

在汽车制造的世界里&#xff0c;那些设计图不仅仅是公司智慧的闪光点&#xff0c;更是它们竞争的秘密武器。但问题来了&#xff0c;当公司需要和供应商、合作伙伴频繁交换数据时&#xff0c;怎样安全又高效地发送这些设计图&#xff0c;就成了一个头疼的问题。这篇文章会深挖一…

计算机网络——在地址栏输入网址(URL)之后都发生了什么

网址&#xff0c;也叫域名&#xff0c;域名就像一个 IP 地址的可读版本&#xff0c;比如&#xff0c;百度的域名 www.baidu.com&#xff0c;他的 ip 是 110.242.68.3&#xff0c;输入 IP 一样可以跳转到百度搜索的页面&#xff0c;我想没有一个人没去记百度的 IP 吧。其实我们真…

部署Prometheus + Grafana实现监控数据指标

1.1 Prometheus安装部署 Prometheus监控服务 主机名IP地址系统配置作用Prometheus192.168.110.27/24CentOS 7.94颗CPU 8G内存 100G硬盘Prometheus服务器grafana192.168.110.28/24CentOS 7.94颗CPU 8G内存 100G硬盘grafana服务器 监控机器 主机名IP地址系统配置k8s-master-0…

符合车规级漏电流检测的磁通门传感器KTD1100

电动车充电桩 在政策出台后&#xff0c;充电桩类产品按要求需装配B端漏电流检测装置。它可以有效防止充电桩等设备中的漏电流对用户造成危害&#xff0c;保障用户的用电安全。其次&#xff0c;它可以促进充电桩等产品的质量提升&#xff0c;提高市场的公平竞争&#xff0c;让消…

无线领夹麦克风哪个品牌好?本期文章揭秘无线麦克风哪个品牌好用

​在当下这个全民皆为媒体的时代大潮中&#xff0c;视频分享已然成为了引领风尚的指向标。在自媒体领域竞争愈发激烈的态势下&#xff0c;若要在这片广阔海洋中扬帆远航&#xff0c;优秀的作品毫无疑问是吸引观众的关键所在。而想要塑造出这样的卓越之作&#xff0c;除了需要创…

K8s 小白入门|从电影配乐谈起,聊聊容器编排和 K8s

来听听音乐 电影&#xff0c;是我们生活中的重要调味剂。 配乐&#xff0c;是电影中不可或缺的一部分。 有的时候&#xff0c;配乐可以跟剧情共振&#xff0c;让你按捺不住自己的情绪&#xff0c;或眼含热泪、或慷慨激昂、或人仰马翻、或怅然若失&#xff1b; 有的时候&…

WebGL技术在教育培训中的应用

WebGL技术在教育培训中的应用非常广泛&#xff0c;通过其强大的三维图形处理能力&#xff0c;能够为教育培训提供更加生动、互动和沉浸式的学习体验。以下是WebGL在教育培训中的几个主要应用及其具体实现。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xf…