从泛读到精读:合合信息文档解析如何让大模型更懂复杂文档
- 一、引言:破解文档“理解力”瓶颈
- 二、核心功能:合合信息的“破局”亮点
- 功能亮点1:复杂图表的高精度解析
- 图表解析:为大模型装上精准“标尺”
- 表格数据精准还原
- 功能亮点2:多元素智能识别与版面精准还原
- 双栏论文解析:保证段落语义连贯,图表定位精准。
- 公式识别:符号高度还原,确保原始语义准确无误。
- 功能亮点3:灵活配置的文档解析参数
- 功能亮点4:智能文档抽取——解析、检索与生成一体化
- 功能亮点5:百页文档极速解析,效率提升十倍
- 三、技术优势:AI驱动的全栈解决方案
- 1、逻辑版面分析:文档结构的精准还原
- 2、深度学习与开放词汇检测:适应复杂场景
- 3、全流程优化:端到端的处理链条
- 4、行业适配性:精准满足各行业需求
- 科研领域
- 教育领域
- 金融领域
- 企业服务
- 四、用户体验与生态共建:零门槛试用,灵活接入
- 零门槛试用平台:即传即用,实时预览
- 灵活的API与SDK接入方案
- 智能溯源功能:用得更放心
- 五、展望未来:让大模型更懂世界
- 参考文章
版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。
一、引言:破解文档“理解力”瓶颈
在当今数据爆炸的时代,PDF、Word、图片及PPT文档中蕴含着大量未被充分利用的信息资源。为了从大数据淘到有用的知识,科研人员逐页比对论文图表以捕捉关键数据,金融分析师通宵解析百页财报;传统方法不仅低效,而且难以应对海量数据。
随着deepseek等大模型逐渐步入视野,理论上文档解析工作应能大幅简化。
然而,实际情况却不尽如人意。当前的多模态大模型虽然具备强大的视觉与语言交互能力,但在解析非结构化文档时,仍面临复杂版式、多元素混排以及严密逻辑推理等挑战。
据华南理工大学的一项全面测评显示(Exploring OCR Capabilities of GPT-4V(ision): A Quantitative and In-depth Evaluation),即便是先进的GPT-4V,文字识别能力与专业OCR模型相比,差距高达数十个百分点。在识别图片中文字上尤其存在显著不足。
与此同时,即使是微小的解析错误,也可能诱发“大模型幻觉”,最终导致下游模型的判断失误,为决策者带来巨大风险。
对此,华为团队在其论文(An Empirical Study of Scaling Law for OCR)中指出,集成OCR技术后,多模态大模型在视觉问答(VQA)任务中的准确率和泛化能力均有显著提升,进一步验证了OCR在提高大模型综合性能中的关键作用。
Our results reveal
a significant improvement in the accuracy of the model for scene-based VQA tasks upon the integration of OCR
. Additionally, there is a noticeable enhancement in document-based VQA tasks. These findings suggest that the incorporation of OCR not only enhances the model’s accuracy but also extends its generalization capabilities across diverse VQA scenarios. This evidence distinctly highlights the vital role thatOCR inputs play in augmenting the performance of LVLM for downstream tasks
. Furthermore, the improved accuracy with OCR integration underscoresthe model’s enhanced ability to interpret and analyze combined visual and textual data
, thereby validating the efficacy of multimodal approaches in tackling complex analytical challenges.
我们的研究结果表明,
在集成OCR后,基于场景的VQA任务的模型精度有了显著提高
。此外,基于文档的VQA任务也有明显的增强。这些发现表明,OCR的结合不仅提高了模型的准确性,而且扩展了其在不同VQA场景中的泛化能力。这一证据清楚地强调了OCR输入在提高多模态大模型在下游任务中的表现方面所起的重要作用
。此外,OCR集成提高的准确性进一步体现了模型在解释和分析视觉与文本数据组合方面的增强能力
,从而验证了多模态方法在解决复杂分析挑战方面的有效性。
正是在这一背景下,合合信息推出了“大模型加速器2.0”项目。该项目依托行业领先的文档与图表解析技术,从数据源头出发,有效降低大模型“幻觉”风险,确保获取的知识更加精准可靠,从而助力各行业实现真正意义上的智能化决策。
让我们一起看看它是如何破局的吧!
二、核心功能:合合信息的“破局”亮点
合合信息大模型加速器2.0 针对文档与图表解析中的多项痛点,提供了突破性的解决方案。
p.s.对具体技术原理感兴趣的朋友可以看看第三章节 ~
下面从六个方面展示其核心功能亮点:
功能亮点1:复杂图表的高精度解析
图表直观生动,是汇报、讲演和宣传的有力工具,但在反向提取图表数据时往往遇到重重挑战。
图表解析:为大模型装上精准“标尺”
合合信息针对图表信息密度高、类型多样以及设计风格复杂的问题,采用先进的视觉与文本双重建模技术:
-
多图表类型高效适配:无论柱状图、折线图、饼图还是复合型图表,系统均能精准提取关键数据点、坐标轴信息及图例标注,并自动转化为Markdown格式,便于后续数据再利用。
-
复合图表拆分与重构:面对柱形图与折线图融合的复合图表,合合信息的解析引擎可自动拆分并完整还原数据至Excel表格,确保数据完整无遗漏。
-
视觉与文本深度融合建模:通过生成式深度学习方法,从布局、线条、颜色到图标标记进行多维特征建模,大幅降低图表识别过程中的误读和漏读风险。
图1:图表解析模块识别复合图表并输出结构化数据示意图。
对于有数值标注的图表,TextIn文档解析可以直接输出准确表格
,将其转化为结构化数据,方便后续的数据入库、分析或输入大模型进行处理。
对于没有明确数值的复杂图表,TextIn接口也会通过精确测量给出预估数值
,在仅有扫描件、图片文件的情况下,帮助挖掘更多有效数据信息,完成分析及预测工作。
表格数据精准还原
合合信息突破了表格识别领域的技术瓶颈,能够高效识别和还原有线表、无线表、跨页合并表格及混合复杂表格。在面对合并单元格、无边框表格等行业难题时,技术优势尤为显著。
图2:表格数据一一对应,可以直接点击跳转对应图表中的数据
图3:金融年报密集表格,数据均可完整输出为Markdown或JSON格式,保留原始逻辑。
功能亮点2:多元素智能识别与版面精准还原
合合信息TextIn采用物理与逻辑版面分析技术,能精准识别文档中的段落、公式、页眉页脚等多种元素,并模拟人类阅读顺序还原版面,确保语义连贯,彻底避免“断章取义”的问题。
双栏论文解析:保证段落语义连贯,图表定位精准。
图4:图表排版清晰,且双栏变单栏时很好地模拟了人类的阅读顺序
公式识别:符号高度还原,确保原始语义准确无误。
图5:支持看到所有公式,更方便阅读理论部分
功能亮点3:灵活配置的文档解析参数
用户可根据实际需求自由选择和配置解析参数,满足不同场景下对手写内容、复杂公式等高难度内容的识别需求。即使是高难度的量子公式,也能实现精准识别。
图6:可供选择的参数
图7:最左边是给他的笔记图,中间是进行切边矫正后的图,最右边是识别结果
(小提示:如果识别有差异,可以尝试左下角的重新识别噢)
功能亮点4:智能文档抽取——解析、检索与生成一体化
融合文档解析、文档检索和文本生成三大核心技术:
-
解析:利用版面分析技术进行深度解析。
-
检索:采用混合多路检索技术,实现高效信息定位。
-
生成:依托垂直领域语义模型,将解析结果一键填充至数据库,极大提高工作效率。
图8:智能文档抽取支持多个内容公式。
图9:结合了解析、检索、生成的智能文档抽取,可以一键填充到数据库,更方便快捷。
功能亮点5:百页文档极速解析,效率提升十倍
通过分布式计算和GPU加速,合合信息实现了传统文档解析工具10倍以上的效率提升。百页级文档解析仅需1.5秒,极大提升了企业年报、金融研报等高强度文档处理场景的生产力,单日可轻松处理数千份文档。
这六大功能亮点共同构筑了合合信息大模型加速器2.0 的核心竞争力,“破局”传统文档解析的瓶颈,为各行业的智能化转型提供强大支持。
三、技术优势:AI驱动的全栈解决方案
合合信息大模型加速器2.0通过领先的AI技术,形成了完整的端到端文档解析解决方案,融合逻辑版面分析、深度学习、全流程优化及场景适配性,为行业提供精准且高效的数据处理工具。
1、逻辑版面分析:文档结构的精准还原
随着文档内容与结构复杂性逐渐增加,传统的物理布局分析技术已经难以满足日益增长的精准性需求。逻辑版面分析(Document Logical Analysis, DLA)
融合了文档元素的物理位置与语义信息,使得文档解析从单纯的视觉层面深入到语义层次。其核心目标在于构建文档的语义结构树,从而实现文档元素的精准分类,如标题、段落、图表、公式及页脚页眉等。
以合合信息的TextIn算法为例,算法核心使用Transformer架构,精准预测每个段落与其邻近段落的关系,包括子标题、主标题、表格标题以及段落的合并、并列关系。通过识别并确认这些语义关系,形成精确的树状结构,呈现出清晰的目录架构。
2、深度学习与开放词汇检测:适应复杂场景
合合信息自主研发的DocUNet、U2Net等深度学习模型
,与先进的生成式AI技术结合,有效应对海量真实文档的复杂布局需求,特别是医学、工程领域存在的历史文档数据缺失、扫描件质量低下等问题。
传统工具如WebPlotDigitizer、Tesseract OCR等,虽能完成基本图表识别,但在精度、复杂度和易用性方面均存在不足。合合信息通过全新的深度学习技术与视觉Transformer架构,能精准、高效地识别并解析复杂图表类型,包括堆叠柱状图等多种复杂结构。
3、全流程优化:端到端的处理链条
合合信息的解析模块覆盖从图像预处理到语义分析的完整流程,有更好的应用级效果:
- 图表检测与定位:采用高效的级联检测策略,精准定位图表位置。
- 图表类型分类:基于CNN和视觉Transformer技术实现图表类型高精度分类。
- 图表结构分析:使用视觉-语言预训练模型,精准解析图表布局、数据点和颜色编码逻辑。
- 数据重建与映射:利用线性插值算法实现图像元素到结构化数据的精确转换,确保数据的高完整性。
4、行业适配性:精准满足各行业需求
合合信息大模型加速器2.0针对金融、教育、医疗、科研等47个特定应用场景进行深度优化,提升行业数据处理效率与准确性。
科研领域
高效解析论文和报告中的图表和文本,助力精准知识库构建与学术成果高效复用。
图11:很好的辅助理解了论文的脉络,包括研究方法等内容,更方便复现论文。
图12:帮忙提取出了论文实验结果的表格,不需要手动打字构造,节省了大量时间。
教育领域
自动批改和分析试卷、作业,及时反馈错误并解析原因,助力教学效率提升。
图13:不仅给出答案和正误判断,还帮忙分析了可能的原因。
金融领域
精准解析上市公司年报的财务数据及图表,提供实时风险预警与精准财务分析支持。
图14:对金融财报进行了详尽的解析。
企业服务
应用于RPA自动化流程,快速实现合同、报告等重要文档的结构化处理,大幅降低人力成本,支持高效数据溯源。
图15:企业服务 - 合同文档解析示例。
合合信息的AI驱动全栈解决方案,持续赋能各行各业,推动数据驱动的智能化转型与升级。
四、用户体验与生态共建:零门槛试用,灵活接入
合合信息致力于构建开放且便捷的用户体验,提供了功能强大的在线平台和灵活的开发者生态,让个人开发者与企业用户都能轻松享受到AI赋能的高效便捷。
零门槛试用平台:即传即用,实时预览
合合信息提供的在线试用平台支持多种文档格式(如PDF、Doc、PNG)的便捷上传与实时预览编辑。用户无需具备编程能力,即可一键完成文档的智能转换与结构化数据提取,大幅降低了技术使用门槛,实现非技术用户的无障碍体验。
p.s.上面的功能演示图片均为在线平台测试结果 ~
灵活的API与SDK接入方案
合合信息为开发者与企业客户提供了全面、灵活的API与SDK方案,支持实时调用、异步处理及私有化部署等多种模式,可灵活适应高并发在线场景和离线处理需求。清晰明了的代码示例帮助开发者快速接入,轻松打造个性化知识库和智能问答系统。
例如python接口代码:
import requests
import jsondef get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()class TextinOcr(object):def __init__(self, app_id, app_secret):self._app_id = app_idself._app_secret = app_secretself.host = 'https://api.textin.com'def recognize_pdf2md(self, image_path, options, is_url=False):"""pdf to markdown:param options: request params:param image_path: string:param is_url: bool:return: responseoptions = {'pdf_pwd': None,'dpi': 144, # 设置dpi为144'page_start': 0,'page_count': 1000, # 设置解析的页数为1000页'apply_document_tree': 0,'markdown_details': 1,'page_details': 0, # 不包含页面细节信息'table_flavor': 'md','get_image': 'none','parse_mode': 'scan', # 解析模式设为scan}"""url = self.host + '/ai/service/v1/pdf_to_markdown'headers = {'x-ti-app-id': self._app_id,'x-ti-secret-code': self._app_secret}if is_url:image = image_pathheaders['Content-Type'] = 'text/plain'else:image = get_file_content(image_path)headers['Content-Type'] = 'application/octet-stream'return requests.post(url, data=image, headers=headers, params=options)if __name__ == "__main__":# 请登录后前往 “工作台-账号设置-开发者信息” 查看 app-id/app-secrettextin = TextinOcr('#####c07db002663f3b085#####', '######1b1b11a9f9bcd7cc7b######')# 示例 1:传输文件image = 'file/example.pdf'resp = textin.recognize_pdf2md(image, {'page_start': 0,'page_count': 1000, # 设置解析页数为1000页'table_flavor': 'md','parse_mode': 'scan', # 设置解析模式为scan模式'page_details': 0, # 不包含页面细节'markdown_details': 1,'apply_document_tree': 1,'dpi': 144 # 分辨率设置为144 dpi})print("request time: ", resp.elapsed.total_seconds())result = json.loads(resp.text)with open('result_1.json', 'w', encoding='utf-8') as fw:json.dump(result, fw, indent=4, ensure_ascii=False)# 示例 2:传输 URLimage = 'https://example.com/example.pdf'resp = textin.recognize_pdf2md(image, {'page_start': 0,'page_count': 1000, # 设置解析页数为1000页'table_flavor': 'md','parse_mode': 'scan', # 设置解析模式为scan模式'page_details': 0, # 不包含页面细节'markdown_details': 1,'apply_document_tree': 1,'dpi': 144 # 分辨率设置为144 dpi}, True)print("request time: ", resp.elapsed.total_seconds())result = json.loads(resp.text)with open('result_2.json', 'w', encoding='utf-8') as fw:json.dump(result, fw, indent=4, ensure_ascii=False)
智能溯源功能:用得更放心
随着大模型在行业中的深入应用,精准且可追溯的数据变得至关重要。为此,合合信息推出了知识库智能溯源功能,用户在“投喂”知识库的Markdown或JSON文件中,能清晰地标记页码、坐标等空间位置信息,从而实现对任意句子、段落的快速溯源和复核。
例如,在财务分析场景中,当大模型从数千页的财报文件中精准抽取收入、利润等关键数据后,分析师可以通过溯源功能快速定位原始表格与页面,有效防范数据错漏,保障信息的高度可靠性和准确性。这一功能极大提升了用户对大模型的信任感,使行业安心使用AI技术。
五、展望未来:让大模型更懂世界
我们一起测评了合合信息如何利用技术创新有效破解文档与图表解析难题,增强大模型对专业文档的精准理解与应用能力。
合合信息大模型加速器2.0项目的启动,不仅为海量非结构化数据的高效利用提供了解决方案,也为大模型在实际应用中的“理解力”提升奠定了坚实基础。
按官网说明,合合信息未来将继续优化文档解析与图表解析技术,拓展多模态数据处理能力,计划支持流程图、思维导图等多种非结构化内容的智能解析,进一步降低大模型“幻觉”风险,推动AI技术在更多领域落地应用。与此同时,通过开放生态共建,与开发者、行业专家共同探索更丰富的应用场景,实现数据智能化和决策科学化的跨越式升级。
欢迎大家体验并关注合合信息大模型加速器2.0,让我们携手开启数据智能时代的新篇章!
点击下方链接注册体验,可赠送1000次文档解析权限,200次docflow权益(2周使用权益),一起来体验探索最新的文档解析与智能决策技术吧:
https://www.textin.com/user/login?redirect=%2F&from=0320xpkx-pr-kol
参考文章
1、Large OCR Model:多模态大模型的文字识别能力之痛,由OCR大模型来缓解
2、Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation
3、An Empirical Study of Scaling Law for OCR
4、图表解析技术:逆向提取图表数据,需要哪几步?
5、解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
6、击败全球上千参赛队伍,合合信息获ICDAR“文本篡改检测”赛道冠军
7、中国信通院携手合合信息发布《文本图像篡改检测系统技术要求》
hello,我是 是Yu欸 。如果你喜欢我的文章,欢迎三连给我鼓励和支持:👍点赞 📁 关注 💬评论,我会给大家带来更多有用有趣的文章。
原文链接 👉 ,⚡️更新更及时。
欢迎大家点开下面名片,添加好友交流。