【大比武10】行业垂直大模型应用在档案管理中的探索

关注我们 -  数字罗塞塔计划  -  

# 大比武2024

本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武(简称“大比武 2024”)的投稿文章,来自广州龙建达电子股份有限公司,作者:陶宣任

在这个人工智能技术飞速发展的时代,随着大模型的技术能力逐渐成熟,面向行业的垂直大模型开始在各行各业得到应用,比如在档案的收、管、存、用过程中尝试借助行业垂直大模型来辅助管理者实现高效管理。本文通过分析行业垂直大模型的能力与档案管理需求之间的结合方式,探索行业垂直大模型如何提高档案管理效率。

一. 何为行业垂直大模型?

通用大模型通常指的是能够处理各种领域和主题的大型语言模型,例如ChatGPT和Llama 3。通用大模型在多个领域具有广泛的知识和能力,具备能够回答各种问题、提供多领域的信息与支持、自动编程等能力。而行业垂直大模型是指针对特定行业或领域进行微调训练的大型语言模型,这些模型会基于特定行业的数据和应用场景进行微调,以提供更专业和精确的信息和支持。例如在档案行业中,可以构建一个专门针对档案收集、整理、检索、利用等场景进行微调的档案行业垂直大模型(以下简称“档案大模型”)。

图片

二. 档案管理过程中的创新应用场景

在传统档案管理过程中,随着文件类型、档案数量的增加,对于档案工作者而言,无疑大幅度增加了他们的日常工作压力,从档案的接收、整理、保管,再到检索利用,每份档案的生命周期都需要工作者干预。为此,根据档案管理流程,结合实际业务情况,总结出档案管理过程中可以进行创新建设的应用场景:

图片

01 档案自动化整理

档案整理工作往往是重复而又繁琐,需要对大量待归档的电子文件进行元数据收集、分类、组件、编号、编目、归档等人工操作,希望可以通过技术手段自动化处理档案整理中的一系列任务,人工只需审核整理结果而无需进行整理工作,从而将档案工作者从繁重的档案整理工作中解放出来。

02 构建档案信息“大脑”

在传统的档案检索过程中,由于检索引擎技术限制,且著录信息有限,常用的目录检索或是关键字检索等传统方式,往往只能对档案数据库中的结构化数据信息进行检索,查全率和查准率都不尽如人意。需要借助工具自动学习各类档案中的内容,构建档案信息“大脑”,利用者无需通过检索方式来获取所需信息,只需通过“自然语言交互方式”即可,快速实现有关档案的相关问题解答或是精准全面的档案查询利用。

03 档案智慧编研

传统档案编研受限于档案检索功能的不完善以及编研人员的个人知识结构,许多珍贵、有价值、和主题相关度高的档案无法进入编研范围,进而影响到编研成果。利用先进的AI技术对海量档案数字资源进行智能识别,自动完成档案信息的整理和归集,并智能根据编研主题类型和格式要求生成报告,输出各种格式的编研成果,实现档案编研的智能化。

三. 构建档案行业垂直大模型

档案业务的主要工作有接收、整理、鉴定、保管、检索、利用、编研、统计等,事实上,每个业务过程都可以借助行业垂直大模型来辅助操作,进而实现档案管理的变革创新,提高档案管理效率。

档案大模型具体实现方式如下:

图片

01 行业垂直大模型本地化

不同于通用大模型,行业垂直大模型具备本地化学习的能力。由于档案的特性,档案大模型不能采用互联网模式,需通过NLP等技术对本地档案数据进行不断训练和学习。档案大模型本地应用流程示意图如下:

图片

02 支持“学习”各类文件

通用大模型一般只支持纯文本交流,而电子档案的文件格式多种多样,档案大模型本地化后必须做到“不挑食”。其具有强大的各类文件解析学习能力,可对档案库中的常见文件类型进行学习,如文书档案的PDF/OFD/XML格式、照片档案的JPEG格式、音频档案的MP3格式、视频档案的MP4格式等等,这样才能真正辅助管理档案。文件解析流程示意图如下:

图片

03 理解“人话”

基于本地档案数据构建档案知识库,利用档案大模型的自然语言交互能力和理解能力,借助向量数据库的加持,搭建一个“AI智能问答系统”。实现能以自然语言问答方式进行档案的“问答式利用”,要求该系统能理解“人话”,能以人的方式进行思考,并能通过“人话”和管理员进行沟通。

图片

四. 使用行业垂直大模型赋能应用场景

依托档案大模型,就可以赋能档案自动整理、AI智能问答、智慧编研等创新应用场景了,从而实现档案高效管理。

01 档案自动高效整理

快速针对tif、jpg、ofd、pdf等常见格式的电子档案进行智能档案整理,实现自动分类和元数据信息自动捕获,智能提取电子文件内容中的有效信息,高效完成档案的智能分类、编号、排序等业务操作。比如提取文书类档案中的文号、发文时间、标题、发文单位、抄送、主题词等元数据信息,并对著录项进行自动赋值。档案整理人员只需上传档案到本地库,然后确认大模型输出的整理结果是否无误即可,无需进行繁琐的整理工作。下图是通过大模型对某份文件进行自动整理的系统页面,可以清晰看到这份文件上传后,大模型就能从文件内容中识别并提取出这份文件需要著录的元数据信息:

图片

02 档案AI智能问答

在“AI智能问答系统”中只需输入相应任务要求,大模型会自动理解文本语义并基于AI的思考方式进行数据检索和整理,然后利用强大的自然语言表达能力输出易于理解且匹配任务要求的档案信息结果,从而为用户提供快速、准确、智能的回答和智能检索,提升档案资源的利用效率和管理效率。下图是人工提出两项任务要求后,大模型根据本地档案的实际情况显示智能回答结果的系统页面,且每个回答结果都注明来源,确保需人工确认的时候可以快速判断该结果是否准确。

图片

03 档案智慧编研

选择合适的档案数据对大模型进行训练学习,使其具备一定深度的档案行业语言理解能力以及对话生成、文章创作等能力,编研人员只需要输入编研主题,智慧编研系统即可自动开展档案编研工作,自动生成档案编研成果。

图片

由于编研成果(比如大事记、年鉴、主题展览等)对于内容归纳、总结、提炼的要求较高,现阶段档案大模型赋能智慧编研的效果尚不能达到行业专家的水平,但可以帮助编研人员进行相关材料的汇聚和整理。

五.总 结

总体而言,现阶段行业垂直大模型的应用已经能够在一定程度上提高档案管理的效率,比如实现档案自动整理、快速问答、便捷利用等任务,减轻档案工作者的压力,促进档案信息资源的开发和利用。然而,行业垂直大模型技术离成熟还有一段距离,人工的参与和监督仍是必要的,需对最终输出的结果进行验证和修正,以确保结果的准确性和合规性。未来,随着行业垂直大模型的能力越来越强,赋能档案管理中的应用场景也会越来越丰富,类似于上文中提到的难度相对较大的智慧编研任务,通过大规模、针对性档案数据的训练学习并不断优化模型之后,相信也能输出超越人工整理的优质编研成果。

数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

关注我们 -  数字罗塞塔计划  -  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/19878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解flask规则构建与动态变量应用

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言 二、Flask规则基础 1. 静态规则与动态规则 2. 规则语法与结构 三、动态变量应用…

CISCN 2022 初赛 ez_usb

还是从第一个 URB向后看 发现 同时 存在 2.8.1 2.10.1 2.4.1 但是显然 2.4.1 是7个字节 不满足 usb流量要求 只考虑 2.8.1 和 2.10.1 tshark -r ez_usb.pcapng -T json -Y "usb.src \"2.8.1\"" -e usbhid.data > 281.json 正常取数据即可 import js…

【vue】v-for只显示前几个数据,超出显示查看更多

v-for只显示前几个数据&#xff0c;超出显示查看更多 如图 <div v-for"(item,index) in list.slice(0,3)" :key"index"><div class"degreeNo" :class"index0?noOne:index1?noTwo:index2?noThree:"> NO{{index1}}:<…

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述 关于此文&#xff0c;我的一个见解想法&#xff0c;重点关注他怎么描述 「Diffusion Model」的引用的&#xff0c;以及未来方向就好了。当然从这篇文章可以知道 「Diffusion Model」的一个基石…

HR人才测评,企业人才综合素质测评?

HR企业人才综合素质测评是一种评估企业人才综合素质的方法。该测评方法通过对人才的综合能力、专业技能、沟通协调能力、团队合作能力、领导管理能力等方面进行评估&#xff0c;以期为企业提供更全面、更客观、更科学的人才选拔和管理的依据。 点击这里了解&#xff1a;『企业…

强化学习的应用场景:何时使用强化学习?

RL 强化学习的应用场景&#xff1a;何时使用强化学习&#xff1f;强化学习的基本原理适用场景1. 连续决策过程2. 不完全信息3. 动态环境4. 长期回报优化5. 无明确监督信号 实际案例游戏AI机器人控制自主驾驶金融交易推荐系统 结论 强化学习的应用场景&#xff1a;何时使用强化学…

免费生物蛋白质的类chatgpt工具助手copilot:小分子、蛋白的折叠、对接

参考: https://310.ai/copilot 可以通过自然语言通话晚上蛋白质的相关处理:生成序列、折叠等 应该是agent技术调用不同工具实现 从UniProt数据库中搜索和加载蛋白质。使用ESM Fold方法折叠蛋白质。使用310.ai基础模型设计新蛋白质。使用TM-Align方法比较蛋白质。利用Protei…

整合框架(spring...) 统一异常处理

1、 我们想让异常结果也显示为统一的返回结果对象&#xff0c;并且统一处理系统的异常信息&#xff0c;那么需要统一异常处理。 附加&#xff1a;创建封装错误状态码和错误消息VO 代码如下&#xff1a; Result import io.swagger.v3.oas.annotations.media.Schema; impo…

MOE模型入门

一、目录 定义&#xff1a;MOE架构代表类型如何解决expert 平衡的&#xff1f;而不是集中到某一专家。如何训练、微调MOE模型&#xff1f;基础架构优缺点不同MOE 模型实现方式、训练方法 二、实现 定义&#xff1a;MOE架构 MOE:混合专家模型&#xff0c;多个专家共同决策的模…

Redis 探索之旅(进阶)

目录 今日良言&#xff1a;从不缺乏从头开始的勇气 一、持久化 1、RDB 2、AOF 二、Redis 的事务 三、主从复制 四、哨兵模式 五、集群模式 六、缓存 七、分布式锁 今日良言&#xff1a;从不缺乏从头开始的勇气 一、持久化 持久化就是把数据存储在硬盘上&#xff0c;无…

CUDA学习(2)

什么是CUDA CUDA&#xff08;Compute Unified Device Architecture&#xff09;&#xff0c;统一计算设备架构&#xff0c;英伟达推出的基于其GPU的通用高性能计算平台和编程模型。 借助CUDA&#xff0c;开发者可以充分利用英伟达GPU的强大计算能力加速各种计算任务。 软件生…

保险 - day12 时序数据库influxdb

时序数据库 时序数据库是近几年一个新的概念&#xff0c;与传统的Mysql关系型数据库相比&#xff0c;它的最大的特点是&#xff1a;数据按照时间顺序存储。举例来说&#xff0c;日志数据&#xff0c;是以时间顺序存储的&#xff0c;所以用时序数据库存储是一种很好的选择。使用…

【stm32】stm32f407 ch340下载

一、接线 1、ch340 Vcc短接3v3 5v---------5v GND-----GND TX ------RX RX --------TX 2、stm32F407 如上图&#xff0c;我们需要进入isp下载模式&#xff0c;接线图如下 二、下载 使用FlyMcu选择你要下载的程序文件中的.hex文件&#xff0c; 然后配置图如下&#xff1…

Visual Studio的桌面快捷方式图标不显示

1.问题描述 以下以Visual Studio 2019举例&#xff0c; 正常图标&#xff1a; 但是当前Visual Studio的桌面快捷方式图标不显示了&#xff1f; 2.问题原因分析 Visual Studio 2019桌面快捷方式图标不显示可能由以下几个原因造成&#xff1a; 图标缓存问题&#xff1a;Windo…

五种主流数据库:常用数据类型

在设计数据库的表结构时&#xff0c;我们需要明确表中包含哪些字段以及字段的数据类型。字段的数据类型定义了该字段能够存储的数据种类以及支持的操作。 本文将会介绍五种主流数据库中常用的数据类型以及如何选择合适的数据类型&#xff0c;包括 MySQL、Oracle、SQL Server、…

【Linux】从零开始认识进程间通信 —— 共享内存

送给大家一句话&#xff1a; 吃苦受难绝不是乐事一桩&#xff0c;但是如果您恰好陷入困境&#xff0c;我很想告诉您&#xff1a;“尽管眼前十分困难&#xff0c;可日后这段经历说不定就会开花结果。”请您这样换位思考、奋力前行。 -- 村上春树 &#x1f506;&#x1f506;&…

[数据集][目标检测]打架检测数据集VOC格式3146张2类别

数据集格式&#xff1a;Pascal VOC格式(不包含分割的txt文件&#xff0c;仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数)&#xff1a;3146 标注数量(xml文件个数)&#xff1a;3146 标注类别数&#xff1a;2 标注类别名称:["nofight","fight"] 每个类别…

c# - 运算符 << 不能应用于 long 和 long 类型的操作数

Compiler Error CS0019 c# - 运算符 << 不能应用于 long 和 long 类型的操作数 处理方法 特此记录 anlog 2024年5月30日

PBR系列-物理材质(上)

作者&#xff1a;游梦 对PBR系列文章感兴趣还可以看前文&#xff1a; PBR系列 - 物理光源 PBR系列-光之简史 前面两篇文章分别介绍了物理光源与光学研究简史&#xff0c;在对光有了简单认识之后&#xff0c;再认识物理材质会发现其实本质上还是对光的研究&#xff0c;再深入…

python爬取每日天气情况

python爬取每日天气情况 一、项目简介二、完整代码一、项目简介 本次爬取的目标数据来源于天气网,数据所在的页面如下图所示,本次任务较为简单,按照正常操作流程操作即可,即抓包分析数据接口,发送请求获取数据,解析数据并持久化存储。发送请求使用requests库,解析数据使…