AI赋能档案开放审核:实战

关注我们 - 数字罗塞塔计划  - 

为进一步推进档案开放审核工作提质增效,结合近几年的业务探索、研究及项目实践,形成了一套较为成熟、高效的AI辅助档案开放审核解决方案,即以“AI+人工”的人机协同模式引领档案开放审机制创新,在档案开放审核服务过程中,从“定制本地化审核模型、审核数据前处理、SM筛查、AI辅助审核、专业人工复核等九个环节全方位构建AI辅助档案开放审核框架,有效实现档案开放审核的智能化治理和管控,从而推动档案开放审核工作向高质量发展。

( 一 )

AI辅助档案开放审核九步工作法

九步工作法如下图所示:

第一步 制定审核工作计划

根据到期档案审核任务的提醒,结合档案开放审核工作的总体要求,由档案开放审核小组组织开展审核工作,明确审核工作内容、周期,针对审核数据的所属年代、数字化(数据化)进展情况以及现行的审核办法、会审要求等事项进行研究讨论,制定审核工作计划,明确审核工作目标和任务。

第二步 定制本地化审核模型

运用AI辅助档案开放审核管理系统(以下简称“审核系统”),结合档案开放审核办法,细化审核规则调整,训练本地数据,定制适应本地化的算法模型。经过“AI赋能”不仅能够扩大有效供给,提升供给能力,而且能够促进供给侧与需求侧的高效耦合和精准匹配,进一步优化审核能力。

第三步 数据交接

结合审核系统部署情况,可实现在线或离线交接待审核数据。其中在线交接即同在局域网环境下,打通审核系统与馆藏系统的数据接口,在线接收馆藏系统推送的数据包(条目+全文)。全文导入格式支持:PDF、JPG、TIFF等,条目字段值支持选择性获取,如档号、责任者、年度、文件编号、题名等。

第四步 SM筛查

结合档案管理现状,审核过程中可能接触未解密档案数据,为规范作业,需根据工作需要原则、最小化原则设定人员知悉范围。由具有知悉权的人员进行涉密筛查,排除密件后,交由其他工作人员处理,同时落实数据安全、操作安全等措施,确保档案开放审核合理、规范。

第五步 数据质量处理

因部分档案数字化年代较早,档案整理、数字化加工等的数据质量问题直接影响审核判定,因此审核前进行数据质量处理必不可少。具体措施主要包括以下几个方面:一是数据质量检测。基于国家相关标准规范,借助档案数据质量检测工具,自动生成检测报告;二是数据清洗,对于影响开放审核及利用的问题数据,如条目与全文数量不匹配,无全文等问题进行修正;三是数据化处理,结合审核数据数字化成果特征,运用OCR识别专用技术,针对待审核数据进行数据化处理。

第六步 AI辅助审核

构建开放以及延期开放关键词规则库,运用AI算法模型实现智能分库,通过自动或人工分配审核任务,由AI辅助审核,形成初审意见,即形成开放或延期开放审核意见。

第七步 专业人员审核

在AI辅助审核后设置人工审核子流程,包括专业人工复审、移交单位会审、档案馆终审等步骤。由专业人员对AI辅助审核意见进行复审,同时进行数据分析,从而保障审核准确率。

第八步 模型训练

对终审数据按分类编制数据集,进行AI算法模型训练,将其中大部分数据输入模型中进行训练,并对训练好的模型通过剩余的数据进行准确率测试,预测准确率达到预期值以上时即认为模型训练成功,否则需要调整模型算法直至达到预期值。模型训练成果反哺审核系统,从而形成AI辅助开放审核的闭环管理。

第九步 审核成果输出

通过“人机协同”完成审核任务,自动形成开放件、延期开放件两大数据集,同时输出审核成果。一是形成报表,审核系统按全宗、年度等要素自动输出《各全宗各年度拟审核意见统计表》、《拟开放目录汇总表》、《档案开放审核单》等统计类报表;二是编制报告,专业人员根据审核数据分析情况,编撰内容全面、数据详实的《档案开放审核服务工作报告》;三是向社会公布,结合档案馆向社会公布要求,对已审核数据设置到期提醒,满25年自动启动对外公布。

( 二 )

AI辅助档案开放审核案例分析

1、传统审核模式工期估算

某档案馆十四五期间待审核档案(文书档案)共计50万件,馆内开放审核小组工作人员共计3人。按传统审核模式(即以人工为主,逐卷逐件逐页进行审核)完成审核任务,预估830个工作日。

传统模式工作情况表

※ 说明:移交单位会审、档案馆终审等工作流程不含其内。

2、采用AI技术实施成效

鉴于该档案馆审核人员少、工作任务重等现状,馆方决定采购第三方服务,通过“AI+人工”的人机协同模式进行开放审核。按照上述“九步工作法”,运用AI技术进行智能辅助审核,同时由专业人员进行验证后交由档案馆进行复审(或移交单位会审)。

“AI+人工”模式工作情况表

※ 说明:移交单位会审、档案馆终审等工作流程不含其内。

3、案例分析

上述实例,采用“AI+人工”审核模式开展档案开放审核,借助AI的能力,审核工作战线缩短,效率显著提升,人力投入减少。同时,通过专业人员的审核加持,避免了AI审核的误判情况,大幅度提升审核质量,杜绝档案开放的安全隐患。        

全方位的人员结构:

规范化、标准化项目现场:

(模拟项目现场)

(三)

提升AI辅助档案开放审核能力的几点思考

尽管近年来AI技术突飞猛进,但AI在档案开放审核领域中其主要作用依然是辅助。如何实现AI的有效应用,提高AI辅助的准确性、有效性,是当下档案开放审核工作中热度最高的话题之一。结合AI技术在档案开放审核工作中的应用实践,现阶段在AI热潮下,如何做到冷思考与新出发?

一是持续夯实基础

丰富的档案资源是“走向开放”的前提,进一步做优做实做强档案资源基础。一方面要坚持以“内容为王”走向开放,做到“能开尽开”,让档案在开放中走进群众、走进社会,更好服务经济社会发展;另一方面,也要加强归档材料收集的齐全、完整,同时保障档案从数字化到数据化的质量。

二是筑牢安全防线

坚持技术发展和安全可控的双轮驱动,强调在确保信息安全的前提下开展AI技术的应用,构建安全可信环境下的AI赋能框架。

三是加强深度学习

以数据为中心,以深层次的网络堆叠为架构,提供数量量大、内容丰富、结构多样的档案资源,强化训练模型的神经网络泛化能力,进一步提升AI审核能力。

四是育强人才队伍

AI赋能之“根”依然在于人的智慧,需要进一步扩面培养档案开放审核专业技术人员,加强业务学习、技术培训、保密教育,培优育强人才队伍,不断提升档案开放审核的水平和效能。

更多AI赋能档案开放审核细节及相关疑问欢迎4月13日(星期六)来 -数字罗塞塔计划- 直播间交流探讨。

关注我们 - 数字罗塞塔计划  -   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/813780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一站式开源持续测试平台 MerterSphere 之测试跟踪操作详解

一、MeterSphere平台介绍 MeterSphere是一站式的开源持续测试平台,遵循 GPL v3 开源许可协议,涵盖测试跟踪、接口测试、UI 测试和性能测试等功能,全面兼容JMeter、Selenium 等主流开源标准,有效助力开发和测试团队充分利用云弹性…

TCP协议简单总结

TCP:传输控制协议 特点:面向连接、可靠通信 TCP的最终目的:要保证在不可靠的信道上实现可靠的传输 TCP主要有三个步骤实现可靠传输:三次握手建立连接,传输数据进行确认,四次挥手断开连接 三次握手建立可靠…

Golang ProtoBuf 初学者完整教程:语法

一、编码规范推荐 1、文件名使用小写下划线的命名风格,例如 lower_snake_case.proto 2、使用 2 个空格缩进 3、包名应该和目录结构对应 4、消息名使用首字母大写驼峰风格(CamelCase),例如message StudentRequest { ... } 5、字段名使用小写下划线的风格…

【系统分析师】操作系统部分

文章目录 1、进程状态2、前趋图3、PV操作4、死锁问题5、存储管理5.1 页式存储5.2 段式存储5.3 段页式存储5.4 页面置换算法 6、文件管理6.1 索引文件结构6.2 空闲存储空间管理 7、设备管理7.1数据传输控制7.2 虚设备和SPOOLING技术7.3 微内核操作系统7.4 嵌入式操作系统 说明&a…

LeetCode-32. 最长有效括号【栈 字符串 动态规划】

LeetCode-32. 最长有效括号【栈 字符串 动态规划】 题目描述:解题思路一:辅助栈解题思路二:动态规划解题思路三:0 题目描述: 给你一个只包含 ‘(’ 和 ‘)’ 的字符串,找出最长有效(格式正确且…

「51媒体-邀约媒体」活动发布会新闻通稿如何写?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 撰写活动发布会的新闻通稿需要遵循一定的结构和内容要点,以确保信息的准确性、完整性和吸引力。以下是撰写活动发布会新闻通稿的基本步骤和建议: 标题&#xff1…

初识 QT

初始QT 什么是QTQT发展史QT支持的平台QT的优点QT的应用场景搭建QT开发环境QT的开发工具概述QT下载安装 使用QT创建项目QT 实现Hello World程序使用按钮控件来实现使用标签控件来实现 项目文件解析widget.hmain.cppwidget.cppwidget.ui.pro文件 对象树QT 窗口坐标体系 什么是QT …

python linux服务器ssh简单爆破(测试用户名密码)(连接ssh服务器)(测试登录ssh服务器)

文章目录 背景示例代码代码解释导入模块SSH服务器的地址和端口用户名和密码列表生成所有可能的用户名和密码组合尝试连接到SSH服务器并验证用户名和密码遍历并测试每一对凭证 背景 我们华为摄像头linux终端的密码忘了,还不太好初始化,手动一个个测试太麻…

【QingHub】EMQX单节点一键部署

EMQX 简介 EMQX是全球最具扩展性的开源MQTT 代理,具有高性能,可在 1 个集群中连接 1 亿多个 IoT 设备,同时保持每秒 100 万条消息的吞吐量和亚毫秒级的延迟。 EMQX 支持MQTT、HTTP、QUIC、WebSocket等多种开放标准协议。它 100% 符合MQTT 5.…

ChatGPT深度科研应用、数据分析及机器学习、AI绘图与高效论文撰写

2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在…

基于Springboot+Vue的Java项目-在线视频教育平台系统(附演示视频+源码+LW)

大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &am…

使用 Python 标记具有相同名称的条目

如果大家想在 Python 中标记具有相同名称的条目,可以使用字典(Dictionary)或集合(Set)来实现。这取决于你们希望如何存储和使用这些条目。下面我将提供两种常见的方法来实现这个目标。 1、问题背景 在处理数据时&…

电脑端微信截图文字识别功能效率更高了

近期发现微信中的截图文字识别比QQ中的截图文字识别效率高更高,效果更好。 使用方法: 安装电脑端微信客户端:https://weixin.qq.com/(如果没有下载,可以安装一下) 默认截图组合快捷键是:ALTA (使用下来感觉不是很顺手…

AI在运维实践中的价值提升

在2024年的AI赛道上,利用大数据 、机器学习算法、人工智能来改善运维效率已成为软件运营商发展的新主张,通过AI在运维流程的洞察、决策和执行,从而提升效率、减少故障时间,优化用户体验。通过分析大量数据来识别趋势和模式&#x…

【MATLAB】GA_ELM神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~ 1 基本定义 GA_ELM(Genetic Algorithm and Extreme Learning Machine)是一种结合了遗传算法和极限学习机的神经网络时序预测算法。它的核心思想是通过使用遗传算法来优化极限学习机的权重和偏差&…

Python网络爬虫中JSON格式数据存储详解

目录 一、引言 二、JSON格式数据简介 三、Python中处理JSON数据 四、网络爬虫中获取JSON数据 五、存储JSON数据到文件 六、从文件中读取JSON数据 七、注意事项和常见问题 八、总结 一、引言 在网络爬虫的应用中,JSON格式数据以其轻量级、易读易写的…

element UI 设置type=“textarea“ 禁止输入框缩放

背景 在 Element UI 中,当您使用 el-input 组件并设置 type"textarea" 时,默认情况下,用户可以通过拖动输入框的右下角来调整其大小。如果您想禁止这种缩放行为,需要使用 CSS 来覆盖默认的浏览器行为。 注意上图&#x…

用于显著提高检索速度和降低成本的二进制和标量嵌入量化

我们引入了嵌入量化的概念,并展示了它们对检索速度、内存使用、磁盘空间和成本的影响。我们将讨论理论上和实践中如何对嵌入进行量化,然后介绍一个 演示,展示了 4100 万维基百科文本的真实检索场景。 演示地址https://hf.co/spaces/sentence-…

JS控制元素平滑滚动,页面自动滚动锚点实现

使用 scrollIntoView 实现元素内子元素的平滑滚动, 下面是模拟接口list返回,然后通过按钮切换下一个,页面就会滚动到响应的位置 具体 scrollIntoView 有一些其他参数来配置滚动的具体交换,网上去查即可 备注:下面的代码…

Element ui 动态展示表格列,动态格式化表格列的值

需求 后台配置前端展示的表格列,遇到比如 文件大小这样的值,如果后台存的是纯数字,需要进行格式化展示,并且能控制显示的小数位数,再比如,部分列值需要加单位等信息,此外还有状态类&#xff0…