使用chat-GPT接口提取合同中关键信息

1 业务需求

        目前公司有几千份合同,而且还会不断的增长;现在需要将合同中的关键信息提取出来给业务使用,业务现在需要将这些关键字段信息录入存档到档案系统;人工去阅读整个合同去提取这些信息,是很浪费人力的;因此,现在需要将合同给AI去识别提取指定字段信息,按照格式输出excel给业务人员进行简单的审核,然后直接导入档案系统即可;这样极大的减少了人工的浪费;合同文本和每类合同的需要提取的关键字段由业务方提供(合同文本为pdf图片格式的扫描件)

2 需求分析

        由于合同文本信息的格式为扫描件图片格式,那么第一步是需要将图片格式的pdf转换成文本格式pdf 这样程序才能解析;这一步操作只需要用现成的转换工具提前先转换好;在转换时,我发现扫描件中不够清晰的图片,或者有人工书写的文字在转换成文本文字时出现错别字;这些就会导致ai提取原文出现错误;这种情况只能是人工来处理了;所有的操作都是基于文件进行的;所以需要列举出文件列表;

3 方案设计

        第一步: 在上述处理完成文档转换后,(上传前需要选择合同类型)用户需要将文档上传oss云存储上,上传成功之后,使用程序按照段落分隔文档将文档数据落库;(为什么要这么做?因为调用gpt接口有token 数限制,其次也是为了提高响应速度)可批量操作;上传成功之后展示文件列表信息;

        第二步:将需要识别的合同关键字段导入到数据表中;(通过excel表格形式导入)

        第三步:触发ai识别

        分割完成后,选择需要触发识别的文档;可批量操作文档;触发ai识别按钮,这时会获取分隔好的数据获取到;然后组装PROMPT,组装的信息需要按照不同类型的合同从第二步中的数据表中获取;然后将对应合同的分隔的合同段落数据和组装好的数据拿去循环请求gpt接口,将识别结果一次落入对应的数据表;循环的请求完成后,会将识别的数据表中的数据按照合同分类依次进行数据的重新整理和组装,最后将数据落入到导出结果表中,以供数据直接导出!

        第四步:导出结果

        从解析完成的列表中选择进行导出,直接导出excel识别的结果

4 实现效果

5 总结

        整体识别准确率可以高达80%,由于合同数量比较大;业务方无法准确给出每个合同需要找得关键字段;只能根据合同的类型分类给出;这样就导致了有些字段在合同信息中根本没有提到;或者说给出的字段和合同中描述的有所区别;这样就导致了这些字段识别会不准确;还有一种情况就是,合同中干扰信息的影响导致同一个字段信息的提取出多种不同的结果;以上这种不误差,都需要人工再来一次快速的筛选。虽然不能做到100%识别准确;但是也极大程度减少了人工成本

比如:

        分包类型/维保价格/计算频次 受干扰信息影响,识别出了多个结果,需要人工对照原文进行选择;

        合同中识别不到的信息,结果是空的;(原文中没有项目地址,但需要识别);

        同一个关键字段的提取,干扰信息导致识别错误;

        (对于合同中没有的信息不应该成为识别字段)这样可以提高识别准确率;用户只需要选择多个是识别结果中准确的一个就可以了 ,如果业务做不到那就只能人工再来快速审查最终的结果;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/101117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gossip协议是什么

Gossip协议是什么 Gossip protocol 也叫 Epidemic Protocol (流行病协议), 是基于流行病传播方式的节点或者进程之间信息交换的协议, 也被叫做流言算法, 八卦算法、疫情传播算法等等. 说到 Gossip 协议, 就不得不提著名的六度分隔理论. 简单地说, 你和任何一个陌生人之间所间…

Linux 安全 - LSM机制

文章目录 前言一、LSM起源二、LSM简介2.1 MAC2.2 LSM特征 三、Major and Minor LSMs3.1 Major LSMs3.2 Minor LSMs3.3 BPF LSM 四、LSM 框架五、LSM Capabilities Module六、LSM hooks 说明参考资料 前言 在这两篇文章中介绍了 Linux 安全机制 Credentials : Linu…

Mac M1运行、连接 Docker MongoDB7。导出、恢复数据库

MongoDB,版本5、6.02、7.02适用 记录两种使用MongoDB的方法,本地安装包和docker 本地安装包方法:Mac M1安装MongoDB6、后台运行 Docker Mongo 一、docker运行MongoDB,并设置用户名密码 可以在创建容器的时候指定root用户名密码…

CAMERALINK通信应用

简述: Cameralink是一个全面的视频接口,他可以满足以前所有的传输视频的功能,包括通信、配置、应答、同步、以及复位等等,在以前简单提过一下,但是没有深入研究,其实这个通信还是比较简单的,在这…

过滤器的实现及其原理责任链设计模式

Filter过滤器 过滤器的应用 DeptServlet,EmpServlet,OrderServlet三个业务类的业务方法执行之前都需要编写判断用户是否登录和解决的中文乱码的代码,代码没有得到重复利用 Filter是过滤器可以用来编写请求的过滤规则和多个Servlet都会执行的公共代码,Filter中的业务代码既可…

JVM的内存模型

一、JVM的内存模型 1.1、目标 内存模型是用来描述JVM内部的内存结构和内存管理的模型。它定义了JVM在运行Java程序时所需要的各种内存区域,以及每个内存区域的作用和特点。 1.2、结构划分 1.2.1、栈 每个线程在执行Java方法时会创建一个栈帧(Stack …

Chrome自动播放限制策略

原文链接:Chrome 自动播放限制策略 Web浏览器正在朝着更严格的自动播放策略发展,以便改善用户体验,最大限度地降低安装广告拦截器的积极性并减少昂贵和/或受限网络上的数据消耗。这些更改旨在为用户提供更大的播放控制权,并使开发…

[sqoop]hive导入mysql,其中mysql的列存在默认值列

一、思路 直接在hive表中去掉有默认值的了列,在sqoop导入时,指定非默认值列即可, 二、具体 mysql的表 hive的表 create table dwd.dwd_hk_rcp_literature(id string,literature_no string,authors string,article_title string,source_title string…

RabbitMQ开启消息发送确认和消费手动确认

开启RabbitMQ的生产者发送消息到RabbitMQ服务端的接收确认(ACK)和消费者通过手动确认或者丢弃消费的消息。 通过配置 publisher-confirm-type: correlated 和publisher-returns: true开启生产者确认消息。 server:port: 8014spring:rabbitmq:username: …

项目创建 Vue3 + Ts + vite + pinia

vite官网 项目初始化 准备安装工作(按步骤创建) npm init vuelatest创建完成后再次安装对应插件 然后百度配置main.ts里面引入 npm i pinia --save //安装pinia npm i vue-router --save //安装router npm i axios --save //安装axios //安装sass或less npm add -D scss npm…

uniapp-vue3微信小程序实现全局分享

uniapp-vue3微信小程序实现全局分享 文章目录 uniapp-vue3微信小程序实现全局分享微信小程序官方文档的分享说明onShareAppMessage(Object object)onShareTimeline() uniapp 官方文档的分享说明onShareAppMessage(OBJECT) 实现全局分享代码结构如下share.js文件内容main.js注意…

聊聊身边的嵌入式:用了七八年的电动牙刷,突然罢工了!!!

家里用了七八年的电动牙刷,前两天突然罢工。先尝试一下野蛮的修复方法(摔摔打打),这种独家绝技屡试不爽,曾经修好过收音机,电视机,电子手表… 等等。不过这次,没有成功!这周末终于有点儿时间&am…

数据库Mysql三大引擎(InnoDB、MyISAM、 Memory)与逻辑架构

MySQL数据库及其分支版本主要的存储引擎有InnoDB、MyISAM、 Memory等。简单地理解,存储引擎就是指表的类型以及表在计算机上的存储方式。存储引擎的概念是MySQL的特色,使用的是一个可插拔存储引擎架构,能够在运行的时候动态加载或者卸载这些存…

奥威BI系统:做数据可视化大屏,又快又简单

数据可视化大屏的制作难吗?会很花时间精力吗?这就要看用的是什么软件了。如果用的是BI系统,特别是奥威BI系统这类BI商业智能软件,那就是又快又简单。 奥威BI系统介绍: 奥威BI系统是一款高效的数据可视化大屏工具&…

Xilisoft Video Converter Ultimate for Mac:让音视频转换变得更简单

无论是在工作还是娱乐中,我们都会遇到音视频格式不兼容的问题。这时候,一个好用的音视频格式转换工具就显得尤为重要。Xilisoft Video Converter Ultimate for Mac(曦力音视频转换)就是这样一款让您的音视频转换变得更简单的工具。…

萝卜刀玩具上架亚马逊CPC认证测试标准

含铅或含铅涂料儿童产品的要求 分阶段限制儿童产品所有部件的铅含量,要求在3年内将产品任何可接触部件的铅含量限制从不超过重量的600ppm(0.06%)降至不超过重量的100ppm(0.01%)。 铅含量限值(总铅含量占重…

Pushgateway的场景使用

1,Pushgateway简介 Pushgateway为Prometheus整体监控方案的功能组件之一,并做为一个独立的工具存在。它主要用于Prometheus无法直接拿到监控指标的场景,如监控源位于防火墙之后,Prometheus无法穿透防火墙;目标服务没有可抓取监控数据的端点等多种情况。在类似场景中,可通…

element树形控件单选

需求功能&#xff1a; 1&#xff0c;element树形控件单选 2&#xff0c;双击节点编辑 <div style"height: calc(100% - 48px)"><el-scrollbar class"scrollbar-wrapper"><el-tree :data"treesObj" show-checkbox default-expan…

stable diffusion艰难炼丹之路

文章目录 概要autoDL系统盘爆满autoDL python3.8切换python3.10dreambooth训练大模型完成后报错 概要 主要是通过autoDL服务器部署stable diffusion&#xff0c;通过dreambooth训练大模型。 问题&#xff1a; autoDL系统盘爆满autoDL python3.8切换python3.10dreambooth训练大…

什么是云计算?云计算简介

其实“云计算”作为一个名词而言&#xff0c;那是相当成功滴。很多人都有听过。但提及云计算”具体是什么?很多人&#xff0c;知其然&#xff0c;却不知其所以然! 利用软件将这些成千上万不可靠的硬件组织成一个稳定可靠的IT系统&#xff0c;以此支撑其公司的IT基础服务。这家…