【ChatIE】论文解读:Zero-Shot Information Extraction via Chatting with ChatGPT

文章目录

    • 介绍
    • ChatIE
      • Entity-Relation Triple Extration (RE)
      • Named Entity Recognition (NER)
      • Event Extraction (EE)
    • 实验
    • 结果
    • 结论

论文:Zero-Shot Information Extraction via Chatting with ChatGPT
作者:Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, Wenjuan Han
时间:2023

zero-shot information extraction 的目是从未注释的文本中构建信息提取(IE)系统,由于大模型发展迅速,其下游任务效果有了质的提升,文章中考虑采用prompt技巧进行信息提取,观察zero-shot 提取信息的可取性;

为此创建了一个二阶段的多回合问答框架ChatIE,并在三个IE任务上广泛地评估:整体关系三重提取、命名实体识别和事件提取。在两种语言的6个数据集上的经验结果表明,ChatIE取得了令人印象深刻的性能;

介绍

首先information extration 的目的是从非结构化的文本中提取出结构化的信息,并将结构化的信息转化为结构化的数据格式,信息提取主要由三块任务构成:三元组提取,实体命名识别,事件提取 entity-relation triple extract (RE), named entity recognition (NER), event extraction (EE);

在一般的处理工作中,以RE任务中PURE模型举例子[2010.12812] A Frustratingly Easy Approach for Entity and Relation Extraction (arxiv.org),首先识别出两个实体,然后再预测两个实体之间的关系,虽然说效果很好,但是这只适用于特别的任务并且是监督训练的,需要大量的标注数据;

由于一般IE方法的特殊性和昂贵性,这里转向研究ChatGPT的prompt来进行IE任务处理;

作者提出了一个两阶段的多轮问答框架,在第一阶段找出相应的元素类型,在第二阶段对每个元素类型进行链式信息提取;利用该框架进行信息提取的效果很明显;

ChatIE

这是一个两阶段框架:在第一阶段,目标是在三个任务中分别找出句子中的实体、关系或事件的现有类型。这样,我们就可以过滤掉不存在的元素类型,以减少搜索空间和计算复杂度,从而提取信息。然后在第二阶段,我们根据第一阶段提取的元素类型以及相应的任务特定方案,进一步提取相关信息。

如果没有提取任何内容,每个阶段都将生成无token的回答;

Entity-Relation Triple Extration (RE)

三元组提取任务也就是在文本中提取 ( s , r , o ) (s,r,o) (s,r,o):

这里的r指的是第一阶段提取到的关系,q1指第一阶段的问题,qr指根据第一阶段得到的关系提出的第二阶段的问题,也就得到 ( s , r , o ) (s,r,o) (s,r,o)

Named Entity Recognition (NER)

第一阶段我们先去获得实体类型,第二阶段根据实体类型获得实体的名字;

例如:第一阶段得到人物,地点,导演;第二阶段得到人物是谁,地点在哪,导演是谁;

Event Extraction (EE)

第一阶段我们先去获得事件类型并进行分类,第二阶段再根据每个类型的事件去获得类型;

实验

数据

RE数据:NYT11-HRL 包含12个预定义的关系类型,DuIE2.0 该行业中最大的基于模式的中国RE数据集,包含48种预定义的关系类型。三元组中的一些对象具有多个属性;

NER数据:The conllpp dataset conll2003的修改版本包含4种实体类型,MSRA 一个针对新闻字段的中文命名实体识别数据集,其中包含3种实体类型。

EE数据:DuEE1.0 百度发布的中文事件提取数据集,The ACE05 corpus 来自新闻通讯社和在线论坛等各种领域的文档和句子级别的事件注释。

评价指标

micro F1

结果

可以看到ChatIE的效果很突出;同时观察下表:

可以发现,基于聊天的Chat-based prompt 要比 一般的prompt得到的更准确;

结论

ChatIE 在 zero-shot information extration 任务中效果表现突出;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式——EEPROM(AT24C02)

目录 一、初识AT24C02 1. 介绍 2. 引脚功能 补: 二、AT24C02组成 1. 存储结构 2. AT24C02通讯地址 3. AT24C02寻址方式 (1)芯片寻址 (2)片内子地址寻址 三、AT24C02读写时序 1. 写操作 (1&…

Linux|centos7下的编译|ffmpeg的二进制安装

Windows版本的ffmpeg: ###注意,高版本可能必须要windows10以及以上才支持,win7估计是用不了的 下载地址:Builds - CODEX FFMPEG gyan.dev 或者这个下载地址:https://github.com/BtbN/FFmpeg-Builds/releases 这两个…

ClickHouse--12-可视化工具操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 可视化工具操作1 tabixhttp://ui.tabix.io/ 2 DBeaverhttps://dbeaver.io/download/ 可视化工具操作 1 tabix tabix 支持通过浏览器直接连接 ClickHouse&#xff…

【制作100个unity游戏之25】3D背包、库存、制作、快捷栏、存储系统、砍伐树木获取资源、随机战利品宝箱12(附带项目源码)

效果演示 文章目录 效果演示系列目录前言悬停显示物品详情源码完结 系列目录 前言 欢迎来到【制作100个Unity游戏】系列!本系列将引导您一步步学习如何使用Unity开发各种类型的游戏。在这第25篇中,我们将探索如何用unity制作一个3D背包、库存、制作、快…

11.【CPP】模版(深入理解模版的实例化,从编译链接的原理理解模版为何无法分离编译)

非类型模版参数 1.模版参数分为类型模版参数和非类型模版参数,非类型模版参数一般都是整形常量(整形:size_t,int,char等) 2.浮点数、类对象以及字符串是不允许作为非类型模版参数的。非类型模版的参数必须在编译的时候就能确定结…

leetcode hot100 拆分整数

在本题目中,我们需要拆分一个整数n,让其拆分的整数积最大。因为每拆分一次都和之前上一次拆分有关系,比如拆分6可以拆成2x4,还可以拆成2x2x2,那么我们可以采用动态规划来做。 首先确定dp数组的含义,这里dp…

第13章 网络 Page744~746 asio核心类 ip::tcp::endPoint

2. ip::tcp::endpoint ip::tcp::socket用于连接TCP服务端的 async_connect()方法的第一个入参是const endpoint_type& peer_endpoint. 此处的类型 endpoint_type 是 ip::tcp::endpoint 在 在 ip::tcp::socket 类内部的一个别名。 libucurl 库采用字符串URL表达目标的地…

LeetCode 100题目(python版本)待续...

一.哈希 1.两数之和 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复…

Acwing---846. 树的重心

树的重心 1.题目2.基本思想3.代码实现 1.题目 给定一颗树,树中包含 n n n 个结点(编号 1 ∼ n 1∼n 1∼n)和 n − 1 n−1 n−1 条无向边。 请你找到树的重心,并输出将重心删除后,剩余各个连通块中点数的最大值。 …

【C Primer Plus第六版 学习笔记】 第十七章 高级数据表示

有基础&#xff0c;进阶用&#xff0c;个人查漏补缺 链表&#xff1a;假设要编写一个程序&#xff0c;让用户输入一年内看过的所有电影&#xff0c;要储存每部影片的片名和评级。 #include <stdio.h> #include <stdlib.h> /* 提供malloc()的原型 */ #include <s…

el-date-picker 选择年后输出的是Wed Jan 01 2025 00:00:00 GMT+0800 (中国标准时间)

文章目录 问题分析 问题 在使用 el-date-picker 做只选择年份的控制器时&#xff0c;出现如下问题&#xff1a;el-date-picker选择年后输出的是Wed Jan 01 2025 00:00:00 GMT0800 (中国标准时间)&#xff0c;输出了两次如下 分析 在 el-date-picker 中&#xff0c;我们使用…

数学建模【非线性规划】

一、非线性规划简介 通过分析问题判断是用线性规划还是非线性规划 线性规划&#xff1a;模型中所有的变量都是一次方非线性规划&#xff1a;模型中至少一个变量是非线性 非线性规划在形式上与线性规划非常类似&#xff0c;但在数学上求解却困难很多 线性规划有通用的求解准…

计算机网络之网络安全

文章目录 1. 网络安全概述1.1 安全威胁1.1.1 被动攻击1.1.2 主动攻击 1.2 安全服务 2. 密码学与保密性2.1 密码学相关基本概念2.2 对称密钥密码体制2.2.1 DES的加密方法2.2.2.三重DES 2.3 公钥密码体制 3. 报文完整性与鉴别3.1 报文摘要和报文鉴别码3.1.1 报文摘要和报文鉴别码…

从零开始手写mmo游戏从框架到爆炸(十二)— 角色设定

导航&#xff1a;从零开始手写mmo游戏从框架到爆炸&#xff08;零&#xff09;—— 导航-CSDN博客 写了这么多的框架&#xff0c;说好的mmo游戏呢&#xff1f;所以我们暂时按下框架不表&#xff0c;这几篇我们设计英雄角色、怪物、技能和地图。本篇我们来对游戏角色…

【BUG】段错误

1. 问题 8核工程&#xff0c;核4在运行了20分钟以上&#xff0c;发生了段错误。 [C66xx_4] A00x53 A10x53 A20x4 A30x167e A40x1600 A50x850e2e A60x845097 A70xbad9f5e0 A80x0 A90x33 A100x53535353 A110x0 A120x0 A130x0 A140x0 A150x0 A160x36312e35 A170x20 A180x844df0 …

没有PFMEA分析的检测过程会有什么风险?

随着科技的快速发展&#xff0c;产品复杂度不断提升&#xff0c;检测过程的重要性日益凸显。然而&#xff0c;在这个过程中&#xff0c;如果没有进行PFMEA分析&#xff0c;将会带来怎样的风险呢&#xff1f;本文将对此进行深入探讨。 众所周知&#xff0c;检测是确保产品质量的…

openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优

文章目录 openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优222.1 前提条件222.2 内存相关参数设置222.3 网络相关参数设置222.4 I/O相关参数设置 openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优 在性能调优过程中&#xff0c;可以根据…

数据库第六次实验

目录 1 实体完整性 1.1 单属性 1.2 多属性 2 参照完整性 2.1 单属性 2.2 多属性 3 用户自定义完整性 3.1 属性上的约束 3.2 元组上的约束 1 实体完整性 1.1 单属性 ①定义 use 实体完整性_单属性; create table Student_s_d( Sno char(9) primary key, Sna…

事务管理 及 AOP

一、事务管理 1.1 事务回顾 1.2 Spring事务管理 1.3 事务进阶 1.3.1 rollbackfor 1.3.2 propagation 控制台日志过滤插件&#xff1a; 查看事务管理日志是JdbcTrsactionManager类&#xff1a; 在控制台找到JdbcTrsactionManager——右击——add highlight——红色——所有事…

超声波清洗机洗眼镜好吗?超声波清洗机哪个品牌更值得推荐一些

随着科技的进步&#xff0c;很多朋友因为长时间沉迷于看电子产品&#xff0c;所以早早的就佩戴上眼镜了&#xff0c;从而离不开眼镜。眼镜长时间佩戴会导致上面积累着非常多的灰尘&#xff0c;堆积在镜片上就会导致视线变得模糊不清了&#xff0c;影响视线。然而很多人也很少去…