关系分类(RC)模型和关系抽取(RE)模型的区别

目标不同

关系分类模型:对给定的实体对在给定句子中预测其关系类型。两阶段(RC)

关系抽取模型:从句子中识别出所有潜在实体对,并为其预测关系类型。一阶段(NER+RE)


训练/预测阶段输入输出数据不同

关系分类模型:

训练阶段

训练:
输入:句子 + 实体对| 句子:苹果公司总部位于加州库比蒂诺| 实体对:(苹果公司, 加州库比蒂诺)| 标注真实关系标签:位于
输出:模型预测关系:位于

预测阶段

预测:
输入:句子 + 实体对| 句子:苹果公司总部位于加州库比蒂诺| 实体对:(苹果公司, 加州库比蒂诺)
输出:模型预测关系:位于

关系抽取模型:

训练阶段

输入:句子:乔布斯是苹果公司的创始人标注真实集合:实体集合:{乔布斯: 人物, 苹果公司: 组织}关系集合:{(乔布斯, 创立, 苹果公司)}输出:模型生成:实体集合:{乔布斯: 人物, 苹果公司: 组织}关系集合:{(乔布斯, 创立, 苹果公司)}

预测阶段

输入:句子:乔布斯是苹果公司的创始人输出:预测的实体集合:{乔布斯: 人物, 苹果公司: 组织}预测的关系集合:{(乔布斯, 创立, 苹果公司)}

🤔 关系分类模型和关系抽取模型在训练时使用的数据集有何不同?

关系分类模型和关系抽取模型在训练时使用的数据集是不同的,因为它们的任务目标和方法逻辑不同。以下是两者在数据集格式和内容上的主要区别:


1. 关系分类模型的数据集

目标:从给定的句子和实体对中预测其关系类型。

数据集格式

每条数据是一个三元组,包括句子、实体对和关系标签。

  • 内容

    1. 句子:单个句子,包含明确的上下文。
    2. 实体对:两个实体,通常以 (实体1, 实体2) 的形式表示。
    3. 关系标签:从一个固定的关系集合中选择一个标签。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体对:(乔布斯, 苹果公司)
    - 关系标签:创立
    
特点
  • 数据中的实体对是已知的,无需模型检测。
  • 每个句子只针对特定的实体对预测关系。
  • 需要提供明确的关系标签集合。

2. 关系抽取模型的数据集

目标:从一个句子中同时识别所有的实体和它们之间的关系。

数据集格式

每条数据是一个整体标注,包括句子、实体集合和关系集合。

  • 内容

    1. 句子:一个包含多个实体及其潜在关系的句子。
    2. 实体集合:多个实体及其类别,通常以 {实体: 类别} 的形式表示。
    3. 关系集合:所有可能的实体对及其关系,通常以 {(实体1, 关系, 实体2)} 的形式表示。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体集合:{乔布斯: 人物, 苹果公司: 组织}
    - 关系集合:{(乔布斯, 创立, 苹果公司)}
    
特点
  • 不提前提供实体对,需要模型自己识别所有实体及其类别。
  • 多对多关系:每个句子可能包含多个实体和多个关系。
  • 输出的关系标签是针对完整关系集合的预测。

3. 数据集的差异总结

维度关系分类模型关系抽取模型
句子必须提供必须提供
实体已标注的特定实体对模型需识别所有实体
关系单一关系标签关系集合
标注粒度针对单对实体针对整句话
多样性每个数据实例仅对应一个实体对和一个关系每个数据实例可能包含多个实体和关系

4. 应用场景的影响

  • 关系分类模型适用于场景:
    • 输入的实体对已明确,模型只需专注于关系预测。
    • 数据集中实体对已事先标注好。
    • 任务目标明确,单关系分类足够。
  • 关系抽取模型适用于场景:
    • 输入中实体对不明确,需要从文本中检测所有可能的实体。
    • 输入句子可能包含多个实体对和关系,需要整体预测。

关系分类和关系抽取的数据集

模型分数SOTA排名

各个数据集的各个模型最新排名-SOTA:Relation Extraction | Papers With Code

关系分类模型的数据集:

  1. SemEval-2010 Task-8:这个数据集主要用于关系分类,它包含了多个预定义的关系类别,模型需要识别实体对之间的关系。9 种有向关系 + 1 种无关系,总共 10 种关系
  2. ACE 2005:这个数据集也用于关系分类,它包含了实体和它们之间的关系,需要模型识别实体对之间的关系类型。7种关系类型

关系抽取模型的数据集:

  1. DocRED:这是一个用于文档级别的关系抽取的数据集,它包含了多个句子,每个句子中可能包含多个实体和关系,需要模型识别实体及其关系。96 种关系类型
  2. TACRED:这个数据集用于关系抽取,它包含了句子和实体对,以及它们之间的关系,需要模型识别实体的边界和关系。41 种关系
  3. CoNLL04:这个数据集主要用于命名实体识别,但它也包含了关系抽取的任务,需要模型识别实体和它们之间的关系。
  4. Adverse Drug Events (ADE) Corpus:这个数据集用于药物不良反应事件的抽取,需要模型识别实体(如药物和不良反应)及其关系。
  5. WebNLG:这个数据集用于生成任务,但它也包含了关系抽取的元素,需要模型识别实体和它们之间的关系。
  6. ChemProt:这个数据集用于化学蛋白质交互作用的抽取,需要模型识别实体(如化学物质和蛋白质)及其关系。
  7. NYT11-HRL:这个数据集用于从纽约时报文章中抽取人物和组织的关系,需要模型识别实体及其关系。53种关系类型
  8. ACE 2004:这个数据集用于实体识别和关系抽取,需要模型识别实体的边界和它们之间的关系。

参考:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

总结

大致分类如上,注意某些数据集可能同时包含关系分类和关系抽取的任务。

  • 关系分类模型:关系类型通常较少(10~50 种),适合精确分类。
  • 关系抽取模型:关系类型通常更多(50~100+),适合开放环境的关系挖掘。如领域数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66290.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

永磁同步电机控制算法--最大转矩电流比控制(牛顿迭代法)

一、原理介绍 搭建了基于牛顿迭代法的MTPA双闭环矢量控制系统 二、仿真验证 在MATLAB/simulink里面验证所提算法,采用和实验中一致的控制周期1e-4,电机部分计算周期为1e-6。仿真模型如下所示: 对直接公式计算法和牛顿迭代法进行仿真对比验…

数据结构—树的定义与性质

目录 1.树的定义 2.基本术语 3.树的性质 1.树的定义 树是n(n≥0)个结点的有限集。 n0时,称为空树。 (1)树有且只有一个特定的结点,称为根节点。 (2)当n>1时,其余…

vue数据请求通用方案:axios的options都有哪些值

Axios 是一个基于 promise 的 HTTP 库,可以用在浏览器和 Node.js 中。 在使用 Axios 发送请求时,可以通过传递一个配置对象来指定请求的各种选项。 以下是一些常用的 Axios 配置选项及其说明: 1.url: (必需)请求的 …

选择器(结构伪类选择器,伪元素选择器),PxCook软件,盒子模型

结构为类选择器 伪元素选择器 PxCook 盒子模型 (内外边距&#xff0c;边框&#xff09; 内外边距合并&#xff0c;塌陷问题 元素溢出 圆角 阴影: 模糊半径&#xff1a;越大越模糊&#xff0c;也就是越柔和 案例一&#xff1a;产品卡片 <!DOCTYPE html> <html lang&q…

ThinkPHP 8高效构建Web应用-控制器

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 使用VS Code开发ThinkPHP项目-CSDN博客 控制器无须特…

模拟出一个三维表面生成表面点,计算体积,并处理边界点

python代码 生成表面点,计算体积,并处理边界点,最终模拟出一个三维表面。 步骤: 初始参数设置: initial_fixed_point:一个初始固定点的坐标。 slop_thre:坡度阈值。 v_thre:体积阈值。 slope_rad:将坡度从度转换为弧度。 step_size:步长。 lam_x, lam_y:泊松分布的…

Elasticsearch 入门教程

掌握Elasticsearch&#xff1a;从入门到入门 一、ES 背景1.1 ElasticSearch 的背景1.2 ElasticSearch 的应用场景 二、ES 简介2.1 ElasticSearch 简介2.2 ElasticSearch 的定义与特点2.3 ElasticSearch 与传统数据库的区别2.4 ElasticSearch 的优势和劣势 三、ES 的核心概念3.1…

Multisim更新:振幅调制器+解调器(含仿真程序+文档+原理图+PCB)

前言 继3年前设计的&#xff1a;Multisim&#xff1a;振幅调制器的设计&#xff08;含仿真程序文档原理图PCB&#xff09;&#xff0c;有读者表示已经不能满足新需求&#xff0c;需要加上新的解调器功能&#x1f602;&#x1f602;&#x1f602;&#xff0c;鸽了很久这里便安排…

区块链方向学习路线

学习路线图 下面是登链社区给出的区块链开发者的学习路线图 学习路线建议 对于一个区块链方向的学习者而言&#xff0c;首先要了解的是区块链理论知识&#xff0c;当你了解了区块链的理论知识之后&#xff0c;下面有三个方向来学习&#xff0c;可以通俗的理解为区块链方向的后…

springboot547产业园区智慧公寓管理系统(论文+源码)_kaic

摘 要 传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0c;在计算机上安装产业园区智慧公寓管理系统软件来发挥其高效地信息处理的作用…

【电源专题】为什么测试电源的SW波形上冲振荡之前的0V电位要先来个小的下降

在同步电源的开关节点SW波形测试中,你可能会发现周期性的SW波形在上升前的一小段时间时间内会有一个小小的下跌,这个下跌会低于0V。那么这个下跌是怎么来的呢? 如下所示为某降压转换器的SW开关节点波形: 其展开后可以看到在上升之前有20ns左右的时间,SW电压是下跌…

操作系统大题整理

专题一 程序代码题&#xff1a;程序设计与分析&#xff0c;主要考的是线程&#xff0c;多线程的并发&#xff1f; 大题第一问&#xff08;1&#xff09;操作系统的结构有哪几种常用的结构&#xff1f; 宏内核&#xff1a;宏内核是将操作系统的主要功能模块都集中在内核的一种结…

web安全常用靶场

这里写自定义目录标题 phpstydy2018pikachuxss-labs phpstydy2018 网盘地址 提取码: nxnw ‌phpStudy是一款专为PHP开发者设计的集成环境工具&#xff0c;主要用于简化PHP开发环境的搭建过程。‌ 它集成了Apache、MySQL、PHP等核心组件&#xff0c;用户只需进行一次性安装&a…

【yolov8自卸卡车-挖掘机-装载机检测】

yolov8自卸卡车-挖掘机-装载机检测 YOLOv8算法介绍数据集和模型下载数据集准备数据配置文件&#xff08;data.yaml&#xff09;安装依赖模型训练步骤 YOLOv8算法介绍 YOLOv8是You Only Look Once&#xff08;YOLO&#xff09;算法家族的最新版本&#xff0c;它是一种单阶段目标…

扩散模型论文概述(二):Google系列工作【学习笔记】

视频链接&#xff1a;扩散模型论文概述&#xff08;二&#xff09;&#xff1a;Google系列工作_哔哩哔哩_bilibili 本视频讲的是Google在图像生成的工作。 同样&#xff0c;第一张图片是神作&#xff0c;总结的太好了&#xff01; 在生成式AI的时代&#xff0c;OpenAI和Google不…

redis常用数据类型

在Redis中&#xff0c;有几种数据类型是非常常用且核心的&#xff0c;它们各自有着独特的应用场景和优势。 1. 字符串&#xff08;String&#xff09;&#xff1a; • 这是Redis中最基本、最常用的数据类型。 • 字符串可以是任何形式的二进制数据&#xff0c;包括文本、图片等…

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真&#xff0c;仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型 版本…

UE5.3 虚幻引擎 Windows插件开发打包(带源码插件打包、无源码插件打包)

0 引言 随着项目体量的增大&#xff0c;所有代码功能都放一起很难管理。所以有什么办法可以将大模块划分成一个个小模块吗。当然有&#xff0c;因为虚幻引擎本身就遇到过这个问题&#xff0c;他的解决办法就是使用插件的形式开发。 例如&#xff0c;一个团队开发了文件I/O模块插…

MySQL 的事务与多版本并发控制(MVCC)的那些事

什么是事务原子性:一致性隔离性 问题1: 为什么MySQL要使用mvcc实现隔离性而不使用 锁 解决并发问题?持久性 问题2: MySQL 不是磁盘数据库吗,持久化为什么是 redo log 保证的?问题 3: redo log 储存了什么东西,持久化(崩溃恢复是怎么做的?)问题 4 : MySQL 的 bing log (二进制…

多模态论文笔记——U-ViT

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节&#xff0c;虽然没有后续的DiT在AIGC领域火爆&#xff0c;但为后来的研究奠定了基础&#xff0c;但其开创性的探索值得学习…