论文笔记:Ontology-enhanced Prompt-tuning for Few-shot Learning

 论文来源:WWW 2022

论文地址:https://arxiv.org/pdf/2201.11332.pdficon-default.png?t=O83Ahttps://arxiv.org/pdf/2201.11332.pdf

论文代码:暂未公开  

笔记仅供参考,撰写不易,请勿恶意转载抄袭!


Abstract

        小样本学习旨在基于有限数量的样本就行预测。结构化数据(如知识图谱、本体库)已被用于少样本设置的各种任务。但是现有方法采用的先验存在知识缺失、知识噪声和知识异质性等问题,影响了小样本学习的性能。在本研究中,我们探索了基于预训练语言模型的小样本学习知识注入,并提出本体增强的提示优化。具体而言,本文开发了基于外部知识图谱的本体转换来解决知识缺失问题,实现了结构化知识向文本的转换。本文进一步通过可见矩阵引入跨度敏感知识注入,以选择信息性知识来处理知识噪声问题。为了弥补知识和文本之间的差距,本文提出了一种集体训练算法来联合优化表示。

Introduction

        在过去几年中,FSL已被引入到广泛的机器学习任务中,如关系抽取、事件抽取和知识图谱补全等。(Over the past few years, FSL has been introduced in a wide range of machine learning tasks, such as relation extraction, event extraction and knowledge graph completion.)但是,FSL存在以下问题:

  • 知识缺失 由于外部知识库的不完整性,知识注入可能无法检索与任务相关的事实,从而为下游任务提供无用或者不相关的信息。如何丰富与任务相关的知识是一个重要问题。
  • 知识噪声 先前的研究表明,并不是所有的知识都对下游任务有益,不加区分的知识注入可能会导致负面信息注入,影响下游任务执行。因此上下文敏感和任务的知识选择对于知识增强学习至关重要。
  • 知识异质性 下游任务的语料库与注入的知识截然不同,导致两个单独的向量表示。如何设计一个特殊融合知识信息的联合训练目标是另一个挑战。

 针对上述问题所提出的策略:

  1. 提出了本体转换来丰富和转换结构化知识到文本形式。(简单来说,就是将实体等信息作为提示,加入到输入文本中,弥补知识缺失问题)
            具体而言,本文使用预定义的模板将知识转换为文本作为提示。提示调优可以减少预训练模型任务和下游任务之间的差距。例如,“Turing entered King’s College, Cambridge in 1931, and then went to Princeton University to study for a doctorate(图灵1931年进入剑桥国王学院,然后去普林斯顿大学攻读博士学位)”,可以根据本体将他们包装成“s. Turing [MASK] King's College”,PLMs应该预测掩码位置的标签来确定输入的标签。需要注意的是,本体作为提示将实体/跨度的知识加入到输入文本中,这是与模型无关的,即可以插入任何类型的PLMs中。
  2. 提出跨度敏感知识注入,以选择信息化知识并减轻噪声注入。(也就是要避免不相关和噪声知识对模型产生影响
           利用一个基于跨度及相应的外部知识的可视矩阵来指导知识注入,这样,并非输入句子中所有token 都会受到外部知识的影响。
  3. 提出一种联合优化表示的集体训练算法
           注意,注入的外部知识应与上下文相关联;我们通过随机初始化添加了一些可学习的token,并对这些token和注入的token进行优化。由于,在低数据状态下提示调优是不稳定的,可能会获得较差的性能,我们进一步优化所有参数以集体训练本体文本和输入文本表示。

Methodology

        OntoPrompt是一个通用框架,可以应用于多种任务,如Figure 2所示。本文在关系抽取、事件抽取和知识图谱补全任务上评估我们的模型。

General Framework with Prompt-Tuning 

         输入为句子与模板的拼接:X_{prompt}=[CLS]X_{in}[SEP]T[SEP],其中包含一个[MASK]。输入到掩码语言模型之后,模型可以获得候选类别的分布概率:p(y|X_{prompt})=\sum_{w\in v_y}^{}p([MASK]=w|X_{prompt}),其中,w表示类y的第w个标签token。本文,将本体作为辅助提示,以注入知识并将其附加到输入序列模板中。

Ontology Transformation

        在本文中,将本体表示为O=\left \{ C, E ,D \right \},其中,C是概念集合,E表示本体之间的连接边,D是每个本体的文本描述。概念集合是指特定领域的概念,如在RE和EE中利用与所述本体相关的类型本体等。对于不同的下游任务,每个任务利用不同的本体源进行本体转换。首先从外部知识图谱中抽取每个实例的本体,然后将这些本体转换为原始文本作为辅助提示。

  1. 应用于关系抽取
    利用MUC来定义命名实体的概念。注意,命名实体可以提供重要的类型信息,这有利于RE。然后将这些定义用作本体模式中的文本描述,即将“[CLS] <InputText> [SEP] <Template> [SEP] <OntologyText> [SEP]”作为最终的输入序列。本文为<OntologyText>中的实体构造占位符,并用外部文本描述来替换这些占位符,并利用来自本体的实体对之间的路径作为元关系文本来增强<OntologyText>。
    并将可学习的tokens,[u1]-[u4],作为虚拟tokens添加到[MASK]的两边,使模型自动学习最合适的单词作为提示。
  2. 应用于事件抽取
    构建了一个更大的事件本体,同样将“[CLS] <InputText> [SEP] <Template> [SEP] <OntologyText> [SEP]”作为最终的输入序列,为触发词构造占位符并在<OntologyText>中输入。
  3. 应用于知识图谱补全
    外部Wikidata作为本体源,并提取文本描述。将知识图谱补全视为三元组分类任务,并链接实体和关系作为输入序列。与上述任务相同,将“[CLS] <InputText> [SEP] <Template> [SEP] <OntologyText> [SEP]”作为默认输入序列。

Span-sensitive Knowledge Injection 

        跨度敏感知识注入如Figure 3所示。使用一个可见矩阵来限制知识输入付输入文本的影响。在语言模型架构中,在softmax之前添加了一个具有自注意力权重的注意力掩码矩阵。注意力掩码矩阵如下:

         以下情况x_i可以注意到x_jx_ix_j均来自输入文本;均属于同一本体的文本描述;x_i来自输入文本中的实体,x_j来自它的本体描述文本。

 Collective Training

         首先,使用使用实词嵌入来初始化本体token,并使用固定的语言模型进行优化,然后优化了模型的所有参数,包括语言模型和本体token。

Experiments

RE:

EE:

KGC:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/881903.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux——传输层协议

目录 一再谈端口号 1端口号范围划分 2两个问题 3理解进程与端口号的关系 二UDP协议 1格式 2特点 3进一步理解 3.1关于UDP报头 3.2关于报文 4基于UDP的应用层协议 三TCP协议 1格式 2TCP基本通信 2.1关于可靠性 2.2TCP通信模式 3超时重传 4连接管理 4.1建立…

数据挖掘学习笔记:朴素贝叶斯 | Python复现

数据挖掘学习笔记&#xff1a;朴素贝叶斯 机器学习系列&#xff08;四&#xff09;&#xff1a;朴素贝叶斯&#xff08;华强买瓜版&#xff09; - yyxy的文章 - 知乎 十分钟&#xff0c;让你再也忘不掉贝叶斯分类 - VoidHaruhi的文章 - 知乎 《机器学习》&#xff08;西瓜书&am…

基于Arduino的简易收音机

DIY FM收音机&#xff1a;使用Arduino和Si4703模块打造 引言 在本项目中&#xff0c;我们将使用Arduino Nano和Si4703 FM调谐模块来构建一个功能完备的FM收音机接收器。这个易于跟随的指南非常适合想要深入无线电频率和无线通信世界的业余爱好者和电子爱好者。 Si4703模块是…

说下SSL/TLS四次握手过程?

参考自&#xff1a;SSL/TLS四次握手过程是怎么样的&#xff1f;HTTPS、SSL、TLS三者之间的联系和区别 一.SSL/TLS 简介 SSL(Secure Socket Layer 安全套接层)是基于 HTTPS 下的一个协议加密层&#xff0c;用于解决 HTTP 在传输数据时使用明文而导致的不安全问题。 SSL 是 HT…

cuda编程模型

host和device&#xff1a; host&#xff1a;即CPU&#xff0c;CPU所关联的内存就叫host memorydevice&#xff1a;即GPU&#xff0c;GPU内的内存就叫device memory运行CUDA程序主要有三步&#xff1a;1&#xff09;host-to-device transfer&#xff1a;将数据从host memory拷到…

Qt(简介)

1. Qt简介 Qt是一个基于C的图形用户界面&#xff08;GUI&#xff09;框架&#xff0c;可以开发可视化人机交互程序&#xff0c;但是这并不是Qt的全部。Qt除了可以绘制漂亮的界面外&#xff0c;还包含很多其他的功能&#xff1a;多线程、数据库、图像处理、音视频处理、网络通信…

Python画笔案例-085 绘制 3D效果文字

1、绘制3D效果文字 通过 python 的turtle 库绘制 3D效果文字,如下图: 2、实现代码 绘制 3D效果文字,以下为实现代码: """3D效果文字.py """ import turtle# 给Turtle类增加addx和addy方法 turtle.Turtle.addx = lambda self,dx

OpenUAV:首个专为现实无人机视觉语言导航设计的大规模轨迹数据集,由大约 12k 个轨迹组成,涵盖了多种环境和复杂的飞行动态。

2024-10-10&#xff0c;由北京航空航天大学人工智能研究所、香港中文大学MMLab以及感知与交互智能中心共同创建了OpenUAV数据集&#xff0c;首个专为现实无人机&#xff08;UAV&#xff09;视觉语言导航&#xff08;VLN&#xff09;任务设计的大型轨迹数据集&#xff0c;该数据…

2023年云南省职业院校技能大赛(网络建设与运维赛项)

2023年云南省职业院校技能大赛 “网络搭建与应用”赛项样题 2023年8月 竞赛说明 一、竞赛内容分布 “网络搭建与应用”竞赛共分三个部分&#xff0c;其中&#xff1a; 第一部分&#xff1a;网络理论测试&#xff08;100分&#xff09; 第二部分&#xff1a;网络建设与调试&…

精准管理知识资产:十大内部知识库工具全解析

在当今竞争激烈的市场环境中&#xff0c;知识资产已成为企业核心竞争力的重要组成部分。为了更好地管理和利用这些宝贵的知识资源&#xff0c;选择合适的内部知识库工具至关重要。本文将为您介绍十款高效、实用的内部知识库工具&#xff0c;帮助您实现知识资产的精准管理。 1.…

SldWorks问题 2. 矩阵相关接口使用上的失误

问题 在计算三维点在图纸&#xff08;DrawingDoc&#xff09;中的位置时&#xff0c;就是算不对&#xff0c;明明就4、5行代码&#xff0c;怎么看都是很“哇塞”的&#xff0c;毫无问题的。 但结果就是不对。 那就调试一下吧&#xff0c;调试后发现生成的矩阵很不对劲&#…

架构设计笔记-15-面向服务架构设计理论与实践

目录 知识要点 案例分析 1.微服务架构 2.微服务 3.微服务架构 4.SOA与微服务 5.基于微服务架构的系统/传统单体式系统 论文 1.论微服务架构及其应用 知识要点 服务组件体系结构&#xff08;Service Component Architecture&#xff0c;SCA&#xff09;是面向服务体系…

重头开始嵌入式第四十九天(Linux内核驱动 内核编译 向内核添加新文件)

目录 内核编译&#xff1a; 什么是uImage&#xff1f; 一、产生背景 二、主要特点 三、使用方式 uImage与zImage与Image的区别&#xff1f; 向内核添加新驱动文件&#xff1a; 内核编译&#xff1a; 什么是uImage&#xff1f; uImage 是一种用于嵌入式系统的 Linux 内核…

windows安装deepspeed setup.py 207行找不到文件

一直报莫名奇妙的错误&#xff0c;查了半天也没查到 去看了一下源码&#xff0c;需要安装git&#xff0c;我没有安装 git命令获得信息也没啥用 直接注释掉 成功运行

高效管理知识资产:十大内部知识库软件一览

在当今竞争激烈的市场环境中&#xff0c;知识资产已成为企业核心竞争力的重要组成部分。为了更好地管理和利用这些宝贵的知识资源&#xff0c;选择合适的内部知识库工具至关重要。本文将为您介绍十款高效、实用的内部知识库工具&#xff0c;帮助您实现知识资产的精准管理。 1.…

【argparse】 菜鸟实用教程指南

文章目录 0. 引言1. argparse简介2. argparse的使用3. 实例操作4. 代码运行4.1 命令行执行4.1 IDE执行 5. 总结 0. 引言 在深度学习的过程中&#xff0c;我们常常需要操作和调参大量的参数。如果采用硬编码&#xff08;直接在代码中赋值&#xff09;的方式来设置这些参数&…

补充面试知识点

jwt鉴权 实现登录流程 jwt鉴权登录实现步骤&#xff08;JWT工具类拦截器前端配置&#xff09;——前后端鉴权方案和使用_jwtsigner-CSDN博客 就是前端每一次刷新页面的时候 都判断一下发来的请求头里边的token信息 通过token识别用户信息和登录状态也就是id 线程池的执行流程 …

【安当产品应用案例100集】022-阿里云、腾讯云、华为云等公有云上ECS服务器中数据加密保护方案

企业业务上云后&#xff0c;在云上进行数据加密保护的必要性主要体现在以下几个方面&#xff1a; 一、保护敏感数据 企业存储在云上的数据可能包含客户信息、财务数据、知识产权等敏感信息。这些数据一旦泄露或被滥用&#xff0c;将对企业造成严重的法律和道德责任问题。通过…

pico+Unity交互开发——触碰抓取

一、VR交互的类型 Hover&#xff08;悬停&#xff09; 定义&#xff1a;发起交互的对象停留在可交互对象的交互区域。例如&#xff0c;当手触摸到物品表面&#xff08;可交互区域&#xff09;时&#xff0c;视为触发了Hover。 Grab&#xff08;抓取&#xff09; 概念&#xff…

SQLServer-ASYNC_NETWORK_IO等待事件

文章目录 客户端应用程序出现问题网络问题 ASYNC_NETWORK_IO 是一种经常被DBA看到的等待类型&#xff0c;当其数值过高时可能会让人担忧&#xff0c;因为这是最难解决的等待类型之一。 需要知道的是&#xff0c;从 SQL Server 2005 开始&#xff0c;这种等待类型被命名为 ASYNC…