Re53:读论文 How Can We Know What Language Models Know?

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:How Can We Know What Language Models Know?

ArXiv网址:https://arxiv.org/abs/1911.12543

官方GitHub项目(prompt之类的都有):https://github.com/jzbjyb/LPAQA

本文是2020年TACL论文,作者来自卡耐基梅隆大学和博世北美研究所。

本文关注探索LM中蕴含的知识。以前已经有工作用完形填空的方式来探查知识(Obama is a __ by profession),但是这些填空模版(prompt)都是手工做的,因此可能是sub-optimal的(在上一篇论文最后也提及了),不能充分发挥LM的能力。
本文的解决方案是自动挖掘prompt(远程监督、回译、集成)

这篇工作的实验真的多,这也太能做了。

文章目录

  • 1. 探查知识的方案
  • 2. 实验
    • 1. 数据集
    • 2. LM
    • 3. baseline
    • 4. 实验设置
    • 5. 主实验结果
    • 6. 实验分析
      • Prediction Consistency by Prompt
      • POS-based Analysis
      • Cross-model Consistency
      • Linear vs. Log-linear Combination
    • 7. 失败trick集合

1. 探查知识的方案

在这里插入图片描述

从数据库中获取知识是deterministic的,但从LM中获取知识(完形填空)是不可靠的。
本文用的都是双向LM,做填空题的那种。

  1. mining-based methods:远程监督:从维基百科中找三元组出现的句子。
    1. 方法一:Middle-word Prompts(subject prompt object)
    2. 方法二:Dependency-based Prompts(句法分析→subject和object之间的依存路径)
      在这里插入图片描述
      (句法分析这块我也不懂总之大概是这么个意思吧)
  2. paraphrasing-based methods:对人工或挖掘得到的种子prompt进行回译
  3. 挑选和集成prompt
    1. Top-1 Prompt Selection:选择在训练集上准确率最高的prompt(这个准确率的公式定义比较复杂,但是反正就这个prompt对应的关系里object预测正确的占所有样本的比例)
    2. Rank-based Ensemble:top-K概率求和在这里插入图片描述
    3. Optimized Ensemble:大意是说对每个关系的T个prompt分别训练权重
      在这里插入图片描述
      在这里插入图片描述

这篇paper里面还提及了BERT跟LM的标准定义严格来说不一样这一茬:
在这里插入图片描述
感觉现在已经没人在乎了=== 随便吧==

2. 实验

1. 数据集

在这里插入图片描述

2. LM

BERT-base
BERT-large

增强了外部的实体表征:
ERNIE
Know-Bert

3. baseline

  1. Majority
  2. Man:手工prompt
  3. Mine
  4. Mine+Man
  5. Mine+Para
  6. Man+Para
  7. TopK:求平均
  8. Opti.:加权平均
  9. Oracle:所有prompt中有一个能预测正确,就算LM知道这个知识

4. 实验设置

mine 40个prompts
回译7个prompts

清洗噪音prompts

Adam
batch size: 32

5. 主实验结果

评估指标:micro-averaged accuracy

在这里插入图片描述

与手工prompt相比,效果得到了提升:
在这里插入图片描述

集成权重:
在这里插入图片描述

K的选择:
在这里插入图片描述

prompt做轻微修改也能改变效果:
在这里插入图片描述

两种远程监督方案的对比:
在这里插入图片描述

不同LM的实验结果:
在这里插入图片描述

在LAMA-HUN(一个比LAMA更难的benchmark)上的表现:
在这里插入图片描述

在Google-RE上的表现:
在这里插入图片描述

6. 实验分析

Prediction Consistency by Prompt

在这里插入图片描述
divergence是两个prompt预测结果不同的程度:
在这里插入图片描述
皮尔森相关系数是0.25,说明编辑距离和divergence之间确实存在弱相关性(prompt差别越大,预测结果差别越大)

POS-based Analysis

在这里插入图片描述

在这里插入图片描述
用排名分布而不是准确率分布,在脚注解释了一下是因为不同关系的准确率的量级不同

Cross-model Consistency

检测prompts能不能跨模型通用

在这里插入图片描述

在这里插入图片描述

Linear vs. Log-linear Combination

求和的权重

在这里插入图片描述

7. 失败trick集合

这块真实诚啊

  1. LM-aware Prompt Generation
    在这里插入图片描述
  2. Forward and Backward Probabilities
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解Rust编程中的生命周期

1.摘要 生命周期在Rust编程中是一个重要概念, 它能确保引用像预期的那样一直有效。在Rust语言中, 每一个引用都有其生命周期, 通俗讲就是每个引用在程序执行的过程中都有其自身的作用域, 一旦离开其作用域, 其生命周期也宣告结束, 值不再有效。幸运的是, 在绝大多数时间里, 生…

15 reids哨兵机制

redis主机默认是10s发送一次心跳给从节点。 从节点默认1s去发送心跳给主节点。 1、原理 当主节点出现故障时,由Redis Sentinel自动完成故障发现和转移,并通知应用方,实现高可用性。 从节点的主要两个作用: 主节点的数据备份。…

【2023年APMCM亚太杯C题】完整代码+结果分析+论文框架

2023年APMCM亚太杯C题 完整代码结果分析论文框架第一问问题分析技术文档1 基于AHP的新能源汽车发展影响因素分析1.1 AHP模型的构建1.2 AHP模型的求解 2 基于自适应ARIMA-非线性回归模型的影响因素预测2.1 ARIMA模型的建立2.2 非线性回归模型的建立2.3 自适应混合ARIMA-非线性回…

【数据结构/C++】线性表_顺序表的基本操作

#include <iostream> using namespace std; #define MaxSize 10 // 1. 顺序表 // 静态分配 typedef struct {int data[MaxSize];int length; // 当前长度 } SqList; // 静态分配初始化顺序表 void InitList(SqList &L) {for (int i 0; i < MaxSize; i){L.data[i]…

政务大数据与资源平台建设解决方案:PPT全文75页,附下载

关键词&#xff1a;智慧政务解决方案&#xff0c;大数据解决方案&#xff0c;数据中心解决方案&#xff0c;数据治理解决方案 一、政务大数据与资源平台建设背景 1、政务大数据已成为智慧城市建设的必要基础 为响应国家不断加快5G基建、大数据、人工智能等新型基础设施建设布…

在MySQL中,修改字段A相同的记录的字段B ,要使得字段C小的记录的字段B值等于字段C大的记录的字段B值

例如&#xff1a;更新具有相同电话号码的用户记录&#xff0c;使得updatetime小的记录的name值等于updatetime大的记录的name值。 首先&#xff0c;我们需要创建一个用户表&#xff0c;这个用户表包含以下字段&#xff1a;phone&#xff0c;updatetime, name。以下是创建这个表…

Redis的性能,哨兵模式,集群,

Redis的性能管理; redis的数据保存在内存中 redis-cli info memory redis内存使用info memory命令参数解析 used_memory:236026888 由 Redis 分配器分配的内存总量&#xff0c;包含了redis进程内部的开销和数据占用的内存&#xff0c;以字节&#xff08;byte&#xff09…

css里面的@import

import 说明 用于从其他样式表导入样式规则。可以是绝对或相对路径&#xff0c;也可以是一个在线的url地址。import 规则必须在 CSS 文档的头部&#xff0c;但可以在 charset 规则后面。import 规则不是一个嵌套语句&#xff0c;import不能在条件组的规则中使用。import 规则…

虚拟化原理

目录 什么是虚拟化广义虚拟化狭义虚拟化 虚拟化指令集敏感指令集虚拟化指令集的工作模式监视器对敏感指令的处理过程&#xff1a; 虚拟化类型全虚拟化类虚拟化硬件辅助虚拟化 虚拟化架构裸金属架构宿主机模式架构 什么是虚拟化 虚拟化就是通过模仿下层原有的功能模块创造接口来…

【开源】基于JAVA的衣物搭配系统

项目编号&#xff1a; S 016 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S016&#xff0c;文末获取源码。} 项目编号&#xff1a;S016&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 衣物档案模块2.2 衣物搭配模块2.3 衣…

linux进程调度(二)-进程创建

文章目录 2.进程创建和终止2.1 进程创建的4种方法2.2 进程创建过程分析2.2.1 copy_process函数分析2.2.1.1 dup_task_struct函数分析2.2.1.2 sched_fork函数分析2.2.1.3 copy_mm函数分析2.2.1.4 copy_thread函数分析 2.2.2 wake_up_new_task函数分析 2.进程创建和终止 在 Linu…

常用数据存储格式介绍:Excel、CSV、JSON、XML

在现代数字时代&#xff0c;数据经过提炼后可以推动创新、简化运营并支持决策流程。然而&#xff0c;在提取数据之后&#xff0c;并将其加载到数据库或数据仓库之前&#xff0c;需要将数据转化为可用的数据存储格式。本文将介绍开发者常用的4种数据存储格式&#xff0c;包括 Ex…

布局下一个时代,UTONMOS夯实元宇宙发展基础

从 PC 互联网到移动互联网&#xff0c;再到元宇宙&#xff0c;互联网的发展在一直不断演变和升级着。元宇宙的时代红利将带来从底层基础设施向外延展到用户体验的全面升级。 人们以各自不同视角理解元宇宙。但我们认为&#xff0c;目前学术界和产业界对元宇宙虽然没有统一规范的…

JavaScript 闭包技巧

什么是闭包&#xff1f; MDN&#xff1a;“闭包是捆绑在一起&#xff08;封闭&#xff09;的函数及其周围状态&#xff08;词法环境&#xff09;的引用的组合。换句话说&#xff0c;闭包使您可以从内部函数访问外部函数的作用域。在 JavaScript 中&#xff0c;每次创建函数时都…

css引入的三种方式

css引入的三种方式 一、内联样式二、外部样式表三、 内部样式表总结trouble 一、内联样式 内联样式也被称为行内样式。它是将 CSS 样式直接应用于 HTML 元素的 style 属性中的一种方式 <p style"color: blue; font-size: 16px;">这是一个带有内联样式的段落。&…

Modbus RTU转Profinet网关连接PLC与变频器通讯在机床上应用案例

背景&#xff1a;以前在机床加工车间里&#xff0c;工人们忙碌地操作着各种机床设备。为了使整个生产过程更加高效、流畅&#xff0c;进行智能化改造。 方案&#xff1a;在机床上&#xff0c;PLC通过Modbus RTU转Profinet网关连接变频器进行通讯&#xff1a;PLC作为整个生产线…

实现简单的操作服务器和客户端(下)

一、说明 描述:本教程介绍如何使用 simple_action_client 库创建斐波那契操作客户端。此示例程序创建一个操作客户端并将目标发送到操作服务器。 内容 代码代码解释编译运行操作客户端连接服务器和客户端二、代码 首先,在您喜欢的编辑器中创建actionlib_tutorials/src/fib…

【封装UI组件库系列】封装Icon图标组件

封装UI组件库系列第三篇封装Icon图标组件 &#x1f31f;前言 &#x1f31f;封装Icon 1.创建Icon组件 2.引用svg图标库 第一步 第二步 第三步 3.二次封装 4.封装自定义属性 &#x1f31f;总结 &#x1f31f;前言 在前端开发中&#xff0c;大家可能已经用过各种各样的UI组…

VUE项目部署过程中遇到的错误:POST http://124.60.11.183:9090/test/login 405 (Not Allowed)

我当初报了这个405错误&#xff0c;再网上查了半天&#xff0c;他们都说什么是nginx部署不支持post访问静态资源。 但后面我发现我是因为另一个原因才导致的无法访问。 我再vue中有使用devServer:{ proxy:{} }进行路由转发。 但是&#xff01;&#xff01; 在这个配置只…

接口测试学习路线

接口测试分为两种&#xff1a; 测试外部接口&#xff1a;系统和外部系统之间的接口 如&#xff1a;电商网站&#xff1a;支付宝支付 测试内部接口&#xff1a;系统内部的模块之间的联调&#xff0c;或者子系统之间的数据交互 测试重点&#xff1a;测试接口参数传递的正确性&…