【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

⭐⭐⭐⭐

arXiv:1804.07461, ICLR 2019

Site: https://gluebenchmark.com/

文章目录

    • 一、论文速读
    • 二、GLUE 任务列表
      • 2.1 CoLA(Corpus of Linguistic Acceptability)
      • 2.2 SST-2(The Stanford Sentiment Treebank)
      • 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
      • 2.4 STSB(The Semantic Textual Similarity Benchmark)
      • 2.5 QQP(The Quora Question Pairs)
      • 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
      • 2.7 QNLI(Qusetion-answering NLI)
      • 2.8 RTE(The Recognizing Textual Entailment datasets)
      • 2.9 WNLI(Winograd NLI)

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计:

在这里插入图片描述

2.1 CoLA(Corpus of Linguistic Acceptability)

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。

样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。

label = 1(合乎语法) 的 examples:

  • She is proud.
  • she is the mother.
  • Will John not go to school?

label = 0(不合乎语法) 的 examples:

  • Mary wonders for Bill to come.
  • Yes, she used.
  • Mary sent.

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2.2 SST-2(The Stanford Sentiment Treebank)

单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。

样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。

label = 1(positive)的 examples:

  • two central performances
  • against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape
  • a better movie

label = 0(negative)的 examples:

  • so pat it makes your teeth hurt
  • eastwood 's dirty harry period .
  • faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。

2.3 MRPC(The Microsoft Research Paraphrase Corpus)

相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。

样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。

label = 1(正样本,两个 sentence 语义相同)的 examples:

  • Example 1:
    • The largest gains were seen in prices, new orders, inventories and exports.
    • Sub-indexes measuring prices, new orders, inventories and exports increased.
  • Example 2:
    • Trading in Loral was halted yesterday; the shares closed on Monday at $ 3.01.
    • The New York Stock Exchange suspended trading yesterday in Loral, which closed at $ 3.01 Friday.

label = 2(负样本,两个 sentence 语义不同)的 examples:

  • Example 1:
    • Earnings per share from recurring operations will be 13 cents to 14 cents.
    • That beat the company 's April earnings forecast of 8 to 9 cents a share.
  • Example 2:
    • He beat testicular cancer that had spread to his lungs and brain.
    • Armstrong, 31, battled testicular cancer that spread to his brain.

本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。

2.4 STSB(The Semantic Textual Similarity Benchmark)

相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。

样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。

  • Example 1:
    • A plane is taking off.
    • An air plane is taking off.
    • score:5.000
  • Example 2:
    • A man is playing a large flute.
    • A man is playing a flute.
    • score:3.800

整体句子长度适中偏短,且均衡。

2.5 QQP(The Quora Question Pairs)

相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。

样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。

label = 1(positive,等效)的 Examples:

  • Example 1:
    • How can I improve my communication and verbal skills?
    • What should we do to improve communication skills?
  • Example 2:
    • What has Hillary Clinton done that makes her trustworthy?
    • Why do Democrats consider Hillary Clinton trustworthy?

label = 0(negative,不等效):

  • Example 1:
    • Why are you so sexy?
    • How sexy are you?
  • Example 2:
    • Which programming languages are common to develop in the area of gamification?
    • Who is the worst Director in the history of MNIT/MREC?

任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。

2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

  • Example 1:
    • premise:The man is playing a guitar.
    • hypothesis:The man is singing while playing the guitar.
    • label:neutral
    • 前提描述了一个男人正在弹吉他,而假设则进一步提出这个男人在弹吉他的同时还在唱歌。由于前提没有提及唱歌这一行为,所以我们不能从前提直接推断出假设是正确的(非蕴含),同时也不能断定它是错误的(非矛盾)。因此,这个文本对的关系被标记为中立。

总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。

2.7 QNLI(Qusetion-answering NLI)

自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。

数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

Example:

  • Which collection of minor poems are sometimes attributed to Virgil?
  • A number of minor poems, collected in the Appendix Vergiliana, are sometimes attributed to him.
  • label: 1(蕴含)

总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。

2.8 RTE(The Recognizing Textual Entailment datasets)

自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。

数据来源于一系列的年度文本蕴含挑战赛。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

Example:

  • Herceptin was already approved to treat the sickest breast cancer patients, and the company said, Monday, it will discuss with federal regulators the possibility of prescribing the drug for more breast cancer patients.
  • Herceptin can be used to treat breast cancer.
  • label: 1(蕴含)

2.9 WNLI(Winograd NLI)

自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。

数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

Example:

  • Bill passed the half-empty plate to John because he was hungry.
  • Bill was hungry.
  • label: 0(不愿韩)

这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。

参考文章:

  • GLUE 基准数据集介绍 | 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java输出小写的a-z以及大写的Z-A

如果是C语言,可以直接使用格式化输出中的%c 但是Java没有,所以可以1、强制类型转化;2、for循环递增变量中直接定义为char类型 方法一:强制类型转化 //2024.06.29 public class Homework07{public static void main(String[] arg…

卷积、池化小记

卷积和池化是深度学习中,特别是在卷积神经网络(CNN)中非常重要的两个概念。下面我将分别详细解释卷积和池化的定义、作用以及常见的类型。 卷积(Convolution) 1. 定义 卷积是通过两个函数f和g生成第三个函数的一种数…

在晋升受阻或遭受不公待遇申诉时,这样写是不是好一些?

在晋升受阻或遭受不公待遇申诉时,这样写是不是好一些? 在职场中,晋升受阻或遭受不公待遇是员工可能面临的问题之一。面对这样的情况,如何撰写一份有效的申诉材料,以维护自己的合法权益,就显得尤为重要。#李…

STM32CUBEMX配置USB虚拟串口

STM32CUBEMX配置USB虚拟串口 cubemx上默认配置即可。 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 配置完后生成工程,主要就是要知道串口的收发接口就行了。 发送:CDC_Transmit_FS(),同时记得包含头文件#include “…

RStudio学习笔记(二):向量

在R语言中&#xff0c;向量类似于数学上的集合概念&#xff0c;由一个或多个元素构成。指用于存储数值型、字符型、逻辑型数据的一维数组。 1、向量的创建 # R语言中向量的创建可以通过函数c()x <- c(1,2,3,4,5) # 存储数值型y <- c("one","two&q…

shopify入门教程-应用开发(二)

4.内网穿透 为什么要用这个&#xff0c;就是把电脑上的开发内容通过内网穿透显示到你的开发店铺上。这里的内网穿透我用了ngrok,花生壳&#xff0c;但都不如shopify官方推荐的cloudflare好用。所以这里我也推荐cloudflare。 运用内网穿透2个步骤 把app运行起来 ​​​​​​​…

YOLO网络结构特点收录

YOLO网络结构特点收录 YOLO&#xff08;You Only Look Once&#xff09;网络结构随着版本迭代不断进化&#xff0c;以下是一些关键版本的网络结构特点概述&#xff1a; YOLOv1 输入&#xff1a;将图像调整至固定尺寸&#xff0c;如448x448像素。骨干网络&#xff1a;初期版本…

java TCP服务器与客户端通信示例

目录 背景: TCP服务代码解析: TCP服务器的代码: 服务器程序的工作流程: TCP客户端代码解析 : TCP客户端代码: 客户端工作流程: 总结: 背景: 如何使用Java编程语言实现一个简单的TCP服务器和客户端。那么TCP是什么?TCP&#xff08;Transmission Control Protocol&…

RocketMQ源码学习笔记:Broker接受消息和发送消息

这是本人学习的总结&#xff0c;主要学习资料如下 马士兵教育rocketMq官方文档 目录 1、Overview2、技术亮点2.1、消息写入时的自旋锁和可重入锁2.2、堆外内存机制2.2.1、Overview2.2.2、源码2.2.2.1、开启堆外内存的条件2.2.2.2、堆外内存的初始化2.2.2.3、写消息到堆外内存2…

MAS0902量产工具分享,MAS0902A开卡教程,MAS0901量产工具下载

MAS0902和MAS1102都是基于SATA3.2技术开发的DRAM-less SSD控制芯片&#xff0c;简单来说就是SATA协议无缓存主控。下面是我摸索的麦光黑金300 240G SSD开卡修复简易教程&#xff0c;也就是MAS0902量产过程&#xff1a; 注意&#xff1a;开卡转接线必须要用ASM1153E或JMS578主控…

(1)std::trhead的回调,中频繁发送信号,会导致qt的事件循环处理不过来吗

在Qt中,事件循环是负责处理所有事件和信号的核心机制。事件循环会不断地检查是否有待处理的事件,并且调度相应的事件处理器。在标准模板库(STL)的std::thread中使用回调函数来频繁发送信号到Qt的事件循环中,确实可能会导致性能问题,尤其是在高频率信号发送的情况下。 当…

鉴权开发框架Django REST framework的应用场景

目录 一、鉴权开发框架介绍二、Django REST framework是什么三、如何实现认证、权限与限流功能四、Django REST framework的应用场景 一、鉴权开发框架介绍 鉴权开发框架是一种用于实现身份验证和授权的软件开发工具。它可以帮助开发者快速构建安全、可靠的身份验证和授权系统…

24级中国科学技术大学843信号与系统考研分数线,中科大843初复试科目,参考书,大纲,真题,苏医工生医电子信息与通信工程。

(上岸难度&#xff1a;★★★★☆&#xff0c;考试大纲、真题、经验帖等考研资讯和资源加群960507167/博睿泽电子信息通信考研咨询&#xff1a;34342183) 一、专业目录及考情分析 说明: ①复试成绩:满分100分。上机满分50分&#xff0c;面试满分150分&#xff0c;复试成绩(上机…

ros1仿真导航机器人 基础传感器数据读取

仅为学习记录和一些自己的思考&#xff0c;不具有参考意义。 1 仿真环境 gazebo、rviz、ros1 2 机器人模型 <?xml version"1.0"?> <robot name"wpb_home_gazebo"><link name"base_footprint"><visual><origin …

C++进阶

C进阶 一、细节1.cout与输出缓冲区2.constexpr3.NULL和nullptr是不同的类型4.关于inline5.函数杂合用法6.const char*、char const*、char * const7.进程地址空间&#xff0c;所谓静态区常量区不准8.位运算9.多态9.1 内存切片9.2 转型9.3 构造函数和析构函数里是静态绑定9.4 dy…

【云服务-3】公网IP和私有IP

IP地址的作用&#xff1f; IP地址的作用: 标识设备身份: IP地址能够唯一标识网络上的每一个设备,就像是设备的"身份证"。路由寻址: IP地址可以用于确定数据包的传输路径,从而将数据包准确送达目的地。网络互连: IP地址允许不同网络之间的设备进行通信和数据交换。 …

DP:解决路径问题

文章目录 二维DP模型如何解决路径问题有关路径问题的几个问题1.不同路径2.不同路径Ⅱ3.下降路径最小和4.珠宝的最高价值5.地下城游戏 总结 二维DP模型 二维动态规划&#xff08;DP&#xff09;模型是一种通过引入两个维度的状态和转移方程来解决复杂问题的技术。它在许多优化和…

docker容器内为什么能解析宿主机的hosts文件

Docker容器可以通过特定的网络设置来解析宿主机的hosts文件&#xff0c;这是因为Docker容器在创建网络时&#xff0c;会自动将宿主机的DNS配置信息传递给容器。 当你启动一个Docker容器时&#xff0c;如果没有指定任何DNS相关的选项&#xff0c;Docker默认会使用宿主机的DNS配…

Hi3861 OpenHarmony嵌入式应用入门--LiteOS MessageQueue

CMSIS 2.0接口中的消息&#xff08;Message&#xff09;功能主要涉及到实时操作系统&#xff08;RTOS&#xff09;中的线程间通信。在CMSIS 2.0标准中&#xff0c;消息通常是通过消息队列&#xff08;MessageQueue&#xff09;来进行处理的&#xff0c;以实现不同线程之间的信息…

JS逆向:由 words 、sigBytes 引发的一系列思考与实践

【作者主页】&#xff1a;小鱼神1024 【擅长领域】&#xff1a;JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 在做JS逆向时&#xff0c;你是否经常看到 words 和 sigBytes 这两个属性呢&#xff0c;比如&#xff…