老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

文 | ????????????????
编 | 王苏


今天介绍的是一篇 NAACL'21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了一下,今天就来和大家分享啦!!

给大家提个问题:如果训练样本只有几百条,这时候我们该怎么办呢?

传统的 RNN 在这个样本大小下很难被训练好,自然地,我们会想到使用预训练模型,在其基础上进行 finetune。具体来讲,就是将预训练模型作为模型的底层,在上面添加与当前任务特点相关的网络结构。这样就引入了预训练的知识,对当前任务能产生很大的帮助。

除了预训练的知识,是不是还有其他的信息我们没有用上呢?近年来,越来越多的人在使用另一种 finetune 方法,即结合具体场景,设计新的 finetune 任务形式,从而将与当前任务相关的提示信息(prompt)引入模型。我们大名鼎鼎的 GPT 系列就是这么干的。比如我们拿 GPT3 做 QA 的 finetune,直接喂给他一串“Question:问题内容 Answer:”,剩下的答案部分就让 GPT3 自己填完。

这类 finetune 技巧虽然陆续被使用,但并没有人论证:这种做法相比于传统的 finetune 方法,真的能带来提升吗?如果答案是肯定的,那么究竟能提升多少呢(能否量化这种提升)?

今天这篇来自 Huggingface 的文章就填补了上述两个问题的答案。他们通过大量实验证明:引入提示信息和多标注几百条数据带来的性能提升是相当的!所以,下次老板只给少量样本,就要你 finetune 模型——不要慌!我们今天又多学了一个 trick!

论文题目:
How Many Data Points is a Prompt Worth?

论文链接:
https://arxiv.org/abs/2103.08493

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0318】 下载论文PDF~

方法

前文提到,这一类 finetune 是将任务对应的输入改写成新的完形填空格式,让模型预测 <MASK> 部分的词,作为抽取任务的答案或者生成任务的结果。这种方法不需要改变模型结构、没有额外的参数,简直不要太方便!

引入描述集合

本文对这类方法进行了进一步简化:不要求 <MASK> 处生成任意的文本,而是只需要完成类似于有选项的完形填空任务。这里的选项是固定的几个词,我们称之为描述集合(verbalizer),不同任务会有不同的描述集合。

比如,对于判断题的阅读理解任务,就可以将阅读文本、问题和 <MASK> 拼接,让预训练模型直接预测 <MASK> 属于描述集合 {yes, no} 中的哪一种描述:

小明天天码代码码到天明 [SEP] 小明有女朋友吗? <MASK>

其中前半部分是阅读文本,后面加粗的部分是问题。模型只需要判断 <MASK> 属于描述集合 {yes, no} 中的哪一种。

可能读到这里,大家会疑惑:直接拼起来搞一个 True / False 的二分类不就好了嘛,何必让模型填空呢?嘿嘿,这恰好是作者的用意:通过让模型填空,模型可以习得描述集合中标签文本的语义信息

引入提示信息

直接拼接是最朴素的,但这能让模型知道自己在做什么任务嘛?为此,作者引入了提示信息(prompt)。

还是判断题的阅读理解任务,对文章 和问题 ,作者将他们与一些固定的词进行整合,以此输入模型,让模型预测 <MASK> 。作者提出了三种整合方式:

没错,就是这么简单!这些固定的词作为提示信息,让模型了解当前在做的任务;同时,提示词文本的含义也对于模型的理解产生了一定的帮助。

除了单选阅读理解,这篇文章还关注了文本蕴含、多选阅读理解、指代销歧等共六个任务。对于不同的任务,有不同的提示信息与输入格式:

对于文本蕴含任务,可以将前提 (premise, ) 与假设 (hyphothesis, ) 通过提示信息整合,作者提出了两种整合方式:

这样就只需要让模型预测 <MASK> 属于描述集合 {yes, no, maybe} 中的哪一种,以此判断前提能否支撑假设。

对于指代销歧任务,可以将句子 、带标记的介词 与名词 通过提示信息整合:

这样就只需要让模型预测 <MASK> ,以此判断介词是否指代名词。这里的描述集合是不受限制的,即让模型在 <MASK> 处预测指代的名词

其他任务也采用类似的整合方式,感兴趣可以参考原文~

实验

作者发现,这种使用提示信息的整合方式,在低资源的情况下对模型性能有非常大的提升!

比如在阅读理解任务的 BoolQ 数据集上,作者将使用提示信息整合的 finetune 方法与增加一层分类层的 finetune 方法进行了对比。下图是在使用不同数量的样本训练时,模型准确率的对比。

可以发现,在数据量比较小的时候,使用提示信息整合的 finetune 方法(黄色)比增加一层分类层的 finetune 方法(紫色)有更好的表现。

在某些任务上,这种表现的提升是惊人的:

这是在指代销歧任务的 WSC 数据集上的实验结果。在水平方向看,仅使用 25 个样本,就达到传统 fintune 方法使用 300 个样本才能达到的效果!

此外,作者还进行了一系列的消融实验,得到一些有意思的结论:

  1. 模型通过预测 <MASK> 属于描述集合中的哪种,以此完成任务。如果将这里改为不带语义的单纯的分类,性能也会有所下降。

  2. 作者为每个任务都提供了多种整合提示信息的方式,但是发现,不同方式的区别对性能影响甚微。

总结

这篇文章对基于提示信息的 finetune 方法在进行了大量实验,证明了这类方法在低资源的情况下性能大幅优于传统方法。这种 finetune 的思路应该是可以应用于各类 NLP 下游任务的。尤其是低资源场景下,应该会非常有帮助。如果老板真的只给几百条数据让训练模型,这样的方法说不定就有奇效!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何基于深度学习实现图像的智能审核?

背景 美团每天有百万级的图片产生量&#xff0c;运营人员负责相关图片的内容审核&#xff0c;对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大&#xff0c;人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲&#xff0c;审核标准难以统一且实时变…

论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士。来源&#xff1a;WSDM 2020链接&#xff1a;https://link.springer.com/chapter/10.1007/978-3-030-49461-2_251.介绍知识图谱问答(KGQA)系统的目标是&#xff1a;基于自然语言问题&#xff0c;从RDF数据集中抽取对应…

LeetCode 868. 二进制间距(位运算)

1. 解题 给定一个正整数 N&#xff0c;找到并返回 N 的二进制表示中两个连续的 1 之间的最长距离。 如果没有两个连续的 1&#xff0c;返回 0 。 输入&#xff1a;22 输出&#xff1a;2 解释&#xff1a; 22 的二进制是 0b10110 。 在 22 的二进制表示中&#xff0c;有三个 …

Kotlin代码检查在美团的探索与实践

背景 Kotlin有着诸多的特性&#xff0c;比如空指针安全、方法扩展、支持函数式编程、丰富的语法糖等。这些特性使得Kotlin的代码比Java简洁优雅许多&#xff0c;提高了代码的可读性和可维护性&#xff0c;节省了开发时间&#xff0c;提高了开发效率。这也是我们团队转向Kotlin的…

推荐几个出论文的好方向!

如果你准备发AI方向的论文&#xff0c;或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐&#xff0c;贪心学院《机器学习高阶训练营》&#xff0c;目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解&#xff0c;四个模块…

开源开放 | 疾病科室、心血管系统疾病知识图谱发布,助力电子病历系统建设...

本文转载自公众号&#xff1a;OMAHA联盟。 资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、HiTA ICD编码服务、白皮书等资源&#xff0c;将于每月发布其中的一项或多项资源&#xff0c;敬请关注&#xff01;2009年&#xff0c;《中共中央国务院关于深化医药…

Android官方开发文档Training系列课程中文版:布局性能优化之布局层级优化

原文地址&#xff1a;http://android.xsoftlab.net/training/improving-layouts/index.html 引言 布局是直接影响用户体验的关键部分。如果实现的不好&#xff0c;那么布局很有可能会导致内存的紧张。Android的SDK包含的一些工具可以用来检查布局性能上的问题。结合本章的课程…

LeetCode 389. 找不同(位运算)

1. 题目 给定两个字符串 s 和 t&#xff0c;它们只包含小写字母。 字符串 t 由字符串 s 随机重排&#xff0c;然后在随机位置添加一个字母。 请找出在 t 中被添加的字母。 2. 解题 2.1 土办法&#xff0c;哈希map class Solution { public:char findTheDifference(string …

UAS-点评侧用户行为检索系统

背景 随着整个中国互联网下半场的到来&#xff0c;用户红利所剩无几&#xff0c;原来粗放式的发展模式已经行不通&#xff0c;企业的发展越来越趋向于精耕细作。美团的价值观提倡以客户为中心&#xff0c;面对海量的用户行为数据&#xff0c;如何利用好这些数据&#xff0c;并通…

面试官如何判断面试者的机器学习水平?

文 | 陈然知乎本文已获作者授权&#xff0c;禁止二次转载记得这大概是个三年前的问题&#xff0c;每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi&#xff0c;从零开始设计招聘题目和流程&#xff0c;搭建团队&#xff0c;陆陆续续也面试了…

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理&#xff1a;李爽&#xff0c;天津大学。链接&#xff1a;https://arxiv.org/pdf/2001.03615v1.pdf动机随着“自下而上”注意力的普及&#xff0c;基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征&#xff0c;成为视觉和语言任务的事实标准。…

:批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中 具体代码如下&#xff1a; #!/usr/bin/env python3 # -*- coding: utf-8 -*- from docxtpl import DocxTemplate from openpyxl import load_workbook import osdef replace(obj):if o…

LeetCode 1078. Bigram 分词

1. 题目 给出第一个词 first 和第二个词 second&#xff0c;考虑在某些文本 text 中可能以 “first second third” 形式出现的情况&#xff0c;其中 second 紧随 first 出现&#xff0c;third 紧随 second 出现。 对于每种这样的情况&#xff0c;将第三个词 “third” 添加到…

深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼&#xff0c;使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例&#xff0c;在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用&#xff0c;包括文字识别、图片分类、目…

千呼万唤始出来——GPT-3终于开源!

文 | 小戏编 | 小轶GPT3终于开源&#xff01;不过&#xff0c;不是官方开的&#xff08;别打我Eleuther AI推出的名为GPT-Neo的开源项目&#xff0c;于今晨4点于twitter正式宣布&#xff1a;已经开源了复现版GPT-3的模型参数&#xff08;1.3B和2.7B级别&#xff09;&#xff0c…

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理&#xff1a;潘锐&#xff0c;天津大学硕士。来源&#xff1a;AAAI 2020链接&#xff1a;https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库&#xff08;KBs&#xff09;是一种包含义原标注词汇的知识库&#xff0c;它已成…

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步&#xff0c;随后高速发展&#xff0c;不断刷新多项行业记录。截止至2018年5月19日&#xff0c;日订单量峰值已超过2000万&#xff0c;是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理&#xff1a;娄东方&#xff0c;浙江大学博士后&#xff0c;研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…

深度学习在文本领域的应用

背景 近几年以深度学习技术为核心的人工智能得到广泛的关注&#xff0c;无论是学术界还是工业界&#xff0c;它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应…

LeetCode 1009. 十进制整数的反码(位运算)

1. 题目 每个非负整数 N 都有其二进制表示。例如&#xff0c; 5 可以被表示为二进制 “101”&#xff0c;11 可以用二进制 “1011” 表示&#xff0c;依此类推。注意&#xff0c;除 N 0 外&#xff0c;任何二进制表示中都不含前导零。 二进制的反码表示是将每个 1 改为 0 且…