别再无脑wwm了,在下游任务中不一定有效

本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

文 | python

前言

近几年来,整词遮掩(whole word masking, wwm)作为一种(几乎)不增加计算量,却能大大提升模型表现的方法,被广泛地运用在预训练语言模型中,以促进粗粒度语义的整体建模[1]。然而,这种方法真的是通用的么?论文作者认为,中文里词是一个组合单元,而非英文中的独立单元。因此,对中文的整词遮掩预训练并非天然有效的。论文作者在中文语法改错任务上做了实验。结果表明,在字级别纠错任务上,wwm效果反而不如逐字遮掩效果好。而在整体任务效果上,将逐字遮掩与整词遮掩结合表现更佳。

该论文为复旦自然语言处理组与腾讯AI lab的工作,发表于ACL 2022 findings.

论文题目:
"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

论文链接:
(ACL Findings 2022) https://arxiv.org/abs/2203.00286v2

背景

掩码语言模型与整词遮掩

掩码语言模型是预训练模型中的一个常用的自监督任务。通过遮掩部分输入内容,让模型预测还原的方式,增强模型的语言建模能力。

而整词遮掩方法,利用中文分词的结果,在掩码预测时以词为单位进行遮掩,可以提高对粗粒度语义的建模能力。如下图所示,original masking只遮掩的“模”,模型可以很容易地利用输入的“型”来预测被遮掩的内容,从而减低语言模型建模难度。而WWM(whole word masking)将“模型”两字均遮掩掉,可以促进模型整体建模这个词汇,促进长距离依赖的建模。

570c03733daf4b2bc119eccabc01acdf.png

语法改错任务

该论文在中文语法改错任务上展开了任务探索。具体而言,可以分为替换和插入两个任务。如下图所示。替换任务中,给定句子和需要替换的语段,模型生成替换内容以构成通顺语句;插入任务中,给定句子,插入点与插入长度,模型生成插入内容以形成通顺的语句。

7324eadfe7c88ed43614924b4fbf1506.png

实验结果

实验结果如下图所示。其中,Ours的三个模型是该论文作者自己从头预训练的三个模型,用以公平比较。-clm仅使用字级别掩码预测,-wwm使用整词掩码预测,-clm-wwm同时使用两种掩码预测方式。

29ab23d3f5c1e46266a42f3b938c74d5.png

从中可以看出,在长度为1时,即对单字进行补充或替换,clm具有明显的优势。而随着需要替换的长度增加,wwm的优势更为明显。整体而言,看average的结果,clm和wwm同时使用可以取得更好的表现。

而在下游任务上的实验表明,同时使用clm与wwm,在几种预训练设置下,都能在下游任务上取得和wwm相当的表现。

61d93784cd10b81c7d89f74ce023e7d3.png

小编的总结

整体而言,这篇文章其实比较tricky。选择语法改错中按字插入、替换这种任务,字级别语言建模任务自然可以取得更好的表现。因为字级别遮掩能够促进模型建模词内的依赖关系。

这种因地制宜,因材炼丹的思想是有价值的。在做具体任务的时候,必然要考虑具体任务的特点。不会有一种方法简单有效又能通吃所有任务的。

当然,因地制宜选择预训练任务肯定是最合适的,但如果拿不准的话,wwm+clm可能是一种更稳妥的选择。

类似的思想,还有一些字词多粒度预训练语言模型,如AMBERT[2],LatticeBERT[3]等,通过在预训练输入中将字词同时考虑进去,以提升下游任务表现。

本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

adfb956840f1b1a7df71b5ecd3cedd57.png萌屋作者:python

北大毕业的NLP博士。日常写点论文,码点知乎,刷点leetcode。主要关注问答、对话、信息抽取、预训练等方向。力扣国服第一python选手(经常掉下来)。知乎 ID 是 Erutan Lai, leetcode/力扣 ID 是 pku_erutan,欢迎没事常来逛逛。

作品推荐

  1. 恕我直言,你的实验结论可能严重依赖随机数种子!

  2. AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!

f08c25967106f9d3949b14ee373bac75.png后台回复关键词【入群

加入卖萌屋NLP、CV与搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

bed464083d87f2efc42844344b38cc1a.gif 1d1a4fa1ef07d00b2e392fa246492ee2.png

[1] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.

[2] Xinsong Zhang and Hang Li. 2020. Ambert: A pre- trained language model with multi-grained tokeniza- tion. arXiv preprint arXiv:2008.11869.

[3] Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. 2021. Lattice-bert: Leveraging multi-granularity representations in chi- nese pre-trained language models. arXiv preprint arXiv:2104.07204.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)

文章目录1. Logistic Regression 模型1.1 logistic 分布1.2 二项逻辑斯谛回归模型1.3 模型参数估计1.4 多项逻辑斯谛回归1.5 Python代码2. Maximum Entropy 模型2.1 最大熵原理2.2 最大熵模型的定义2.3 最大熵模型的学习2.4 例题3. 模型学习的最优化算法4. 鸢尾花LR分类实践1. …

Spring Cloud构建微服务架构:服务注册与发现(Eureka、Consul)【Dalston版】

已经有非常长的时间没有更新《Spring Cloud构建微服务架构》系列文章了,自从开始写Spring Cloud的专题内容开始就获得了不少的阅读量和认可,当然也有一些批评,其中也不乏一些很中肯的意见和深度的问题,对我来说也是进一步提高的契…

虚拟专辑丨知识图谱

虚 拟 专 辑 “武大学术期刊”的“虚拟专辑” 旨在将已发表在武汉大学科技期刊中心旗下期刊的论文以时下热点领域按主题重新组合,集中推送,以方便不同专业领域的读者集中查阅、追踪最新研究成果。此次推送的“知识图谱”虚拟专辑,为近几年发…

prompt你到底行不行?

文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风,但是玩完后发现太菜了所以连文章都没写,刚好今天工作比较闲就来写写了。 先上结论,连续prompt为运用大模型提供了一种思路,其实这种思路早就见过不少了。。。…

LeetCode 1323. 6 和 9 组成的最大数字

1. 题目 给你一个仅由数字 6 和 9 组成的正整数 num。 你最多只能翻转一位数字,将 6 变成 9,或者把 9 变成 6 。 请返回你可以得到的最大数字。 示例 1: 输入:num 9669 输出:9969 解释: 改变第一位数字…

Spring Cloud实战小贴士:Zuul统一异常处理(二)

在前几天发布的《Spring Cloud实战小贴士:Zuul统一异常处理(一)》一文中,我们详细说明了当Zuul的过滤器中抛出异常时会发生客户端没有返回任何内容的问题以及针对这个问题的两种解决方案:一种是通过在各个阶段的过滤器…

论文浅尝 | Explainable Link Prediction in Knowledge Hypergraphs

笔记整理:陈子睿,天津大学硕士论文链接:https://dl.acm.org/doi/10.1145/3511808.3557316动机知识超图链接预测已被认为是各种知识使能下游应用的关键问题。然而,大多数现有方法主要以黑盒方式执行链接预测,它们学习实…

吴恩达入驻知乎,涨粉秒过万!知乎首答:如何系统学习机器学习

文 | 卖萌酱大家好,我是卖萌酱。昨天在知乎timeline上刷到一个问题:虽然卖萌酱已经不需要系统学习机器学习了,但无意间发现最高赞的id竟然叫“吴恩达”??好家伙,看了看回答日期,是4月8号。戳进去…

学术会议|第六届知识图谱论坛CNCC-知识图谱赋能大数据大算力

CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办,今年CNCC技术论坛数量达到122个,内容涵盖了“计算行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举行的【第六届知识图谱论坛-知识图谱赋能大数据大算力】。报…

LeetCode 第 18 场双周赛(188/587,前32%)

文章目录1. 比赛结果2. 题目LeetCode 1331. 数组序号转换 easyLeetCode 1328. 破坏回文串 mediumLeetCode 1329. 将矩阵按对角线排序 mediumLeetCode 1330. 翻转子数组得到最大的数组值 hard1. 比赛结果 做出来了1, 2, 3题,第4题提交超时 2. 题目 LeetCode 1331.…

Spring Cloud实战小贴士:Zuul统一异常处理(一)

在上一篇《Spring Cloud源码分析(四)Zuul:核心过滤器》一文中,我们详细介绍了Spring Cloud Zuul中自己实现的一些核心过滤器,以及这些过滤器在请求生命周期中的不同作用。我们会发现在这些核心过滤器中并没有实现error…

ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

技术动态 | 面向可解释性的知识图谱推理研究

导读:本次演讲的主题是面向可解释性的知识图谱推理研究,报告分为以下 5 个部分:研究背景前沿进展研究动机近期研究研究展望分享嘉宾|万国佳 武汉大学 计算机学院 博士后编辑整理|xiaomei出品平台|DataFunTa…

LeetCode 1332. 删除回文子序列

1. 题目 给你一个字符串 s,它仅由字母 ‘a’ 和 ‘b’ 组成。每一次删除操作都可以从 s 中删除一个回文 子序列。 返回删除给定字符串中所有字符(字符串为空)的最小删除次数。 「子序列」定义:如果一个字符串可以通过删除原字符…

Spring Cloud源码分析(四)Zuul:核心过滤器

通过之前发布的《Spring Cloud构建微服务架构(五)服务网关》一文,相信大家对于Spring Cloud Zuul已经有了一个基础的认识。通过前文的介绍,我们对于Zuul的第一印象通常是这样的:它包含了对请求的路由和过滤两个功能&am…

预训练再次跨界!百度提出ERNIE-GeoL,地理位置-语言联合预训练!

源 | 百度NLP本文介绍『文心大模型』的一项最新工作:“地理位置-语言”预训练模型ERNIE-GeoL。论文链接:https://arxiv.org/abs/2203.09127实践中的观察近年来,预训练模型在自然语言处理、视觉等多个领域都取得了显著效果。基于预训练模型&am…

LeetCode 1333. 餐厅过滤器(Lambda排序)

1. 题目 给你一个餐馆信息数组 restaurants,其中 restaurants[i] [idi, ratingi, veganFriendlyi, pricei, distancei]。你必须使用以下三个过滤器来过滤这些餐馆信息。 其中素食者友好过滤器 veganFriendly 的值可以为 true 或者 false,如果为 true …

Spring Cloud实战小贴士:Zuul处理Cookie和重定向

由于我们在之前所有的入门教程中,对于HTTP请求都采用了简单的接口实现。而实际使用过程中,我们的HTTP请求要复杂的多,比如当我们将Spring Cloud Zuul作为API网关接入网站类应用时,往往都会碰到下面这两个非常常见的问题&#xff1…

论文浅尝 | Language Models (Mostly) Know What They Know

笔记整理:程思源、梁孝转,浙江大学在读硕士,研究方向为知识图谱的表示学习,自然语言处理,预训练对于一个语言模型,我们最终希望得到一个“诚实”的人工智能系统,即语言模型需要准确并且忠实地评…

百度AI技术盛宴来了!大咖齐聚解读CV/NLP/跨模态大模型技术!

随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破。自2020年至今,越来越多的科技巨头和科研机构参与其中。去年12月,百度发布了全球首个知识增强千亿级大模型——鹏城-百度文心…