NLP界新SOTA!吸纳5000万级知识图谱,一举刷爆54个中文任务!

大家还记得2019年底首次将GLUE榜单分数刷过90大关的百度ERNIE模型吗?

在随后一年多的时间里,又陆续出现了GPT-3、Switch Transformer等一众靠模型体量取胜的千亿乃至万亿参数规模的超大预训练模型,似乎新训一个预训练模型没有个千亿参数都不好意思拿出来吹。

但是,万事都是有天花板的。参数规模的提升,不仅使得模型训练变得极其困难,而且应用部署也变的更加棘手,更为让人忍不住思考的问题是:难道预训练就没有一条更加光明的道路了吗?

近期,笔者从百度新发布的ERNIE 3.0模型上看到了新的希望——ERNIE 3.0没有选择一味的比拼模型规模,而是巧妙地将包含5000万+实体知识的大规模知识图谱融合到百亿级参数规模的超大规模模型中,并通过数据规模、多样性、质量的提升,以及模型结构与训练方式的框架级改进,使得模型全面屠榜了各大中文NLP任务!还顺便登顶了GLUE、SuperGLUE两大NLP权威榜单...

论文链接:
https://arxiv.org/pdf/2107.02137.pdf

权威榜单双榜首,刷爆50+中文任务

提到预训练模型的效果测评,就不得不提到 SuperGLUE Benchmark

SuperGLUE是由谷歌DeepMind、Facebook 研究院、纽约大学、华盛顿大学等多个权威机构联合发布的复杂语言理解任务评测,旨在解决常识推理、因果判断、上下文消歧、指代消解等对于人工智能系统更为复杂任务,相对于GLUE等权威经典评测挑战更大。

在这份业界公认的“地狱级GLUE榜单”上,百度ERNIE3.0以 90.6 的分数击败Google T5、微软DeBERTa、OpenAI的GPT-3等强队,以超越人类水平0.8个百分点的成绩成功实现登顶

▲ERNIE 3.0登顶 SuperGLUE 榜首

除了SuperGLUE榜单外,笔者还注意到在NLP经典权威榜单GLUE上,百度ERNIE同样稳居第一:

可以说一举实现了权威自然语言理解评测的双榜首。

不仅如此,为了证明模型的通用性,ERNIE 3.0竟然一口气刷新了50多个中文NLP任务。。。其中涵盖了情感分析、观点抽取、阅读理解、文本摘要、对话生成等NLP经典任务,笔者也是被震惊到了。

例如,基于ERNIE 3.0进行下游任务finetune后,有20几个NLP任务取得了3%以上的显著提升:

▲ERNIE 3.0在 Fine-tuning 范式下的任务效果

甚至在zero-shot的设定下,ERNIE 3.0 在大多数任务上相对已有的中文超大模型也取得了显著的效果提升。

▲ERNIE 3.0在零样本学习下的效果

中文创作能力出众

如果说SuperGLUE证明了ERNIE 3.0的自然语言理解能力,50+中文NLP任务证明了ERNIE 3.0的鲁棒性和通用性,那ERNIE 3.0的中文创作能力的冲击就更加直观了,下面直接上case!

古文创作

歌词创作

笔者特意搜了一下,发现模型确实不是暴力记忆了互联网上的歌词,而是有改编和创作成分在里面

科技文稿创作

对对联

作诗

续写小说

这段小说的文字水平显然已经超越了笔者的高考作文

此外,由于ERNIE 3.0在预训练阶段引入了大规模知识图谱,因此在需要依赖知识的文本生成任务上同样表现出众,比如生成式问答:

更多脑(tiao)洞(xi),欢迎通过demo传送门进行试用:

https://wenxin.baidu.com/wenxin/ernie

如何做到的?

首先,是基于海量文本和大规模知识图谱的平行预训练技术

文本与知识的平行预训练

数据方面,ERNIE 3.0使用了多达 4TB 的中文数据,而且在文本的多样性和质量方面也做了大量优化,如下表所示,数据来源包含11个大类:

此外,4TB数据中还包含了 5千万知识图谱三元组 同时输入到预训练模型之中进行联合掩码训练。大规模知识图谱的融入有效促进了结构化知识和无结构文本之间的信息共享,大幅提升了模型对于知识的记忆和推理能力。

文本与知识的平行预训练方法如下图所示:

▲ERNIE 3.0中的文本与知识平行预训练

那么模型吃掉了这么多的知识,有什么用呢?

在论文的ablation study章节,可以看到引入大规模知识图谱后,最直观的就是对信息抽取这类知识驱动任务的性能提升:

此外,如前述case所示,在KBQA任务以及zero shot的生成式问答方面,ERNIE 3.0具备显著优势。

模型结构改进

在结构方面,ERNIE 3.0基于Transformer-XL作为模型backbone,使得模型天然具备长文本处理能力。

此外,为了减小预训练与微调阶段的gap,提升模型的zero-shot能力,ERNIE 3.0还增加了task-specific的表示模块,如图所示:

底层参数共享的shared backbone网络和上层参数不共享的任务网络均采用Transformer模型结构。backbone网络对所有任务均为可学习,而每个任务网络只对某一种任务进行学习。

此外,而为了更好的融合知识,让模型同时具备语言理解和语言生成的能力,ERNIE 3.0还融合了自编码和自回归两种范式进行统一预训练,使得模型兼具语言理解、生成与知识记忆能力。ERNIE 3.0也延续了ERNIE 2.0使用的持续学习范式,整个框架可通过引入新的预训练任务和新的任务模型网络,实现模型持续学习,进而解决新的任务。

由此可见,ERNIE 3.0框架的提出证明了预训练问题在模型规模之外依然存在很大的探索空间,包括但不限于大规模知识图谱的融合学习、数据多样性与质量优化、结构与训练方式改进等,提升参数规模绝对不是当下预训练问题的唯一解!

但从另一个角度来说,未来的ERNIE模型进化到千亿、万亿乃至十万亿参数规模后,又会带给业界怎样的惊喜呢?让我们拭目以待吧!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478357.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 543. 二叉树的直径(DFS)

1. 题目 给定一棵二叉树,你需要计算它的直径长度。一棵二叉树的直径长度是任意两个结点路径长度中的最大值。这条路径可能穿过根结点。 示例 : 给定二叉树1/ \2 3/ \ 4 5 返回 3, 它的长度是路径 [4,2,1,3] 或者 [5,2,1,3]。注意:两结点之…

论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)

笔记整理 | 栾岱洋,东南大学来源:ACL 2020链接:https://www.aclweb.org/anthology/2020.acl-main.571.pdf本文提出了一种可以实现重叠主体的识别的BiFlaG(bipartite flatgraph network)模型,包含两个子图模…

不是所有问题都适合用神经网络去搞!

文 | YukiRain知乎不是所有问题都适合用神经网络预测,YukiRain总结了以下几种不适合用神经网络做预测的场景:小样本情况,无论是低维还是高维,不如SVM和贝叶斯模型低维数据,大样本量,不如各种ensemble类算法…

从Google白皮书看企业安全最佳实践

前不久Google发布了一份安全方面的白皮书Google Infrastructure Security Design Overview,直译的版本可以参考“网路冷眼”这版《Google基础设施安全设计概述》,直译点评的版本可以参考“职业欠钱”的《Google基础设施安全设计概述翻译和导读》。 此前G…

LeetCode 415. 字符串相加(大数加法)

1. 题目 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和。 注意:num1 和num2 的长度都小于 5100. num1 和num2 都只包含数字 0-9. num1 和num2 都不包含任何前导零。 你不能使用任何內建 BigInteger 库, 也不能直接将输入的字符串…

会议交流 | 智能风控技术峰会(请关注图分析相关论坛)

2021年5月15日,9:00-18:00,DataFunSummit——智能风控技术峰会将如约而至,本次峰会由3位主席和8位出品人精心策划而成,邀请来自业界的40余位嘉宾从风控系统的架构,到智能风控的核心算法,再到内容、金融、交…

深度学习,路在何方?

文 | Severus最近,AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章,名为Deep Learning for AI,文中讨论了深度学习的起源、发展、成就及未来。文章标题:Deep Learning for AI原文链接&…

前端渲染引擎doT.js解析

背景 前端渲染有很多框架,而且形式和内容在不断发生变化。这些演变的背后是设计模式的变化,而归根到底是功能划分逻辑的演变:MVC—>MVP—>MVVM(忽略最早混在一起的写法,那不称为模式)。近几年兴起的R…

elasticsearch7使用指导

目录结构: 一、es概述 二、es安装/head插件安装/kibana安装 三、es核心概念 四、IK分词器 五、RestFul操作 六、CRUD(增删改查) 七、Springboot集成es ---------------------------------------分割线:正文------------------------------------…

开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课

点击“阅读原文”或扫描图中二维码进入课程教学计划第一章知识图谱概论1.1 语言与知识1.2 知识图谱的起源1.3 知识图谱的价值1.4 知识图谱的技术内涵第二章知识图谱的表示2.1 什么是知识表示2.2 人工智能历史发展长河中的知识表示2.3 知识图谱的符号表示方法2.4 知识图谱的向量…

LeetCode 43. 字符串相乘(大数乘法)

文章目录1. 题目2. 小学竖式乘法2.1 普通版2.2 优化版1. 题目 给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式。 示例 1: 输入: num1 "2", num2 "3" 输出: "6&q…

旅游推荐系统的演进

度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附近的酒店)不同,旅游场景中的用户兴趣点(比如周末去哪…

预训练卷不动,可以卷输入预处理啊!

文 | 德志编 | 小戏目前伴随着预训练预言模型的兴起,越来越多的 NLP 任务开始脱离对分词的依赖。通过 Fine-Tune Bert 这类预训练预言模型,能直接在下游任务上取得一个很好的结果。同时也有文章探讨中文分词在神经网络时代的必要性。对于分词任务本身也是…

检索式问答以及评论观点抽取+情感分析

3款开发者神器,快速搭建「检索、问答、情感分析」应用! 人工智能与算法学习 于 2021-12-30 08:10:00 发布 26 收藏 文章标签: 百度 大数据 机器学习 人工智能 数据分析 原文链接:https://mp.weixin.qq.com/s?__bizMzIyOTkyOTE…

征稿 | Call for papers on Knowledge Graphs

Knowledge graph是Data Intelligence的核心主题和期刊特色之一。为持续展示这一领域的最新进展和前沿成果,Data Intelligence正在与国际学者一道策划两期Knowledge graph专辑。期待大家关注并积极投稿参与!DI专辑Special Issue on Personal Health Knowl…

LeetCode 179. 最大数(自定义谓词函数--Lambda表达式--排序)

1. 题目 给定一组非负整数,重新排列它们的顺序使之组成一个最大的整数。 示例 1: 输入: [10,2] 输出: 210示例 2: 输入: [3,30,34,5,9] 输出: 9534330 说明: 输出结果可能非常大,所以你需要返回一个字符串而不是整数。来源:力扣&#xff08…

python实现requests访问接口,比如es接口

首先我们先引入requests模块 import requests一、发送请求 r requests.get(https://api.github.com/events) # GET请求 r requests.post(http://httpbin.org/post, data {key:value}) # POST请求 r requests.put(http://httpbin.org/put, data {key:value}) # PUT请求 r…

拿下字节offer,这些面试题命中率高达90%以上

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

HDFS NameNode重启优化

本文已发表于InfoQ,下面的版本又经过少量修订。 一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所…

LeetCode 4. 寻找两个有序数组的中位数(二分查找,难)

文章目录1. 题目2. 解题2.1 合并数组2.2 优化2.1解法,双指针2.3 二分法(找第k个数)2.4 切分法1. 题目 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(mn…