中文巨量模型“源1.0”:模型结构与生成效果解析

浪潮人工智能研究院

  “源 1.0”自 2021 年 9 月底发布以来收获了广泛的关注。其参数量达 2457 亿,超越美国 OpenAI 组织研发的 GPT-3。“源 1.0”在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。测试结果显示,人群能够准确分辨人与“源 1.0”作品差别的成功率低于 50%。

  在之前的博客中,我们详细论述了如何准备预训练数据、模型本身如何训练,以及在下游任务如何提升精度。在本篇中,我们将着重讨论模型的结构问题,以及由模型结构带来的效果。会回答以下三个问题:(1)“源 1.0”基础模型结构是怎样的?(2)为什么要选择这样的结构?(3)和模型结构相关的下游任务效果。

  1.  “源1. 0”基础模型结构的选择

  在介绍基础模型结构之前,显然要明确一件事情:我们想让模型完成什么呢?在自然语言处理(NLP)领域,所有的任务大体可以被分为两类:自然语言理解(NLU)任务和自然语言生成(NLG)任务,前者偏重于对语义的理解,而后者偏重于文本的创作。如果可能的话,开发者当然期望这个模型在两类任务上同样出色,但事实上,不同类型的 NLP 模型结构对两类任务总是有所偏重的。如果只考虑在榜单上的表现,偏重于 NLU 任务可能会比较合适,因为包括“源 1.0”冲击的 CLUE 榜单在内,几乎所有相似的榜单都偏重于自然语言理解任务,在 《中文巨量模型浪潮“源 1.0”的小样本学习优化方法》(中文巨量模型“源1.0”的小样本学习优化方法_ITPUB博客)这篇博文上也可以看到相关任务的介绍。为了在榜单上取得更好的成绩,自然应该选择一个偏重于 NLU 的模型结构。然而,当我们考虑到模型实际应用的时候,就会发现 NLG 的应用场景更广泛,没有 NLG,也很难体先出 NLU 的价值。所以,在这个问题上,我们的认识是要优先保证模型具有出色的创作能力(NLG),而在 NLU 任务上也务必尽可能地提升效果。

  带着这样的初衷,“源 1.0”的基础结构为一个单向的语言模型,即根据上文预测下文的概率。其中的 Transformer 解码器(Decoder)采用自回归的方式输出序列。当处理不同的下游任务时,则会根据任务类型使用一个从文本到文本的框架,将所有任务处理成相似的格式,以便直接将预训练的语言模型应用于不同的下游任务上。过去的研究已经证实,经典的单向语言模型结构是擅长 NLG 任务的,而在 NLU 任务上则相对薄弱一些。为了进一步探索模型在 NLU 任务上的可能,在“源 1.0”的开发过程中,我们考虑了语言模型(Language Model,LM),和前缀语言模型(Prefix Language Model,PLM)两种结构。两种结构的主要区别在于掩码的方式,如图 1 所示。

  在t时刻,解码器根据模型对输出序列的预测概率,生成输出序列中最右侧的一位 (x5)的标记(token)。之后这个标记与输入序列相连接,一起被送入模型以预测 t+1 时刻的输出(x6)的标记。我们用这两种模型结构分别训练了 130 亿参数量的两个模型,Yuan LM-13B 和 Yuan PLM-13B,并把这两个模型放在小样本学习(FewCLUE)和零样本学习(ZeroCLUE)场景下做了评估(表1)。关于表格中任务的详细介绍,请参考博文《中文巨量模型浪潮“源 1.0”的小样本学习优化方法》。

  表1(a)和(b)表明 LM 和 PLM 在 Zero-Shot 和 Few-Shot 上都具有优异的表现能力。LM 和 PLM 的零样本平均得分都优于已往的最优结果。在 Csldcp、Tnews 和 Iflytek 任务上,模型的得分大大超过了以往零样本学习的最优结果。模型在 Ocnli 上也取得了不错的成绩,比以往零样本学习的最优结果高出6-8 个点。我们的监督微调方法与 GPT 的设计一致。 LM 和 PLM 的平均分数与以往最优分数相当,如表1(b)所示。与小样本学习结果相比,微调对 Bustm、Csl 和 Wsc 有很大的改进。但是,对于在零样本学习上表现出色的 Chid、Eprsmt、Tnews 和 Ocnli,微调贡献很小甚至会有负面影响。

  比较 LM 和 PLM 的结果,我们注意到 LM 在 Zero-Shot 和 Few-Shot 上表现更好,而 PLM 在微调方面表现出色。微调通常会在大多数 NLU 的任务中带来更好的准确性,这与我们一开始选择模型结构的初衷相合。然而,当模型参数量从百亿扩大到千亿规模,比如对于我们的 “源 1.0”模型,微调会消耗大量的计算资源,这是不经济的。所以最终,我们选择 LM 作为“源 1.0”的基础架构。

  2.  “源 1. 0”的文本生成效果

  “源 1.0”更加出色的能力是体现在创作上(NLG)。为了评价模型生成文本的效果,我们任意选择了“源 1.0”生成的 24 个文本,包括 4 副对联、5 首中文传统和现代诗歌、5 篇新闻文章、5 个故事和 5 段对话。对联、诗歌和对话的创作可以看作是短文本任务(~10-20 个标记),而新闻和故事生成可以看作是长文本任务(~300 个标记)。与之对比的人工写的文章来自名家所作的诗歌、经典小说、搜狐新闻的新闻文章和 LCCC-large 数据集中的对话。参与者被要求选择文章是“由人类撰写”还是“由模型撰写”,我们收集了 83 份有效问卷。根据我们的采访,大多数受访者会倾向于选择 “更好的”那一篇是由人类创作的,而“稍差”的那一篇是模型生成的。

  图 2 展示了这次实验的结果。“源 1.0”创作的文章有 49.16% 的概率可以被正确识别为“由模型撰写”,这意味着参与者难以区分人工撰写和模型生成的文章,尤其是现代诗和文章。新闻(42.12%)和故事(49.15%)的生成结果让我们可以相信模型出色的长文本生成能力。在我们的参与者看来,一些模型撰写的文章甚至比部分出自大师之手的文章还要好。对联和诗歌的生成表明,尽管我们的预训练语料中没有加强古汉语,“源 1.0”也能够创建具有一定形式的古汉语文本,如图 2 所示。“源 1.0”也可以进行符合人类期望的对话(45.68%)。“源 1.0”目前能够生成多种高质量的文本,如新闻稿件、故事续写等。对于这些类别的任务,所产出的文章与人类创作的内容相差无,甚至达到了以假乱真的程度。

  在表 2 中展示了一些“源 1.0”对不同文体的驾驭能力,读者可以稍加体会。

  从表2(b)(c)中,我们可以看到“源 1.0”的学习和模仿能力。在生成诗歌时,如果我们在输入中给出某种风格的例子,模型就会倾向于生成相似风格的诗歌。在小说续写中,模型也会依据输入文本的风格,继续文章的写作。

  除了基本的创作能力以外,“源 1.0”其实还有一些有趣的能力,比如,模型可以学习一些原本不存在的词的用法,也能够具备一定的推理能力。比如我们在输入中给出了这个词的定义和例句,模型将用给定的信息编写一个新句子。这个不存在词包括名词和形容词。表3(a)显示了模型在 One-shot 条件下的生成结果。在所有情况下,模型都对我们给出的新词作出了近似正确的应用,这意味着我们的模型具有学习和模仿能力。这种能力在模型辅助科学文章写作时特别有效,因为对“源 1.0”来说学术文章中的大量定义可能是陌生的。表3(b)则展示了模型的逻辑推理能力,这些推理题对于人类来说尚有一定的挑战、需要相当程度的推理和计算,但是模型却可以快速给出答案,且正确率远高于随机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python中gmtime的hour错误_python中gmtime的hour错误_在Python中操作日期和时间之gmtime()方法的使用...

python中datetime怎么用广告总是在最精彩的时候出现,你总是在小编爱的最深的时候离开。 日期相关的操作 from datetime import datetime from datetime import timedelta DATE_FMT %Y-%m-%d DATETIME_FMT %Y-%m-%d %H:%M:%S DATE_US_FMT %d/%m/%Y 格式化常用的…

webview键盘自适应_黑爵毛茸茸机械键盘:感受来自治愈系的暖萌

随着近几年电竞业的火爆,特别是女性玩家的增多,越来越多的外设厂商推出了个性化定制的产品,比如符合女生群体的鼠标、键盘、显卡甚至主板等。今天为大家介绍的这款黑爵毛茸茸机械键盘,是黑爵Project C系列的第三款主题键盘&#x…

阿里云云效技术专家分享:云原生开发、调测及可靠发布解决方案

简介: 高效开发、稳健发布。 在云原生环境中,基于Kubernetes的工具链一方面简化了开发者的许多日常琐碎,另一方面也带来了许多新的概念和工作方式的改变。本篇文章将聚焦于云原生基础设施,谈谈如何在面向云原生的开发流程中&…

代码质量第 5 层 - 只是实现了功能

产品实现的功能是产品价值的体现形式。功能实现是基础。功能没有实现,其他方面做得再好也没有意义。那么,如何保证实现的功能覆盖了需求呢? 产品实现的功能是产品价值的体现形式。功能实现是基础。功能没有实现,其他方面做得再好也…

阿里巴巴 DevOps 工具体系

简介: 随着阿里巴巴多元化业务 20 多年的高速发展,技术体系经历了 web 时代、移动化时代、数据智能时代、云计算时代等多个重大变革。在这些变革中,开发者面对的技术体系、工具体系、知识体系也在不断进化。研发工具在其中起到了技术规模化和…

云原生引领全云开发时代

简介: 云原生是近几年最火爆的技术热词之一,几乎所有的云计算产品都会或多或少跟云原生发生关联,云原生正在重塑整个软件的生命周期。但到底什么是云原生?云原生带来的最大的技术创新和未来机会是什么?以及&#xff0c…

中国首部智能交通微纪录片正式发布 探讨交通强国高质量发展路径

12月23日,由央视财经出品,中国首部智能交通题材微纪录片《大国交通-车路智行》正式发布。该微纪录片全景式呈现出中国交通领域智能化转型历程,探索了交通强国高质量发展的中国路径。据悉,《大国交通-车路智行》微纪录片共五集&…

Kettle on MaxCompute使用指南

简介: Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。Kettle支持丰富的数据输入输出源&#xff0…

使用AirFlow调度MaxCompute

简介: airflow是Airbnb开源的一个用python编写的调度工具,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行,通过python代码定义子任务,并支持各种Operate操作器,灵活性大…

css让背景图片显示透明遮罩_CSS项目测试(支持深色模式)

*事先声明:本文章教程教学、文章封面来源自[CSS]聚光灯项目 by CodingStartup起码课,且已经CodingStartup起码课授权允许转载!为了保持原有风格,本文始终保持与CodingStartup起码课的视频风格一致*在出现同样的代码块时&#xff0…

一文读懂阿里云直播技术是如何实现的

简介: 东京奥运会已落下帷幕。比赛期间,全球亿万观众蜂拥至各大转播平台观看奥运赛事,平台直播能力显的尤为重要。阿里云作为视频直播平台的技术提供商,凭借在产品技术、资源带宽、服务保障等方面优势,可为各大转播平台…

低代码发展专访系列之七:低代码的火爆需要不一样的声音么?

编辑 | 曹芊芊话题:低代码发展系列专访前言:2019年开始,低代码爆火。有人认为它是第四代编程语言,有人认为它是开发模式的颠覆,也有人认为是企业管理模式的变革……有很多声音,社区讨论很热烈。CSDN随后展开…

启动、内存、卡顿三大分析,用户体验就用它?

简介: 启动分析支持通过预置采集和个性化自定义两种方式定义启动阶段,可以分别查询首次启动、冷启动、热启动的情况效果,并可以与设备、系统、版本、地域等维度做交叉筛选查询。 随着大量应用涌入市场加入“App内卷之战”,终端用…

adb echo shell 覆盖_一次写shell脚本的经历记录

点击上方“我的小碗汤”,选择“置顶公众号”精品文章,第一时间送达redis在容器化的过程中,涉及到纵向扩pod实例cpu、内存以及redis实例的maxmemory值,statefulset管理的pod需要重启。所以把redis集群的状态检查放到了健康检查中&a…

当新零售遇上 Serverless

简介: Serverless 的出现给传统企业数字化转型带了更多机遇。 某零售商超行业的龙头企业,其主要业务涵盖购物中心、大卖场、综合超市、标准超市、精品超市、便利店及无人值守智慧商店等零售业态,涉及全渠道零售、仓储物流、餐饮、消费服务、…

如果还不懂如何使用 Consumer 接口,就来看这篇!

作者 | 阿Q来源 | 阿Q说代码背景在开发过程中我遇到这么一个问题:表结构:一张主表A ,一张关联表B ,表 A 中存储着表 B 记录的状态。场景:第一步创建主表数据,插入A表;第二步调用第三方接口插入B…

京东:Flink SQL 优化实战

简介: 本文着重从 shuffle、join 方式的选择、对象重用、UDF 重用等方面介绍了京东在 Flink SQL 任务方面做的优化措施。 本文作者为京东算法服务部的张颖和段学浩,并由 Apache Hive PMC,阿里巴巴技术专家李锐帮忙校对。主要内容为&#xff1…

Spring Boot参数校验以及分组校验的使用

简介: 做web开发基本上每个接口都要对参数进行校验,如果参数比较少,还比较容易处理,一但参数比较多了的话代码中就会出现大量的if-else语句。虽然这种方式简单直接,但会大大降低开发效率和代码可读性。所以我们可以使用…

长文解析:作为容器底层技术的半壁江山, cgroup如何突破并发创建瓶颈?

简介: io_uring 作为一种新型高性能异步编程框架,代表着 Linux 内核未来的方向,当前仍处于快速发展中。阿里云联合 InfoQ 发起《io_uring 介绍及应用实践》的技术公开课,围绕 OpenAnolis 龙蜥社区 Anolis OS 8 全方位解析高性能存…

Orion:谷歌的新一代SDN控制器

作者 | 魏煌松来源 | 鲜枣课堂时至今日,谷歌在2015年公布的成果,“利用SDN将广域网带宽利用率提升至接近100%”,仍然是SDN的一个标杆案列,也是难以逾越的巅峰。但事实上,当时使用的SDN控制器Onix,早已退出了…