机器学习笔记:李宏毅chatgpt 大模型 大资料

1 大模型

1.1 大模型的顿悟时刻

Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022

模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了

这边举的一个例子是,比如让模型回答鸡兔同笼问题 

  • 一开始小模型什么都学不到,故而效果不好 
  • 随着模型参数量增大,模型慢慢地会一定地推导了,但是还是得不到正确的推导结果——此时仍然不得分
  • 只有当参数量达到某一个数值之后,不仅会推导,还得到了正确的答案
  • ——>此时才得分

 1.2 inverse scaling prize? U shape

Inverse scaling can become U-shaped 2022

大部分任务是随着模型的变大,效果越来越好,那么有没有某些任务/问题,是模型变大效果反而变差的呢?

 

答案是有的,这里列了一些:

  

但是,真的是模型参数量变大模型表现反而不好嘛?

 

于是这篇论文进一步扩大模型参数量,发现模型表现跌到一定程度后,还是会涨精度

——>在这些任务中,performace 和参数量的关系是U shape的

 

 

而这种带Ushape的任务,这篇论文认为,大多数是“带陷阱(干扰项)”的问题。当模型稍微获得一点能力的时候,就很有可能陷入这个陷阱中。但模型参数量进一步扩大,就会知道这是个“陷阱”,从而找到正确的答案

2 大资料

2.1 两种认知

When Do You Need Billions of Words of Pretraining Data?  2020

语言模型一般需要两种认知

  • 一种是对语言本身语法、文法的认知(深蓝色曲线)
    • 这一部分不需要很多的语料,有一些资料供学习就够了
  • 另一种是对语言背后世界运行规律的认知
    • 这一部分就需要大量的语料喂入了

2.2 数据处理

Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2021
如何收集这些资料呢?

 

  • 过滤有害内容(比如黄色、暴力的内容)
  • 去除HTML tag
    • 从网站上爬资料的话,会有很多无用的HTML 语言
    • 但是也不是所有的HTML tag都去掉,会保留一些如换行符等有用的知识
  • quality filtering
    • 在论文中有详细的规则,介绍了如何去除低品质资料
  • 去除重复资料
    • 后面会有论文专门说重复资料的影响
  • test-set filter
    • 需要把用来测试的那一部分语料去掉,不然就相当于提前学了这一部分内容,导致测试结果不准

2.3 重复数据的影响

Deduplicating Training Data Makes Language Models Better 2021
  • 比如如上的语料库中,中间这一段话出现了6W多次 
  • 我们分不同的层级,去除掉语料库中重复的部分,然后喂入语言模型,让语言模型随便说一段话。
    • 将这一段话和语料库进行对比,看看模型是学习了语料库中的内容,生成了新的语句,还是仅仅死记硬背了语料库中的内容
    • 表格中的数字就是有多少比例生成的语句是和语料库中的语句极为相似
  • 可以发现如果语料库中重复的语句过多,机器很容易直接复述之前的内容

2.4 固定的计算资源下,应该更大的模型,还是更多的资料?

Training Compute-Optimal Large Language Models 2022

  • 每一条虚线都表示具有相同的运算资源
  • 纵轴表示预测的效果(Loss),越小表示预测的越好
  • 横轴表示模型参数量
  • 可以看到 小模型大资料 和 大模型小资料 效果都不如一个折衷的配置
    • 小模型大资料:看了很多资料,  但是不学习(学而不思)
    • 大模型小资料:思而不学

  •  于是论文把所有计算资源配置下的,各个U型曲线的最低点找到,然后进行外推
  • 得到一个和Gopher计算资源一样的情况下,模型参数和资料的最佳配置组合(命名为Chinchilla)

 

 可以发现Chinchilla几乎完胜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/32712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP利用PCRE回溯次数限制绕过某些安全限制实战案例

目录 一、正则表达式概述 有限状态自动机 匹配输入的过程分别是: DFA(确定性有限状态自动机) NFA(非确定性有限状态自动机) 二、回溯的过程 三、 PHP 的 pcre.backtrack_limit 限制利用 例题一 回溯绕过步骤 &…

谱包络之pysptk和pyworld

谱包络之pysptk和pyworld 谱包络可以直接用于语音的合成,常用的两个计算谱包络的库pysptk和pyword。 先看看代码: 一段语音x,采样率16000Hz pysptk import pysptkframe_length 1024 hop_length 80 order 25 alpha 0.41 frames libro…

ubuntu python 查看系统是否可用 cuda

ubuntu python 查看系统是否可用 cuda 初环境与设备查看环境演示效果 本篇文章将介绍ubuntu python 查看系统是否可用 cuda 初 希望能写一些简单的教程和案例分享给需要的人 环境与设备 系统:ubuntu 22.04 工具:python 3.10.6 设备:Nvidi…

哪些人会看作业指导书?作业指导书怎样才能发挥作用?

一般人普遍人为,作业指导书就是给操作人员看的。其实不然,那么哪些人会看作业指导书?大致可以分为: 第一类:新到工作岗位的员工。其中包括新进员工和新转岗位的员工,他们都会在师傅或领班组长的带领指导下,…

SCAU操作系统知识点之(一)计算机系统概述

缩写词: OS: Operating System 操作系统 PSW: Program Status Word 程序状态字 FCFS: First Come First Serve 先来先服务 PCB: Process Control Block 进程控制块 DMA: Direct Memory Access 直接存储器存取 MMU: Memory Management Unit 内存管理单元 SSTF: Short…

MAUI+Blazor 如何开启浏览器调试工具

文章目录 前言如何开启调试模式输入快捷键打开浏览器有什么意义? 前言 MAUIBlazor其实就是浏览器套壳,我觉得很有意义,因为现在性能已经不是主要的限制了,很多时候讲究的快速开发。而且MAUIBlazor跨平台的未来感觉实在是太香了。…

了解IL汇编跳转语句

il代码, .assembly extern mscorlib {}.assembly Test{.ver 1:0:1:0}.module test.exe.method static void main() cil managed{.maxstack 5.entrypointldstr "Enter First Number"call void [mscorlib]System.Console::WriteLine (string)call string …

性能优化-react阻止子组件重渲染

因为父组件的状态变更会触发子组件的渲染,可以用shouldComponentUpdate或memo来阻止。下面就来介绍这两种方法。 类组件-shouldComponentUpdate 注:变化需要在render中打印,在component中检测不到 核心代码: 子组件中用shouldComponentUpda…

图像的缩放之c++实现(qt + 不调包)

1.基本原理 图像的缩放一般使用插值算法,而本章将介绍两种常用插值算法:最临近插值法和双线性插值法 1.最临近插值法 将浮点数的位置坐标,进行四舍五入找到原图像的整型坐标即可,具体操作可见下面的公式,其中原图像坐标…

Vue.js2+Cesium1.103.0 八、动态光墙效果

Vue.js2Cesium1.103.0 八、动态光墙效果 Demo <template><divid"cesium-container"style"width: 100%; height: 100%;"/> </template><script> /* eslint-disable no-undef */ import /utils/dynamicWallMaterialProperty.js exp…

简单程度与自负是否相关?探索STM32的学习价值

事实上&#xff0c;无论STM32是否简单并不重要&#xff0c;更重要的是我们能通过学习STM32获得什么。通过STM32&#xff0c;我们可以学习到许多知识&#xff1a;如果我们制作一个键盘或鼠标&#xff0c;我们可以学习USB协议。如果我们制作一个联网设备&#xff0c;我们需要学习…

Go http.Handle和http.HandleFunc的路由问题

Golang的net/http包提供了原生的http服务&#xff0c;其中http.Handle和http.HandleFunc是两个重要的路由函数。 1. 函数介绍 http.HandleFunc和http.Handle的函数原型如下&#xff0c;其中DefaultServeMux是http包提供的一个默认的路由选择器。 func HandleFunc(pattern st…

Docker启动一个Centos镜像

搜索可用的centos的docker镜像 docker search <image>&#xff1a;在docker index中搜索imagedocker search centos 下载centos镜像&#xff08;拉取镜像&#xff09; docker pull centos:latest查看镜像docker images&#xff1a;列出imagesdocker images -a&#xff…

激光与光电子学进展, 2023 | 非视域成像技术研究进展

注1&#xff1a;本文系“计算成像最新论文速览”系列之一&#xff0c;致力于简洁清晰地介绍、解读非视距成像领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, SIGGRAPH, TPAMI; Light‑Science & Applications, Optica 等)。 本次介绍的论…

stm32 cubemx can通讯(1)回环模式

文章目录 前言一、cubemx配置二、代码1.过滤器的配置&#xff08;后续会介绍&#xff09;2.main.c3.主循环 总结 前言 介绍使用stm32cubemx来配置can&#xff0c;本节讲解一个简答&#xff0c;不需要stm32的can和外部连接&#xff0c;直接可以用于验证的回环模式。 所谓回环模…

Mysql按小时进行分组统计数据

目录 前言 按1小时分组统计 按2小时分组统计 按X小时分组统计 前言 统计数据时这种是最常见的需求场景&#xff0c;今天写需求时发现按2小时进行分组统计也特别简单&#xff0c;特此记录下。 按1小时分组统计 sql&#xff1a; select hour(pass_time) …

灵眸:2023年上半年中国主要消费领域宏观数据概览报告(附下载)

关于报告的所有内容&#xff0c;公众【营销人星球】获取下载查看 核心观点 2023年上半年中国社会消费品零售总额22.8万化元。2023年上半年中国电商实体商品消费总额达6.1万亿元&#xff0c;同比增长10.8%。2023年上半年中国餐饮、汽车消费均超2万化元&#xff0c;餐饮、金银珠…

如何预防ssl中间人攻击?

当我们连上公共WiFi打开网页或邮箱时&#xff0c;殊不知此时可能有人正在监视着我们的各种网络活动。打开账户网页那一瞬间&#xff0c;不法分子可能已经盗取了我们的银行凭证、家庭住址、电子邮件和联系人信息&#xff0c;而这一切我们却毫不知情。这是一种网络上常见的“中间…

Mysql整理

一、基础概念 1. 索引 之前的文章已经写过了&#xff0c;比较细 数据库索引含义,类别,用法,创建方式_表结构加树形id和索引是为什么_马丁•路德•王的博客-CSDN博客 简单概括就是在表的某个列或者多个列或者联合表的时候加个索引&#xff0c;类似图书馆书本的索引编号&…

PK Nounique CASCADE DROP INDEX keep index

Explicit Control Over Indexes when Creating, Disabling, or Dropping PK/Unique Constraints (Doc ID 139666.1)​编辑To Bottom PURPOSEIn Oracle 9i, the DBA has an explicit control over how indexes are affectedwhile creating, disabling, or dropping Primary Ke…