【AI学习】对LLM训练中数据处理的再认识

最近读了几篇文章,对于LLM模型中的数据处理,有了一些再认识。
这几篇文章分别是《世界顶级风投a16z创始人对谈AI与创业》、《Ben Thompson对 Nat Friedman 和 Daniel Gross的采访》、《AI教父Hinton最新万字精彩访谈:直觉,AI创新的洞见和思考,未来》

有一些观点:
1、训练模型的数据集平均而言代表了普通人类。使用此类数据,我们只能训练出一个非常普通的模型。但是,这里有一个关键点:虽然平均数据可能来自普通人,但数据集也包含了所有聪明人所写和所想的一切,所有这些内容都在数据集中。因此,这引出了如何通过特定的提示来引导人工智能,让它能够使用数据集中“超级天才”的内容进行训练。如果以不同的方式构建提示词,实际上可以引导人工智能沿着数据集中的不同路径前进,从而得到不同类型的答案。

2、所谓的“过度训练”,即对同一模型使用相同数据进行更长时间的训练——实际上被证明是有效的。特别是,Meta和其他一些公司最近一直在讨论所谓的过度训练实际上是如何工作的,即基本上继续对同一个模型进行训练,对相同的数据进行更长时间的训练,投入更多的计算周期。一些领域的专家甚至认为这种方法效果非常好,且不担心增加训练会导致收益回报递减。在Meta最近发布的大语言模型Llama中,使用的主要技术就是过度训练。我们可能不需要更多的数据来提升这些模型的性能,我们需要的是更多的计算周期。通过大幅度增加训练次数,人工智能的性能就有望得到显著提升。

3、微软最近发布了该公司的小语言模型,有报道称它在性能上能与更大的模型一决高下。微软所做的关键工作之一是优化了训练集。具体来说,他们去除了训练集中的所有重复副本,专注于使用一小部分高质量数据进行训练,而不是依赖于大多数人所使用的大量低质量数据。

4、对于“数据是新石油”的观点,这种观点认为,数据是训练人工智能、推动其运作的关键输入。因此,数据成为了一种全新的、限制性的、极具价值的资源。但其实,在几乎所有情况下,这种看法并不成立。这实际上只是一种模仿现象。互联网上以及更广泛环境中可用的数据量是如此庞大,以至于尽管可能没有个人的具体医疗信息,但已经能够从互联网上获取到众多人在多种不同情况下的医疗信息,这些数据的海量足以压倒性地超越所谓的“个人数据”的价值。原始数据–那些未经任何处理的数据集–其价值往往被过分夸大。几乎每家公司都能够通过利用自身的数据来增强其市场竞争力。但是,认为公司只要收集了一些数据,就能像出售石油一样将其变现,或者认为这些数据就是新的石油资源,这种想法实际上是不切实际的。支持这种观点的证据是,至今并未看到一个丰富或成熟的数据市场。实际上,不存在大型的数据交易市场。相反,只看到的是一些规模较小的数据处理市场,如数据经纪人,他们向客户出售大量互联网用户的信息,但这些业务的规模相对较小。如果数据真的具有巨大价值,它就会有明确的市场价格,并且我们会看到它在市场上的交易。然而,我们并没有看到这种情况,这在某种程度上证明了数据的价值并不像人们想象的那么高。

5、transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作。……但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。

6、MNIST的例子。你给它训练数据,其中一半的答案是错误的。问题是,它能学得多好?你把一半的答案弄错一次,然后保持这种状态。所以它不能通过只看同一个例子来平均化错误率,但有时答案正确,有时答案错误。当它看到那个例子时,一半的例子,当它看到这个例子时,答案总是错的。所以训练数据的误差为50%。但是如果你训练反向传播,误差会降到5%或更低。换句话说,从标记不良的数据中,它可以得到更好的结果。它可以看到训练数据是错误的。这就是聪明的学生能比他们的导师更聪明的原因。他们的导师告诉他们所有这些东西,而对于导师告诉他们的一半,他们认为,不,是胡说八道,他们听从另一半,然后他们最终比导师更聪明。因此,这些大型神经网络实际上具有超越训练数据的能力,这是大多数人未曾意识到的。

这些观点都非常有趣,总结来说,语言模型在普通的数据上也能训练得工作,但是通过高质量数据或者通过启发引导模型对数据进行区分,可以让模型工作的更好,而过度训练说明,之前的语言模型尚没有充分挖掘出语言中的天才成分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

etcd集群部署

1.etcd介绍 1.1 什么是etcd etcd的官方定义如下: A distributed, reliable key-value store for the most critical data of distributed systemetcd是一个Go语言编写的分布式、高可用的一致性键值存储系统,用于提供可靠的分布式键值(key value)存储、配置共享和服务发现等…

举例说明逃逸分析和标量替换的应用

1、逃逸分析(Escape Analysis) 例子: 假设我们有一个方法,该方法创建了一个Point对象,并只在方法内部使用它: public class EscapeAnalysisExample {public static void printPoint(int x, int y) {Poin…

Selenium 自动化测试工具(1) (Selenium 工作原理,常用API的使用)

文章目录 什么是自动化测试什么是测试工具:Selenium 工作原理(重要)Selenium API定位元素CSS 选择器xpath 定位元素 通过Java代码实现自动化1. 定位元素2. 关闭浏览器3. 获取元素文本4. 鼠标点击与键盘输入5. 清空内容6.打印信息 什么是自动化测试 关于自动化&…

CSS3 动画教程

CSS3 动画教程 在前端开发中,CSS3 动画为我们提供了一种强大而直观的方式来创建动态效果。本教程将带你深入了解 CSS3 动画的各个方面。 一、基本概念 CSS3 动画通过定义关键帧来实现元素在不同状态之间的平滑过渡。 二、创建简单动画 以下是一个简单的示例&am…

python flask框架,css介绍及应用

css CSS(层叠样式表)是一种用于描述网页样式和布局的样式表语言。它用于控制网页元素的外观和排列,包括字体、颜色、大小、边距、位置等。通过CSS,可以使网页更具吸引力、易读性和用户友好性。以下是CSS的基本概念和常见应用&…

UEFI EDK2源码学习(一)——环境安装

部署环境 vmvare15.0 ubuntu20.04 docker edk2 源码 具体步骤 docker安装 # 更新apt软件包索引 sudo apt-get update# 添加docker依赖 sudo apt-get install -y \apt-transport-https \ca-certificates \curl \gnupg-agent \software-properties-common# 添加docker 官方…

2.Redis之Redis的背景知识

Redis 是一个在内存中存储数据的中间件 用于作为数据库,用于作为数据缓存. 在分布式系统中能够大展拳脚~ 1.Redis的特性介绍(优点) 1.1 在内存中存储数据 MySQL 主要是通过"表"的方式来存储组织数据的,"关系型数据库" Redis 主要是通过“键值对" 的…

IP数据云确认参展2024 ChinaJoy BTOB与诸位共展未来!

作为在全球数字娱乐领域兼具知名度与影响力的年度盛会,2024年第二十一届ChinaJoy BTOB将于7月26日至7月28日在上海新国际博览中心盛大召开,秉承着初心“游”在,精彩无限!(英译:Stay True, Game On.&#xf…

三、ESP32-IDF之LED

实现 ESP32-S3 的 IO 作为输出功能,实现LED灯以500毫秒闪烁一次 1、GPIO&LED简介 1.1、GPIO简介 GPIO 是负责控制或采集外部器件信息的外设,主要负责输入输出功能。 1.2、LED简介 LED,即发光二极管。 2、硬件设计 (1)原理图 LED 接…

【css3】04-css3转换

目录 1 2D转换 2 3D转换 3 案例:旋转的魔方 1 2D转换 ## 2D转换 ☞ 位移 transform: translate(100px,100px); 备注: 位移是相对元素自身的位置发生位置改变 ☞ 旋转 transform: rotate(60deg); 备注&am…

嵌入式实时操作系统笔记3:FreeRTOS移植(STM32F407)_编写简单的FreeRTOS任务例程

上文讲到UC/OS III系统的移植,那篇文章是失败了的,网络上的资料真是层次不清,多有遗漏步骤,导致单片机连操作系统的初始化都卡在那,这次换个赛道,学FreeRTOS吧...... 今日任务如标题所示:FreeR…

QTextCodec NO such file or directory让qt6兼容qt5

首先在.pro 文件中新加 QT core5compat这时会报错 链接 报错之后修复qt,新加兼容模块,见链接。

电脑怎么录屏?电脑录屏的7个方法,仅3%的人知道!

你知道电脑怎么录屏吗?在电脑上录屏是向朋友展示炫酷游戏技巧、制作软件教程视频和展示数字艺术技巧的好方法。遗憾的是,屏幕录制并不像截屏那么简单。然而,无论你是在寻找在电脑上录制屏幕,亦或是录制音频的方法,还是…

React路由?

一、React路由简介 React 官方并没有提供对应的路由插件,因此,我们需要下载第三方的路由插件 —— React Router DOM。 React Router 在 2021 年 11 月份的时候更新 v6 的版本。本次课就主要讲解V6版本 二、路由配置 1、下载路由 在项目根目录中&#…

【代码随想录】二分查找算法总结篇

目录 前言二分查找例题一例题二例题三例题四 前言 本篇文章记录了代码随想录二分查找算法的总结笔记,下面我们一起来学习吧!! 二分查找 关于二分查找算法,我在之前的这篇博客里面做了非常多的分析,但是后面做题做着…

List Control控件绑定变量

创建基于对话框的mfc项目 添加 List Control控件 右击控件,选择“添加变量” 在初始化对话框代码中增加一些代码 BOOL CMFCApplication3Dlg::OnInitDialog() { //...// TODO: 在此添加额外的初始化代码DWORD dwStyle m_programLangList.GetExtendedStyle(); …

初识Spring Boot

初识Spring Boot SpringBoot是建立在Spring框架之上的一个项目,它的目标是简化Spring应用程序的初始搭建以及开发过程。 对比Spring Spring Boot作为Spring框架的一个模块,旨在简化Spring应用程序的初始搭建和开发过程,以下是Spring Boot相对于传统Spri…

AI视频教程下载:用提示工程在GPT商店构建10个GPTs

你将学到什么? 深入了解ChatGPT平台和GPT商店的生态系统。 开发为多样化应用定制GPT模型的专业知识。 掌握高效内容生成的AI自动化技术。 学习高级提示工程以优化ChatGPT输出。 获取构建AI驱动的数字营销和广告解决方案的技能。 了解如何为SEO写作和优化创建专…

Redis篇 redis基本命令和定时器原理

基本命令和定时器原理 一. exists命令二. del命令三. Expire命令四. ttl命令五. redis的过期策略六. 定时器的两种设计方式七. type命令 一. exists命令 用来判断key的值是否存在 返回值是key的个数 这样写的话,有没有什么区别呢? 效率变低,消…

AI办公自动化:用kimi将子文件夹里面的文件批量重命名

工作任务和目标:一个文件夹下有多个子文件夹 子文件夹中有多个srt文件,需要删除文件名中的english和空格 第一步,在kimi中输入如下提示词: 你是一个Python编程高手,一步步的思考,来编写下面任务的Python脚…