240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗? 

 

是时候把数据Scale Down了!

如今,这个问题已经迫在眉睫。

清华博士秦禹嘉表示,Llama 3就揭示了一个严峻且悲观的现实:在不改变模型架构的情况下,将数据量从2万亿(2T)增加到15万亿(15T),就能大力出奇迹。

这也就意味着,从长远来看,基座模型的发展机会,只能独属于大公司。

而考虑到Scalng Law的边际效应,如果我们希望在下一代模型身上看到从GPT-3到GPT-4级别的演进,就需要至少再清洗出至少10个数量级的数据(比如150T)。

就在最近,好消息来了!

DCLM团队从CommonCrawl里,清洗出了240T的数据。

论文地址:https://arxiv.org/abs/2406.11794

显然,这给Scaling Law的支持者们带来了福音——数据是不缺的,然而,你有卡吗?

后Scaling Law时代:不要Scale Up,要Scale Down

诚然,扩大数据规模非常重要,但如何缩减规模并提高每单位数据的质量,也同样关键。

模型的智能来自于数据压缩;反之,模型也会重新定义数据的组织方式。

秦禹嘉总结了以下多篇论文的内容后,给出了非常具有综合性的高度总结。

图片

  论文地址:https://arxiv.org/abs/2405.20541

图片

论文地址 :https://arxiv.org/abs/2406.14491

图片

项目地址:https://azure.microsoft.com/en-us/products/phi-3

DeepSeekMath::https://arxiv.org/abs/2402.03300

DeepSeek-Coder-V2:https://arxiv.org/abs/2406.11931

首先,最简单的方法,就是使用模型过滤掉噪声数据:

(1)PbP使用小模型的困惑度来过滤数据,从而获得了可以显著提高大模型性能和收敛速度的数据;

(2)DeepSeek使用fastText清理高质量数据,在数学和代码场景中取得了出色的成果;

(3)DCLM进行了更详细的消融研究,发现与BGE嵌入、困惑度等相比,fastText表现最佳。

这些研究无一例外有着相似的发现:「干净数据+小模型」,可以极大地接近「脏数据+大模型」的效果。

从这个角度来看,增加模型规模,本质上就是让我们看到在脏数据上训练的模型能力的上限。

也即是说,大模型在训练过程中通过使用更多冗余参数自动完成了去噪过程,但如果提前进行数据去噪,实际上需要的模型参数量并不大。

同样可以得出结论,通过数据微调把大模型打磨得很好,并不意味着训练大模型效果就会更好。

原因在于:「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。

总而言之,在前Scaling Law时代,我们强调的是Scale Up,即在数据压缩后争取模型智能的上限;在后Scaling Law时代,需要比拼的则是Scale Down,即谁能训出更具「性价比」的模型。

目前主流的数据缩减方法,是基于模型的数据去噪。

最近,也有一些研究开始使用训好的模型来改写预训练数据。这个过程就需要注意,避免模型在改写过程中生成虚假信息,同时还要有效地去除数据中的固有噪声。

Phi-2/Phi-3的成功也验证了这一点:如果预训练级别的数据可以被机器处理,用小模型击败大模型是很容易的。

不过,目前的方法仍然专注于单个数据点的质量提升,但是在未来,更重要的研究方向就是如何对多个数据点进行语义级别的去重和合并。

这虽然困难,但对Scale Down意义重大。

下面就让我们看一下,DCLM团队的这篇论文。

DataComp-LM(DCLM)基准

为了应对训练数据各种挑战,研究人员引入了DataComp-LM(DCLM),是语言模型训练数据管理的「第一个基准」。

图片

传送门:https://www.datacomp.ai/dclm/

在DCLM中,他们提出了全新的训练集和数据管理算法,然后通过使用固定的方法,训练模型以评估数据集。

通过测量由此产生的模型在下游任务上的表现,研究人员可以量化相应训练集的优势和劣势。

接下来,为了实现DCLM,研究人员开发了一个全面的实验测试平台,包含了多个重要的组件。

图片

其中一个关键的组件,便是最大的语言模型训练语料库DCLM-POOL。

这是从未经过滤的爬虫网站Common Crawl上,扒下来来足足有240T的数据集,涵盖了2023年之前所有的数据。

具体来说,DCLM-POOL包含2000亿个文档(gzip压缩后为370TB),产生了240万亿个GPT-NeoX token。

据介绍,获取如此庞大的数据,是通过resiliparse架构从HTML中重新提取文本,与Common Crawl原本预处理的方法并不相同。

 

此外,在训练AI语言模型时,有时候用来测试模型的数据会不小心混入训练数据中。这就像LLM在考试前偷看了试卷,这可能会导致测试结果不准确。

然而,这些样本对下游性能的影响,在很大程度上业界研究人员对此仍不清楚。

为了让人们更好地理解这一问题,研究人员并没有去清理数据,而是发布了「去数据污染」的工具。

这一工具,可以让参与者检查自己的测试集和训练集,是否有重叠的情况,并提交相关的报告。

对于那些表现最好的AI模型,研究人员会特别检查它们是否「作弊」。

同样,论文的研究人员也将这一工具,应用在了DCLM-POOL,以评估数据污染是否影响模型。

不同参数LLM都可PK

为了确保DCLM对拥有不同计算资源的研究人员能够访问,并推动对Scaling Law趋势的研究,研究人员创建了跨越三个数量级计算规模的不同竞赛级别(表1)。

图片

每个级别(即400M-1x、1B-1x、1B-5x、7B-1x和7B-2x)指定了模型参数的数量和一个Chinchilla乘数。

比如,7B-1x中,7B表示模型有70亿参数,1x是Chinchilla乘数。

每个级别训练token数量=20×参数数量×Chinchilla乘数。其中,1x乘数对应的计算资源分配接近Hoffmann等人研究中发现的最优水平。

这样多种参数规模竞赛的设计,存在一个问题——当增加计算规模时,数据整理方法的排名可能会发生变化。

由此,研究人员比较了10种方法在不同参数规模(400M-1x、1B-1x和7B-1x)下的表现。

结果发现,小参数(400M-1x、1B-1x)和大参数(7B-1x)结果之间存在高度相关性。

图片

两大赛道

在参与者选择了参数规模后,还需从两个基准测试赛道选择其一:过滤和混合。

图片

1)在过滤赛道中,参与者提出算法从候选池中选择训练数据。有五个不同规模的数据池,对应(表1)不同的计算规模,这些池是DCLM-POOL的随机文档子集。研究人员根据参数规模限制初始池的大小,以模拟现实世界的约束。

 

2)在混合赛道中,允许参与者从多个来源自由组合数据,创造出最好的「配方」。比如,他们可以从DCLM-POOL、自定义爬取的数据、Stack Overflow和维基百科合成数据文档。

训练

为了单独研究数据集干预的效果,研究人员还在每种参数规模上固定一个训练方案。

基于之前对模型架构和训练的消融实验,他们采用了一个仅有解码器的Transformer模型(例如,GPT-2,Llama),该模型在OpenLM中实现。

下表中详细列出了模型的超参数。

图片

评估

研究的完整评估套件基于LLM-Foundry,包含53个适合基础模型评估的下游任务(即无需微调)。

从问答到开放式生成格式,涵盖了编码、教科书知识和常识推理等各种领域。

为了评估数据整理算法,主要关注三个性能指标: 

1. MMLU 5-shot准确率 

2. CORE中心准确率

3. EXTENDED中心准确率

用DCLM构建高质量数据集

接下来,一起看看研究人员是如何使用DCLM构建高质量训练数据集,整个流程如下图4所示。

图片

首先,研究人员对表2中几个著名的数据集进行了评价,发现RefinedWeb在7B-1x规模的核心和扩展指标上表现最好。

图片

有趣的是,RefinedWeb是完全从Common Crawl数据中过滤而来。

RefinedWeb采用了以下过滤管线:Common Crawl文本提取、启发式数据选择、重复数据内容删除。

图片

文本提取

文本提取是一个常见的早期处理步骤,用于从原始HTML中提取内容。

为了理解这一步骤的影响,研究人员比较了三种文本提取方法:resiliparse、trafilatura(RefinedWeb使用)和Common Crawl提供的包含预先提取文本的WET文件。

然后,对每种文本提取结果应用RefinedWeb的启发式质量过滤器。

图片

在表3中,研究人员发现resiliparse和trafilatura都比WET提取至少提高了2.5个CORE得分。

这很重要,因为大多数开源数据集,包括C4、RedPajama和Dolma-V1,都使用WET提取,这可能部分解释了它们在表2中表现较差的原因。

虽然resiliparse和trafilatura在下游任务性能上相似,但resiliparse的运行速度快8倍,因此更适合大规模处理。

由此,如前文所述,研究人员最终选择采用了resiliparse策略。

数据去重

网络爬虫的数据集,通常包含许多复或接近重复的数据字符串。

而从训练集中删除这些重复项有着双重目的,既可以减轻LLM记忆来提高性能,又可以增加数据多样性。

为了去重,研究人员探索了算法MinHash(作为后缀数组管线一部分),以及近似重复的Bloom过滤器(对精确文档和段落重复数据删除修改后的方案)。

结果发现,这两种方法在下游的表现中,性能相当。

在7B-2x参数规模下,差异在0.2个CORE百分点以内。不过,修改后的Bloom过滤器更容易扩展到10TB的数据集。

图片

质量过滤

文献表明,使用可学习模型作为质量过滤器,可以带来下游的改进。

研究人员比较了多种基于模型的过滤方法——

1. 使用PageRank得分进行过滤,根据文档与其他文档链接的可能性来保留文档;

2. 语义去重(SemDedup),删除具有相似信息内容的文档;

3. 线性分类器,基于预训练的BGE文本嵌入;

4. AskLLM,通过提示大语言模型来查看文档是否有帮助;

5. 困惑度过滤,遵循CCNet保留低困惑度序列,

6. Top-k平均对数:对文档中所有单词的top-k模型对数进行平均,以评定模型对k个合理选择范围内的正确单词有多大信心;

7. fastText二元分类器,用于区分数据质量。

比较表4中的各个方法后研究人员发现,基于fastText的过滤优于所有其他方法。

图片

为了更好地理解fastText的局限性,研究人员训练了几个变体,探索参考数据、特征空间和过滤阈值的不同选择,如表5所示。

图片

研究人员发现,在控制其他超参数时,与传统选择相比,fastText OH-2.5+ELI5方法的 CORE提升了3.5个百分点。

那么,使用OH-2.5数据进行过滤,是否会妨碍指令调整带来的额外增益呢?

研究人员发现,情况并非如此。

数据混合

业内的常见做法是,将Common Crawl和其他高质量数据源结合起来,如Wikipedia、arXiv、Stack Exchange和peS2o。

将高质量源添加到仅源自Common Crawl的训练集,有哪些潜在好处?

研究人员将100%过滤的CC数据训练的模型,与使用Llama1和RedPajama的混合比例训练的模型进行了比较。

表6中的结果表明,混合可提高性能较低的CC子集;然而,在高性能过滤的情况下,混合可能会适得其反。

数据清洗

随后,研究人员进行了分析,以检查未经评估的预训练数据污染,是否会影响到结果。他们将重点放在MMLU上。

作为实验,研究人员还尝试检测并删除MMLU中存在于DCLM-BASELINE中的问题。

结果如表7所示——污染样品的去除,并不会导致模型的性能下降。

由此可见,MMLU的性能提升并不是由数据集中MMLU的增加引起的。

在Dolma-V1.7和FineWeb-Edu上应用上述去除策略可知,DLCM-BASELINE的污染统计数据,和其他高性能数据集大致相似。

图片

扩展万亿token

最后,研究人员测试了DCLM基准上,数据集在更大参数规模(万亿token)下的表现。

为此,确保训练模型广泛适用,他们还构建了一个4.1T token的数据集,将3.8T的DCLM-BASELINE与StarCoder、ProofPile2数据相结合,包含了数学和编码任务。

得到数据集之后,研究人员在其之上训练了一个7B参数的模型,使用了2.5T token,以及与最大竞赛参数规模相同的超参数。

其中,还采取了特殊的训练策略,包括两个冷却阶段(在200B和270B token时),以及「模型汤」(model soup)。

之后,研究人员采用了持续预训练方法,在在相同分布上再训练100B个token,将上下文长度从2048增加到8192。

在表9中,展示了新模型优于所有在公开训练集上训练的7B模型,并接近于训练token更多的闭源模型,如Llama-8B、Mistral-7B和Gemma-7B。

图片

此外,表26展示了新模型在指令微调方面也取得了强劲的表现。

在公开可用的IT数据集上进行指令微调后,研究人员的模型保持了大部分基准性能,并在AlpacaEval2.0 LC中获得了16.6的胜率,超过了Gemma-Instruct(10.4),同时接近Mistral-v0.2-7B(17.1)和Llama3-Instruct(22.9)的强劲表现。

图片

局限性

由于计算资源的限制,研究人员只能单独消融设计维度,无法在更大参数规模上测试所有方法。

此外,还有许多未探索的DCLM-BASELINE变体。

例如,更详细地理解分片去重的影响很重要,而且在训练过滤模型方面,无论是架构还是训练数据,都还有很多其他方法。

研究中大多数实验也仅使用了一种分词器(GPT-NeoX),其他分词器可能在多语言任务或数学方面表现更好。

另一个局限是,论文无法充分探索不同随机种子导致的运行间的差异。

尽管在DCLM-BASELINE上训练的7B模型在常见的语言理解评估中具有竞争力,但它们目前在代码和数学方面的表现还不够理想。

研究人员对此表示,下一步,将会继续测试能否扩展到更大参数规模的模型。

参考资料:

https://arxiv.org/abs/2406.11794v3

https://x.com/TsingYoga/status/1804728355239199181

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35140.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法刷题笔记--二叉树篇

感觉树这一章还是没搞清楚,可能是基础不扎实的缘故,学完C巩固底层知识后二刷 理论基础 确定递归函数的参数和返回值 :确定哪些参数是递归的过程中需要处理的,那么就在递归函数里加上这个参数, 并且还要明确每次递归的返回值是什么…

第二证券:美股市场新结算制度:T+2还是T+1?

美股商场新结算制度:T1结算。 从2024年5月28日开端,美国股票生意的结算周期将从之前的T2(生意日后两天)缩短为T1,即投资者当天卖出的股票,在生意后一个工作日就能收到结算的资金。 例如,假如生…

OpenFast软件中5MW_Land_DLL_WTurb.fst文件解读

这个文件5MW_Land_DLL_WTurb.fst是OpenFAST软件用于模拟NREL 5.0 MW基准陆上风力涡轮机的输入文件。该文件包含了多个部分,每个部分定义了不同的仿真设置和参数。以下是对文件主要内容的总结: 1. 标题和描述 文件标题说明这是OpenFAST的一个输入文件&a…

电脑的D盘E盘F盘突然消失了 电脑只剩下C盘了其他盘怎么恢复

现如今随着时代的发展,无纸化办公成为主流,这主要归功于电脑,能够通过电脑完成的工作绝不使用纸质文件,这不仅提高了工作效率,也让一些繁杂的工作变的更加简单。不过电脑毕竟是电子产品,不可避免的会出现一…

Java日志 - JUL

一、JUL学习总结 (1)总结 JDK自带的日志系统中已经为我们创建了一个顶层的RootLogger,可以针对这个顶层的RootLogger设置多个Handler(如ConsoleHandler, FileHandler等),如果想在控制台输出debug级别以上的…

定时推送邮件如何与自动化工作流程相结合?

定时推送邮件如何设置?怎么优化推送邮件的发送频率? 在现代商业环境中,自动化工作流程和定时推送邮件是提高效率和优化运营的重要工具。AoKSend将探讨如何将这两者结合起来,以实现更高效的工作流程和更好的客户沟通。 定时推送邮…

昇思25天学习打卡营第4天|MindSpore快速入门-FCN图像语义分割

FCN图像语义分割 全卷积网络(Fully Convolutional Networks,FCN)是UC Berkeley的Jonathan Long等人于2015年在Fully Convolutional Networks for Semantic Segmentation[1]一文中提出的用于图像语义分割的一种框架。 FCN是首个端到端&#…

valgrind调试c/c++内存问题:非法地址访问_内存泄漏_越界访问

1.valgrind命令 调试内存问题: valgrind --leak-checkfull 更新详细的显示: valgrind --leak-checkfull --show-leak-kindsall valgrind提示信息汇总 内存泄漏 lost in loss record 丢失记录 , 内存泄漏实例[[#2.内存泄漏–不完全释放内存|实例链接]]段错误 Process termina…

科技助力行政执法:4G无线网络技术在管理指挥中心的应用

随着科技的飞速发展,4G无线网络技术已经越来越成熟,为行政执法管理带来了前所未有的便利与效率。特别是在管理指挥中心,通过实时观看高清现场画面,执法人员可以随时进行调度指挥,掌握行政执法队伍的全过程,…

Bev系列算法总结

文章目录 1. LSS-Based1.1 BevDet1.2 BevDepth1.3 BevStereo1.4 SoloFusion1.4 VideoBev1.5 总结2. Bev IPM Based(3D to 2D)2.1 Bevformer v12.1 Bevformer v22. sparse query2.1 petr v12.2 petr v22.3 stream petr2.4 DETR 3d2.5 sparse4Dsparse4D v11. LSS-Based 1.1 Be…

llamafactory-llama3微调中文数据集

一、定义 https://github.com/SmartFlowAI/Llama3-Tutorial/tree/main 基准模型测试opencompass 离线测评数据准备微调训练合并测试人工审核对比 二、实现 基准模型测试 基准模型 llama3-8b https://zhuanlan.zhihu.com/p/694818596? https://github.com/SmartFlowAI/Llam…

品牌窜货治理:维护市场秩序与品牌健康的关键

品牌在各个渠道通常都会设定相应的销售规则,其中常见的便是区域保护制度,比如 A 地区的货物只能在 A 地区销售,各区域的产品价格和销售策略均有所不同,因此 A 地区的货物不能流向 B 地区,否则就被称为窜货。 窜货现象不…

劳易测应用案例:橡胶密炼生产线安全改造项目(下)

橡胶密炼是汽车轮胎制造流程中的核心环节,主要负责将橡胶与多种添加剂混合,确保均匀分散,以制备合格的橡胶材料。橡胶密炼生产线由多个关键设备组成,包括切胶机、导切机、称重和输送系统、密炼机、开炼机以及胶片冷却机等&#xf…

匠心铸就服务品质,全视通技术服务获盘锦市中医医院高度认可

一声表扬,万分肯定 寥寥数语,情意深重 承载着荣誉 道出了心声 传达了谢意 倾注了期盼 字里行间的内容 是对全视通技术服务的高度认可 记录了全视通与盘锦市中医医院之间的双向奔赴 盘锦市中医医院表扬信是对全视通技术服务团队工作的高度认可&am…

Xilinx FPGA:vivado实现串口的接收端

补充一些串口里用到的数值的相关知识点 接收端串口时序图: 程序设计: timescale 1ns / 1ps /串口接收端 串行转并行 module uart_rx(input sys_clk ,input rst_n ,input rx_data , //输入…

【C++】相机标定源码笔记-通用工具函数类

提供了一系列工具函数及处理方法&#xff0c;主要用于图像处理、点云处理和文件操作等领域。以下是对关键函数的简要解析&#xff1a; 点云处理与平面拟合 包含两个重载函数&#xff0c;一个接受Eigen矩阵类型的点集&#xff0c;另一个接受pcl::PointCloud<pcl::PointXYZ>…

【Java中导出Excel导出多个sheet页】

Java中导出Excel导出多个sheet页 序言如何处理多个sheet页的导出期间遇到了一个sheet页相关的问题&#xff0c;以及解决办法多sheet页导出遇到&#xff0c;第二个sheet页的标题名称会把第一个的覆盖的问题 结语 序言 在日常工作中经常有导出数据文件的需求&#xff0c;避免不了…

工具篇:鸿蒙DevEco Studio5.0版本下载及安装

1、下载中心地址 下载中心 | 华为开发者联盟-HarmonyOS开发者官网&#xff0c;共建鸿蒙生态 2、安装 DevEco Studio支持Windows和macOS系统&#xff0c;下面将针对两种操作系统的软件安装方式分别进行介绍。 Windows环境 运行环境要求 为保证DevEco Studio正常运行&#…

电机驱动知识点总结

一、直流电机入门基础知识 1.直流电机原理 下面是分析直流电机的物理模型图。其中&#xff0c;固定部分有磁铁&#xff0c;这里称作主磁极&#xff1b;固定部分还有电刷。转动部分有环形铁心和绕在环形铁心上的绕组。(其中 2 个小圆圈是为了方便表示该位置上的导体电势或电流…

GaussDB关键技术原理:高性能(二)

GaussDB关键技术原理&#xff1a;高性能&#xff08;一&#xff09;从数据库性能优化系统概述对GaussDB的高性能技术进行了解读&#xff0c;本篇将从查询处理综述方面继续分享GaussDB的高性能技术的精彩内容。 2 查询处理综述 内容概要&#xff1a;本章节介绍查询端到端处理的…