开源 150 T 数据(2023年之前所有数据)

开源 150 T 数据(2023年之前所有数据)

    • 开源 150 T 数据
      • 生成大规模、高质量训练数据集 = 生成巨量数据 + 数据清洗和过滤 + 混合数据源 + 多级别训练和模型评估 + 探索新的训练策略
      • 多级别训练和模型评估
      • 探索新的训练策略
    • 万卡 H100 集群训练

开源 150 T 数据

论文:https://arxiv.org/pdf/2406.11794

数据:https://arxiv.org/pdf/2406.11794

Llama 2 可能只有 GPT3.5 的 70%,甚至更低。

Llama 3 数据量从 2T 增加到 15T,智能直逼 GPT4。

在不改变模型架构的情况下,将数据量从2万亿(2T)增加到15万亿(15T),就能大力出奇迹。

作者从 CommonCrawl 收集了 150T 数据。

  • CommonCrawl是一个基于Python的开源爬虫工具,用于收集全球范围内的网站数据,并将其上传到Common Crawl基金会的数据仓库中。
  • 该组织成立于2007年,是一个非营利性组织,旨在为研究人员提供大规模、开放的网络数据提取、转换和分析服务。

在这篇文章中,介绍了一个通过DCLM (DataComp for Language Models) 生成大规模、高质量训练数据集的过程,并解释了如何利用这些数据来训练下一代大型语言模型。

生成大规模、高质量训练数据集 = 生成巨量数据 + 数据清洗和过滤 + 混合数据源 + 多级别训练和模型评估 + 探索新的训练策略

  • 数据提取:首先从Common Crawl使用resiliparse工具重新提取文本。
  • 启发式清洗:使用RefinedWeb的方法进行数据清洗,包括移除URL、英文过滤、页面长度过滤、重复内容过滤等。
  • 去重:应用Bloom过滤器去除重复内容,此外还有传统的去重方法。
  • 模型基过滤:利用FastText模型进行质量过滤,以进一步提高数据的质量。
  1. 子解法1:生成巨量数据

    • 特征:需要大量高质量数据来训练下一代语言模型。
    • 之所以用此子解法,是因为更多的数据可以提供更复杂的语言模式,有助于模型更好地泛化和理解复杂的语言结构。
    • 例子:从Common Crawl中提取了240万亿的数据,形成了DCLM-POOL,这为构建高质量语言模型提供了基础。
  2. 子解法2:数据清洗和过滤

    • 特征:大量数据中包含噪声和冗余信息。
    • 之所以用此子解法,是因为清洗和过滤可以提高数据的质量,从而使训练出的模型更准确和有效。
    • 例子:使用各种基于模型的过滤技术(例如fastText和PageRank过滤)来筛选出最有价值的数据。
  3. 子解法3:混合数据源

    • 特征:不同的数据源提供了不同领域的知识和信息。
    • 之所以用此子解法,是因为结合多个高质量的数据源可以进一步丰富训练数据集,增强模型的多样性和鲁棒性。
    • 例子:将Common Crawl数据与专门的领域数据(如数学和编程相关的数据集)混合,以增强模型在这些特定任务上的表现。
  4. 子解法4:多级别训练和模型评估

    • 特征:不同的训练阶段可能需要不同的数据处理和模型参数调整。
    • 之所以用此子解法,是因为通过分阶段训练和评估,可以更细致地调优模型,逐步提升其性能。
    • 例子:先使用基础数据训练模型,然后通过指令微调和高级任务评估来细化和验证模型性能。
  5. 子解法5:探索新的训练策略

    • 特征:现有的训练策略可能无法充分利用大规模数据的潜力。
    • 之所以用此子解法,是因为探索新的训练方法可以帮助更有效地利用巨量数据,发掘数据的潜在价值。
    • 例子:采用持续预训练方法和模型汤策略,通过在多种数据分布上训练不同阶段的模型并将它们结合,以提升模型的整体性能和适应性。

多级别训练和模型评估,以及探索新的训练策略,是大规模语言模型开发中的关键环节。下面详细解释这些策略的实施和优势:

多级别训练和模型评估

多级别训练指的是在不同的训练阶段使用不同的数据处理、模型架构调整和超参数设置,以逐步优化模型的性能。

这种分阶段的方法允许研究人员细致地监控和调整模型在各个训练阶段的表现,从而更精确地针对特定任务或数据类型进行优化。

  1. 初级阶段:通常开始于一个基础的模型训练设置,使用大量未经过严格筛选的数据。这个阶段的目的是让模型获得足够的“世界知识”,建立起基本的语言理解能力。

  2. 中级阶段:随后,可能会引入更精细的数据筛选和清洗,以去除噪声和不相关的信息,专注于提高模型在特定任务(如问答、摘要等)上的表现。此阶段可能会开始尝试不同的模型架构或超参数,以找到最佳的训练配置。

  3. 高级阶段:在模型已经表现出较好的基本性能后,进行高级优化,如指令调优(instruction tuning),这通常涉及在特定指令或任务上训练模型以优化其响应。此阶段也可能包括模型的细微调整,如调整学习率的衰减策略或优化器的选择。

  4. 评估:在每个阶段结束时,通过一系列预定义的下游任务来评估模型的性能。这些任务可以是通用的语言理解测试,也可以是特定的应用场景测试,以此来量化模型的泛化能力和特定能力。

探索新的训练策略

为了更有效地利用可用的大规模数据,并提高模型的训练效率和最终性能,探索新的训练策略至关重要。

这包括但不限于:

  1. 持续预训练:即在模型已经训练到一定阶段后,继续在相同或修改后的数据分布上进行训练。这种方法可以帮助模型更好地适应其训练数据,进一步提高性能,尤其是在处理长文本或复杂问题时。

  2. 模型汤(Model Souping):这是一种集成学习技术,通过合并在不同数据子集或不同设置下训练的多个模型来提高整体性能。这种方法能够整合各个模型的优点,减少任何单一模型的偏差。

  3. 多任务学习:通过同时训练模型以执行多种语言处理任务,可以提高模型的泛化能力。这种策略利用了不同任务之间的共通性,有助于模型在一个任务上学到的知识迁移到其他任务上。

  4. 元学习和快速适应:研究如何使模型使用较少的数据或训练步骤快速适应新任务。这包括开发能够在接收到新指令时迅速调整其行为的模型。

通过实施这些多级别的训练和评估策略,并不断探索和实施新的训练技术,可以显著提升语言模型的性能和效率。这些策略不仅提升了模型的能力,也优化了训练过程,使得模型能够更好地适应多变的应用需求。

万卡 H100 集群训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35722.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二进制方式部署k8s集群

前置知识点 1、生产环境部署K8s集群的两种方式 • kubeadm Kubeadm是一个K8s部署工具,提供kubeadm init和kubeadm join,用于快速部署Kubernetes集群。 • 二进制包 从github下载发行版的二进制包,手动部署每个组件,组成Kub…

【perl】脚本编程的一些坑案例

引言 记录自己跳进的【perl】编程小坑,以己为鉴。 1、eq $str1 "12345\n"; $str2 "12345"; if ($str1 eq $str2) { print "OK" } 上述代码不会打印 OK。特别在读文件 ,匹配字符串时容易出BUG。 案例说明: 有…

[数据集][目标检测]游泳者溺水检测数据集VOC+YOLO格式8275张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):8275 标注数量(xml文件个数):8275 标注数量(txt文件个数):8275 标注…

中北大学算法课动态规划问题实验:题目1 数塔问题

目录 1.实验名称2.实验目的3.实验内容4.实验过程伪代码java代码 5.实验结论及心得代码运行截图心得 实验报告 1.实验名称 动态规划问题实验:题目1 数塔问题 2.实验目的 (1)掌握动态规划法的设计思想; (2)掌握数塔问题的具体实现过程; (3)熟…

评估大型语言模型生成文章的能力

1. AI解读 1.1. 总体概要 本文探讨了大型语言模型(LLMs)如GPT-4在生成特定领域(如计算机科学中的自然语言处理NLP)教育调查文章方面的能力和局限性。研究发现,尽管GPT-4能够根据特定指导生成高质量的调查文章&#x…

kafka consumer客户端消费逻辑解析

kafka consumer客户端消费逻辑解析 一、主要消费步骤二、提交策略【步骤2代码解析】【提交策略总结】 三、拉取策略(待补充)四、消费策略【代码解析】【消费策略总结】 一、主要消费步骤 这是kafka客户端拉取消息的入口,有4个主要部分 1、启…

苏东坡传-读书笔记三

苏东坡去世之后,一黄某获得苏东坡一珍贵的手稿,其中有苏东坡下列的名句: “处贫贱易,处富贵难。安劳苦易,安闲散难。忍痛易,忍痒难。人能安闲散,耐富贵,忍痒,真有道之士也…

详细分析Oracle修改默认的时间格式(四种方式)

目录 前言1. 会话级别2. 系统级别3. 环境配置4. 函数格式化5. 总结 前言 默认的日期和时间格式由参数NLS_DATE_FORMAT控制 如果需要修改默认的时间格式,可以通过修改会话级别或系统级别的参数来实现 1. 会话级别 在当前会话中设置日期格式,这只会影响…

uni-app (通过HBuilderX 和 VS Code 开发)详细连接过程教学。

使用 HBuilderX 创建 uni-app 项目 并编译到微信开发者工具。 uni-app 支持两种方式创建项目: 通过 HBuilderX 创建 通过命令行创建 首先我们需要先下载HBuilderX 下载链接地址:DCloud - HBuilder、HBuilderX、uni-app、uniapp、5、5plus、mui、wap2…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] LYA的登山之旅01(100分)- 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 &#x1f…

《梦醒蝶飞:释放Excel函数与公式的力量》6.4 TODAY函数

第四节:6.4 TODAY函数 1)TODAY函数概述 TODAY函数是Excel中一个非常有用的内置函数,它返回当前的日期。与NOW函数不同,TODAY函数仅返回日期部分,时间部分默认为午夜(0:00)。 2)函…

[数据质量]手动实现 阿里云DataWorks 的数据质量监控告警功能

目录 手动实现 DataWorks 的数据质量监控告警功能1. 简介:2. 数据表准备2.1 tmp_monitor_tbl_info (数据监控信息表)2.2 tmp_monitor_rule_info (数据质量监控规则表)2.3 tmp_monitor_tbl_info_log_di (数据监控信息记录表) 3. 程序开发3.1 数据检查程序3.2 告警信息推送程序3.…

Jenkins教程-10-发送飞书测试报告通知

上一小节我们学习了发送企业微信测试报告通知的方法,本小节我们讲解一下发送飞书测试报告通知的方法。 1、自动化用例执行完后,使用pytest_terminal_summary钩子函数收集测试结果,存入本地status.txt文件中,供Jenkins调用 conft…

优化 C# 和 .NET Core Web API 中的 LINQ 查询

LINQ(语言集成查询)是 C# 中的一项强大功能,允许开发人员以可读且简洁的方式查询和操作数据。但是,LINQ 的使用效率低下可能会导致性能瓶颈,尤其是在处理 .NET Core Web API 中的大型数据集时。优化 LINQ 查询对于维护…

嵌入式 Linux 设备刷系统具体组成

嵌入式 Linux 设备刷系统具体组成 1 介绍1.1 概述1.2 嵌入式 Linux 的组成1.3 U-Boot1.4 Linux 内核1.5 设备树1.6 根文件系统 参考 1 介绍 1.1 概述 一个完整的 linux 系统,通常包含了 U-Boot、kernel、设备树以及根文件系统。 1.2 嵌入式 Linux 的组成 1.3 U-…

Java热门技术点总结:Lambda表达式与Stream API

第一部分:Lambda表达式 1. 简介 Lambda表达式是Java 8引入的一个非常重要的特性,它提供了一种简洁、灵活的函数式编程方式。Lambda表达式允许我们将函数作为参数传递,极大的简化了代码的编写。 2. 基本语法 Lambda表达式的基本语法如下&a…

Java基于jjwt操作jwt

之前讲解了jwt的相关知识&#xff0c;有不了解的&#xff0c;可以查看相关的文章JWT简介-CSDN博客&#xff0c;本节不再介绍&#xff0c;主要讲解有关java中如何通过jjwt库产生jwt以及解析jwt的相关操作。 添加maven依赖 <dependency><groupId>io.jsonwebtoken&l…

目标检测之YoloV1

一、预测阶段&#xff08;前向推断&#xff09; 在预测阶段Yolo就相当于一个黑箱子&#xff0c;输入的是448*448*3的图像&#xff0c;输出是7*7*30的张量&#xff0c;包含了所有预测框的坐标、置信度和类别 为什么是7*7*30呢&#xff1f; --将输入图像划分成s*s个grid cell&a…

【多线程】如何解决线程安全问题?

&#x1f970;&#x1f970;&#x1f970;来都来了&#xff0c;不妨点个关注叭&#xff01; &#x1f449;博客主页&#xff1a;欢迎各位大佬!&#x1f448; 文章目录 1. synchronized 关键字1.1 锁是什么1.2 如何加锁1.3 synchronized 修饰方法1) 修饰普通成员方法2) 修饰静态…

【系统架构设计师】七、信息安全技术基础知识(访问控制技术|抗攻击技术|计算机系统安全保护能力等级)

目录 一、访问控制技术 二、信息安全的抗攻击技术 2.1 分布式拒绝服务DDoS与防御 2.3 ARP欺骗攻击与防御 2.4 DNS欺骗与防御 2.5 IP欺骗与防御 2.6 端口扫描&#xff08;Port Scanning&#xff09; 2.7 强化TCP/IP堆栈以抵御拒绝服务攻击 2.8 系统漏洞扫描 三、信息安…