大语言模型预训练数据集及清洗框架介绍【简单版】

目录

一、常见数据集类型 📚

二、数据清洗框架对比 🧹

SlimPajama

MNBVC

CC-NET

三、理想的清洗框架 💯

四、数据清洗核心流程 🔄

五、现有数据集反思 🤔

六 中文预训练数据集 🇨🇳

1. Wuanjuan 1.0

2. WuDaoCorpora

3. CLUECorpus2020

多语种数据集 🌍

1. CC100

2. OSCAR

3. ROOTS

4. RedPajama-V2


今天给大家带来一篇超简单的大语言模型预训练数据集及清洗框架总结,建议收藏!👍

一、常见数据集类型 📚

  1. 网页数据 🌐
  2. 书籍 📖
  3. 企业年报 📊
  4. 法律文书 ⚖️
  5. 问答 ❓
  6. 新闻 📰
  7. 百科 🔍
  8. 考试题 ✍️
  9. 专利 💡
  10. 评论 💬
  11. 博客 📝
  12. 歌词 🎵
  13. 古诗文 🖋️
  14. 中英平行语料 🇨🇳🇬🇧

二、数据清洗框架对比 🧹

SlimPajama

  • 擅长:大规模英文数据去重
  • 优点:支持并行和内存优化,可处理万亿级数据
  • 缺点:仅支持英文

MNBVC

  • 擅长:中文语料清洗
  • 优点:支持文本提取、去重和质量评分
  • 缺点:仅支持文档级别去重

CC-NET

  • 擅长:多语种清洗
  • 优点:实现完整清洗链路,包括语种分类、规则过滤等
  • 缺点:安装复杂,缺乏多粒度去重

三、理想的清洗框架 💯

  1. 支持多语种多格式输入 🌍
  2. 具备大规模并行和可扩展能力 🚀
  3. 支持自定义规则和功能 🛠️
  4. 支持多粒度去重(段落、章节、文档) 🔍
  5. 模块化、可配置、可扩展 🧩
  6. 提供丰富的规则库 📚

四、数据清洗核心流程 🔄

  1. 预处理:抽取段落,计算哈希值
  2. 去重、分类和打分:
    • 删除重复段落
    • 语种分类(如中文、英文、德文等)
    • 质量打分(分为Head、Middle、Tail三级)
  3. 重组:按语种和质量分类重组,保存为Json文件

五、现有数据集反思 🤔

  1. 数据规模:中英高质量文本已初步对齐开源模型(约20T Tokens)
  2. 训练语种:从单/双语种向多语种发展
  3. 采样方式:不均匀采样 vs 均匀采样(各有优势)
  4. 去重策略:精确去重+模糊去重结合
  5. 质量评估:缺乏统一标准,常用方法:
    • 质量分类器+阈值筛选
    • 文本困惑度(PPL)指标
    • 多轮人工校验

六 中文预训练数据集 🇨🇳

1. Wuanjuan 1.0

🔍 由上海AI实验室构建
📊 规模:552 GB中文文本
🧹 经过细粒度清洗、去重和价值对齐
⚠️ 注意:与MNBVC有重叠,使用前需去重

2. WuDaoCorpora

🏫 北京智源人工智能研究院出品
📚 包含文本、对话、图文对
🏷️ 50+行业数据标签
🧼 从100TB原始网页数据中清洗而来

3. CLUECorpus2020

🌐 从Common Crawl提取
📏 规模:100 GB
✅ 已用于成功训练Bert-base模型
🚨 仍存在一些质量问题,如繁体字、广告文本等

多语种数据集 🌍

1. CC100

🗣️ 100种语言
📊 总规模:2.5TB
🧠 用于训练XLM-R模型

2. OSCAR

🌐 基于Common Crawl
📊 总规模:6.3TB
🗨️ 151种语言

3. ROOTS

🌈 59种语言(46种自然语言+13种编程语言)
📊 规模:1.6TB
🤖 用于训练BLOOM模型

4. RedPajama-V2

🗣️ 5种主要语言
📊 规模:30T Tokens(约100TB)
🧹 采用CC-NET清洗框架

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI Infra简单记录

向量数据库的作用 1. 在AI大模型训练过程中,向量数据库可以有效提升数据检索、特征提取等任务的效率。 2、在AI大模型推理过程中,向量数据库为大模型提供外挂知识库,提升模型时效性与准确性,提供缓存能力,减少调用开…

c语言中extern定义和引用其他文件的变量,(sublime text)单独一个文件编译不会成功

关键字extern的作用 这个很常见的都知道是定义一个外部变量或函数,但并不是简单的建立两个文件,然后在用extern 定义在另一个非最初定义变量的文件里 区分文件和编译运行的文件 例如,一个文件夹里有文件a.c和文件b.c,在sublime text中直接…

深入解析链表:解锁数据结构核心奥秘

一. 链表的定义 链表是一种线性数据结构,由一系列节点组成。每个节点包含两个部分: 数据域(Data):存储节点的数据。指针域(Pointer):存储指向下一个节点的地址。 链表的第一个节点…

【Linux】Wmware Esxi磁盘扩容

目录 一、概述 1.1 磁盘分区概念 1.2 LVM概念 二、扩容步骤 二、报错 一、概述 1.1 磁盘分区概念 在 Linux 中,每一个硬件设备都映射到一个系统的文件,对于硬盘、光驱等 IDE 或 SCSI 设备也不例外。Linux把各种 IDE 设备分配了一个由 hd 前缀组成的文…

Linux 中的文本编辑

文章目录 Linux 中的文本编辑Vi 和 Vim 的基本介绍三种工作模式常用快捷键 Linux 中的文本编辑 在 Linux 系统中,内置了强大的文本编辑器 Vi 和其增强版本 Vim。 Vi 和 Vim 的基本介绍 Vim 作为 Vi 的增强版,具有出色的程序编辑能力,能以字…

论文辅导 | 基于贝叶斯优化-卷积神经网络-双向长短期记忆神经网络的锂电池健康状态评估

辅导文章 模型描述 准确估计电池健康状态是设备稳定运行的关键。针对当前健康状态研究中容量难以直接测量、估计模型调参费时等问题,提出基于多健康特征的贝叶斯优化(BO)算法优化卷积神经网络(CNN)与双向长短期记忆&a…

冯雷老师:618大退货事件分析

近日冯雷老师受邀为某头部电商36名高管进行培训,其中聊到了今年618退货潮的问题。以下内容整理自冯雷老师的部分授课内容。 一、引言 随着电子商务的蓬勃发展,每年的618大促已成为消费者和商家共同关注的焦点。然而,在销售额不断攀升的同时…

【详细教程】如何使用YOLOv10进行图片与视频的目标检测

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

datax入门(data-web的简单使用)——02

datax入门(data-web的简单使用)——02 1. 前言1.1 关于data-web官网1.1.1 源码下载1.1.2 datax-Web部署手册1.1.2.1 Linux环境部署手册1.1.2.2 本地开发环境部署手册 1.2 关于datax入门 2. 下载之后打包、启动、登录2.1 我的本地环境2.2 修改配置2.3 初始…

SQL数据库学习指南:从基础到高级

SQL数据库学习指南:从基础到高级 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨SQL数据库的学习指南,从基础到高级&…

html纯原生网页引入vue3版本的quill editor

效果图 版本 vueup/vue-quill v1.2.0vue3.3.8Element Plus v2.4.2 引入流程 找一个vue3的项目, 然后安装插件vue版本的quill: vue-quill npm install vueup/vue-quill --save官方地址:https://vueup.github.io/vue-quill/ 安装完成之后,把vue-quil插件下…

如何搭建数据安全架构?包含数据安全资产梳理、敏感数据发现、数据风险检测、安全态势感知等解决方案

如何搭建数据安全架构?包含数据安全资产梳理、敏感数据发现、数据风险检测、安全态势感知等解决方案。 搭建数据安全架构是一个复杂且系统化的过程,涉及多个方面和层次。以下是一个详细的方案,涵盖数据安全资产梳理、敏感数据发现、数据风险检…

详解HTTP:HTTP的一次请求

HTTP请求的发起 当用户通过浏览器或其他客户端发起一个HTTP请求来获取网页时,这个请求首先会在应用层构建。HTTP是一个基于TCP的应用层协议,它定义了客户端和服务器之间的通信格式和规则。 TCP封装 接下来,HTTP请求会被交给传输层的TCP协议进…

解开孤独症谱系障碍:原因与症状的深度洞察

孤独症谱系障碍,这个日益受到关注的话题,让许多人感到困惑和担忧。那么,它究竟是由什么原因引起的,又有哪些表现症状呢? 引起孤独症谱系障碍的原因目前尚未完全明确,但研究表明,可能与以下因素有…

深度解析:Transformer模型如何革新序列数据处理

标题:深度解析:Transformer模型如何革新序列数据处理 摘要 自2017年Google的论文《Attention Is All You Need》发布以来,Transformer模型以其独特的注意力机制,在自然语言处理(NLP)领域引起了革命性的变…

ROS2使用Python创建服务提供者、消费者

1.创建服务提供者 ros2 pkg create example_service_rclpy --build-type ament_python --dependencies rclpy example_interfaces --node-name service_server_02 service_server_02.py 代码 #!/usr/bin/env python3 import rclpy from rclpy.node import Node # 导入接口 …

量产工具一一显示系统(一)

目录 前言 一、项目介绍和应用 1.简单易用 2.软件可配置、易扩展 3.纯 C 语言编程 4.类似界面应用 二、项目总体框架 三、显示系统 1.显示系统数据结构抽象 (1)common.h (2)disp_manager.h 2.Framebuffer编程 &#x…

Java中的switch语句详解

Java中的switch语句详解 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来详细探讨一下Java中的switch语句。switch语句是Java中的一种多分支选择结构&…

Unity数据持久化3——Json

概述 基础知识 Json文件格式 Json基本语法 练习 可以搜索:Json在线,复制代码进去解析是否写错了。 Excel转Json C#读取存储Json文件 JsonUtility using System.Collections; using System.Collections.Generic; using System.IO; using UnityEngine;[Sy…

AI周报(6.23-6.29)

AI应用-巴西医生成功用Vision Pro做手术 巴西外科医生布鲁诺戈巴托(Bruno Gobbato)在2024年4月22日首次成功使用Apple Vision Pro进行了肩袖撕裂的手术。这次手术采用了肩关节镜技术,通过关节内的摄像头捕捉图像,并通过高分辨率的…