大模型LLM训练的数据集

引言

2021年以来,大预言模型的开发和生产使用呈现出爆炸式增长。除了李开复、王慧文、王小川等“退休”再创业的互联网老兵,在阿里巴巴、腾讯、快手等互联网大厂的中高层也大胆辞职,加入这波创业浪潮。

通用大模型初创企业MiniMax完成了新一轮融资,总规模超2.5亿美元,项目估值超过10亿美元,跻身独角兽行列。阿里巴巴技术副总裁贾扬清在朋友圈回应了离职传言,称其和团队已于3月20日从阿里“毕业”,贾扬清表示,“白驹过隙,我也计划走向职业生涯的下一个挑战”。

随着新型AI技术的快速发展,模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密?它们又是如何组建的?本文综合整理并分析了现代大型语言模型的训练数据集。说白了,大模型很火,数据感觉很神秘。

1 概述

大模型预训练需要从海量的文本数据中学习到充分的知识存储在其模型参数中。预训练所用的数据可以分为两类。

1)一类是网页数据(web data),这类数据的获取最为方便,各个数据相关的公司比如百度、谷歌等每天都会爬取大量的网页存储起来。其特点是量级非常大,比如非盈利性机构构建的CommonCrawl数据集是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),包含数百亿网页,数据量级在PB级规模,可从 Amazon S3 上免费获取。

2)第二类称之为专有数据(curated high-quality corpora),为某一个领域、语言、行业的特有数据。比如对话、书籍、代码、技术报告、论文考试等数据。这类数据比较难获取,如果在中国那么最优代表性的就应该是在我们的图书馆、国家数字档案馆、国家数字统计局等机构和地方。

在OpenAI的GPT3,4模型以及谷歌的PaLM系列模型训练中,大量用到了专有数据,如2TB的高质量书籍数据(Books – 2TB)和社交媒体对话数据(Social media conversations)等。这些专业数据是不对公众开放的,就拿高质量的book书籍数据来说,在网上能直接获取到数据来自The pile中的Book3,量级也才85GB左右,和这些巨头所用数据量级相差数十倍。

因此现在有一种普遍观点认为“GPT、PaLM等模型的成功很大程度源自于其他模型难以企及的大量的、高质量的专有数据”。比如LLM大模型的小火种,LLaMA在论文中就提到,自己所用的高质量数据只有177GB所以在MMLU等知识性推理任务上和PaLM相差了十几个点,如果能给LLaMA更多更好的数据,LLaMA说我还能更强。

2 数据分类

在很多论文中,或者很多材料中会经常出现下面这种图,说实话刚开始看的时候觉得挺酷的,然后就没然后了。其实这种图对于观察我们的数据分布非常有用。

因为其后面对大模型预训练时候的数据类型、数据量、数据格式都有规范化后的统一统计,例如上面图中来源《The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset》,对BLOOM大模型训练的时候使用了1321.89 GB数据,一共超过40+不同国家的语预语言,对于代码Code有10+不同的编程语言。

又好像下面这个图来源于《aLM: Scaling Language Modeling with Pathways》,里面对PALM大模型预训练的数据集进行了类型的统计,有多少是新闻类、多少是社交数据、多少是法律条纹数据等,这个时候就知道为什么PALM大模型会比BLOOM大模型的效果更好的原因,因为可以更加清晰或者深入地清晰和梳理数据,搞清楚用来做大模型预训练数据的比例。

3 常用数据集

大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科

和Common Crawl、C4、Github的4个大型数据集。这几个数据集是最常用的,基本上大部分大模型训练过程都会使用到,其中CommonCrawl的数据集比较大,而wiki Pedia的数据集比较规整相对来说比较少。

3.1 English CommonCrawl

使用模型:LLaMA(67%)、LaMDA、PaLM

处理方案:Common Crawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域。基于AllenAI (AI2)的C4论文,可以确定,过滤后的英文C4数据集的每个域的token数和总体百分比,该数据集为305GB,其中token数为1560亿。在大模型训练的过程中,很少直接使用CommonCrawl的数据集,而是首先对CommonCrawl数据集进行了两个主要的处理,即低质量页面过滤、页面相似性去重,以避免过拟合。

下载链接:https://github.com/karust/gogetcrawl

官网链接:https://commoncrawl.org/

3.2 Wikipedia

使用模型:LLaMA(4.5%)、GPT-NEOX(1.53%)、LaMDA、PaLM

处理方案:数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。wiki Pedia 数据集涵盖了2015年抽样的1001篇随机文章,研究人员注意到随时间推移文章传播的稳定性。假设一个11.4GB、经过清理和过滤的维基百科英文版有30亿token,就可以确定类别大小和token。

下载链接:https://huggingface.co/datasets/wikipedia、https://github.com/noanabeshima/wikipedia-downloader

3.3 C4

使用模型:LLaMA(15%)、LaMDA、PaLM

处理方案:CommonCrawl和C4有着很强的关系,因为都是同源的,重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。C4数据集是Common Crawl在2019年的快照,包含新闻、法律、维基百科和通用网络文档等多种文本类型。C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

下载链接:https://huggingface.co/datasets/c4、https://paperswithcode.com/dataset/c4

3.4 Github

使用模型:LLaMA(4.5%)、GPT-NEOX(7.59%)、PaLM、OPT、GLM130B

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如等)。最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

下载链接:https://github.com、https://github.com/EleutherAI/github-downloader

4 其他数据

4.1 Pile-CC

模型:GPT-NEOX(18.11%)

基于Common crawl的数据集,在Web Archive文件(包括页面HTML在内的原始HTTP响应)上使用jusText (Endrédy和Novák, 2013)的方法进行提取,这比直接使用WET文件(提取的明文)产生更高质量的输出。

下载链接:https://github.com/leogao2/commoncrawl_downloader

4.2 WebText2

模型:GPT-NEOX(10.01%)

OpenWebText2 (OWT2)是一个基于WebText (Radford et al, 2019)和OpenWebTextCorpus (Gokaslan and Cohen, 2019)的广义web抓取数据集。

下载链接:https://github.com/EleutherAI/openwebtext2

4.3 Gutenberg and Books3

模型:LLaMA(4%)、GPT-NEOX(12.07%)、GPT-NEOX(2.17%)

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。预处理操作主要是删除重复内容超过90%的书籍。

下载链接:https://shibamoulilahiri.github.io/gutenberg_dataset.html、https://twitter.com/theshawwn/status/1320282149329784833、https://github.com/deepmind/pg19

4.4 BookCorpus2

模型:GPT-NEOX(0.75%)

BookCorpus2是原版BookCorpus (Zhu et al, 2015)的扩展版本,由“尚未出版的作者”撰写的书籍组成。

下载地址:https://github.com/shawwn/scrap/blob/master/epub2txt-all

4.5 ArXiv

模型:LLaMA(2.5%)、GPT-NEOX(8.96%)

提供一些科学的话题,删掉联系方式、text、宏等冗余信息,用来提高论文的一致性。该数据集包括大约 94K 篇论文(可以使用 LaTeX 源代码),这些论文采用结构化形式,其中论文分为标题、摘要、部分、段落和参考文献。

下载地址:https://www.kaggle.com/datasets/Cornell-University/arxiv、https://huggingface.co/datasets/arxiv_dataset、https://gist.github.com/leogao2/e09b64eae3b987925ccf3b86401624c6

4.6 Stack Exchange

模型:LLaMA(2%)、GPT-NEOX(10.01%)

该数据集包含来自Stack Overflow数据转储的问题和答案,用于偏好模型训练。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

下载地址:https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences、https://github.com/EleutherAI/stackexchange-dataset

4.7 OpenSubtitles

模型:GPT-NEOX(1.55%)

open副标题数据集是由Tiedemann(2016)收集的电影和电视节目的英文字幕数据集。

下载地址:https://github.com/sdtblck/Opensubtitles_dataset

4.8 PubMed Central

模型:GPT-NEOX(8.96%)

PubMed Central (PMC)是由美利坚合众国国家生物技术信息中心(NCBI)运营的PubMed生物医学在线资源库的一个子集,提供对近500万份出版物的开放全文访问。

下载地址:https://github.com/EleutherAI/pile-pubmedcentral

4.9 PubMed Abstracts

模型:GPT-NEOX(3.07%)

PubMed摘要由来自PubMed的3000万份出版物的摘要组成,PubMed是由国家医学图书馆

运营的生物医学文章在线存储库。

下载地址:https://github.com/thoppe/The-Pile-PubMed

4.10 FreeLaw

模型:GPT-NEOX(6.12%)

自由法律项目是一个在美国注册的非营利组织,为法律领域的学术研究提供访问和分析工具。

下载地址:https://github.com/thoppe/The-Pile-FreeLaw

4.11 USPTO Backgrounds

模型:GPT-NEOX(3.65%)

USPTO Backgrounds是美国专利商标局授权的专利背景部分的数据集,来源于其公布的批量档案。

下载地址:https://github.com/EleutherAI/pile-uspto

5 大模型大数据

下面汇总几个把训练的数据暴露出来的模型,目前对比了业界很多大模型,其实他们的数据非常隐秘,并没有得到一个很好的开源。目前只找到LLaMA、NEOX、BLOOM。

5.1 LLAMA

业界基于llama衍生了各种驼,羊驼、华佗、小驼、大驼、骆驼、孖拖,为啥LLaMA这么火,主要是因为LLaMA除了被公开了模型权重,很重要的是他的训练数据集也得到了一个很好的被公开。

模型与数据参数量:30B/65B 1.4T 300B tokens

下载地址:https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理:https://github.com/togethercomputer/RedPajama-Data

5.2 BLOOM

模型与数据参数量:1.6TB 350B tokens

ROOTS (Responsible Open-science Open-collaboration Text Sources) 这个数据集是一个由 huggingface datasets, dataset collections, pseudo-crawl dataset,Github Code, OSCAR 这几个数据构成的,它包含 46 个 natural 语言和 13 个编程语言
(总共 59 个语言),整个数据集的大小有 1.6TB。问题在于要申请。

下载地址:https://docs.google.com/forms/d/e/1FAIpQLSdq50O1x4dkdGI4dwsmchFuNI0KCWEDiKUYxvd0r0_sl6FfAQ/viewform?pli=1

5.3 NEOX

模型与数据参数量:20B 800G 184B tokens

一个825GiB的英语文本语料库被提出,该数据集由22个不同的高质量子集构建而成,既有现有的,也有新建的,其中许多来自学术或专业资源。其实就是用了Pile数据集。

下载地址:https://pile.eleuther.ai/

6 中文数据集

上面提到的大模型主要是业界比较著名的大模型论文里面提到如何训练的(GPT3、LLaMA、BLOOM)等,实际上呢。对于中文其实目前唯一一个比较好的大模型主要是智谱GLM-130B大模型,至于盘古之前试过中文效果一般,考究其主要还是对英文预料为主。

因此中文的数据集变得非常重要啦,因为国内并没有公布太多关于训练中文大模型的中文数据集相关的材料,下面我们也一起来梳理下中文的数据集。

6.1 中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。

地址:http://thuctc.thunlp.org/

6.2 清华大学NLP实验室开放数据集

这是一个由清华大学自然语言处理与社会人文计算实验室维护的中文自然语言处理共享平台,提供了大量的中文文本数据集,包括新闻、论坛、微博、问答等。

http://thuocl.thunlp.org/

https://www.chinesenlp.com/

thuctc.thunlp.org/

6.3 wiki百科中文

中文维基百科是维基百科协作计划的中文版本,自2002年10月24日正式成立,由非营利组织──维基媒体基金会
负责维持,截至2010年6月30日14:47,中文维基百科已拥有314,167条条目。

https://zh.wikipedia.org

6.4 WuDaoCorpora

WuDaoCorpora是北京智源研究院最新构建的高质量数据集,由全球最大的纯文本数据集、全球最大的多模态图文数据集和全球最大的中文对话数据集三部分构成。

https://openi.pcl.ac.cn/BAAI/WuDao-Data/

6.5 Chinese book

包含13.3万余册中文图书的数据集。包含书名、作者、出版社、关键词、摘要、图书分类号、出版年月等7个字段。提供百度网盘下载。可用于机器学习、数据挖掘、自然语言处理等领域。

https://github.com/JiangYanting/Chinese_book_dataset

6.6 千言

百度联合中国计算机学会自然语言处理专委会、中国中文信息学会评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源数据集。如果是追求规模,可以关注下。

https://www.luge.ai/

6.7 天池

天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业。如果是追求规模,同样可以关注下。

https://tianchi.aliyun.com/dataset/

6.8 中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

https://github.com/chinese-poetry/chinese-poetry

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JHipster - Spring Boot 的快速开发利器

产品介绍: JHipster是一个开源的、全面的应用程序生成器,它能够帮助开发者快速生成Spring Boot Angular/React/Vue.js的完整应用程序。它不仅提供了一个简单的界面来定义应用程序的配置,还提供了一组强大的代码生成器,可以在数分…

vue简体繁体互转无需做字库

第一种方法 vue-i18n 需要自己写字库库很麻烦,而且不支持后端传值 第二种 opencc 这个库前端去使用的时候 数据较多的情况非常慢.影响使用 第三种 language-hk-loader npm i language-hk-loader 从其他博客中看到的一种,很方便不需要写字库,但是在打包的时候去整体的去翻译…

VG7050EAN 可编程压控晶体振荡器 (VCXO) 输出:LV-PECL

可编程电压控制振荡器: VG7050EAN是一个低抖动可编程的VCXO在任何频率。VG7050EAN由VCXO、PLL和LVPECL的输出缓冲区组成。它的输出频率可编程从50 MHz到800 MHz,分辨率接近2 ppb。VCXO为PLL提供稳定的参考时钟。VCXO的Kv可以通过I进行编程2C接口。PLL由低…

LaTex的下载与安装(Texlive+TexStudio,2023版)

目录 1. Texlive的下载与安装2. TexStudio的下载与安装 LaTex的下载与安装涉及到环境配置和编辑器安装,本文主要根据一下两个较为常用的组合进行下载和安装: Texlive(是必须安装的LaTex环境);TexStudio(是…

jenkins 自由风格部署vue项目,参数化构建vue项目

1. 丢弃旧的构建 2. 是否需要install 3. git 4. 配置node16: 5. 脚本: 脚本: #进入Jenkins工作空间下项目目录 cd /var/lib/jenkins/workspace/你的任务名称 node -v #检测node版本(此条命令非必要) npm -v #检测npm版本&#x…

Move 向未来,2024 开发者大会热潮涌动

1 月 13 日至 14 日,「2024 Move 开发者大会:Move 生态关键的一年」将于上海举办。本次大会由 MoveFuns 、OpenBuild 和 MoveBit 主办,Rooch、AptosGlobal、alcove、zkMove、TinTinLand 和云赛空间协办,并得到 Aptos、Sui 和亚马逊…

花为缘积萨伯爵名表工艺之美,传承卓越

腕表是时间的载体,也是品味的象征。在现代人眼中,它们不仅仅是时间的工具,更是一种艺术形式。在制表工艺的殿堂中,花为缘积萨伯爵名表以其独特的创造力和严谨缜密的要求,创作了一系列典范之作,将技术与美学…

【APP抓包】IOS应用抓包防护绕过实战教程

文章目录 1. 写在前面2. 测试机越狱2.1. 爱思助手2.2. checkra1n 3. 代理抓包3.1. 安装CA证书 4. 客户端证书绑定绕过4.1. SSLKillSwitch4.2. Objection 5. 双向证书绑定绕过5.1. 绕过服务端 6. 越狱检测绕过6.1. Liberty Lite绕过检测6.2. Hestia绕过检测6.3. HideJB绕过检测6…

毛概笔记。

一、 毛泽东思想是马中化的第一果,是关于搞革命,搞改造,搞建设的理论。 二、新民主主义革命 新民主主义革命的三大法宝:1.统一战线 2. 武装斗争 3.党的建设 政治纲领 经济纲领 文化纲领 乱世造英雄 三、社会主义改造理论&#xff…

Vue3-43-组件- 组件状态保持 KeepAlive 的简单使用

作用说明 一个应用场景 &#xff1a; 当我们在进行路由跳转的时候&#xff0c;会用到 <router-view> 来作为 组件渲染的出口&#xff0c; 此时&#xff0c;组件的状态是不会被保持的。 比如 &#xff1a; 当前在【组件A】中有一个响应式状态 num 的值通过 自加的方式 从初…

猫长期吃猫粮好吗?主食冻干猫粮那种好吃又健康

许多铲屎官可能认为&#xff0c;只需给猫咪喂食猫粮就足够了。然而&#xff0c;猫咪实际上是肉食动物&#xff0c;对蛋白质的需求非常高。冻干猫粮采用低温真空干燥处理技术&#xff0c;将鲜肉经过预冻、升华、解析三个过程&#xff0c;去除水分的同时保持蛋白质等营养物质不变…

弹窗找不到iutils.dll是怎么回事?需要怎么解决呢?分享多种方法

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“iutils.dll丢失”。iutils.dll是一款系统的动态链接库文件&#xff0c;主要用于支持某些软件和游戏的启动和运行。如果开机提示iutils.dll丢失&#xff0c;可能会导致相关软件和游戏无法正…

校园跑腿小程序(前后端已完成)可做项目,可当毕设,支持二创

此小程序为我单独在小程序上运行的结果&#xff0c;图片信息、列表信息等没有出现是因为服务器到期了&#xff0c;资源被释放了&#xff0c;无法显示。但是后端是已经实现了的&#xff0c;有兴趣的同学可以私聊我。 效果预览

建筑模板每平方价格怎么算?

在建筑行业中&#xff0c;建筑模板是一种常用的辅助材料&#xff0c;主要用于浇筑混凝土时形成所需的结构形状。了解建筑模板的定价方式对于预算控制和成本估算至关重要。本文将详细介绍建筑模板每平方米价格的计算方法。 1. 建筑模板的类型和特点建筑模板的种类繁多&#xff0…

Linux ls命令

目录 一. 配置项1.1 ls -l1.2 ls -a1.3 ls -lrt1.4 ls -ld .?* 二. 案例2.1 查看指定文件夹下文件的数量2.2 查看多个文件夹下文件信息 一. 配置项 1.1 ls -l ⏹ ls 列出当前文件夹下所有文件名称(不包含隐藏文件) jmw_num_00 jmw_num_02 jmw_num_04 jmw_num_06 jmw_n…

try catch 应该在 for 循环里面还是外面

正文 首先 &#xff0c; 话说在前头&#xff0c; 没有什么 在里面 好 和在外面好 或者 不好的 一说。 本篇文章内容&#xff1a; 使用场景 性能分析 个人看法 1. 使用场景 为什么要把 使用场景 摆在第一个 &#xff1f; 因为本身try catch 放在 for循环 外面 和里面 …

【sgPasswordInput】自定义组件:带前端校验密码强度的密码输入框,能够提供密码强度颜色提示和文字提示

特性&#xff1a; 有密码强度颜色提示密码强度进度条提示支持设置默认输入提示和密码长度 sgPasswordInput源码 <template><div :class"$options.name" style"width: 100%"><el-inputstyle"width: 100%"ref"psw"type&…

LED驱动芯片SM901K:可用于消除led无极调光频闪

LED驱动芯片SM901K/KF是一款专门用于消除100/120Hz LED电流纹波的芯片。当LED灯串中的LED电流发生纹波时&#xff0c;会影响到LED的亮度和寿命&#xff0c;因此消除这种电流纹波对于LED灯串的稳定工作非常重要。 SM901K LED驱动芯片SM901K/KF采用了先进的控制技术&#xff0c;…

基于Java SSM框架实现点餐系统网站系统项目【项目源码

基于java的SSM框架实现点餐系统网站系统演示 JAVA简介 JAVA语言是目前软件市场上应用最广泛的语言开发程序。可以在多种平台上运用的&#xff0c;兼容性比较强&#xff0c;适应市面上大多数操作系统&#xff0c;不会出现乱码的现像&#xff0c;其扩展性和维护性都更好&#xf…

一文读懂「Self Attention」自注意力机制

前言&#xff1a;Self-Attention是 Transformer 的重点&#xff0c;因此需要详细了解一下 Self-Attention 的内部逻辑。 一、什么是自注意力机制&#xff1f; 就上图为例&#xff0c;老实告诉我当你第一眼看到上图时&#xff0c;你的视线停留在哪个位置&#xff1f;对于我这种…