大语言模型训练数据集

大语言模型的数据集有很多,以下是一些常用的:

- 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。
- 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- Common Crawl:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等:这些都是近年来大火的大语言模型数据集。

此外,一个1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言),用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。

在开发大语言模型时,选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发,可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时,也可以参考huggingface,modelscope等平台,这些平台上有一些常用的数据集。

1. **Common Crawl**
   - 网址: [http://commoncrawl.org](http://commoncrawl.org)
   - 介绍: Common Crawl是一个非盈利组织,提供公共访问的Web数据集。它定期爬取整个网站,并通过其归档让大量的网页文本数据可用于各种研究和开发目的。

2. **Wikipedia**
   - 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
   - 介绍: 维基百科数据转储包含了所有维基百科条目的文本,用于提供信息,学术研究或者作为NLP任务的数据源。它支持多种语言,并且可以免费下载和使用。

3. **OpenWebText**
   - 网址: 未官方发布,通常在研究论文或项目中分享。
   - 介绍: OpenWebText数据集受到OpenAI GPT训练数据集的启发,由网上的公共文章组成。用于训练语言模型,尤其是用来预训练类似于GPT风格的变换器模型。

4. **COCA (Corpus of Contemporary American English)**
   - 网址: [https://www.english-corpora.org/coca/](https://www.english-corpora.org/coca/)
   - 介绍: COCA是一个大型的美国英语语料库,主要用于语言学研究和教育目的。可以用于开放语言模型训练的典型数据集。

COCA是美国当代英语语料库(Corpus of Contemporary American English)的简称。它是世界上使用最广泛的英语语料库之一,不仅被语言学家用于研究,也广泛用于教育和翻译等领域。

 

COCA语料库的特点可以概括为三个字:大、全、新。它收录了高达5.6亿个词汇,每年还会以两千万的数量持续扩充,以保证其时效性。因此,无论是对于英语母语者还是英语学习者,都可以通过COCA获取到非常全面和最新的语言资料。此外,该语料库还囊括了各种类型的文本,如新闻、小说、电视剧、电影和广播等,覆盖了美国英语的各个方面。

 

5. **TED Talks**
   - 网址: [https://www.ted.com/participate/translate/get-started](https://www.ted.com/participate/translate/get-started)
   - 介绍: TED演讲的数据集不仅包括视频内容的字幕文本,还包含了许多语言的翻译版本。这是一个有用的多语言数据集,可用于构建语音识别系统、机器翻译、以及语料库分析等任务。

6. **BookCorpus**
   - 网址: BookCorpus数据集原始官方网站已经关闭,目前很难找到合法的下载源。BookCorpus是一个由多伦多大学的Yukun Zhu等人在2015年提出的大型文本语料库。该数据集主要收录了由尚未出版且是免费的书籍所组成的文本,数量多达196,640本。这些书籍的内容覆盖广泛,因此 BookCorpus可以视为一个丰富的语言资源,经常被用于语句编码/解码的无监督学习等场景。


   - 介绍: 该数据集包含数千本未获版权保护的图书文本,以前常用来训练大型语言模型,如BERT。

7. **SQuAD (Stanford Question Answering Dataset)**
   - 网址: [https://rajpurkar.github.io/SQuAD-explorer/](https://rajpurkar.github.io/SQuAD-explorer/)
   - 介绍: SQuAD是斯坦福大学创建的阅读理解数据集。它提供了一系列问题和相应的段落,其中包含问题的答案。常用于训练和评估机器阅读理解系统。

8. **GLUE (General Language Understanding Evaluation)**
   - 网址: [https://gluebenchmark.com/](https://gluebenchmark.com/)
   - 介绍: GLUE是一系列评估自然语言理解系统的基准测试。它包含了不同的任务,比如句子相似性、自然语言推理等,用于衡量语言模型的综合性能。

 

9. **SuperGLUE**
   - 网址: [https://super.gluebenchmark.com/](https://super.gluebenchmark.com/)
   - 介绍: SuperGLUE是GLUE基准的后续项目,提供了更具挑战性的任务集合,以评估语言模型的推理能力。SuperGLUE是一个在通用语言理解评估(GLUE)基准平台之上进行的升级,该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年联合成立的。SuperGLUE的目标是进一步提升自然语言理解模型的性能,通过提供更复杂、更有挑战性的任务来衡量模型的能力。

 

10. **SNLI (Stanford Natural Language Inference)**
    - 网址: [https://nlp.stanford.edu/projects/snli/](https://nlp.stanford.edu/projects/snli/)
    - 介绍: SNLI是一个大规模集合,包括句子对及它们之间的关系标签(蕴含、矛盾和中立)。用于训练和测试自然语言推理(NLI)模型。SNLI,全称Stanford Natural Language Inference,是一个自然SNLI,全称Stanford Natural Language Inference,是一个自然语言推理(NLI)的数据集。它是由斯坦福大学的Bowman, Manning和Raffel等人在2015年提出的。这个数据集包含了约570k的句子对,每个句子对都被标注为“中立”,“蕴含”或“矛盾”三个标签之一。这些样本被广泛用于训练和测试自然语言推理模型。

 

1. The Pile:这是一个825 GiB多样化的开源语言建模数据集,由22个较小的高质量数据集组合在一起组成。The Pile是一个开源语言建模数据集,由22个不同的高质量数据集构成,总数据量达825GB。这些数据集包含多种类型的文本,例如论坛、知识库和电子书等。此外,Pile不仅被用于训练大型语言模型,也可以用作评估语言模型跨领域知识和泛化能力的广泛覆盖基准。

下载地址:https://openxlab.org.cn/datasets?keywords=pile&lang=zh-CN&pageNo=1&pageSize=12。


2. C4:这是一个750GB的英文语料库,使用启发式方法,仅提取自然语言数据,同时删除所有乱码文本,C4还进行了大量重复数据删除以提高其质量,MPT-7B 和 T5 等语言模型是使用 C4 进行预训练的。下载地址:https://huggingface.co/datasets/c4。


3. WanJuan的发布:所有数据均采用统一的JSON格式组织,并提供了数据集下载工具及相关文档。这个开源的大规模多语言多模态数据集已被用于InternLM模型的训练,相比同规模模型,InternLM在多维度评测中展现出明显优势。WanJuan的发布填补了公开源数据的空白,有助于自然语言处理、计算机视觉等领域的技术进步,特别是需要多模态理解生成的任务。 InternLM模型在各项评测中也十分优秀,看样子这份数据集功不可没!详情参考:https://www.datalearner.com/ai-models/llm-evaluation。

 

大语言模型的核心是数据集,一定要收集大量数据集,并非某种模型或者算法。再说一遍,先收集数据,而不是算法和硬件。

 

注意,以上内容可能随着时间而失效或者受到限制。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/588892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python脚本实现一次提取多个文件下的图片

problem formulation 有时候下载的数据集如下,就很烦,一个里面就一张图片 code import os import shutil# 定义源目录和目标目录 source_dir ./dataset/data/Detection destination_dir ./dataset/data/img# 确保目标目录存在,如果不存…

css原子化的框架Tailwindcss的使用教程(原始html和vue项目的安装与配置)

安装教程 中文官网教程 原始的HTML里面使用 新建文件夹npm init -y 初始化项目 安装相关依赖 npm install -D tailwindcss postcss-cli autoprefixer初始化两个文件 npx tailwindcss init -p根目录下新建src/style.css tailwind base; tailwind components; tailwind ut…

图神经网络--GNN从入门到精通

图神经网络--GNN从入门到精通 一、图的基本表示和特征工程1.1 什么是图1.2 图的基本表示1.3 图的性质--度(degree)1.4 连通图,连通分量1.5有向图连通性1.6图直径1.7度中心性1.7特征中心性( Eigenvector Centrality)1.8中介中心性 …

CentOS 7 实战指南:目录操作命令详解

写在前面 想要在 CentOS 7 系统下更高效地进行目录操作吗?不要犹豫,在这里我为你准备了一篇精彩的技术文章!这篇文章将带您深入了解 CentOS 7 下目录操作相关命令的使用方法。无论您是新手还是有一定经验的用户,这篇文章都将为您…

EasyNTS端口穿透服务新版本发布 0.8.7 增加隧道流量总数记录,可以知晓设备哪个端口耗费流量了

EasyNTS上云平台可通过远程访问内网应用,包含网络桥接、云端运维、视频直播等功能,极大地解决了现场无固定IP、端口不开放、系统权限不开放等问题。平台可提供一站式上云服务,提供直播上云、设备上云、业务上云、运维上云服务,承上…

金蝶云星空其他出库单,审核中/审批流中可以选择序列号设置

文章目录 其他出库单,审核中,审批流中可以选择序列号设置 其他出库单,审核中,审批流中可以选择序列号设置

创建型设计模式 - 抽象工厂模式 - JAVA

创建型设计模式 - 抽象工厂设计模式 一. 简介二. 列子2.1 定义电脑的抽象类和子类2.2 定义抽象工厂类和其实现类2.3 测试 三. 抽象工厂设计模式的好处四. 抽象工厂模式的案例 前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续…

如果xm_bmgys的长度大于3就每行五列,否则每行两列

如果需要根据xm_bmgys的长度动态调整表格的列数&#xff0c;可以使用Freemarker的条件判断语句进行处理。 下面是一个更新后的示例代码&#xff1a; <table><#if xm_bmgys?size > 3> <!-- 如果长度大于3&#xff0c;每行五列 --><#list xm_bmgys a…

【mysql】数据处理格式化、转换、判断

数据处理 判断是否超时&#xff0c;时间是否大于当前时间计算分钟数时间格式化处理如果数值类型进行转换字符类型字符拼接case-when代替if-else判断数据空&#xff08;特殊&#xff1a;含空数据、空字符处理&#xff09; select /*判断是否超时&#xff0c;时间是否大于当前…

2024任务驱动Hadoop应用讲课提纲

文章目录 为何采用任务驱动&#xff1f;任务驱动Hadoop应用课程概述项目一&#xff1a;搭建Hadoop集群任务1&#xff1a;搭建完全分布式Hadoop集群1. 思路解析2. 编程实现3. 知识点讲解4. 总结提高 任务2&#xff1a;搭建高可用Hadoop集群&#xff08;HA模式&#xff09;1. 思路…

c++编程大师挑战赛-静夜思

静夜思 暂无标签 题目统计 全部提交 时间限制&#xff1a;C/C 1000MS&#xff0c;其他语言 2000MS 内存限制&#xff1a;C/C 256MB&#xff0c;其他语言 512MB 难度&#xff1a;简单 出题人&#xff1a;admin 描述 请在屏幕上输出《静夜思》&#xff0c;每句诗后单独占据1行…

AI模型私人订制

使用AI可以把你的脸换成明星的脸&#xff0c;可以用于直播、录播。 AI换脸1 也可以把视频中明星的脸换成你的脸 AI换脸2 之所以能够替换成功&#xff0c;是因为我们有一个AI人物模型&#xff0c;AI驱动这个模型就可以在录制视频的时候替换指定人物的脸。AI模型从哪里来&…

题目 1669: 求圆的面积

题目很简单&#xff0c;已知半径r&#xff0c;求一个圆的面积是多大。 圆的面积公式&#xff0c;圆周率Π用Pi表示&#xff0c; R为圆的半径&#xff0c;面积为: SPi*(R^2) 输入格式 输入一个半径&#xff0c;浮点类型~ 输出格式 输出它对应的面积大小&#xff0c;…

快速部署supervisord详解

Supervisor是一个用于监控和管理进程的工具。它可以在Unix-like系统中启动、停止、重启和管理后台进程&#xff0c;确保这些进程始终保持运行状态。 yum check-update 更新yum软件包索引 yum install epel-release -y 下载eprl源 yum install supervisor -y 直接yu…

Linux---进程控制

一、进程创建 fork函数 在Linux中fork函数是非常重要的函数&#xff0c;它从已存在进程中创建一个新进程&#xff0c;原进程为父进程 fork函数的功能&#xff1a; 分配新的内存和内核数据结构给子进程将父进程部分数据结构内容拷贝至子进程添加子进程到系统的进程列表中fork返…

Linux环境编程基础

静态库和动态库 静态库和动态库 在实际开发中&#xff0c;我们把通用的函数和类分文件编写&#xff0c;称之为库。在其它的程序中&#xff0c;可以使用库中的函数和类。 一般来说&#xff0c;通用的函数和类不提供源代码文件&#xff08;安全性、商业机密&#xff09;&#x…

说出Servlet的生命周期,并说出Servlet和CGI的区别

Servlet的生命周期可以概括为三个阶段&#xff1a;初始化阶段、处理请求阶段和销毁阶段。 初始化阶段&#xff1a;Servlet在第一次被加载到Web服务器时&#xff0c;服务器会创建一个Servlet实例。然后服务器调用Servlet的init()方法进行初始化操作。这个方法只会在Servlet第一…

【nodejs】前后端身份认证

前后端身份认证 一、web开发模式 服务器渲染&#xff0c;前后端分离。 不同开发模式下的身份认证&#xff1a; 服务端渲染推荐使用Session认证机制前后端分离推荐使用JWT认证机制 二、session认证机制 1.HTTP协议的无状态性 了解HTTP协议的无状态性是进一步学习Session认…

How to Develop Word Embeddings in Python with Gensim

https://machinelearningmastery.com/develop-word-embeddings-python-gensim/ 本教程分为 6 个部分;他们是&#xff1a; 词嵌入 Gensim 库 开发 Word2Vec 嵌入 可视化单词嵌入 加载 Google 的 Word2Vec 嵌入 加载斯坦福大学的 GloVe 嵌入 词嵌入 单词嵌入是一种提供单词的…

【YOLO系列】yolo V1 ,V3,V5,V8 解释

文章目录 yolo V1 模型结构图通道数 的 物理意义是什么&#xff1f;输出 7730 怎么理解&#xff1f;YOLO v1 损失函数LOSS yolo V3yolo V5yolo V8 视频来源&#xff1a;https://www.bilibili.com/video/BV13K411t7Zs/ AI视频小助理 一、YOLO系列的目标检测算法&#xff0c;其中…