LLM文本数据集775TB:覆盖32个领域,444个数据集

大语言模型在各领域展现出巨大潜力,其性能在很大程度上依赖于训练和测试所用的数据集。然而,目前在如何构建和优化这些数据集方面,尚缺乏统一的认识和方法论。下面从五个方面整合和分类了LLM数据集的基本内容:预训练语料库、指令微调数据集、偏好数据集、评估数据集和传统自然语言处理(NLP)数据集。
在这里插入图片描述
包括444个数据集的统计数据,覆盖8种语言类别和32个领域。数据集统计信息包含20个维度,预训练语料库的数据总量超过774.5TB,其他数据集的实例数量超过7亿。
在这里插入图片描述
下面只介绍部分数据集,大家可从网站查看感兴趣的数据集。

1 预训练预料库

预训练语料库包括通用预训练语料库和领域预训练语料库。

通用预训练语料库由不同领域和来源的海量文本组成的大规模数据集,其主要特点是文本内容不局限于单一领域,更适合训练通用的基础模型。包括网页、语言文本、图书、学术资料、代码、平行语料库、社交媒体、百科全书、
在这里插入图片描述
特定领域预训练语料库包括金融、医疗、数学等。
在这里插入图片描述

2 指令微调数据集

由一个或多个指令类别构成,没有领域限制,主要目的是增强大模型在通用任务中的指令跟随能力。
指令微调数据集类别
包括通用指令微调数据集、人类生成的数据集(HG)、模型构建数据集(MC)、现有数据集的收集和改进(CI)、集成制造与制造、领域特定数据集。

3 人类偏好数据集

偏好数据集是包含对相同指令输入的多个回复进行偏好评估的指令集合。通常,这些数据集由具有不同回复的指令对组成,并附有来自人类或其他模型的反馈。反映了在人类或模型在特定任务或上下文中对不同回复的相对偏好。偏好数据集中的反馈信息通常通过投票、排序、评分或其他形式的比较来体现。
在这里插入图片描述

4 评估数据集

评估数据集是一组经过精心策划和注释的数据样本,用于评估 LLM 在各种任务中的表现。数据集根据评估领域进行分类。
在这里插入图片描述
包括考试、学科、推理、法律、医学等等数据集。

5 传统NLP数据集

大语言模型被广泛采用之前,专用于自然语言任务的文本数据集。这部分内容非常丰富。
在这里插入图片描述
包括情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估等等。

6 结语

除了上面提到的这些数据集,还包括多模态大型语言模型 (MLLM) 数据集和检索增强生成 (RAG) 数据集。

数据集:https://github.com/lmmlzn/Awesome-LLMs-Datasets

论文链接:https://arxiv.org/abs/2402.18041

PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/35775.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day38动态规划part01| 理论基础 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯

**理论基础 ** 无论大家之前对动态规划学到什么程度,一定要先看 我讲的 动态规划理论基础。 如果没做过动态规划的题目,看我讲的理论基础,会有感觉 是不是简单题想复杂了? 其实并没有,我讲的理论基础内容,…

【TB作品】MSP430G2553,单片机,口袋板, 烘箱温度控制器

题3 烘箱温度控制器 设计一个基于MSP430的温度控制器,满足如下技术指标: (1)1KW 电炉加热,最度温度为110℃ (2)恒温箱温度可设定,温度控制误差≦2℃ (3)实时显…

如何创建一个vue项目

目录 1.环境准备 2.检查node和npm版本,确定已安装nodejs 3.全局安装vue/cli、webpack、webpack-cli、vue/cli-init 4.检查vue版本,注意V是大写 5.创建vue项目 6.得到的vue项目目录结构如下: 1.环境准备 安装nodejs,或者安装nvm,并使用…

0101git服务器本地下载gogs源码-其他-版本管理

文章目录 1前言2操作3 建议 结语 1前言 公司接手维护甲方的项目,项目部署在阿里云服务器。但是甲方能提供的文档资料很有限,如果通过甲方去找之前开发项目的公司呢,首先很麻烦,然后也不一定能找到想要的项目源码。 然后项目4个主…

记录一次CMS的代码审计

本次代码审计使用了白加黑的手法,用黑盒的视角测试功能点,用白盒的方式作为验证。 0x1 XSS guestbook处,可以看到有一个留言板 idea搜索guestbook。发现代码如下,其中的getModel是获取数据的方法。Guestbook.class就是具体要获取…

Java源码解读之常量52429

文章目录 为什么有52429的常量呢?对于为什么选择52429?那么为什么不再选几位呢? 在JDK8源码中 java.lang.Integer有52429作为常量出现, 为什么有52429的常量呢? static void getChars(int i, int index, char[] buf) {int q, r;…

zkWASM:ZK+zkVM的下一站?

1. 引言 ZK技术具备极大通用性,也帮助以太坊从去中心化投资走向去信任化的价值观。“Don’t trust, Verify it!”,是ZK技术的最佳实践。ZK技术能够重构链桥、预言机、链上查询、链下计算、虚拟机等等一系列应用场景,而通用型的ZK协处理器就是…

【Docker】镜像

目录 1. 镜像拉取 2. 镜像查询 3. 镜像导出 4. 镜像上传 5. 镜像打标签 6. 镜像上推 7. 镜像删除 8. 镜像运行及修改 8.1 在registry 节点运行 mariadb 镜像,将宿主机 13306 端口作为容器3306 端口映射 8.2 查看容器ID 8.3 进入容器 8.4 创建数据库xd_d…

使用 onnxruntime-gpu 进行推理,运行时间久显存逐渐递增无法减少

背景 将 pytorch / tensorflow 模型转换为onnx后,推理速度相对变快。但是问题在于当请求量增加,onnx模型会无限制申请GPU资源。如果将onnx模型部署为一个接口,则这个接口会一直存在,申请的GPU资源也不会得到释放(详细可…

SK Hynix 3D DRAM良率突破56.1%,开启存储新时代

根据韩国财经媒体Business Korea独家报道:在刚刚结束的VLSI 2024国际研讨会上,韩国半导体巨头SK Hynix公布了一项振奋人心的进展:其五层堆叠3D DRAM的制造良率已达到56.1%。此成果标志着3D DRAM技术在商业化道路上迈出了坚实的一步&#xff0…

mybatisplus多条件对象xml分页查询

不要用它自带的 selectPage方法,会有传参问题 controller import java.util.Set;RestController RequiredArgsConstructor RequestMapping("/deviceInfo" ) public class DeviceInfoController {private final DeviceInfoService deviceInfoService;/**…

JUC 队列

常见的阻塞队列 Queue接口 public interface Queue<E> extends Collection<E> {//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;就会抛出异常boolean add(E e);//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;返回…

docker的容器操作命令

容器命令 容器是什么 镜像运行起来就是容器 docker run docker ps 查看运行的容器状态 docker ps -a 查看所有的容器状态&#xff08;包括未运行的&#xff09; docker logs 查看容器的日志 docker rm 删除容器 启动容器 docker start 镜像名称/镜像id 停止容器 docker stop …

大模型日报2024-06-26

大模型日报 2024-06-26 大模型资讯 大模型产品 Pygma&#xff1a;Instagram的AI助手 摘要: Pygma通过分析您的Instagram数据&#xff0c;提供7天的内容创意&#xff0c;并为您创建个性化内容&#xff0c;直接建议在界面中安排发布。 revid.ai&#xff1a;一站式短视频创作工具 …

sudo 权限之危险的 bash 命令

文章目录 [toc]事出有因干就完事了创建用户配置 sudo 权限sudo 验证使用 bash 命令执行 chmod 命令使用 bash 命令执行删根 事出有因 使用普通用户安装 tidb 时&#xff0c;发现报错了&#xff0c;报错内容如下&#xff1a; ERROR SSHCommand {"host": "…

三十九篇:UML与SysML:掌握现代软件和系统架构的关键

UML与SysML&#xff1a;掌握现代软件和系统架构的关键 1. 引言 1.1 为什么系统设计如此关键 在当今快速发展的技术环境中&#xff0c;系统设计的重要性不言而喻。无论是软件开发还是复杂的系统工程&#xff0c;良好的设计是确保项目成功的基石。系统设计不仅关系到功能的实现…

【Windows】Windows 10 + PowerToys 快捷键

1、Windows 10 快捷键2、PowerToys 快捷键2.1、始终置顶2.2、颜色选择器2.3、打开FancyZones编辑器2.3.1、FancyZones编辑器编辑布局2.3.2、将窗口放置到指定区域 2.4、鼠标实用工具2.4.1、查找我的鼠标2.4.2、启用/关闭鼠标荧光笔2.4.3、启用/关闭鼠标跳转2.4.4、 启用/关闭鼠…

Spring统一功能

文章目录 一、什么是统一功能二、拦截器2.1 什么是拦截器2.2 拦截器的使用2.3 案例&#xff1a;不拦截前端的请求2.4 拦截器是如何实现的 ---- >分析DispatcherServlet源码分析 三、适配器模式四、统一数据返回格式五、统一异常六、案例&#xff1a;在图书管理系统使用统一功…

【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑

摘要 随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;领域正迎来一场前所未有的革命。近日&#xff0c;OpenAI首席技术官米拉穆拉蒂在采访中透露&#xff0c;新一代大语言模型GPT-5将在一年半后发布&#xff0c;这一消息无疑在科技界掀起了巨大的波澜。GPT-…

【Linux】锁|死锁|生产者消费者模型

&#x1f525;博客主页&#xff1a; 我要成为C领域大神&#x1f3a5;系列专栏&#xff1a;【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 ​ ​ 访问互斥 …