[论文笔记] chatgpt系列 2.6 DeepSpeed-chat 数据集

news/2025/4/12 11:33:53/文章来源:https://blog.csdn.net/Trance95/article/details/132043708

一、FT数据集 & Reward model数据集

Deepspeed-chat 源代码的数据集：

Dahoas/rm-static: 这是一个用于强化学习的静态环境数据集，包含了一个机器人在一个固定环境中的运动轨迹。该数据集旨在用于评估强化学习算法在静态环境下的表现。
Dahoas/full-hh-rlhf: 这是一个用于深度强化学习的数据集，包含了一个机器人在一个动态环境中的运动轨迹。该数据集旨在用于评估深度强化学习算法在动态环境下的表现。
多轮对话数据集 Dahoas/synthetic-instruct-gptj-pairwise: 这是一个用于自然语言处理的数据集，包含了两个人之间的对话。该数据集旨在用于评估自然语言处理模型在对话生成任务中的表现。
yitingxie/rlhf-reward-datasets: 这是一个用于强化学习的数据集，包含了多个机器人在不同环境中的运动轨迹和奖励信号。该数据集旨在用于评估强化学习算法在多智能体系统中的表现。

二、换成自定义数据集

wikitext2、ptb、c4

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/24834.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

TypeScript初学

TypeScript初学

文章转载：https://blog.csdn.net/weixin_46185369/article/details/121512287 写的很详细，适合初学者看看。一、TypeScript是什么？ 1.TypeScript简称：TS，是JavaScript的超集。简单来说就是：JS有的TS都有…

阅读更多...

6.4.tensorRT高级(1)-UNet分割模型导出、编译到推理（无封装）

6.4.tensorRT高级(1)-UNet分割模型导出、编译到推理（无封装）

目录前言1. Unet导出2. Unet推理总结前言杜老师推出的 tensorRT从零起步高性能部署课程，之前有看过一遍，但是没有做笔记，很多东西也忘了。这次重新撸一遍，顺便记记笔记。本次课程学习 tensorRT 高级-Unet分割模型导出、编译到…

阅读更多...

docker 安装字体文件

docker 安装字体文件

先说一下我当前的场景及环境，这样同学们可以先评估本篇文章是否有帮助。环境： dockerphp8.1-fpmwindows 之所以有 php，是因为这个功能是使用 php 开发的，其他语言的同学，如果也有使用到字体文件，那么…

阅读更多...

微前端中的 CSS

微前端中的 CSS

本文为翻译本文译者为 360 奇舞团前端开发工程师原文标题：CSS in Micro Frontends 原文作者：Florian Rappl 原文地址：https://dev.to/florianrappl/css-in-micro-frontends-4jai 我被问得最多的问题之一是如何在微前端中处理 CSS。毕竟&…

阅读更多...

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实…

阅读更多...

VSCode---通过ctrl+鼠标滚动改变字体大小

VSCode---通过ctrl+鼠标滚动改变字体大小

打开设置然后在右边输editor.mouseWheelZoo勾选即可实现鼠标滚动改变字体大小 4.这种设置的字体大小是固定的

阅读更多...

A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读

A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读

论文信息： 题目：A Survey of Embodied AI: From Simulators to Research Tasks 作者：Jiafei Duan, Samson Yu 来源：arXiv 时间：2022 Abstract 通过评估当前的九个具体人工智能模拟器与我们提出的七个功能&#xff0…

阅读更多...

MATLAB(R2023a)添加工具箱TooLbox的方法-以GPOPS为例

MATLAB(R2023a)添加工具箱TooLbox的方法-以GPOPS为例

一、找到工具箱存放位置首先我们需要找到工具箱的存放位置，点击这个设置路径可以看到我们的matlab工具箱的存放位置 C:\Program Files\MATLAB\R2023a\toolbox\matlab 从资源管理器中打开这个位置，可以看到里面各种工具箱二、放入工具箱解压我们…

阅读更多...

服务器端开发-golang dlv 远程调试

服务器端开发-golang dlv 远程调试

1。需要root权限的服务器代码调试 sudo ./appps to get piddlv attach pid --headless --listen:40000 --api-version2 --accept-multiclientattach the golang IDE or other IDE 2。不需要root权限的服务器代码调试，另一种选择 dlv --listen:40000 --headlesstr…

阅读更多...

Windows11 家庭中文版关于本地组策略编辑器gpedit.msc找不到即打不开的解决办法（征诚小张售后实测有效）

Windows11 家庭中文版关于本地组策略编辑器gpedit.msc找不到即打不开的解决办法（征诚小张售后实测有效）

Windows11 家庭中文版关于本地组策略编辑器gpedit.msc找不到即打不开的解决办法根本原因：是因为Windows11家庭中文版的版本系统没内置安装本地策略组编辑器好了废话不多说直接说解决办法第一步首先电脑上新建一个空文本文件输入以下内容： echo o…

阅读更多...

Day 21 C ++ STL（Standard Template Library，标准模板库）

Day 21 C ++ STL（Standard Template Library，标准模板库）

STL 定义STL六大组件容器——置物之所也STL容器就是将运用最广泛的一些数据结构实现出来常用的数据结构序列式容器关联式容器算法——问题之解法也质变算法非质变算法迭代器——容器和算法之间粘合剂迭代器种类各种迭代器支持的常见运算操作 STL示例容器 —— vector迭代器&a…

阅读更多...

STM32 4G学习

STM32 4G学习

硬件连接 ATK-IDM750C模块可直接与正点原子 MiniSTM32F103开发板板载的ATK模块接口（ATK-MODULE）进行连接。功能说明 ATK-IDM750C是正点原子（ALIENTEK）团队开发的一款高性能4G Cat1 DTU产品，支持移动4G、联通4G和…

阅读更多...

ChatGPT已闯入学术界，Elsevier推出AI工具

ChatGPT已闯入学术界，Elsevier推出AI工具

2022年11月，OpenAI公司发布了ChatGPT，这是迄今为止人工智能在现实世界中最重要的应用之一。当前，互联网搜索引擎中出现了越来越多的人工智能（AI）聊天机器人，例如谷歌的Bard和微软的Bing，看起来…

阅读更多...

深入理解Linux内核--系统调用

深入理解Linux内核--系统调用

在应用程序和硬件间设置一个额外层优点： 1.使得编程更加容易把用户从学习硬件设备的低级编程特性中解放出来 2.极大提高了系统的安全性内核在试图满足某个请求前在接口级就可检查这种请求的正确性 3.接口使得程序更具有可移植性Unix系统通过向内核发出系统调用实现…

阅读更多...

如何保证Redis缓存和数据库的一致性问题

如何保证Redis缓存和数据库的一致性问题

熟练掌握Redis缓存技术？ 那么请问Redis缓存中有几种读写策略，又是如何保证与数据库的一致性问题今天来聊一聊常用的三种缓存读写策略首先我们来思考一个问题服务端到底是先更新db还是先更新cache 如果先更新缓存写先更新缓存再更新数据库首先…

阅读更多...

篇二：工厂方法模式：灵活创建对象

篇二：工厂方法模式：灵活创建对象

篇二：“工厂方法模式：灵活创建对象” 开始本篇文章之前先推荐一个好用的学习工具，AIRIght，借助于AI助手工具，学习事半功倍。欢迎访问：http://airight.fun/。另外有2本不错的关于设计模式的资料&#xff…

阅读更多...

Lombok 的安装与使用

Lombok 的安装与使用

文章目录一、什么是 Lombok1.1 Lombok 的概念1.2 为什么使用 Lombok1.3 Lombok 的相关注解二、Lombok 的安装2.1 引入依赖2.2 安装插件三、Lombok 的使用案例四、Lombok 的原理一、什么是 Lombok 1.1 Lombok 的概念 Lombok（“Project Lombok”）是一…

阅读更多...

MySQL 窗口函数

MySQL 窗口函数

聚合函数作为窗口函数设聚合函数为op语法结构： op(字段名A) over(partition by 字段名B order by 字段名C rows between D1 and D2) 其中： partition by：按照某一字段将数据进行分组 order by：按照某一字段将数据进行排序&…

阅读更多...

Java实现八皇后问题

Java实现八皇后问题

八皇后问题说明八皇后问题，是一个古老而著名的问题，是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯贝瑟尔于 1848 年提出：在 88 格的国际象棋上摆放八个皇后，使其不能互相攻击，即：任意两个皇后都不…

阅读更多...

HTTP常用状态码及其含义

HTTP常用状态码及其含义

HTTP常用状态码及其含义 1XX：信息，服务器收到请求，需要请求者继续执行操状态码状态码英文名称中文描述100Continue继续。客户端应继续其请求101Switching Protocols切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议&…

阅读更多...

最新文章