数据集个人记录

Dataset

垂域数据集

240万条中文医疗数据集(包括预训练、指令微调和奖励数据集):shibing624/medical
22万条中文医疗对话数据集(华佗项目):shibing624/huatuo_medical_qa_sharegpt 

通用数据集

Pretraining datasets

16GB中英文无监督、平行语料Linly-AI/Chinese-pretraining-dataset
524MB中文维基百科语料wikipedia-cn-20230720-filtered

SFT datasets

10万条多语言ShareGPT GPT4多轮对话数据集:shibing624/sharegpt_gpt4
9万条英文ShareGPT多轮对话数集:anon8231489123/ShareGPT_Vicuna_unfiltered
50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN
100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN
5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset
2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh
69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0
5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K
80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M
116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data
3.8万条中文ShareGPT多轮对话数据集:FreedomIntelligence/ShareGPT-CN

Reward Model datasets

原版的oasst1数据集:OpenAssistant/oasst1
2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward
11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf
9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset):Dahoas/static-hh
7万条英文reward数据集(来源同上):Dahoas/rm-static
7万条繁体中文的reward数据集(翻译自rm-static)liswei/rm-static-m2m100-zh
7万条英文Reward数据集:yitingxie/rlhf-reward-datasets
3千条中文知乎问答偏好数据集:liyucheng/zhihu_rlhf_3k

参考:MedicalGPT 训练医疗大模型,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)_medicalgpt做增量预训练-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/10913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM内存信息分析

jmap安装使用 java - version 查看已安装jdk的版本 sudo apt-get install openjdk-11-jdk-headless 安装jmap jmap -version 验证是否安装成功 jmap -dump:live,formatb,filexxxx.hprof pid 导出jvm内存信息,pid一般为java进程id内存信息分析 strings xxx.phrof |…

459.重复的子字符串

给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。 示例 1: 输入: "abab"输出: True解释: 可由子字符串 "ab" 重复两次构成。 示例 2: 输入: "aba&q…

MySQL优化-04慢查询和执行计划

慢查询 慢查询配置 MySQL记录所有执行超过long_query_time参数设定实际阈值的SQL语句日志 常用命令 SHOW VARIABLES like slow_query_log;--是否开启慢日志 SHOW VARIABLES like long_query_time;--时间阈值设置 SHOW VARIABLES like %log_queries_not_user_indexes%;--没有使…

chap5 I/O管理

目录 一、I/O设备基本概念和分类 304 1.concept 2.classification (1)根据信息交换单位(可能考) 1)字符设备 2)块设备 (2)传输速率(以下了解即可) (3)…

R语言数据分析案例-股票可视化分析

一、数据整合的对象 # Loading necessary libraries library(readxl) library(dplyr)# Reading the data from Excel files data_1 <- read_excel("云南白药.xlsx") data_2 <- read_excel("冰山.xlsx")二、数据整合的代码 # Reading the data from…

OBS插件--音频采集

音频采集 音频采集是一款 源 插件,类似于OBS的win-capture/game-capture&#xff0c;允许从特定应用程序捕获音频&#xff0c;而不是捕获整个系统的音频。避免了因为特定音频的采集而需要引入第三方软件&#xff0c;而且时延也非常低。 下面截图演示下操作步骤&#xff1a; 首…

Oracle数据库之基本查询详解(三)

目录 sql简介 DML&#xff08;数据库操作语言&#xff09; DDL&#xff08;数据库定义语言&#xff09; DCL&#xff08;数据库控制语言&#xff09; Select语句的语法格式 通过列名查询 1. 通过列名查询所在的表 2. 通过列名查询列的数据 4. 使用PL/SQL块查询 别名的…

【顺序程序设计-谭浩强适配】(适合专升本、考研)

无偿分享学习资料&#xff0c;需要的小伙伴评论区或私信dd。。。 无偿分享学习资料&#xff0c;需要的小伙伴评论区或私信dd。。。 无偿分享学习资料&#xff0c;需要的小伙伴评论区或私信dd。。。 完整资料如下&#xff1a;纯干货、纯干货、纯干货&#xff01;&#xff01;…

springboot 设置response和request的默认格式 驼峰或者SNAKE_CASE

springboot 设置response和request的默认格式 驼峰或者SNAKE_CASE。 我们使用默认配置的情况下&#xff0c;response和request是由jackson jason序列化和解析的&#xff0c;因此&#xff0c;我们只需要配置好jackson json的默认格式就可以。 要设置 jackson json默认的更多格式…

WEB后端复习——监听器、过滤器

Listener监听器 是Servlet规范中定义的一种特殊类&#xff0c;它用于监听web应用程序中的ServletContext, HttpSession和ServletRequest等域对象的创建与销毁事件&#xff0c;以及监听这些域对象中的属性发生修改的事件。 注解WebListener 1.ServletContextListener 监听Serv…

U盘文件遇损?拯救“文件或目录损坏且无法读取”的秘籍!

在数字化时代&#xff0c;U盘已成为我们日常生活与工作中不可或缺的数据存储和传输工具。然而&#xff0c;有时我们可能会遇到一个非常令人沮丧的问题——U盘中的文件或目录突然损坏且无法读取。这种突发状况往往让人措手不及&#xff0c;甚至可能引发数据丢失的严重后果。那么…

打印图案(金字塔)头歌作业

题目: 任务描述 本关任务&#xff1a;编写一个程序&#xff0c;输出堆叠式的金字塔图案。 输入n个字符&#xff0c;按以下原则输出&#xff1a;【参考样例】 1)第1个字符为一层金字塔图案&#xff0c;第2个字符为两层金字塔图案&#xff0c;第3个字符为三层金字塔图案&#x…

相同的树——java

给你两棵二叉树的根节点 p 和 q &#xff0c;编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同&#xff0c;并且节点具有相同的值&#xff0c;则认为它们是相同的。 示例 1&#xff1a; 输入&#xff1a;p [1,2,3], q [1,2,3] 输出&#xff1a;true示例 2&…

[华为OD] B卷 树状结构查询 200

题目&#xff1a; 通常使用多行的节点、父节点表示一棵树&#xff0c;比如 西安 陕西 陕西 中国 江西 中国 中国 亚洲 泰国 亚洲 输入一个节点之后&#xff0c;请打印出来树中他的所有下层节点 输入描述 第一行输入行数&#xff0c;下面是多行数据&#xff0c;每行以空…

C++青少年简明教程:基础知识

C青少年简明教程&#xff1a;基础知识 电脑程序设计&#xff08;Computer programming&#xff09;&#xff0c;或称程序设计&#xff08;programming&#xff09;&#xff0c;是给出解决特定问题程序的过程&#xff0c;程序设计往往以某种程序设计语言为工具&#xff0c;给出这…

1.4. 离散时间鞅-鞅的Lp收敛,鞅与停时 (1)

鞅的Lp收敛,鞅与停时 鞅的 L p L^p Lp收敛(

通过pywinauto和win32gui和pyautogui自动化实现批量导入

清空文件&#xff0c;两行以下的文件 import os# 要操作的文件路径 file_path example.txt# 删除文件 if os.path.exists(file_path):os.remove(file_path)# 重新创建文件 with open(file_path, w) as file:file.write() # 如果需要写入内容&#xff0c;可以在这里写入拆分文…

关于一致性,你该知道的事儿(上)

关于一致性&#xff0c;你该知道的事儿&#xff08;上&#xff09; 前言一、缓存一致性二、内存模型一致性三、事务一致性四、分布式事务一致性4.1 分布式系统的一些挑战4.2 关于副本的一些概念4.3 分布式事务之共识问题4. 3.1 PC(two-phase commit, 2PC)4.3.2 Raft 三、后记参…

公有云Linux模拟TCP三次挥手与四次握手(Wireshark抓包验证版)

目录 写在前面环境准备实验步骤1. 安装nc工具2. 使用nc打开一个连接2.1 公有云-安全组放行对应端口&#xff08;可选&#xff09; 3. 打开Wireshark抓包工具4. 新开终端&#xff0c;进行连接5. 查看抓包文件&#xff0c;验证TCP三次握手与四次挥手TCP三次握手数据传输TCP四次挥…

交叉编译编译ffmpeg:ERROR: x265 not found using pkg-config(未解决)

具体错误 ERROR: x265 not found using pkg-configIf you think configure made a mistake, make sure you are using the latest version from Git. If the latest version fails, report the problem to the ffmpeg-userffmpeg.org mailing list or IRC #ffmpeg on irc.lib…