大模型数据集全面整理:444个数据集下载地址

本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集(涵盖8种语言类别和32个领域)进行完整下载地址整理收集。

2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语言模型数据集,这些数据集在大语言模型中取得的显著进步中发挥着至关重要的作用。

调查从五个方面对LLM的 444个 数据集进行了整理和分类:

一、预训练语料库(59个):

49个 通用预训练语料库

10个 领域特定预训练语料库

二、指令微调数据集(103个)

69个通用指令微调数据集

34个特定领域指令微调数据集

三、偏好数据集 (16个)

16个偏好数据集

四、评估数据集(112个)

112个评估数据集

五、传统自然语言处理(NLP)数据集(154个)

37个阅读理解数据集、 13个知识问答数据集、13个推理问答数据集

10个识别文本蕴含数据集、9个数学数据集、6个共指消解数据集

4个情感分析数据集、10个语义匹配数据集、4个文本生成数据集

3个文本翻译数据集、 14个文本摘要数据集、6个文本分类数据集

4个文本质量评估数据集、4个文本转代码数据集、10个命名实体识别数据集

4个关系抽取数据集、3个多任务数据集信息汇总

一、Pre-training Corpora (预训练语料库)

预训练语料库是在预训练过程中使用的文本数据的大型集合LLMs。在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLMs从大量未标记的文本数据中学习广泛的知识,然后将其存储在其模型参数中。它能够LLMs拥有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,例如网页、学术材料、书籍,同时还可以容纳来自不同领域的相关文本,例如法律文件、年度财务报告、医学教科书和其他特定领域的数据

49个通用预训练语料库(General Pre-training Corpora)

通用预训练语料库由来自不同领域和主题的大量文本数据组成,例如网页(Webpages)、语言文本(Language Texts)、书籍(Books)、学术材料(Academic Materials)、代码(Code)、平行语料库(Parallel Corpus)、社交媒体(Social Media)、百科全书(Encyclopedia)等。这类语料库的目标是为 NLP 任务提供通用的语言知识和数据资源。

49个 通用预训练语料库:

语料库:ANC

数据集地址:ANC|语料库数据集|自然语言处理数据集

语料库:Anna’s Archive

数据集地址:Anna’s Archive|学术资源数据集|版权数据集

语料库:ArabicText 2022

数据集地址:ArabicText 2022|阿拉伯语数据集|语言模型训练数据集

语料库:arXiv

数据集地址:arXiv

语料库:Baidu baike

数据集地址:Baike2018qa|问答系统数据集|预训练数据集数据集

语料库:BIGQUERY

数据集地址:BigQuery Public Datasets|公共数据集数据集|数据分析数据集

语料库:BNC

数据集地址:British National Corpus (BNC)|语言学数据集|语料库数据集

语料库:BookCorpusOpen

数据集地址:defunct-datasets/bookcorpusopen|自然语言处理数据集|文本生成数据集

语料库:CC-Stories

数据集地址:spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

语料库:CC100

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:CLUECorpus2020

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:Common Crawl

数据集地址:Common Crawl|网络爬取数据集|文本挖掘数据集

语料库:CulturaX

数据集地址:CulturaX|多语言数据集数据集|语言模型训练数据集

语料库:C4

数据集地址:allenai/c4|网络爬取数据集|文本分析数据集

语料库:Dolma

数据集地址:allenai/dolma|自然语言处理数据集|机器学习数据集

语料库:Github

数据集地址:Github|代码托管数据集|开源项目数据集

语料库:mC4

数据集地址:legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集

语料库:MNBVC

数据集地址:liwu/MNBVC

语料库:MTP

数据集地址:BAAI-MTP|机器翻译数据集|文本分析数据集

语料库:MultiUN

数据集地址:MultiUN|平行语料库数据集|语言技术数据集

语料库:News-crawl

数据集地址:News-crawl|多语言新闻数据集|机器翻译数据集

语料库:OpenWebText

数据集地址:Skylion007/openwebtext|自然语言处理数据集|语言模型训练数据集

语料库:OSCAR

数据集地址:OSCAR|自然语言处理数据集|机器学习数据集

语料库:ParaCrawl

数据集地址:ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集

语料库:PG-19

数据集地址:deepmind/pg19|语言建模数据集|长范围序列建模数据集

语料库:phi-1

数据集地址: teleprint-me/phi-1|教育数据集|自然语言处理数据集

语料库:Project Gutenberg

数据集地址: Project Gutenberg|电子书数据集|公共领域数据集

语料库:Pushshift Reddit

数据集地址: Pushshift Reddit|社交媒体分析数据集|文本挖掘数据集

语料库:RealNews

数据 集地址:RealNews|新闻分析数据集|数据挖掘数据集

语料库:Reddit

数据集地址:Reddit|社交网络分析数据集|机器学习数据集

语料库:RedPajama-V1

数据集地址:togethercomputer/RedPajama-Data-1T

语料库:RedPajama-V2

数据集地址:togethercomputer/RedPajama-Data-V2|文本处理数据集|语言模型训练数据集

语料库:RefinedWeb

数据集地址:tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集

语料库:ROOTS

数据集地址:ROOTS Corpus|多语言数据集数据集|语言模型训练数据集

语料库:Smashwords

数据集地址:Smashwords|电子书出版数据集|语料库数据集

语料库:StackExchange

数据集地址:stackexchange_stats|在线社区数据集|用户交互数据集

语料库:S2ORC

数据集地址:S2ORC|学术研究数据集|文本挖掘数据集

语料库:The Pile

数据集地址:EleutherAI/pile

语料库:The Stack

数据集地址:The Stack v2|编程语言数据集|源代码分析数据集

语料库:TigerBot pretrain en

数据集地址:TigerResearch/pretrain_en|自然语言处理数据集|预训练模型数据集

语料库:TigerBot pretrain zh

数据集地址:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集

语料库:TigerBot-wiki

数据集地址:TigerResearch/tigerbot-cmu-wiki-en|问答系统数据集|自然语言处理数据集

语料库:Toronto Book Corpus

数据集地址:bookcorpus/bookcorpus|文本生成数据集|语言模型数据集

语料库:UNCorpus v1.0

数据集地址:联合国中英对照语料UNv1.0.en-zh.tar|语言资源数据集|联合国数据集

语料库:WanJuanText-1.0

数据集地址:WanJuan1.0(万卷多模态)|多模态学习数据集|预训练数据集数据集

语料库:WebText

数据集地址:WebText|文本挖掘数据集|网络分析数据集

语料库:Wikipedia

数据集地址:Wikipedia Dump|维基百科数据集|XML数据数据集

语料库:WuDaoCorpora-Text

数据集地址:WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集

语料库:Zhihu

数据集地址:zhihu|社交媒体数据集|知识分享数据集

10个领域特定预训练语料库 (Domain-specific Pre-training Corpora)

特定领域的预训练语料库的领域类别

领域特定预训练语料库仅包含特定领域或主题的相关数据,例如金融领域(Financial Domain)、医疗领域(Medical Domain)、其他领域(Other Domains)等。这类语料库的目标是为 LLM 提供特定领域的专业知识。

      

语料库:BBT-FinCorpus

数据集地址:BBT-FinCorpus|金融NLP数据集|预训练数据集数据集

语料库:FinCorpus

数据集地址:Duxiaoman-DI/FinCorpus|金融资讯数据集|教育培训数据集

语料库:FinGLM

数据集地址:FinGLM|金融数据集|人工智能数据集

语料库:Medical-pt

数据集地址:shibing624/medical|医疗,偏好数据集数据集

语料库:Proof-Pile-2

数据集地址:EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集

语料库:PubMed Central

数据集地址:Pile-PubMed_Central|自然语言处理数据集|生物医学文献数据集

语料库:TigerBot-earning

数据集地址:TigerResearch/tigerbot-earning-plugin|财务报告分析数据集|机器学习数据集

语料库:TigerBot-law

数据集地址:TigerResearch/tigerbot-law-plugin|法律知识管理数据集|自动化法律服务数据集

语料库:TigerBot-research

数据集地址:TigerResearch/tigerbot-research-plugin|机器学习数据集|研报数据数据集

语料库:TransGPT-pt

数据集地址:TransGPT-pt

预训练语料库的预处理 通常包括以下步骤:

      预训练语料库的预处理流程图

二、Instruction Fine-tuning Datasets(指令微调数据集)

指令类别

指令可以分为15种主要类别,包括:推理(Reasoning)、数学(Math)、头脑风暴 (Brainstorming)、闭卷问答 (Closed QA)、开放问答 (Open QA)、代码 (Code)、提取 (Extraction)、生成 (Generation)、改写 (Rewrite)、

摘要 (Summarization)、分类 (Classification)、翻译 (Translation)、角色扮演 (Role-playing)、社会规范 (Social Norms)、其他 (Others)。

指令类别摘要

数据集构建方法

Instruction Fine-tuning Datasets 可以通过以下四种方法构建:

人工生成 (HG): 由人类标注者手动创建指令,无需模型辅助。

模型构建 (MC): 利用 LLM 生成指令,例如使用 Self-Instruct 方法。

现有数据集收集和改进 (CI): 整合和改进现有开源数据集。

多种方法结合 (HG & CI & MC): 结合上述三种方法的优势。

通用指令微调数据集对应的构建方法

69个通用指令微调数据集如下:

数据集:Alpaca data

数据集地址:tatsu-lab/alpaca|自然语言处理数据集|指令学习数据集

数据集:Alpaca GPT4 data

数据集地址:vicgalle/alpaca-gpt4|自然语言处理数据集|机器学习数据集

数据集:Alpaca GPT4 data zh

数据集地址:shibing624/alpaca-zh|自然语言处理数据集|语言模型数据集

数据集:Aya Collection

数据集地址:CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集

数据集:Aya Dataset

数据集地址:CohereForAI/aya_dataset|多语言处理数据集|大型语言模型数据集

数据集:Bactrain-X

数据集地址:MBZUAI/Bactrian-X|多语言数据集|文本生成数据集

数据集:Baize

数据集地址:linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集

数据集:BELLE Generated Chat

数据集地址:BelleGroup/generated_chat_0.4M|自然语言处理数据集|角色生成数据集

数据集:BELLE Multiturn Chat

数据集地址:BelleGroup/multiturn_chat_0.8M|对话系统数据集|自然语言处理数据集

数据集:BELLE train 0.5M CN

数据集地址:BelleGroup/train_0.5M_CN|自然语言处理数据集|中文语言模型数据集

数据集:BELLE train 1M CN

数据集地址:BelleGroup/train_1M_CN|自然语言处理数据集|文本生成数据集

数据集:BELLE train 2M CN

数据集地址:BelleGroup/train_2M_CN|自然语言处理数据集|中文语音识别数据集

数据集:BELLE train 3.5M CN

数据集地址:BelleGroup/train_3.5M_CN|自然语言处理数据集|文本生成数据集

数据集:CAMEL

数据集地址:CAMEL|多语言对话数据集|代码生成数据集

数据集:ChatGPT corpus

数据集地址:chatgpt-corpus|自然语言处理数据集|数据训练数据集

数据集:COIG

数据集地址:COIG-CQIA|自然语言处理数据集|指令微调数据集

数据集:CrossFit

数据集地址:CrossFit|自然语言处理数据集|少样本学习数据集

数据集:databricks-dolly-15K

数据集地址:databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集

数据集:DialogStudio

数据集地址:DialogStudio|对话技术数据集|数据集资源数据集

数据集:Dynosaur

数据集地址:Dynosaur/dynosaur-full

数据集:Firefly

数据集地址:YeungNLP/firefly-train-1.1M|自然语言处理数据集|对话系统数据集

数据集:Flan-mini

数据集地址:declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集

数据集:Flan 2021

数据集地址:Flan 2021|自然语言处理数据集|机器学习数据集

数据集:Flan 2022

数据集地址:philschmid/flanv2

数据集:GPT4All

数据集地址:GPT4all|自然语言处理数据集|指令数据集数据集

数据集:GuanacoDataset

数据集地址:GuanacoDataset|自然语言处理数据集|跨语言任务数据集

数据集:HC3

数据集地址:Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

数据集:InstructDial

数据集地址:InstructDial|对话系统数据集|自然语言处理数据集

数据集:InstructGPT-sft

数据集地址:InstructGPT-sft

数据集:InstructionWild v1

数据集地址:InstructionWild v1|自然语言处理数据集|指令生成数据集

数据集:InstructionWild v2

数据集地址:InstructionWild v2|自然语言处理数据集|指令理解数据集

数据集:LaMini-LM

数据集地址:MBZUAI/LaMini-instruction|文本生成数据集|语言模型微调数据集

数据集:LCCC

数据集地址:thu-coai/lccc|中文对话数据集|数据清洗数据集

数据集:LIMA-sft

数据集地址:undefined|机器学习数据集|自然语言处理数据集

数据集:LMSYS-Chat-1M

数据集地址:LMSYS-Chat-1M|语言模型数据集|对话数据数据集

数据集:LogiCoT

数据集地址:LogiCoT|逻辑推理数据集|自然语言处理数据集

数据集:LongForm

数据集地址:LongForm|自然语言处理数据集|指令生成数据集

数据集:Luotuo-QA-B

数据集地址:遇见数据集-让每个数据集都被发现,让每一次遇见都有价值

数据集:MOSS 002 sft data

数据集地址:fnlp/moss-002-sft-data|对话系统数据集|文本生成数据集

数据集:MOSS 003 sft data

数据集地址:fnlp/moss-003-sft-data|对话系统数据集|自然语言处理数据集

数据集:MOSS 003 sft plugin data

数据集地址:moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集

数据集:NATURAL INSTRUCTIONS

数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集

数据集:OASST1

数据集地址:OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集

数据集:OIG

数据集地址:laion/OIG|自然语言处理数据集|机器学习数据集

数据集:OL-CC

数据集地址:lorinma/BAAI_OL-CC|中文问答数据集|对话系统数据集

数据集:OpenChat

数据集地址:openchat/openchat_sharegpt4_dataset|自然语言处理数据集|机器学习数据集

数据集:OpenOrca

数据集地址:Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集

数据集:Open-Platypus

数据集地址:garage-bAInd/Open-Platypus|自然语言处理数据集|机器学习数据集

数据集:OPT-IML Bench

数据集地址:OPT-IML Bench|自然语言处理数据集|指令微调数据集

数据集:Phoenix-sft-data-v1

数据集地址:Phoenix-sft-data-v1|多语言对话数据集|自然语言处理数据集

数据集:PromptSource

数据集地址:PromptSource|自然语言处理数据集|提示工程数据集

数据集:RedGPT-Dataset-V1-CN

数据集地址:RedGPT 通过参考信息增强的对话生成模型|对话生成数据集|自然语言处理数据集

数据集:Self-Instruct

数据集地址:Self-Instruct

数据集:ShareChat

数据集地址:ShareChat

数据集:ShareGPT-Chinese-English-90k

数据集地址:shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

数据集:ShareGPT90K

数据集地址:ShareGPT90K

数据集:SUPER-NATURAL INSTRUCTIONS

数据集地址:andersonbcdefg/supernatural-instructions-2m

数据集:TigerBot sft en

数据集地址:TigerResearch/sft_en|自然语言处理数据集|模型微调数据集

数据集:TigerBot sft zh

数据集地址:TigerResearch/sft_zh|中文问答数据集|指令微调数据集

数据集:T0

数据集地址:bigscience/P3|自然语言处理数据集|数据模板数据集

数据集:UltraChat

数据集地址:HuggingFaceH4/ultrachat_200k|聊天机器人数据集|自然语言处理数据集

数据集:UnifiedSKG

数据集地址:UnifedSKG|知识接地数据集|多任务学习数据集

数据集:Unnatural Instructions

数据集地址:mrm8488/unnatural-instructions-core|自然语言处理数据集|指令遵循数据集

数据集:WebGLM-QA

数据集地址:THUDM/webglm-qa|机器学习数据集|自然语言处理数据集

数据集:Wizard evol instruct zh

数据集地址:silk-road/Wizard-LM-Chinese-instruct-evol|自然语言处理数据集|中文语言模型数据集

数据集:Wizard evol instruct 196K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_V2_196k|数学模型数据集|数据集构建数据集

数据集:Wizard evol instruct 70K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_70k|数学数据集|编程数据集

数据集:xP3

数据集地址:bigscience/xP3

数据集:Zhihu-KOL

数据集地址:wangrui6/Zhihu-KOL|社交媒体分析数据集|自然语言处理数据集

34个 特定领域指令微调数据集

数据集:BELLE_School_Math

数据集地址:BelleGroup/school_math_0.25M|数学教育数据集|自然语言处理数据集

数据集:ChatDoctor

数据集地址:ChatDoctor

数据集:ChatMed_Consult_Dataset

数据集地址:michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集

数据集:Child_chat_data

数据集地址:Child_chat_data

数据集:CMtMedQA

数据集地址:CMtMedQA|医疗对话数据集|模型训练数据集

数据集:Code_Alpaca_20K

数据集地址:Code_Alpaca_20K

数据集:CodeContest

数据集地址:CodeContests|机器学习数据集|编程竞赛数据集

数据集:CommitPackFT

数据集地址:bigcode/commitpackft|代码提交数据集|数据分析数据集

数据集:DISC-Fin-SFT

数据集地址:DISC-Fin-SFT|金融数据集|指令处理数据集

数据集:DISC-Law-SFT

数据集地址:DISC-Law-SFT 高质量中文法律监督微调数据集|法律数据集|自然语言处理数据集

数据集:DISC-Med-SFT

数据集地址:Flmc/DISC-Med-SFT|医疗问答数据集|对话系统数据集

数据集:Educhat-sft-002-data-osm

数据集地址:ecnu-icalk/educhat-sft-002-data-osm|对话系统数据集|自然语言处理数据集

数据集:GeoSignal

数据集地址:daven3/geosignal|科学领域适应数据集|语言模型训练数据集

数据集:Goat

数据集地址:tiedong/goat|算术任务数据集|问答系统数据集

数据集:HanFei 1.0

数据集地址:HanFei数据集

数据集:HuatuoGPT-sft-data-v1

数据集地址:HuatuoGPT-sft-data-v1|医疗咨询数据集|自然语言处理数据集

数据集:Huatuo-26M

数据集地址:Huatuo-26M|医疗问答数据集|医疗知识数据集

数据集:LawGPT_zh

数据集地址:LawGPT_zh

数据集:Lawyer LLaMA_sft

数据集地址:Lawyer LLaMA_sft

数据集:MeChat

数据集地址:MeChat|心理健康数据集|对话生成数据集

数据集:MedDialog

数据集地址:UCSD26/medical_dialog|医疗对话数据集|问答系统数据集

数据集:Medical Meadow

数据集地址:Medical Meadow

数据集:Medical-sft

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:Mol-Instructions

数据集地址:zjunlp/Mol-Instructions|生物分子数据集|大型语言模型数据集

数据集:MWP

数据集地址:Medical Meadow

数据集:OpenMathInstruct-1

数据集地址:nvidia/OpenMathInstruct-1|数学教育数据集|机器学习数据集

数据集:Owl-Instruction

数据集地址:Owl-Instruction

数据集:PROSOCIALDIALOG

数据集地址:allenai/prosocial-dialog|对话系统数据集|人工智能伦理数据集

数据集:QiZhenGPT-sft-20k

数据集地址:QiZhenGPT-sft-20k

数据集:ShenNong_TCM_Dataset

数据集地址:TCMD|中医数据集|人工智能评估数据集

数据集:TaoLi_data

数据集地址:TaoLi_data

数据集:ToolAlpaca

数据集地址:ToolAlpaca

数据集:ToolBench

数据集地址:ToolBench

数据集:TransGPT-sft

数据集地址:TransGPT-sft

三、Preference Datasets (偏好数据集)

偏好评估方法:

投票 (Vote): 人类或模型对多个响应进行投票,选择其中最好的一个或几个。

排序 (Sort): 将多个响应按照预定义的标准进行排序,反映它们之间的相对偏好顺序。

评分 (Score): 给多个响应分配分数,提供更灵活的偏好强度表示。

其他: 一些偏好数据集采用其他评估方法,例如步骤对齐和源差异分析。

对应各种偏好评估方法的不同偏好数据集

16个偏好数据集

数据集:Alpaca comparison data

数据集地址:Alpaca comparison data|模型比较数据集|偏好反馈数据集

数据集:Chatbot arena conversations

数据集地址:undefined|聊天机器人数据集|自然语言处理数据集

数据集:CValues

数据集地址:CValues-Comparison|价值观评估数据集|人工智能文本生成数据集

数据集:hh-rlhf

数据集地址:Anthropic/hh-rlhf

数据集:Medical-rlhf

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:MT-Bench human judgments

数据集地址:lmsys/mt_bench_human_judgments|自然语言处理数据集|机器学习模型评估数据集

数据集:OASST1 pairwise rlhf reward

数据集地址:tasksource/oasst1_pairwise_rlhf_reward|奖励建模数据集|多语言数据数据集

数据集:PKU-SafeRLHF

数据集地址:PKU-SafeRLHF|大型语言模型数据集|安全对齐数据集

数据集:PRM800K

数据集地址:euclaise/prm800k_preferences|偏好学习数据集|数学推理数据集

数据集:SHP

数据集地址:stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集

数据集:Stable Alignment

数据集地址:Stable Alignment|社交智能数据集|响应调整数据集

数据集:Stack-Exchange-Preferences

数据集地址:HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集

数据集:Summarize from Feedback

数据集地址:openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集

数据集:UltraFeedback

数据集地址:openbmb/UltraFeedback|自然语言处理数据集|偏好数据集数据集

数据集:WebGPT

数据集地址:openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集

数据集:Zhihu rlhf 3k

数据集地址:https://www.selectdataset.com/dataset/70607709831f83178eb08689ca7accc4

四、Evaluation Datasets (评估数据集)

评估数据集的评估类别

三种评价方法

112个评估数据集

数据集:AgentBench

数据集地址:AgentBench

数据集:AGIEval

数据集地址:AGIEval|教育评估数据集|人工智能测试数据集

数据集:ALCUNE

数据集地址:ALCUNE

数据集:AlpacaEval

数据集地址:AlpacaEval|自然语言处理数据集|模型评估数据集

数据集:API-Bank

数据集地址:API-Bank|人工智能数据集|API集成数据集

数据集:APIBench

数据集地址:gorilla-llm/APIBench

数据集:APPS

数据集地址:codeparrot/apps|自然语言处理数据集|编程语言生成数据集

数据集:ARB

数据集地址:ARB

数据集:BayLing-80

数据集地址:BayLing-80|语言模型数据集|跨语言评估数据集

数据集:BBF-CFLEB

数据集地址:BBF-CFLEB|金融数据集|自然语言处理数据集

数据集:BBH

数据集地址:BBH

数据集:BELLE eval

数据集地址:BELLE eval

数据集:BIG-Bench

数据集地址:google/bigbench

数据集:BIRD

数据集地址:BIRD

数据集:BOSS

数据集地址:BOSS|自然语言处理数据集|模型鲁棒性数据集

数据集:CBLUE

数据集地址:中文医疗信息处理评测基准CBLUE|医疗信息处理数据集|自然语言处理数据集

数据集:C-CLUE

数据集地址:C-CLUE

数据集:CELLO

数据集地址:CELLO

数据集:C-Eval

数据集地址:ceval/ceval-exam|自然语言处理数据集|机器学习评估数据集

数据集:CG-Eval

数据集地址:CG-Eval

数据集:Chain-of-Thought Hub

数据集地址:Chain-of-Thought Hub

数据集:Choice-75

数据集地址:Choice-75|脚本学习数据集|智能系统决策数据集

数据集:CLEVA

数据集地址:CLEVA

数据集:CLiB

数据集地址:CLiB

数据集:CLUE

数据集地址:CLUE 中文语言理解评测基准数据集|中文语言理解数据集|自然语言处理数据集

数据集:CMB

数据集地址:CMB|医学评估数据集|语言模型数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CrowS-Pairs

数据集地址:CrowS-Pairs|偏见识别数据集|自然语言处理数据集

数据集:CUGE

数据集地址:CUGE|自然语言处理数据集|中文语言理解与生成数据集

数据集:decaNLP

数据集地址:decaNLP (Natural Language Decathlon Benchmark)|自然语言处理数据集|多任务学习数据集

数据集:DS-1000

数据集地址:xlangai/DS-1000|代码生成数据集|文本生成数据集

数据集:EcomGPT eval

数据集地址:EcomGPT eval

数据集:EmotionBench

数据集地址:EmotionBench

数据集:FACTOR

数据集地址:Wiki-FACTOR, News-FACTOR, Expert-FACTOR|语言模型评估数据集|事实准确性数据集

数据集:FActScore

数据集地址:FActScore

数据集:FactualityPrompt

数据集地址:FactualityPrompt

数据集:FairEval

数据集地址:FairEval

数据集:FewCLUE

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:FinancelQ

数据集地址:FinancelQ

数据集:FinBen

数据集地址:FinBen|金融科技数据集|语言模型评估数据集

数据集:FinEval

数据集地址:SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集

数据集:FlagEval

数据集地址:FlagEval

数据集:FLUE

数据集地址:FLUE

数据集:FreshQA

数据集地址:FreshQA

数据集:GAOKAO-Bench

数据集地址:GAOKAO-Bench|中国高考数据集|测评数据集数据集

数据集:GeoBench

数据集地址:GeoBench

数据集:GLUE

数据集地址:GLUE

数据集:GLUE-X

数据集地址:GLUE-X

数据集:HalluQA

数据集地址:HalluQA 中文大模型幻觉评估数据集|中文语言处理数据集|机器学习评估数据集

数据集:HaluEval

数据集地址:HaluEval|语言模型评估数据集|幻觉检测数据集

数据集:HELM

数据集地址:HELM|自然语言处理数据集|语言模型评估数据集

数据集:HuaTuo26M-test

数据集地址:FreedomIntelligence/huatuo26M-testdatasets|自然语言生成数据集|医学数据集

数据集:HumanEval

数据集地址:openai/openai_humaneval|代码生成数据集|Python编程数据集

数据集:HumanEvalPack

数据集地址:bigcode/humanevalpack|代码生成数据集|多语言编程数据集

数据集:InfiniteBench

数据集地址:xinrongzhang2022/InfiniteBench|自然语言处理数据集|长上下文评估数据集

数据集:KoLA

数据集地址:KoLA|语言模型评估数据集|知识导向基准数据集

数据集:LAiW

数据集地址:LAiW|法律领域数据集|语言模型评估数据集

数据集:LawBench

数据集地址:LawBench|法律数据集|模型评估数据集

数据集:LegalBench

数据集地址:nguha/legalbench|法律推理数据集|自然语言处理数据集

数据集:L-Eval

数据集地址:L4NLP/LEval|自然语言处理数据集|长文本理解数据集

数据集:LexGLUE

数据集地址:LexGLUE|法律文本理解数据集|自然语言处理数据集

数据集:LEXTREME

数据集地址:joelniklaus/lextreme|自然语言处理数据集|法律文本分析数据集

数据集:LILA

数据集地址:allenai/lila

数据集:LLMEVAL-1

数据集地址:LLMEVAL-1

数据集:LLMEVAL-2

数据集地址:LLMEVAL-2

数据集:LLMEVAL-3

数据集地址:LLMEVAL-3

数据集:LLMEval2

数据集地址:LLMEval2

数据集:LMentry

数据集地址:LMentry|语言模型测试数据集|基准评估数据集

数据集:LMExamQA

数据集地址:LMExamQA

数据集:LongBench

数据集地址:THUDM/LongBench|长上下文理解数据集|多语言多任务数据集

数据集:LongEval

数据集地址:LongEval

数据集:LooGLE

数据集地址:bigai-nlco/LooGLE|大型语言模型数据集|长上下文理解数据集

数据集:MCTS

数据集地址:MCTS|文本简化数据集|语言处理数据集

数据集:miniF2F_v1

数据集地址:miniF2F_v1

数据集:MINT

数据集地址:MINT

数据集:MMCU

数据集地址:MMCU

数据集:MMLU

数据集地址:MMLU

数据集:MT-Bench

数据集地址:MT-Bench

数据集:MTPB

数据集地址:MTPB

数据集:MultiMedQA

数据集地址:katielink/healthsearchqa|医疗问答数据集|消费者健康数据集

数据集:M3Exam

数据集地址:M3Exam|多语言评估数据集|多模态评估数据集

数据集:M3KE

数据集地址:TJUNLP/M3KE|自然语言处理数据集|知识评估数据集

数据集:NeuLR

数据集地址:NeuLR

数据集:ODEX

数据集地址:ODEX

数据集:Owl-Bench

数据集地址:Owl-Bench

数据集:PandaLM_testset

数据集地址:PandaLM测试数据集|语言模型评估数据集|人工标注数据集

数据集:PromptBench

数据集地址:PromptBench

数据集:PromptCBLUE

数据集地址:PromptCBLUE|医学领域数据集|语言模型评估数据集

数据集:QiZhenGPT_eval

数据集地址:QiZhenGPT_eval

数据集:RAFT

数据集地址:ought/raft|自然语言处理数据集|机器学习数据集

数据集:SafetyBench

数据集地址:thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集

数据集:Safety-Prompts

数据集地址:thu-coai/Safety-Prompts

数据集:SCALE

数据集地址:SCALE

数据集:SCIBENCH

数据集地址:SciBench|科学问题解决数据集|教育评估数据集

数据集:SentEval

数据集地址:SentEval|自然语言处理数据集|句子嵌入数据集

数据集:ScienceQA

数据集地址:ScienceQA

数据集:SocKET

数据集地址:SocKET|自然语言处理数据集|社会知识测试数据集

数据集:SuperCLUE

数据集地址:SuperCLUE|自然语言处理数据集|测评数据集数据集

数据集:SuperCLUE-Agent

数据集地址:SuperCLUE-Agent

数据集:SuperCLUE-Safety

数据集地址:SuperCLUE-Safety

数据集:SuperGLUE

数据集地址:SuperGLUE|语言理解数据集|机器学习数据集

数据集:TabMWP

数据集地址:TabMWP|自然语言处理数据集|数据推理数据集

数据集:TheoremQA

数据集地址:TheoremQA|定理问答数据集|AI评估数据集

数据集:ToolBench

数据集地址:ToolBench|API工具使用数据集|指令生成数据集

数据集:TRUSTGPT

数据集地址:TRUSTGPT

数据集:TruthfulQA

数据集地址:TruthfulQA|自然语言处理数据集|知识验证数据集

数据集:Vicuna Evaluation

数据集地址:Vicuna Evaluation

数据集:XiezhiBenchmark

数据集地址:XiezhiBenchmark

数据集:XNLI

数据集地址:XNLI (Cross-lingual NLI)|自然语言推理数据集|跨语言数据集

数据集:XTREME

数据集地址:google/xtreme

数据集:ZeroSCROLLS

数据集地址:tau/zero_scrolls|自然语言处理数据集|长文本理解数据集

五、Traditional NLP Datasets (传统NLP数据集)

传统NLP数据集(154个)

根据任务类型进行分类问答、文本蕴涵、数学、指代消解、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本到代码、命名实体识别、关系抽取、多任务等

传统NLP数据集的不同NLP任务类别

37个阅读理解数据集

阅读理解数据集

数据集:BoolQ

数据集地址:The BoolQ Dataset|自然语言推理数据集|问答系统数据集

数据集:CondaQA

数据集地址:lasha-nlp/CONDAQA|自然语言处理数据集|阅读理解数据集

数据集:CosmosQA

数据集地址:allenai/cosmos_qa|常识推理数据集|机器阅读理解数据集

数据集:C3

数据集地址:C3|机器阅读理解数据集|自然语言处理数据集

数据集:DREAM

数据集地址:DREAM|对话理解数据集|阅读理解数据集

数据集:DuReader Yes/No

数据集地址:DuReaderrobust|机器阅读理解数据集|数据集数据集

数据集:MCTest

数据集地址:sagnikrayc/mctest

数据集:MultiRC

数据集地址:CogComp/eraser_multi_rc|阅读理解数据集|多句问题处理数据集

数据集:PubMedQA

数据集地址:qiaojin/PubMedQA|医学信息检索数据集|自然语言处理数据集

数据集:QuAIL

数据集地址:QuAIL

数据集:RACE

数据集地址:ehovy/race|阅读理解数据集|自然语言处理数据集

数据集:ReClor

数据集地址:ReClor

数据集:ChID

数据集地址:thu-coai/chid|中文成语数据集|语言测试数据集

数据集:CLOTH

数据集地址:AndyChiang/cloth|语言学习数据集|完形填空数据集

数据集:CMRC2019

数据集地址:CMRC 2019|机器阅读理解数据集|自然语言处理数据集

数据集:LAMBADA

数据集地址:cimec/lambada|自然语言处理数据集|文本理解数据集

数据集:Adversarial QA

数据集地址:UCLNLP/adversarial_qa|自然语言处理数据集|机器学习数据集

数据集:CMRC2018

数据集地址:CMRC 2018|机器阅读理解数据集|中文文本处理数据集

数据集:CUAD

数据集地址:cuad-qa

数据集:Dureader Checklist

数据集地址:Dureader Checklist

数据集:DuReader Robust

数据集地址:DuReader Robust

数据集:HOTPOTQA

数据集地址:hotpotqa/hotpot_qa|问答系统数据集|自然语言处理数据集

数据集:MLQA

数据集地址:facebook/mlqa|跨语言问答数据集|多语言数据集数据集

数据集:MS MARCO

数据集地址:microsoft/ms_marco|机器阅读理解数据集|自然语言生成数据集

数据集:Natural Questions

数据集地址:google-research-datasets/natural_questions|问答系统数据集|自然语言处理数据集

数据集:QuAC

数据集地址:allenai/quac|问题回答数据集|自然语言处理数据集

数据集:Quoref

数据集地址:quoref

数据集:ReCoRD

数据集地址:ReCoRD

数据集:SQuAD

数据集地址:rajpurkar/squad|自然语言处理数据集|阅读理解数据集

数据集:SQuAD 2.0

数据集地址:SQuAD 2.0

数据集:TriviaQA

数据集地址:TriviaQA|自然语言处理数据集|机器学习数据集

数据集:TyDIQA

数据集地址:google-research-datasets/tydiqa|多语言问答数据集|自然语言处理数据集

数据集:CoQA

数据集地址:CoQA

数据集:DROP

数据集地址:DROP

数据集:DuoRC

数据集地址:ibm/duorc|文本理解数据集|文本生成数据集

数据集:DuReader 2.0

数据集地址:DuReader 2.0

数据集:QASPER

数据集地址:allenai/qasper|自然语言处理数据集|问答系统数据集

13个知识问答数据集

知识问答数据集

数据集:ARC

数据集地址:allenai/ai2_arc|自然语言处理数据集|机器学习数据集

数据集:CMD

数据集地址:CMD

数据集:cMedQA2

数据集地址:cMedQA2|医疗问答数据集|数据隐私数据集

数据集:CommonsenseQA

数据集地址:CommonsenseQA|常识推理数据集|自然语言处理数据集

数据集:OpenBookQA

数据集地址:allenai/openbookqa|问答系统数据集|语言理解数据集

数据集:PIQA

数据集地址:ybisk/piqa|问答系统数据集|物理常识推理数据集

数据集:SciQ

数据集地址:allenai/sciq|科学教育数据集|自然语言处理数据集

数据集:JEC-QA

数据集地址:JEC-QA|法律考试数据集|问答系统数据集

数据集:WebMedQA

数据集地址:webMedQA|医学问答数据集|自然语言处理数据集

数据集:PsyQA

数据集地址:PsyQA

数据集:HEAD-QA

数据集地址:dvilares/head_qa|医疗数据集|问答系统数据集

数据集:ECQA

数据集地址:ECQA

数据集:WikiQA

数据集地址:microsoft/wiki_qa|问答系统数据集|自然语言处理数据集

13个推理问答数据集

推理问答数据集

数据集:COPA

数据集地址:COPA

数据集:CREAK

数据集地址:CREAK

数据集:HellaSwag

数据集地址:HellaSwag|自然语言处理数据集|常识推理数据集

数据集:LogiQA

数据集地址:LogiQA|逻辑推理数据集|机器阅读理解数据集

数据集:PROST

数据集地址:corypaik/prost|物理推理数据集|自然语言处理数据集

数据集:QASC

数据集地址:allenai/qasc|自然语言处理数据集|教育数据集

数据集:QuaRel

数据集地址:QuaRel

数据集:QuaRTz

数据集地址:allenai/quartz|自然语言处理数据集|定性关系理解数据集

数据集:ROPES

数据集地址:allenai/ropes|自然语言处理数据集|推理能力数据集

数据集:Social IQa

数据集地址:allenai/social_i_qa|社交智能数据集|问答系统数据集

数据集:StoryCloze

数据集地址:LSDSem/story_cloze|故事理解数据集|常识推理数据集

数据集:STRATEGYQA

数据集地址:STRATEGYQA

数据集:WIQA

数据集地址:wiqa

10个识别文本蕴含数据集

识别文本蕴含数据集

数据集:ANLI

数据集地址:Adversarial NLI (ANLI)|自然语言处理数据集|对抗性训练数据集

数据集:CINLID

数据集地址:CINLID

数据集:CMNLI

数据集地址:CMNLI|自然语言处理数据集|文本对关系判断数据集

数据集:CommitmentBank

数据集地址:CommitmentBank (CB)|语言学数据集|语用学数据集

数据集:MedNLI

数据集地址:bigbio/mednli|医疗信息处理数据集|自然语言处理数据集

数据集:MultiNLI

数据集地址:nyu-mll/multi_nli|自然语言处理数据集|文本蕴含数据集

数据集:OCNLI

数据集地址:OCNLI|自然语言处理数据集|自然语言推理数据集

数据集:RTE

数据集地址:RTE|自然语言处理数据集|机器学习数据集

数据集:SNLI

数据集地址:stanfordnlp/snli|自然语言处理数据集|文本分类数据集

数据集:WANLI

数据集地址:alisawuffles/WANLI|自然语言推理数据集|人工智能数据集

9个数学数据集

数学数据集

数据集:Ape210K

数据集地址:Ape210K|自然语言处理数据集|数学问题解答数据集

数据集:AQUA-RAT

数据集地址:deepmind/aqua_rat|代数问题解答数据集|自然语言处理数据集

数据集:ASDiv

数据集地址:ASDiv|数学问题求解数据集|逻辑推理数据集

数据集:GSM8K

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

数据集:MATH

数据集地址:MATH

数据集:MathQA

数据集地址:allenai/math_qa|数学问题解答数据集|自然语言处理数据集

数据集:Math23K

数据集地址:Math23K (Math23K for Math Word Problem Solving)|自然语言处理数据集|数学问题解答数据集

数据集:NaturalProofs

数据集地址:NaturalProofs|数学证明数据集|自然语言处理数据集

数据集:SVAMP

数据集地址:SVAMP

6个共指消解数据集

共指消解数据集

数据集:CLUEWSC2020

数据集地址:CLUEWSC2020|自然语言处理数据集|中文文本分析数据集

数据集:DPR

数据集地址:community-datasets/definite_pronoun_resolution|词义消歧数据集|自然语言处理数据集

数据集:WiC

数据集地址:WiC|自然语言处理数据集|词义消歧数据集

数据集:WinoGrande

数据集地址:allenai/winogrande|常识推理数据集|文本理解数据集

数据集:WinoWhy

数据集地址:WinoWhy

数据集:WSC

数据集地址:ErnestSDavis/winograd_wsc|语言理解数据集|技术挑战数据集

4个情感分析数据集

情感分析数据集

数据集:EPRSTMT

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IMDB

数据集地址:stanfordnlp/imdb|情感分析数据集|文本分类数据集

数据集:Sentiment140

数据集地址:stanfordnlp/sentiment140|情感分析数据集|文本分类数据集

数据集:SST-2

数据集地址:stanfordnlp/sst2|情感分析数据集|自然语言处理数据集

10个语义匹配数据集

语义匹配数据集

数据集:AFQMC

数据集地址:AFQMC(Ant Financial Question Matching Corpus)|自然语言处理数据集|金融文本分析数据集

数据集:BQ

数据集地址:shibing624/nli_zh|自然语言处理数据集|语义匹配数据集

数据集:BUSTM

数据集地址:BUSTM|智能助手数据集|语音识别数据集

数据集:DuQM

数据集地址:DuQM

数据集:LCQMC

数据集地址:C-MTEB/LCQMC|自然语言处理数据集|句子相似度数据集

数据集:MRPC

数据集地址:MRPC (Microsoft Research Paraphrase Corpus)|自然语言处理数据集|文本分析数据集

数据集:PAWS

数据集地址:google-research-datasets/paws|paraphrase识别数据集|文本分类数据集

数据集:PAWS-X

数据集地址:PAWS-X

数据集:QQP

数据集地址:QQP|自然语言处理数据集|文本匹配数据集

数据集:STSB

数据集地址:PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集

4个文本生成数据集

文本生成数据集

数据集:CommonGen

数据集地址:allenai/common_gen|文本生成数据集|常识推理数据集

数据集:DART

数据集地址:Yale-LILY/dart|文本生成数据集|数据转换数据集

数据集:E2E

数据集地址:tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集

数据集:WebNLG

数据集地址:webnlg-challenge/web_nlg|自然语言生成数据集|数据到文本转换数据集

3个文本翻译数据集

数据集:IWSLT 2017

数据集地址:IWSLT/iwslt2017|机器翻译数据集|多语种数据集

数据集:NLLB

数据集地址:NLLB

数据集:WMT

数据集地址:WMT

14个文本摘要数据集

文本摘要数据集

数据集:AESLC

数据集地址:Yale-LILY/aeslc|邮件主题生成数据集|电子邮件分析数据集

数据集:CNewSum

数据集地址:CNewSum|中文文本摘要数据集|自然语言处理数据集

数据集:CNN-DM

数据集地址:abisee/cnn_dailymail|新闻摘要数据集|文本生成数据集

数据集:Gigaword

数据集地址:GigaWord|自然语言处理数据集|文本摘要数据集

数据集:LCSTS

数据集地址:LCSTS|文本摘要数据集|自然语言处理数据集

数据集:MediaSum

数据集地址:ccdv/mediasum|对话摘要数据集|自然语言处理数据集

数据集:MultiNews

数据集地址:alexfabbri/multi_news|新闻摘要数据集|数据分析数据集

数据集:Newsroom

数据集地址:lil-lab/newsroom|新闻摘要数据集|文本生成数据集

数据集:Opinion Abstracts

数据集地址:Opinion Abstracts

数据集:SAMSum

数据集地址:Samsung/samsum|对话摘要数据集|自然语言处理数据集

数据集:WikiHow

数据集地址:WikiHow|文本挖掘数据集|自然语言处理数据集

数据集:WikiLingua

数据集地址:WikiLingua|跨语言摘要数据集|多语言数据集数据集

数据集:XL-Sum

数据集地址:csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集

数据集:XSum

数据集地址:EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集

6个文本分类数据集

文本分类数据集

数据集:AGNEWS

数据集地址:fancyzhx/ag_news|文本分类数据集|新闻主题分类数据集

数据集:CSLDCP

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IFLYTEK

数据集地址:IFLYTEK

数据集:MARC

数据集地址:defunct-datasets/amazon_reviews_multi|多语言文本处理数据集|情感分析数据集

数据集:THUCNews

数据集地址:THUCNews 新闻数据集|新闻分类数据集|文本分析数据集

数据集:TNEWS

数据集地址:TNews|文本分类数据集|机器学习数据集

4个文本质量评估数据集信息

文本质量评估数据集

数据集:CoLA

数据集地址:CoLA (Corpus of Linguistic Acceptability)|语言学数据集|自然语言处理数据集

数据集:CSCD-IME

数据集地址:CSCD-NS|中文拼写检查数据集|自然语言处理数据集

数据集:SIGHAN

数据集地址:SIGHAN

数据集:YACLC

数据集地址:汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集

4个文本转代码数据集

文本转代码数据集

数据集:CSpider

数据集地址:CSpider

数据集:DuSQL

数据集地址:DuSQL

数据集:MBPP

数据集地址:MBPP

数据集:Spider

数据集地址:Spider|语义解析数据集|文本到SQL数据集

10个命名实体识别数据集

命名实体识别数据集

数据集:CLUENER

数据集地址:CLUENER2020|命名实体识别数据集|信息提取数据集

数据集:CoNLL2003

数据集地址:eriktks/conll2003|命名实体识别数据集|自然语言处理数据集

数据集:Few-NERD

数据集地址:Few-NERD|命名实体识别数据集|自然语言处理数据集

数据集:MSRA

数据集地址:levow/msra_ner|命名实体识别数据集|中文NLP数据集

数据集:OntoNotes 5.0

数据集地址:ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集

数据集:Resume

数据集地址:Resume

数据集:Taobao NER

数据集地址:E-Commercial NER Dataset / 电商NER数据集|自然语言处理数据集|电子商务数据集

数据集:Weibo NER

数据集地址:Weibo NER

数据集:WUNT2017

数据集地址:leondz/wnut_17|命名实体识别数据集|文本分类数据集

数据集:Youku NER

数据集地址:Youku NER Dataset / 文娱NER数据集|自然语言处理数据集|命名实体识别数据集

4个关系抽取数据集

关系抽取数据集

数据集:Dialogue RE

数据集地址:Dialogue RE

数据集:DocRED

数据集地址:DocRED|文档级关系抽取数据集|自然语言处理数据集

数据集:FewRel

数据集地址:FewRel|少样本学习数据集|关系分类数据集

数据集:TACRED

数据集地址:DFKI-SLT/tacred|关系抽取数据集|知识库构建数据集

3个多任务数据集信息汇总

多任务数据集

数据集:CSL

数据集地址:CSL-500|自然语言处理数据集|文本分析数据集

数据集:METS-CoV

数据集地址:METS-CoV|COVID-19数据集|社交媒体分析数据集

数据集:QED

数据集地址:QED|语言学数据集|问答系统数据集

新的一年,祝大家

眼里有光,兜里有款。

日有熹,月有光,富且昌,寿而康。

好风凭借力,送你上青云。

愿每个人都能在自己的江湖里执梦为剑,潇洒快意!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025届优秀大数据毕业设计

【2025计算机毕业设计】计算机毕业设计100个高通过率选题推荐,毕业生毕设必看选题指导,计算机毕业设计选题讲解,毕业设计选题详细指导_哔哩哔哩_bilibili 985华南理工大学学长 大厂全栈,大数据开发工程师 专注定制化开发

免费在腾讯云Cloud Studio部署DeepSeek-R1大模型

2024年2月2日,腾讯云宣布DeepSeek-R1大模型正式支持一键部署至腾讯云HAI(高性能应用服务)。开发者仅需3分钟即可完成部署并调用模型,大幅简化了传统部署流程中买卡、装驱动、配网络、配存储、装环境、装框架、下载模型等繁琐步骤。…

【C++高并发服务器WebServer】-17:阻塞/非阻塞和同步/异步、五种IO模型、Web服务器

本文目录 一、阻塞/非阻塞、同步/异步1.1 辨析1.2 异步io接口 二、五种IO模型2.1 阻塞 blocking 模型2.2 非阻塞 NIO 模型2.3 IO多路复用2.4 信号驱动Signal-driven2.5 异步 三、Web Sever 网页服务器3.1 HTTP的请求响应步骤3.2 HTTP请求与响应报文格式3.3 HTTP请求方法3.4 HTT…

【MySQL例题】我在广州学Mysql 系列——有关数据备份与还原的示例

ℹ️大家好,我是练小杰,今天周二,明天就是元宵节了呀!!😆 俗话说“众里寻他千百度。蓦然回首,那人却在,灯火阑珊处。” 本文主要对数据库备份与还原的知识点例题学习~~ 前情回顾&…

自动化xpath定位元素(附几款浏览器xpath插件)

在 Web 自动化测试、数据采集、前端调试中,XPath 仍然是不可或缺的技能。虽然 CSS 选择器越来越强大,但面对复杂 DOM 结构时,XPath 仍然更具灵活性。因此,掌握 XPath,不仅能提高自动化测试的稳定性,还能在爬…

【并发控制、更新、版本控制】.NET开源ORM框架 SqlSugar 系列

系列文章目录 🎀🎀🎀 .NET开源 ORM 框架 SqlSugar 系列 🎀🎀🎀 文章目录 系列文章目录一、并发累计(累加)1.1 单条批量累计1.2 批量更新并且字段11.3 批量更新并且字段list中对应的…

数据存储和操作:数据管理的基石

在数据管理的庞大体系中,数据存储和操作是确保数据可用性和完整性的关键环节。它不仅涉及数据的物理存储,还包括数据的管理、维护和优化。今天,让我们深入《DAMA数据管理知识体系指南(第二版)》的第六章,一…

Redis 数据类型 Hash 哈希

在 Redis 中,哈希类型是指值本⾝⼜是⼀个键值对结构,形如 key "key",value { { field1, value1 }, ..., {fieldN, valueN } },Redis String 和 Hash 类型⼆者的关系可以⽤下图来表⽰。 Hash 数据类型的特点 键值对集合…

支持向量机原理

支持向量机(简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域。如果不考虑集成学习的算法,不考虑特定的训练数据集,尤其在分类任务中表现突出。在分类算法中的表现SVM说是排…

zy.21

PHP(续) PHP代码执行漏洞 1.PHP中代码漏洞的概念 代码执行漏洞就是在代码中若存在eval、assert等能将所接收的参数作为代码去执行,并且拼接的内容可被访问者控制,也就是把传入的参数给拼接进去了,造成了额外的代码执行,也就造成了代码执行漏洞。(大概原理&#x…

LSTM 学习笔记 之pytorch调包每个参数的解释

0、 LSTM 原理 整理优秀的文章 LSTM入门例子:根据前9年的数据预测后3年的客流(PyTorch实现) [干货]深入浅出LSTM及其Python代码实现 整理视频 李毅宏手撕LSTM [双语字幕]吴恩达深度学习deeplearning.ai 1 Pytorch 代码 这里直接调用了nn.l…

React - 事件绑定this

在 React 中,this 的绑定是一个常见问题,尤其在类组件中使用事件处理函数时。JavaScript 中的 bind 函数用于设置函数调用时 this 的值。 bind 函数的作用 bind() 方法创建一个新的函数,当被调用时,其 this 关键字被设置为提供的…

Web3 的虚实融合之路:从虚拟交互到元宇宙构建

在这个数字技术日新月异的时代,我们正站在 Web3 的门槛上,见证着互联网的又一次革命。Web3 不仅仅是技术的迭代,它代表了一种全新的交互方式和价值创造模式。本文将探讨 Web3 如何推动虚拟交互的发展,并最终实现元宇宙的构建&…

Kafka简单使用

说明:kafka是一款消息中间件,可实现微服务之间的异步调用。本文介绍kafka的简单使用。windows操作系统下的kafka安装,参考下面这篇文章 Kafka安装 启动 按照上面博客的介绍,使用CMD命令启动,如下: Demo …

【原创精品】基于Springboot3+Vue3的学习计划管理系统

大家好,我是武哥,最近给大家手撸了一个基于SpringBoot3Vue3的学习计划管理系统,可用于毕业设计、课程设计、练手学习,系统全部原创,如有遇到网上抄袭站长的,欢迎联系博主~ 项目演示视频 https://www.bili…

C++引用深度详解

C引用深度详解 前言1. 引用的本质与核心特性1.1 引用概念1.2 核心特性 2. 常引用与权限控制2.1 权限传递规则2.2 常量引用2.3 临时变量保护1. 样例2. 样例3. 测试 三、引用使用场景分析3.1 函数参数传递输出型参数避免多级指针高效传参 3.2 做函数返回值正确使用危险案例 4. 性…

本地部署Deepseek R1

使用Ollama open-webui部署Deepseek R1 一、安装Ollama 官网地址:https://ollama.com/,点击下载按钮选择windows版本。并安装 打开命令提示符输入ollama,出现一下提示命令表示ollama安装完成 二、使用Ollama下载deepseek R1不同模型 打开o…

MATLAB 生成脉冲序列 pulstran函数使用详解

MATLAB 生成脉冲序列 pulstran函数使用详解 目录 前言 一、参数说明 二、示例一 三、示例二 总结 前言 MATLAB中的pulstran函数用于生成脉冲序列,支持连续或离散脉冲。该函数通过将原型脉冲延迟并相加,生成脉冲序列,适用于信号处理和系统…

机器学习(李宏毅)——self-Attention

一、前言 本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!! 二、大纲 何为self-Attention?原理剖析self-Attention VS CNN、RNN、GNN 三、何为self-Attenti…

RagFlow + Docker Desktop + Ollama + DeepSeek-R1本地部署自己的本地AI大模型工具

前期准备 首先,我们需要下载 Ollama 以及配置相关环境。 Ollama 的 GitHub仓库 (https://github.com/ollama/ollama)中提供了详细的说明,简单总结如下: Step1:下载 Ollama 下载(https://ollama.com/dow…