中文大数据训练的数据集

在训练中文大模型时,选择合适的数据集至关重要。以下是一些常用于中文大数据训练的数据集:

1. 新闻数据集

新闻数据集通常涵盖广泛的领域,包括时事、财经、体育、科技等,具有实时性和高质量的特点。

  • SogouCA:搜狗公司提供的新闻数据集,包含从2008年到2012年的大量新闻文本。
  • THUCNews:清华大学提供的一个包含743,000篇中文新闻的语料库,分为14个类别,如体育、娱乐、家居等。

2. 社交媒体数据集

社交媒体数据集包含用户生成内容,语言富有多样性和口语化。

  • Weibo数据集:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。
  • Douban评论数据集:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等。

3. 百科数据集

百科数据集通常是高质量的结构化文本,适合用于知识图谱和信息抽取任务。

  • Wikipedia中文数据集:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。
  • Baike数据集:百度百科的中文数据,包含大量高质量的条目。

4. 问答与对话数据集

这些数据集包含大量的问答和对话,对自然语言理解和生成任务非常有用。

  • XNLI:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。
  • LCQMC:一个中文问句匹配数据集,由百度提供,包含近26万个问句对。

5. 中文维基语料

来自中文维基百科的语料,具有高质量和广泛的知识覆盖面。

  • WikiQA:一个面向问题回答任务的数据集,包含从维基百科中提取的问答对。

6. 公开语料库

各大科研机构和公司发布的公开语料库,广泛应用于学术研究和工业应用中。

  • 百度中文语音数据集:百度发布的中文语音数据集,可用于训练语音识别和自然语言处理模型。
  • THU OpenChineseCorpus:清华大学发布的一个包含多种文本数据的公开语料库。

7. 机器翻译数据集

这些数据集包含大规模的平行语料,对机器翻译模型的训练非常有帮助。

  • LDC Chinese-English Data:语言数据联盟(LDC)发布的中英双语平行语料,广泛应用于机器翻译研究。
  • WMT Translation Data:WMT竞赛提供的大规模中英翻译数据集。

8. 情感分析数据集

这些数据集包含标注了情感倾向的文本,适用于情感分析和情感分类任务。

  • ChnSentiCorp:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。
  • Weibo情感分析数据集:来自新浪微博的用户评论,标注了情感倾向。

9. 法律和医疗数据集

这些领域的数据集有助于构建法律认知和医疗诊断等专业系统。

  • Chinese AI and Law Challenge Dataset:用于法律文本理解的公开数据集。
  • MedQA:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

示例:从中文维基百科提取数据

以下是一个示例脚本,展示如何使用Python从中文维基百科提取语料:

import requests
import jsondef fetch_wikipedia_data():url = 'https://zh.wikipedia.org/w/api.php'params = {'action': 'query','format': 'json','list': 'random','rnlimit': 10,'rnnamespace': 0}response = requests.get(url, params=params)data = response.json()for item in data['query']['random']:page_id = item['id']title = item['title']print(f'Fetching content for page: {title}')params = {'action': 'query','format': 'json','prop': 'extracts','explaintext': True,'pageids': page_id}response = requests.get(url, params=params)page_data = response.json()content = page_data['query']['pages'][str(page_id)]['extract']print(f'Content: {content[:100]}...')if __name__ == "__main__":fetch_wikipedia_data()

以下是一些常用的中文数据集及其获取地址:

1. SogouCA

描述:搜狗公司提供的新闻数据集,包括从2008年到2012年的大量新闻文本。

地址:SogouCA

2. THUCNews

描述:清华大学提供的一个包含743,000篇中文新闻语料的库,分为14个类别,如体育、娱乐、家居等。

地址:THUCNews

3. Weibo数据集

描述:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。适用于情感分析等任务。

地址:Weibo数据集 (2017年发布)

4. Douban评论数据集

描述:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等,适合用于情感分析和推荐系统研究。

地址:Douban评论数据集

5. Wikipedia中文数据集

描述:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。

地址:Wikipedia Dumps

6. Baike数据集

描述:百度百科的中文数据,包含大量高质量的条目,适用于知识图谱和信息抽取任务。

地址:数据集自行获取方法详见百度百科开发者文档

7. XNLI

描述:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。

地址:XNLI (Cognitive Computation Group)

8. LCQMC

描述:一个中文问句匹配数据集,由百度提供,包含近26万个问句对,适用于自然语言理解和问答系统研究。

地址:LCQMC 数据集

9. THU OpenChineseCorpus

描述:清华大学发布的一个包含多种文本数据的公开语料库,适用于多种NLP任务。

地址:THU OpenChineseCorpus

10. ChnSentiCorp

描述:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。

地址:ChnSentiCorp

11. MedQA

描述:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

地址:MedQA (DuQA公开数据)

12. LDC Chinese-English Data

描述:语言数据联盟(LDC)发布的中英双语平行语料,适用于机器翻译研究。

地址:LDC 中文-英文学术平行语料 (需要订阅服务)

13. WMT Translation Data

描述:WMT竞赛提供的大规模中英翻译数据集。

地址:WMT 竞赛数据集

示例:获取Wikipedia Dumps的数据

以下是从Wikipedia Dumps下载中文数据集的简单步骤:

  1. 访问Wikipedia Dumps的页面:Wikipedia Dumps
  2. 选择最新的dump日期文件夹,例如20230601/
  3. 下载其中的zhwiki-20230601-pages-articles-multistream.xml.bz2文件,这个文件包含了中文维基百科的所有页面。

总结

上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

shell脚本循环

循环: 循环是一种重复执行一段代码的结构。只要满足循环的条件会一直执行此代码。 组成部分:循环条件、循环体 **循环条件:**在一定范围之内,按照指定的次数来执行循环。 **循环体:**在指定的次数内,执行…

Phybers:脑纤维束分析软件包

摘要 本研究提供了一个用于分析脑纤维束数据的Python库(Phybers)。纤维束数据集包含由表示主要白质通路的3D点组成的流线(也称为纤维束)。目前已经提出了一些算法来分析这些数据,包括聚类、分割和可视化方法。由于流线的几何复杂性、文件格式和数据集的大小(可能包…

深度学习 - RNN训练过程推演

1. 数据准备 字符序列 “hello” 转换为 one-hot 编码表示: 输入: [‘h’, ‘e’, ‘l’, ‘l’]输出: [‘e’, ‘l’, ‘l’, ‘o’] 2. 初始化参数 假设我们使用一个单层的 RNN,隐藏层大小为2。初始参数如下: W x h ( 0.1 0.2 0.3 0.4…

HTML静态网页成品作业(HTML+CSS)—— 环保主题介绍网页(5个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有5个页面。 二、作品演示 三、代…

多层tablayout+ViewPager,NestedScrollView+ViewPager+RecyclerView,嵌套吸顶滑动冲突

先看实现的UI效果 其实就是仿BOSS的页面效果,第二层tab下的viewpager滑到最右边再右滑,就操作第一层viewpager滑动。页面上滑时把第一层tab和vp里的banner都推出界面,让第二层tab吸顶。 滑上去第二个tab块卡在顶部,如图 我混乱…

React 渲染函数render、初始化函数、更新函数运行了两次,原因为何,如何解决? React.StrictMode

文章目录 Intro官网解释解决另一篇官网文章——初始化函数或更新函数运行了两次 Intro 我在用 react 写一个 demo ,当我在某个自定义组件的 return 语句之前加上一句log之后,发现:每次页面重新渲染,该行日志都打印了两次&#xf…

HOW - 锚点(Anchor)导航

目录 创建锚点导航目录结构页面内容 说明样式和体验优化关键点总结 在Web开发中,锚点(Anchor)通常用于创建页面内的导航链接,使用户可以点击链接跳转到页面的特定部分。这通常通过HTML中的id属性和链接中的哈希片段实现。 以下是…

vue-loader

Vue Loader 是一个 webpack 的 loader,它允许你以一种名为单文件组件 (SFCs)的格式撰写 Vue 组件 起步 安装 npm install vue --save npm install webpack webpack-cli style-loader css-loader html-webpack-plugin vue-loader vue-template-compiler webpack…

论文阅读Rolling-Unet,卷积结合MLP的图像分割模型

这篇论文提出了一种新的医学图像分割网络Rolling-Unet,目的是在不用Transformer的前提下,能同时有效提取局部特征和长距离依赖性,从而在性能和计算成本之间找到良好的平衡点。 论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/2…

使用nmcli命令创建、删除bond

前言 在之前的文章中,描述的创建bond的方式,是使用配置文件的方式,在创建bond的时候创建一个对应的配置文件,修改、删除都操作此配置文件,这种方式实现bond没有问题,但是对于某些系统下,bond灵…

用链表实现的C语言队列

一、队列概述 在数据结构中,队列是一种先进先出(FIFO)的线性表。它在许多应用场景中非常有用,例如任务调度、进程管理、资源管理等。队列是一种重要的数据结构,其主要特点是先进先出(FIFO, First In First …

618购物狂欢节有哪些数码好物值得抢购?年终必备神器清单大揭秘!

一年一度的“618年中大促”即将拉开帷幕,大家是否已经挑选好了心仪的宝贝呢?那些平时心仪已久的商品,是否总期待着在价格最优惠时收入囊中?毫无疑问,618就是这样一个绝佳的时机,因为各大电商平台都会纷纷推…

python datetime time timedelta

datetime 参考:https://blog.csdn.net/lovedingd/article/details/134929553 time timedelta 参考:https://geek-docs.com/python/python-ask-answer/981_python_formatting_timedelta_objects.html timedelta 是 Python 中的一个类,用于…

怎样为Flask服务器配置跨域资源共享

为了在 Flask 服务器中配置跨域资源共享(CORS),你可以使用 flask-cors 扩展。这个扩展可以帮助你轻松地设置 CORS 规则,从而允许你的 Flask 服务器处理来自不同源的请求。 以下是配置 CORS 的步骤: 安装 flask-cors …

Lecture2——最优化问题建模

一,建模 1,重要性 实际上,我们并没有得到一个数学公式——通常问题是由某个领域的专家口头描述的。能够将问题转换成数学公式非常重要。建模并不是一件容易的事:有时,我们不仅想找到一个公式,还想找到一个…

ansys有限元分析

1.悬臂梁 /prep7 ! 定义单元类型 et,1,beam4 ! 定义材料属性 mp,ex,1,200e9 ! 弹性模量 mp,prxy,1,0.3 ! 泊松比 ! 定义截面属性 sectype,1,beam,rect ! 定义矩形截面 secdata,0.1,0.1 ! 截面宽度和高度 ! 创建节点 n,1,0,0,0 n,2,2,0,0 n,3,4,0,0 n,4,6,0,0 n,5,8,0,…

什么叫做数据字典

数据字典是数据库或信息系统中用来存储关于数据的信息的集合。它包括了数据项、数据结构、数据流、数据存储、处理逻辑等方面的定义和描述。数据字典为系统的分析、设计和维护提供了有关数据的信息,是数据管理和数据维护的重要工具。 通俗地说,数据字典就像是一本“字典”,…

群晖NAS安装配置Joplin Server用来存储同步Joplin笔记内容

一、Joplin Server简介 1.1、Joplin Server介绍 Joplin支持多种方式进行同步用户的笔记数据(如:Joplin自己提供的收费的云服务Joplin Cloud,还有第三方的云盘如Dropbox、OneDrive,还有自建的云盘Nextcloud、或者通过WebDAV协议来…

长沙干洗服务,打造您的专属衣橱

长沙干洗服务,用心呵护您的每一件衣物!致力于为您打造专属的衣橱,让您的每一件衣物都焕发出独特的魅力。 我们深知每一件衣物都承载着您的故事和情感,因此我们会以更加细心的态度对待每一件衣物。无论是您心爱的牛仔裤&#xff0c…

sizeof和strlen

1.sizeof和strlen的对比 1.1sizeof sizeof是计算变量所占内存空间大小的,单位是:字节 如果操作数是类型的话,计算的是使用类型创建的变量所占内存空间的大小。 sizeof只关注占用内存空间的大小,不在乎内存中存放的是什么数据 …