7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

推荐:使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景

NLP现在是一个令人兴奋的领域,特别是在像AutoNLP这样的用例中,但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中,试图吸收所有内容。

要意识到的是,当涉及到NLP时,你无法真正学习所有东西,因为它是一个广阔的领域,但你可以尝试取得渐进式的进步。当你坚持不懈时,你可能会发现你知道的比房间里的其他人都多。就像其他所有事情一样,这里的主要事情是采取这些渐进的步骤。

您需要采取的第一步是在数据集上训练您的 NLP 模型。创建自己的数据集是一项繁重的工作,在刚开始时实际上是不必要的。

每天都有无数的开源数据集发布,专注于单词、文本、语音、句子、俚语以及您能想到的任何其他内容。请记住,开源数据集并非没有问题。不幸的是,在抓取任何旧数据集进行测试时,您必须处理偏见、不完整的数据和一系列其他问题。

但是,网上有几个地方在策划数据集方面做得很好,可以更轻松地找到您要查找的内容:

  • Papers With Code - 近 5,000 个机器学习数据集被分类且易于查找。
  • Hugging Face - 一个很好的网站,用于查找专注于音频、文本、语音和其他专门针对 NLP 的数据集的数据集。

话虽如此,以下列表是我们推荐的一些最佳开源数据集来开始学习 NLP,或者您可以尝试各种模型并按照以下步骤操作。

1. Quora Question Insincerity Dataset

这个数据集非常有趣。在Kaggle上的NLP挑战赛中,我们提供了一个分类数据集,您必须根据问题内容预测问题是否有毒。使这个数据集变得无价的另一件事是各种Kaggle用户的伟大内核。

在同一个数据集上有许多不同的帖子,如果你想从NLP开始,这可能会有很大帮助。

  • 文章,深度学习的文本预处理方法,包含适用于深度学习模型的预处理技术,我们在其中讨论增加嵌入覆盖率。
  • 在第二篇文章“文本分类的常规方法”中,我们尝试带您了解一些基本的常规模型,如TFIDF,Countvectorizer,哈希等,这些模型已用于文本分类,并尝试访问其性能以创建基线。
  • 您可以在注意力、CNN 和文本分类文章中深入研究深度学习模型,该文章侧重于解决文本分类问题的不同体系结构。
  • 这里有一个关于使用BERT和ULMFit的迁移学习。

2. Stanford Question Answering Dataset (SQuAD)

斯坦福问答数据集(SQuAD)是源自维基百科文章的问答对的集合。

简而言之,在这个数据集中,我们得到了一个问题和一个文本,其中问题的答案在于。然后的任务是找出文本中答案所在的跨度。此任务通常称为问答任务。

如果您想更深入地研究,请查看通过Hugging Face理解BERT文章,其中分享了如何使用此数据集和BERT模型使用拥抱面孔库预测问题的答案。

3. UCI ML Drug Review Dataset

药物审查使用NLP预测疾病状况,照片由Michał Parzuchowski在Unsplash上拍摄。

你能根据药物审查预测疾病状况吗?UCI ML 药物评论数据集提供特定药物和相关条件的患者评论,以及反映整体患者满意度的 10 星患者评分系统。

该数据集可用于多类分类,如使用深度学习进行端到端多类文本分类中所述,还可以尝试使用各种数字特征以及文本来使用此数据集来解决多类问题。

4. Yelp Reviews Dataset

你喜欢食物,并希望创建一个好的评论网站吗?

这个Yelp数据集让你有Yelp餐厅评论以及其他信息,如JSON格式的类别、营业时间和关门时间。可以尝试解决的问题之一是创建一个系统将菜肴分类。或者将其用于命名实体识别 (NER) 以在评论中找出菜肴。你能找到或创建一个关于Yelp如何获得餐厅评论亮点的系统吗?

这也是理解Yelp业务和搜索的良好数据集。天空是您希望如何使用此数据集的限制。

5. IMDB Movie Dataset

IMDB电影信息的NLP开源数据集,照片由Marques Kaspbrak在Unsplash上拍摄。

寻找下一部要看的电影?此数据集包含来自 IMDB 的 50k 电影的电影描述、平均评分、票数、类型和演员信息。

同样,这个数据集可以以多种方式使用,而不仅仅是从NLP的角度来看。使用此数据集的最常见方法是构建推荐引擎、类型分类和查找类似的电影。

6. 20 Newsgroups

18 个新闻组数据集包含大约 000,<> 个关于 <> 个主题的新闻组帖子。主题多种多样,范围从体育、无神论、政治等。

这是一个多类分类数据集,但您也可以使用此数据集来学习主题建模,如 Python 中使用 Gensim-LDA 进行主题建模中所述。

 

7.IWSLT (International Workshop on Spoken Language Translation) Dataset

这个机器翻译数据集是用于翻译任务的事实标准,包含德语、英语、意大利语、荷兰语和罗马尼亚语的 TED 和 TEDx 演讲的翻译。这意味着您将能够在任意一对这些语言之间训练翻译人员。

另一个好处是可以使用torchtext.datasets通过PyTorch访问它。

如果您想更深入地了解如何使用此数据集来创建自己的转换器,我们将介绍BERT变压器及其工作原理,您还可以了解有关如何使用BERT从头开始创建转换器的更多信息。您可以了解有关NLP的更多信息并解决各种任务,并且还提供了一些可以使用这些数据集解决问题的途径。

原文链接:7个顶级开源数据集来训练自然语言处理(NLP)和文本模型 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/31545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑蓝屏显示恢复怎么办,电脑蓝屏后出现恢复界面怎么回事

电脑蓝屏显示恢复怎么办,电脑蓝屏后出现恢复界面怎么回事 目录 下面是问题描述&#xff08;看看和你遇到的问题一不一样&#xff09; 图片一 图片二 图片三 开始解决问题 步骤 1&#xff1a;耐心等待 步骤 2&#xff1a;重启计算机 步骤 3&#xff1a;进入安全模式 步骤…

【插入排序】直接插入排序 与 希尔排序

目录 1. 排序的概念&#xff1a; 2.插入排序基本思想 3.直接插入排序 4.希尔排序 1. 排序的概念&#xff1a; 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 稳定性&#xf…

FlexRay汽车总线静电防护,如何设计保护方案图?

FlexRay是一种高速、实时、可靠、具备故障容错能力的总线技术&#xff0c;是继CAN和LIN总线之后的最新研发成果。FlexRay为线控应用&#xff08;即线控驱动、线控转向、线控制动等&#xff09;提供了容错和时间确定性性能要求。虽然FlexRay将解决当前高端和未来主流车载网络的挑…

vite+vue3项目环境搭建

1.安装 npm init vite 2.输入项目名称 vue3-project 3.选择框架 说明&#xff1a;vue 4.选择类别 说明&#xff1a;JavaScript 5.进入文件夹 cd vue3-project yarn npm run dev 6.打开local

W5500-EVB-PICO 做TCP Server进行回环测试(六)

前言 上一章我们用W5500-EVB-PICO开发板做TCP 客户端连接服务器进行数据回环测试&#xff0c;那么本章将用开发板做TCP服务器来进行数据回环测试。 TCP是什么&#xff1f;什么是TCP Server&#xff1f;能干什么&#xff1f; TCP (Transmission Control Protocol) 是一种面向连…

Untiy Json和Xml的序列化和反序列化

Json的序列化和反序列化 1.定义数据类 [Serializable] public class ZoomPoint {// 点名称, 将作为Key被字典存储public string name;// 轴心X坐标public Vector2 pivot Vector2.one / 2;// 放大倍率&#xff0c;小于1是为缩小倍率&#xff0c;小于0是取绝对值&#xff0c;不…

空降流量危机?QQ音乐升级架构应对高并发

# 关注并星标腾讯云开发者 # 每周3 | 谈谈我在腾讯的架构设计经验 # 第2期 | 赵威&#xff1a;QQ音乐评论系统如何实现高可用&#xff1f; QQ 音乐自诞生以来&#xff0c;已有多个版本的评论业务系统。最新版本是19年再次全新迭代&#xff0c;基于 tlist 存储&#xff0c;按照发…

外贸路上那些哭笑不得的事情

前几天一个老顾客在软件上联系&#xff0c;说自己上次的订货体验很满意&#xff0c;货物的质量很好&#xff0c;而且服务和回复也很及时&#xff0c; 比起他之前的供货商要好很多&#xff0c;他之前的供货商虽然货物的质量也很好&#xff0c;但是每次询问问题都是要等好久才给…

Fabric系列 - 知识点整理

知识点 源码编译 主机编译 容器编译 手动部署(docker-compose) 单peer 多peer 中途加peer 多主机多peer 链码 语法, 接口 (go版) 命令行调用 ca server 在DApp中使用SDK调用 (js版) 部署的几个阶段 部署1排序和1节点, 1组织1通道 光部署能Dapp 带ca server (每个组织一个)…

【1572. 矩阵对角线元素的和】

来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 描述&#xff1a; 给你一个正方形矩阵 mat&#xff0c;请你返回矩阵对角线元素的和。 请你返回在矩阵主对角线上的元素和副对角线上且不在主对角线上元素的和。 示例 1&#xff1a; 输入&#xff1a;mat [[1,2,3]…

Typecho建站:腾讯云轻量应用服务器搭建网站博客方法

腾讯云轻量应用服务器自带Typecho应用模板镜像&#xff0c;腾讯云提供的Typecho模板镜像是基于CentOS 7.6 64位操作系统&#xff0c;并已预置Nginx、PHP、MariaDB软件程序&#xff0c;使用Typecho应用模板可以快速搭建博客、企业官网、电商及论坛等各类网站。腾讯云服务器网分享…

【腾讯云Cloud Studio实战训练营】使用React快速构建点餐H5

文章目录 前言一、Cloud Studio是什么二、Cloud Studio特点三、Cloud Studio使用1.访问官网2.账号注册3.模板选择4.模板初始化5.H5开发安装 antd-mobile安装 Less安装 normalize上传项目需要的素材替换App.js主文件项目启动、展示 6.发布仓库 总结 前言 随着云计算产业的发展&…

勘探开发人工智能技术:机器学习(5)

0 提纲 6.1 矩阵分解 6.2 全连接 BP 神经网络 6.3 卷积神经网络 6.4 LSTM 6.5 Transformer 6.6 U-Net 1 矩阵分解 把稀疏矩阵分解成两个小矩阵的乘积, 恢复后的矩阵用于预测. 1.1 基本概念 矩阵分解是使用数学应对机器学习问题的一类典型而巧妙的方法. 矩阵分解是把将一个…

MongoDB 分片集群

在了解分片集群之前&#xff0c;务必要先了解复制集技术&#xff01; 1.1 MongoDB复制集简介 一组Mongodb复制集&#xff0c;就是一组mongod进程&#xff0c;这些进程维护同一个数据集合。复制集提供了数据冗余和高等级的可靠性&#xff0c;这是生产部署的基础。 1.1.1 复制集…

3D Web轻量化引擎HOOPS Communicator如何实现对BIM桌面端的支持?

HOOPS Communicator是一款简单而强大的工业级高性能3D Web轻量化渲染开发包&#xff0c;其主要应用于Web领域&#xff0c;主要加载其专有的SCS、SC、SCZ格式文件&#xff1b;HOOPS还拥有另一个桌面端开发包HOOPS Visualize&#xff0c;主要加载HSF、HMF轻量化格式文件。两者虽然…

那些年的Xposed开发经验记录

把之前写的Xposed相关文章合并到一块&#xff0c;方便查阅 目录 多进程App的Hook问题XposedHelper中的静态变量demo的AndroidManifest.xml的测试核心代码结论限制handleLoadPackage被单个进程多次执行的问题 多dex Hook问题为应用增加权限利用Xposed删除权限参考 Hook框架集锦…

Java基础入门篇——IDEA开发第一个入门程序(五)

目录 一、IDEA层级结构分类 二、IDEA层级结构介绍 三、IDEA层级关系 四、创建IDEA中的第一个代码 一、IDEA层级结构分类 IntelliJ IDEA的项目结构主要分为以下几个层级&#xff1a; Project&#xff1a; 项目Module: 模块Package: 包Class&#xff1a; 类 一个项目里面…

模拟实现消息队列项目(系列3) -- 服务器模块(硬盘管理)

目录 前言 1. 创建项目 2. 创建核心类 2.1 Exchange 2.2 MSQueue 2.3 Binding 2.4 Message 3. 数据库设计 3.1 SQLite 配置 3.2 Mapper层代码实现 3.2.1 创建表操作 3.2.2 交换机 队列 绑定的增加和删除 3.3 实现DataBaseManager 3.4 DataBaseManager单元测试 4.…

线性代数(三) 线性方程组向量空间

前言 如何利用行列式&#xff0c;矩阵求解线性方程组。 线性方程组的相关概念 用矩阵方程表示 齐次线性方程组&#xff1a;Ax0&#xff1b;非齐次线性方程组&#xff1a;Axb. 可以理解 齐次线性方程组 是特殊的 非齐次线性方程组 如何判断线性方程组的解 其中R(A)表示矩阵A的…

git的简单介绍和使用

git学习 1. 概念git和svn的区别和优势1.1 区别1.2 git优势 2. git的三个状态和三个阶段2.1 三个状态&#xff1a;2.2 三个阶段&#xff1a; 3. 常用的git命令3.1 下面是最常用的命令3.2 git命令操作流程图如下&#xff1a; 4. 分支内容学习4.1 项目远程仓库4.2 项目本地仓库4.3…