【数据集】多视图文本数据集

多视图文本数据集指的是包含多个不同类型或来源的信息的文本数据集。不同视图可以来源于不同的数据模式(如原始文本、元数据、网络结构等),或者不同的文本表示方法(如 TF-IDF、词嵌入、主题分布等)。这些数据集常用于多视图文本分类、文本聚类、情感分析等任务。


1. 20 Newsgroups (20NG)

  • 简介

    • 20 Newsgroups 是一个著名的文本数据集,包含 20 个不同主题的新闻组文章,涉及科技、宗教、体育等多个领域。

  • 数据规模

    • 约 20,000 篇文章,分为 20 类,每类约 1,000 篇文章。

  • 视图划分

    • 视图 1(TF-IDF 词向量):使用 TF-IDF 提取的词频特征向量。

    • 视图 2(Word2Vec 词嵌入):利用 Word2Vec 预训练模型转换成密集向量。

    • 视图 3(LDA 主题分布):使用 LDA(潜在狄利克雷分配)进行主题建模,得到文章的主题分布。

  • 适用任务

    • 多视图文本聚类、多视图分类、多模态学习。


2. Reuters-21578

  • 简介

    • Reuters-21578 是一个金融新闻数据集,包含路透社 1987 年发布的新闻稿。

  • 数据规模

    • 21,578 篇新闻,覆盖 135 个不同类别(如“贸易”、“经济”、“科技”等)。

  • 视图划分

    • 视图 1(文本内容):使用 TF-IDF 或词向量表示新闻内容。

    • 视图 2(元数据):新闻发布时间、新闻作者等信息。

    • 视图 3(类别标签):虽然是分类数据,但可用于半监督聚类。

  • 适用任务

    • 文本分类、多视图文本聚类、主题建模。


3. Amazon Reviews Multi-View Dataset

  • 简介

    • 该数据集包含亚马逊用户对商品的评论,常用于情感分析和商品推荐。

  • 数据规模

    • 数百万条商品评论,涵盖多个产品类别(如电子产品、图书、服饰等)。

  • 视图划分

    • 视图 1(评论文本):用户对产品的评论文本,TF-IDF 或 BERT 词向量表示。

    • 视图 2(评分):用户给出的 1-5 星评分(数值特征)。

    • 视图 3(商品类别):商品的分类标签,如“电子产品”或“家居用品”。

  • 适用任务

    • 多视图情感分析、用户偏好分析、个性化推荐。


4. Wikipedia Multi-View Dataset

  • 简介

    • 该数据集包含维基百科中的文章,常用于知识图谱构建和文本分类。

  • 数据规模

    • 数百万篇文章,覆盖不同领域(如科学、历史、艺术等)。

  • 视图划分

    • 视图 1(正文文本):TF-IDF 词向量或 BERT 词嵌入表示的文章内容。

    • 视图 2(超链接结构):文章之间的超链接关系,构成网络结构。

    • 视图 3(主题分布):使用 LDA 生成的主题分布。

  • 适用任务

    • 主题聚类、知识图谱构建、文本分类。


5. Twitter Multi-View Dataset

  • 简介

    • 该数据集包含推特社交媒体数据,适用于舆情分析、社交网络分析等任务。

  • 数据规模

    • 包含数百万条推文,涉及不同主题(如政治、娱乐、科技等)。

  • 视图划分

    • 视图 1(文本内容):推文的原始文本,采用 TF-IDF 或 BERT 词嵌入表示。

    • 视图 2(用户信息):用户的社交属性(关注者数量、影响力评分等)。

    • 视图 3(社交网络结构):用户之间的关注关系和互动(点赞、转发)。

  • 适用任务

    • 舆情分析、多视图社交网络聚类、热点话题检测。


6. Ohsumed Multi-View Medical Dataset

  • 简介

    • 该数据集包含医学文献,适用于医学文本分类和生物医学信息挖掘。

  • 数据规模

    • 约 343,000 篇医学文章,覆盖多个医学主题(如心血管、神经病学等)。

  • 视图划分

    • 视图 1(医学文本):使用 TF-IDF 或 BERT 表示医学摘要。

    • 视图 2(MeSH 主题标签):每篇文章的医学主题标签(如“心脏病”)。

    • 视图 3(文献引用关系):文章之间的相互引用关系,形成网络结构。

  • 适用任务

    • 医学文本分类、信息检索、临床知识挖掘。


7. Yelp Multi-View Dataset

  • 简介

    • 该数据集包含 Yelp 商户评论,适用于情感分析和商户推荐。

  • 数据规模

    • 约 600,000 条评论,覆盖 10,000+ 家商户。

  • 视图划分

    • 视图 1(评论文本):采用 TF-IDF 或 BERT 表示用户评论。

    • 视图 2(评分):用户对商户的评分(1-5 分)。

    • 视图 3(商户类别):商户的行业类别(如餐厅、酒店)。

  • 适用任务

    • 多视图情感分析、推荐系统、用户行为预测。


总结

数据集数据规模主要视图适用任务
20 Newsgroups20,000 篇新闻TF-IDF、Word2Vec、LDA文本分类、聚类
Reuters-2157821,578 篇新闻文本、元数据、类别主题建模、新闻聚类
Amazon Reviews数百万条评论文本、评分、商品类别情感分析、推荐系统
Wikipedia数百万篇文章文本、超链接、主题知识图谱、文本聚类
Twitter数百万条推文文本、用户信息、社交网络舆情分析、话题检测
Ohsumed343,000 篇医学文献医学文本、MeSH 标签、引用关系医学信息检索
Yelp600,000 条评论文本、评分、商户类别商户推荐、情感分析

后续用的时候可以来找一下。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/900079.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ 继承方式使用场景(极简版)

1. 公有继承(public) 什么时候用? “是一个”(is-a)关系:派生类 是 基类的一种。 例:class Dog : public Animal(狗是动物) 最常见,90%的继承都用它。 2. 保…

Ubuntu 系统 Docker 中搭建 CUDA cuDNN 开发环境

CUDA 是 NVIDIA 推出的并行计算平台和编程模型,利用 GPU 多核心架构加速计算任务,广泛应用于深度学习、科学计算等领域。cuDNN 是基于 CUDA 的深度神经网络加速库,为深度学习框架提供高效卷积、池化等操作的优化实现,提升模型训练…

高密度任务下的挑战与破局:数字样机助力火箭发射提效提质

2025年4月1日12时,在酒泉卫星发射中心,长征二号丁运载火箭顺利升空,成功将一颗卫星互联网技术试验卫星送入预定轨道,发射任务圆满完成。这是长征二号丁火箭的第97次发射,也是长征系列火箭的第567次发射。 执行本次任务…

关于SQL子查询的使用策略

在 SQL 优化中,一般遵循**“非必要不使用子查询”**的原则,因为子查询可能会带来额外的计算开销,影响查询效率。但是,并不是所有子查询都需要避免,有时子查询是最优解,具体要根据实际场景选择合适的优化方式…

JavaEE初阶复习(JVM篇)

JVM Java虚拟机 jdk java开发工具包 jre java运行时环境 jvm java虚拟机(解释执行 java 字节码) java作为一个半解释,半编译的语言,可以做到跨平台. java 通过javac把.java文件>.class文件(字节码文件) 字节码文件, 包含的就是java字节码, jvm把字节码进行翻译转化为…

2.pycharm保姆级安装教程

一、pycharm安装 1.官网上下载好好软,双击打开 2.下一步 3.修改路径地址 (默认也可以) 4.打勾 5.安装 不用重启电脑 二、添加解释器 1.双击软件,打开 2.projects – new project 3.指定项目名字,项目保存地址,解释器 4.右击 – …

zk基础—4.zk实现分布式功能二

大纲 1.zk实现数据发布订阅 2.zk实现负载均衡 3.zk实现分布式命名服务 4.zk实现分布式协调(Master-Worker协同) 5.zk实现分布式通信 6.zk实现Master选举 7.zk实现分布式锁 8.zk实现分布式队列和分布式屏障 4.zk实现分布式协调(Master-Worker协同) (1)Master-Worker架构…

Java 实现 字母异位词分组

在这篇博客中,我们将详细解析如何使用 Java 代码来解决 字母异位词分组这个经典的算法问题。我们会逐步分析代码逻辑,并探讨其时间复杂度及优化思路。 题目描述 给定一个字符串数组 strs,请将字母异位词组合在一起。字母异位词是指由相同字…

【Ragflow】10. 助理配置参数详细解析/模型响应加速方法

概述 Ragflow的助理配置中,有很多参数,尽管官方文档给出了一定程度的解释,但不够详细。 本文将对各项参数进行更详细的解释说明,并进一步挖掘某些参数中隐含的潜在陷阱。 助理设置 空回复 含义:输入的问题若未能在…

Mac Apple silicon如何指定运行amd64架构的ubuntu Docker?

如何指定运行amd64架构的ubuntu Docker 下面这个docker命令如何指定运行amd64架构的ubuntu Docker? docker run -it -v $(pwd):/workspace ubuntu:20.04 bash这个命令已经非常接近正确运行一个基于 amd64 架构的 Ubuntu 容器了,但如果你想明确指定运行…

ColPali:基于视觉语言模型的高效文档检索

摘要 文档是视觉丰富的结构,不仅通过文本传递信息,还包括图表、页面布局、表格,甚至字体。然而,由于现代检索系统主要依赖从文档页面中提取的文本信息来索引文档(通常是冗长且脆弱的流程),它们…

使用C++实现HTTP服务

天天开心!!! 阅读本篇文章之前,请先阅读HTTP基础知识 传送门----> HTTP基础知识 文章目录 一、CWeb服务器(核心代码WebServer.cpp)二、静态文件结构三、编译和运行四、访问测试 一、CWeb服务器&#xff…

Reactive编程入门:Project Reactor 深度指南

文章目录 4.2.1 创建 Flux 和 MonoFlux 基础创建方式高级创建模式Mono 创建方式 4.2.2 订阅与数据处理基础订阅模式数据处理操作符 4.2.3 核心操作符深度解析flatMap 操作符zip 操作符buffer 操作符 高级组合模式复杂流处理示例背压处理策略 测试响应式流性能优化技巧 React 编…

【万字总结】前端全方位性能优化指南(完结篇)——自适应优化系统、遗传算法调参、Service Worker智能降级方案

前言 自适应进化宣言 当监控网络精准定位病灶,真正的挑战浮出水面:系统能否像生物般自主进化? 五维感知——通过设备传感器实时捕获环境指纹(如地铁隧道弱光环境自动切换省电渲染) 基因调参——150个性能参数在遗传算…

PQ以及有关索引的笔记Faiss: The Missing Manual

参考Faiss 索引结构总结: 为了加深记忆,介绍一下Inverted File Index(IVF)的名字由来: IVF索引的名字源自“倒排文件”(Inverted File)的概念。在传统的信息检索中,倒排文件是一种索…

win10彻底让图标不显示在工具栏

关闭需要不显示的软件 打开 例此时我关闭了IDEA的显示 如果说只是隐藏,鼠标拖动一个道理 例QQ 如果说全部显示不隐藏

关税核爆72小时!跨境矩阵防御战紧急打响

一、T86崩塌:全球贸易链的至暗时刻 (配图:美国海关系统深夜弹出红色警报) 5月2日凌晨2:17,杭州某光伏企业的供应链系统突然发出刺耳警报——其价值1800万美元的逆变器模块被划入34%关税清单。这场代号"黑天鹅突…

蓝桥杯Java B组省赛真题题型近6年统计分类

困难题 题号题型分值代码量难度通过率内容2024-F解答1581困难0.12最短路问题 Dijkstra 期望2024-G解答20116困难0.19模拟 暴力 搜索 DFS 剪纸 枚举2023-H解答2070困难0动态规划2022-H解答20109困难0.032022-J解答25141困难0搜索2021-H解答2041困难0.18二分 思维 规律2021-I解答…

【网络流 图论建模 最大权闭合子图】 [六省联考 2017] 寿司餐厅

题目描述: P3749 [六省联考 2017] 寿司餐厅 题目描述 Kiana 最近喜欢到一家非常美味的寿司餐厅用餐。 每天晚上,这家餐厅都会按顺序提供 n n n 种寿司,第 i i i 种寿司有一个代号 a i a_i ai​ 和美味度 d i , i d_{i, i} di,i​&…

前端面试题(三):axios有哪些常用的方法

Axios 是一个基于 Promise 的 HTTP 客户端,用于浏览器和 Node.js 中发送 HTTP 请求。它提供了一些常用的方法来处理不同类型的请求。以下是 Axios 中常用的一些方法: 1. axios.get() 用于发送 GET 请求,从服务器获取数据。 axios.get(/api/d…