谣言检测常用数据集汇总

Pheme-R

获取地址:https://figshare.com/articles/dataset/PHEME_rumour_scheme_dataset_journalism_use_case/2068650
PHEME社交媒体谣言数据集:这些谣言与9条不同的突发新闻有关。它是为分析社交媒体谣言而创建的,并包含由谣言推文发起的推特对话;这些对话包括对那些谣言推文的回应。这些推文都经过注释,以获得支持、确定性和证据性。
数据集结构:
该数据集包含330个会话线程(297个英语线程,33个德语线程),每个线程都有一个文件夹,结构如下:
*source-tweets:这个文件夹包含一个json文件(源tweets)。
*reactions:这个文件夹包含所有tweets的json文件,通过回复参与对话。
*url-content:此文件夹包含从tweet指向的网页的内容。
*structure.json:该文件提供了对话的结构,从而更容易确定每个tweet的子tweet是什么,并通过将源tweet和回复放在一起来重建对话。
*retweets.json:该文件包含转发源tweet的tweet。
*who-following-whom.dat:该文件包含线程中正在关注其他人的用户。每行包含两个ID,表示具有第一个ID的用户跟随具有第二个ID的用户。注意,following不是对等的,因此,如果两个用户相互关注,那么它将被表示为两行,A B和B A。

*注释。该文件包含线程级别的手动注释,这对谣言特别有用,并包含以下字段:
** is_rumor:是谣言还是非谣言。
** category:描述谣言故事的标题,可用于与同一故事中的其他谣言分组。
** misinformation:0或1。它确定这个故事后来是否被证明是假的,在这种情况下设置为1,否则设置为0。
** true: 0或1。它确定该故事后来是否被证实为真的,在这种情况下设置为1,否则设置为0。
** is_turnaround: 0或1。如果一个帖子代表了谣言故事的转变,那么它就被标记为一个转折,要么在真实故事的情况下被证实,要么在虚假故事的情况下被揭穿。
** links:如果有,这包含了一个覆盖谣言故事的链接列表,其中包括链接的URL,媒体类型(社交媒体,新闻媒体或博客),以及它是反对,支持还是观察谣言。

在这330个对话中的4,842条推文的推文级别执行的注释可以在两个文件中找到:
*annotations/en-scheme-annotations.json (for the English threads)
*annotations/de-scheme-annotations.json (for the German threads)
每行包含一条tweet,带有事件、线程和tweet标识符,以及支持、确定性和证据性的注释。

Pheme

获取地址:https://figshare.com/articles/PHEME_dataset_for_Rumour_Detection_and_Veracity_Classification/6392078
该数据集是2016年发布的Pheme谣言和非谣言数据集(https://figshare.com/articles/PHEME_dataset_of_rumours_and_non-rumours/4010619)的延伸,它包含了与9个事件相关的谣言,每个谣言都被标注了其真实性值,即真、假或未验证。

Weibo、Twitter

获取地址:http://alt.qcri.org/~wgao/data/rumdect.zip

  • 推特数据
    Twitter.txt:该语料库总共包含992个标记事件。每行包含一个事件,其中包含相关推文的 ID:event_id、标签tweet_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。请注意,由于 Twitter 数据的使用条款,我们无法发布推文的具体内容。用户可以通过 Twitter API 自行下载内容。
    Twitter_event_claims.txt:此文件提供每个事件的主要声明的内容。每行包含一个事件,其声明由event_id和声明内容组成。

  • 微博数据(Weibo.txt):该语料库共包含4664个标记事件。每行包含一个事件,其中包含相关帖子的 ID,格式为:event_id、标签post_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。我们还以json格式发布所有帖子的内容,这些内容保存在./Weibo目录下,其中每个文件都命名为event_id.json,对应单个事件。

FakeNewsNet

获取地址:https://github.com/KaiDMML/FakeNewsNet
FakeNewsNet 包含 2 个数据集,这些数据集使用来自 Politifact 和 Gossipcop 的事件。

Twitter15、Twitter16

获取地址:https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0
数据集结构:
主目录包含两个 Twitter 数据集的目录:twitter15 和 twitter16。在每个目录中,都有:
-‘tree’ 子目录:此文件夹包含所有树文件,每个文件都对应给定源推文的树结构,其文件名由源推文 ID 指示。在树文件中,每行表示一条边,格式如下:
** 父节点 ->子节点
** 每个节点都以元组形式给出:[‘uid’, ‘tweet ID’, ‘post time delay (in minutes)’]

-label.txt 文件:此文件以如下格式提供树的真值标签:
** ‘label:源推文 ID’

-source_tweets.txt文件:此文件以如下格式提供树的源帖子内容:
** ‘源推文 ID t 源推文内容’

MR^2

SIGIR2023提出的新数据集,用于谣言检测的多模态多语言检索增强数据集。现有的数据集大多集中在单一的模态,为了将检索到的文本和图像作为更好的错误信息检测的证据。首先使用文章中的图像,通过反向图像搜索找到其他出现的图像。然后检索文本证据(即描述)并将其与帖子中的文本进行比较。同样地,使用文本来寻找其他图像作为视觉证据。包含从twitter和weibo上的中英文帖子。
获取地址:https://github.com/THU-BPM/MR2

数据集信息汇总

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/226344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

竞赛保研 python区块链实现 - proof of work工作量证明共识算法

文章目录 0 前言1 区块链基础1.1 比特币内部结构1.2 实现的区块链数据结构1.3 注意点1.4 区块链的核心-工作量证明算法1.4.1 拜占庭将军问题1.4.2 解决办法1.4.3 代码实现 2 快速实现一个区块链2.1 什么是区块链2.2 一个完整的快包含什么2.3 什么是挖矿2.4 工作量证明算法&…

flink安装

什么是flink flink是一个分布式,高性能,随时可用的以及准确的流处理计算框架, flink可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink天生支持状态计算)…

开源 CAD 计算机辅助设计软件,基于 Node.js 开发,使用浏览器进行访问-供大家学习研究参考

下载:开源CAD计算机辅助设计软件,基于Node.js开发,使用浏览器进行访问-供大家学习研究参考资源-CSDN文库 https://download.csdn.net/download/weixin_43097956/88623022

Web开发:ibatis的使用笔记

一、简介 ibatis是一个基于SQL映射支持Java和.NET的持久层框架&#xff1a; 1.如下所示id是对应程序的statement&#xff0c;resultClass需要填写SQL查询到的字段对应的类的命名空间类名&#xff08;DAO.QueryForList<实体类>&#xff09;&#xff0c;以此完成持久层和…

Redis新数据类型-Bitmaps

目录 Bitmaps 简介 命令 1. setbit (1) 格式 (2) 实例 2. getbit (1) 格式 (2) 实例 3. bitcount (1) 格式 (2) 实例 4. bitop (1) 格式 (2) 实例 我的其他博客 Bitmaps 简介 Bitmaps 是 Redis 的一种新数据类型&#xff0c;它是一种用于存储位信息的数据结构&…

【FPGA】Verilog:解码器 | 实现 2-4 解码器

实践内容&#xff1a;解释 2 至 4 解码器的结果和仿真过程 (包括真值表创建和 k 映射、AND 门&#xff09;。 0x00 解码器&#xff08;Decoder&#xff09; 解码器是一种根据输入信号从多个输出 bit 中只选择一个的设备。 例如&#xff0c;如果有一个解码器接收一个 2 位二进…

基于spacy的句法依存、实体识别、分析

文章目录 简介spaCy特性&#xff1a; 系统环境与版本安装应用示例参考文献 简介 spaCy spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。因此它是一个非常快的库。它建立在最新的研究基础上&#xff0c;从设计的第一天起就被用于实际产品中。 spaCy 自带预训练的…

好用的硬盘分区工具,傲梅分区助手 V10.2

傲梅分区助手软件可以帮助用户在硬盘上创建、调整、合并、删除分区&#xff0c;以及管理磁盘空间等操作。它可以帮助你进行硬盘无损分区操作。 支持系统 目前这款软件支持 Windows 7、Windows 8、Windows 10、Windows 11 等个人系统&#xff0c;还支持 Windows 2012/2016/2019…

五金品牌网站建设的效果如何

五金产品多而广&#xff0c;无论零售还是批发&#xff0c;都有很高需求&#xff0c;市场中也林立着众多大小品牌&#xff0c;在实际经营中&#xff0c;五金也分为多个类目&#xff0c;同时高需求下相关企业也面临着一些痛点&#xff1a; 1、品牌传播难 对普通消费者来说&…

android下的app性能测试应主要针对那些方面,如何开展?

如何开展安卓手机下的App性能测试&#xff0c;对于优秀的测试人员而言&#xff0c;除了要懂得性能测试的步骤流程外&#xff0c;还应该懂的性能测试的一些其他知识&#xff0c;比如性能测试指标、各指标的意义&#xff0c;常用的性能测试工具、如何查看结果分析等等知识。所以本…

linux空洞文件以及多线程写入

介绍空洞文件 Linux空洞文件&#xff08;hole file&#xff09;是一种特殊类型的文件&#xff0c;其大小可能超过实际存储的数据量。在空洞文件中&#xff0c;文件系统会为文件分配磁盘空间&#xff0c;但实际上只在文件中存储了部分数据&#xff0c;其余部分被称为"空洞…

linux应用程序直接return与exit的区别

在Linux应用程序中&#xff0c;可以使用return语句直接从main函数返回。这将导致程序终止并返回给操作系统。然而&#xff0c;有时候使用exit函数比直接使用return语句更有优势&#xff0c;以下是一些原因&#xff1a; 清理资源&#xff1a;exit函数可以确保在程序终止之前执行…

C/C++常见面试知识总结(三)

C语言是一种通用计算机&#xff08;高级&#xff09;编程语言&#xff1b;面向过程&#xff1b;广泛应用于计算机系统设计以及应用程序编写&#xff1b;设计目标&#xff0c;是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行…

01_Web开发基础之HTML+CSS

Web开发基础之HTMLCSS 学习目标和内容 1、能够描述Web开发需要的技术点 2、能够描述HTML的作用 3、能够实现一个列表 4、能够实现创建一个表格 5、能够实现一个表单 6、能够描述CSS的作用 7、能够使用选择器获取到标签 8、能够使用CSS设置字体的颜色和大小 一、Web开发相关介绍…

Python+Selenium UI自动化测试环境搭建及使用

一、什么是Selenium &#xff1f; Selenium 是一个浏览器自动化测试框架&#xff0c;它主要用于web应用程序的自动化测试&#xff0c;其主要特点如下&#xff1a;开源、免费&#xff1b;多平台、浏览器、多语言支持&#xff1b;对web页面有良好的支持&#xff1b;API简单灵活易…

window同时安装java8和java11

背景 在日常工作中&#xff0c;使用的工具&#xff0c;有一些java写的比较老的工具&#xff0c;环境要求是1.8,有一些java写的工具&#xff0c;环境要求是java11以上。 痛点 使用java写的工具要求是1.8的java&#xff0c;但是window电脑上只安装了java11。就会报下面的错误 …

pytorch中数据预处理模块:transforms详解

1 tranforms概述 1.1 torchvision介绍 torchvision是pytorch的计算机视觉工具包&#xff0c;主要有以下三个模块&#xff1a; torchvision.transforms&#xff1a;提供了常用的一系列图像预处理方法&#xff0c;例如数据的标准化&#xff0c;中心化&#xff0c;旋转&#xff…

Redis实现延迟队列

目录 一、什么是延时队列 二、延时队列的应用 三、举例说明 我的设计思想: 一、什么是延时队列 延时队列相比于普通队列最大的区别就体现在其延时的属性上&#xff0c;普通队列的元素是先进先出&#xff0c;按入队顺序进行处理&#xff0c;而延时队列中的元素在入队时会指定…

策略+工厂完成支付方式选择(微信/支付宝),简单实现

需求 传参String payType wechat 使用微信支付传参String payType ali 使用支付宝支付代码不允许出现if-else 思路 把支付当作一个行为&#xff0c;代码中当作一个接口&#xff0c;payService。2个实现类&#xff0c;分别是微信支付实现类WeChatPayServiceImpl&#xff0c…

4G无线工业级路由器在智能制造设备互联互通中的角色

随着工业技术的不断发展和进步&#xff0c;智能制造已经成为了现代制造业的重要趋势和发展方向。而在智能制造过程中&#xff0c;设备之间的互联互通是至关重要的一环。在这个过程中&#xff0c;4G无线工业级路由器扮演着重要的角色&#xff0c;它提供了稳定可靠的网络连接&…