论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

目录

摘要

引言

方法

数据集

BotPercent架构

实验结果

活跃用户中的Bot数量

Bot Population among Comment Sections

 Bot Participation in Content Moderation Votes

 Bot Population in Different Countries’ Politics


论文链接:https://arxiv.org/pdf/2302.00381.pdf

摘要

        Twitter机器人检测在打击错误信息、识别恶意在线活动和保护社交媒体话语完整性方面变得越来越重要。虽然现有的机器人检测文献主要集中在识别单个机器人上,但如何估计特定社区和社交网络中机器人的比例仍未得到充分探讨,这对内容版主和日常用户都有很大的影响。

        在这项工作中,我们提出了社区级机器人检测,这是一种通过估计机器人账户的百分比来估计在线社区恶意干扰数量的新方法。具体来说,我们引入了BotPercent,这是Twitter机器人检测数据集和基于特征、文本和图形的模型的融合,克服了现有个人级模型中的泛化问题,从而实现了更准确的社区级机器人估计。

        实验表明,BotPercent在TwiBot-22基准测试上实现了最先进的社区级机器人检测性能,同时对特定用户特征的篡改表现出很强的鲁棒性。

        借助BotPercent,我们以不同的方式分析在Twitter群组和社区的机器人率,例如所有活跃的Twitter用户,与党派新闻媒体互动的用户,参与Elon Musk内容审核投票的用户,以及不同国家和地区的政治社区。

        我们的实验结果表明,Twitter机器人的存在并不是同质的,而是一种时空分布,其异质性应在内容审核、社交媒体政策制定等方面加以考虑。

引言

        现有的Twitter机器人检测模型通常可以分为基于特征、基于文本和基于图形的方法;

        尽管这些前沿的机器人检测方法取得了令人印象深刻的成果(Yang et al. 2020;Echeverrıa et al. 2018;Feng等2022a),他们只专注于个人层面的机器人检测,一次识别一个Twitter账户,而不考虑社区背景。

        在这项工作中,我们提出了一个重要但尚未充分开发的社区级机器人检测设置,旨在估计社交网络社区内的机器人数量和百分比。

        对于平台审核,社区级bot检测可以让决策者快速了解特定社区中bot的比例,并据此分配审核资源,同时告知社区成员不真实内容的风险。反过来,社交媒体用户可以对舆论操纵的企图更加警惕。

        可以通过呈现集体统计数据而不是探查或跟踪单个用户来减轻隐私问题。这些以及其他商业和法律方面的考虑,使人们对了解总百分比的兴趣增加Twitter机器人(Varol 2022),这是我们工作的重点。

Botprecent:

        训练数据和模型架构:对于训练数据,现有的个人级方法通常只利用一个数据集。由于公共可用数据集的领域和收集时间有限,单个方法只能捕获某些类型的Twitter机器人,并且难以泛化;因此,BotPercent合并了所有可用的Twitter机器人检测数据集,以增强泛化。

        对于模型架构,个体级方法通常基于特征、文本或图形,并且只专注于检测传统机器人、社交机器人和高级机器人集群;由于不同类型的模型擅长处理不同的模态和检测不同类型的机器人,我们建议结合基于特征、文本和图形的方法来合并它们的归纳偏差,并增强BotPercent处理移动用户域的能力。BotPercent还对单个模型进行模型校准,并通过加权求和将它们的预测结合起来,从而得出从群组到人群的Twitter机器人数量的可靠估计。

实验:

        我们首先在TwiBot-22机器人检测基准上评估BotPercent (Feng et al. 2022b)。大量的实验表明,BotPercent实现了社区级机器人检测的最先进性能,同时提高了对特定用户特征扰动的鲁棒性。

方法

        BotPercent采用多数据集多模型机器人检测管道,同时利用置信度校准和可学习权重来准确估计Twitter社区中的机器人数量。

数据集

        现有的个人级方法通常只利用一个数据集。这些数据集主要集中在一个特定的领域,并在一个特定的时间段内收集,这使得个人层面的模型泛化能力有限;相反,社区级机器人检测处理多样化的Twitter机器人社区,应该在任何给定的时间段内工作。

        具体来说,我们收集了所有公开可用的Twitter机器人检测数据集。

        Cresci -15 (Cresci et al. 2015)数据集主要由从志愿者基地和活跃的意大利Twitter用户收集的帐户组成;

        GILANI-17中的用户(Gilani et al. 2017)数据集是用Twitter流API收集的,并根据关注者的数量分为四类。

        CRESCI-17具有三种类型的机器人:传统垃圾机器人,社交垃圾机器人和假追随者。

        midterm -18 (Yang et al. 2020)数据集是根据2018年美国中期选举期间收集的政治推文和活跃用户进行过滤的;

        对于CRESCI-STOCK-18(Cresci et al. 2018, 2019)数据集,通过在2017年的五个月内找到包含选定标签的推文中具有相似时间轴的帐户来识别bot用户。

        CRESCI-RTBUST-19 (Mazza et al. 2019)数据集是从2018年6月17日至30日之间的意大利转发中抓取的。

        Botometer - feedback -19 (Yang et al. 2019)数据集是通过手工标记Botometer用户反馈注释的帐户来构建的。

        TWIBOT-20 (Feng et al. 2021b)由来自四个兴趣域的用户组成2020年7月至9月。

        TWIBOT-22 (Feng et al. 2022b)使用多样性感知的BFS通过扩展关注关系来收集用户;

        共同利用所有现有资源Twitter机器人检测数据集,BotPercent提出了一个机器人检测系统,旨在更好地进行领域泛化。

BotPercent架构

        考虑到不同类型的模型在面对多样化的机器人时各有优缺点(Sayyadiharikandeh等人,2020),我们提出了一个统一的框架来结合这些模型的归纳偏差,提高BotPercent的性能和泛化性。

        具体来说,我们首先在三类中选择一些有代表性的模型,并在组合数据集上对它们进行训练。BotPercent然后将个人水平方法的输出结合成一个可靠的预测。

        基于特征的模型提取用户特征并采用传统分类器(Varol et al. 2017)。为了构建一个全面的基于特征的模型作为BotPercent的一部分,我们总结了现有基于特征的模型中引入的特征,并获得了一个更全面的特征集。继前人研究(Yang et al. 2020;Knauth 2019), BotPercent利用随机森林(Ho 1995)和AdaBoost (Freund and Schapire 1997)作为一个有效的基于特征的模块,并获得二元预测逻辑。

        基于文本的机器人检测模型利用用户的推文和描述来识别Twitter机器人和恶意内容(Feng et al. 2022b)。BotPercent利用预训练RoBERTa (Liu et al. 2019a)和T5 (rafael et al. 2020)在使用线性层进行分类的同时提取用户推文和描述的嵌入:

        基于图的机器人检测模型利用Twitter网络结构和图神经网络来分析用户交互(Ali Alhosseini et al. 2019;Feng et al. 2022a)。对于基于图的模型,我们在BotPercent中选择了四种最先进的方法:SimpleHGN (Lv等人,2021)、HGT (Hu等人,2020)、BotRGCN (Feng等人,2021c)和RGT (Feng等人,2022a),因为这些模型考虑了社交网络中固有的异质性,并且在Twibot22基准上显示出了很好的机器人检测性能(Feng等人,2022b)。这些模型的消息传递范式可以概括为:

         更具体地说,SimpleHGN采用了以边缘类型为读出函数γ的注意机制,HGT也采用了以边缘类型为不同投影矩阵的注意机制。BotRGCN以平均池化作为聚合函数,用不同的聚合矩阵对边缘类型进行处理,RGT利用关注机制在不同关系类型下传播消息,并通过不同关系类型的聚合表示进行传播。利用交叉熵损失对基于图的模型进行优化。

        此外,由于数据依赖,BotPercent在分析大量Twitter社区时面临可扩展性问题:当BotPercent分析特定用户时,它会收集有关其多跳邻居的信息作为gnn的输入,这会导致指数级的数据收集成本。在Zhang等人(2021)的激励下,我们使用知识蒸馏(Hinton等人,2015)将基于图的检测器的知识转移到mlp。具体来说,蒸馏训练损失可表示为:

         尽管二进制机器人探测器提供的分数表明每个帐户是机器人的可能性,但人们普遍认为,二进制分类器通常产生的置信度分数不能准确反映真实概率,模型经常被错误校准。由于社区级机器人检测依赖于对机器人概率的准确估计,原始模型得分需要进一步处理。BotPercent对所有子模型执行置信度校准,以确保估计概率和真实概率之间的一致性。具体来说,我们利用了温度缩放(Guo et al. 2017),这是一种后处理方法,通过在保留集上调整单个缩放参数来重新缩放置信度预测。

        BotPercent在获得所有子模型的校准结果后,通过加权求和将预测结果进行组合:

实验结果

         图3给出了BotPercent的估计和现有的方法。它表明BotPercent始终优于所有基线模型,包括最先进的个人机器人检测方法,如RGT。此外,基于特征和文本的方法通常低估了机器人的数量,而基于图形的方法通常高估了机器人的百分比。这些结果证明了BotPercent等多数据集多模型机器人检测框架对于提高泛化和估计精度的重要性。

        除了在社区级机器人检测上实现最先进的性能外,我们还评估个人层面的百分比。我们利用TwiBot-22基准测试中的1000个专家注释账户,并将其降采样到一个包含150人的平衡测试集
150机器人。如表2所示,BotPercent以最先进的精度实现了同等水平的性能,甚至在f1得分方面优于所有基线。

         埃隆·马斯克于2022年接管推特后,推特的验证政策发生了重大变化:现有的验证用户可能会失去其验证状态,而之前未验证的用户可以通过订阅Twitter blue获得蓝色复选标记。

        这对Twitter机器人检测有很大的影响,因为验证是多种类型的机器人探测器广泛采用的基本功能。因此,一个理想的机器人检测系统应该是鲁棒的,并且在这种特征扰动下保持稳定的预测
(Ng, Robertson, and Carley 2022),特别是对于已验证的二进制特征。

        A)所有用户为已验证用户,b)所有用户为未验证用户,c)用户验证状态随机分配。这是为了模拟用户验证不再可靠的场景,以及机器人探测器在这种情况下的表现。我们将结果列于表中
3,这表明禁用验证功能将严重削弱几个现有的机器人检测系统的性能。

        相反,由于其多模式和多模型管道,BotPercent在不同设置下保持稳定的性能,从而减少了对特定验证功能的过度依赖。

活跃用户中的Bot数量

        我们首先用BotPercent来回答一个重要而又广受争议的问题:活跃Twitter用户中Twitter机器人的总体百分比。具体来说,我们使用Twitter API中的StreamClient函数对1%的实时tweet和相应的用户进行7天的采样1并采用对收集的105,614个用户进行分析。然后我们使用自举方法(Efron和Tibshirani)(1994)估计bot存在的抽样分布,并以95%的置信区间证明结果。

        活跃用户中bot账户的百分比为8.46%,95%置信区间为(8.28%,8.64%)

         值得注意的是,BotPercent的结论是8.46%大于Twitter(< 5%),显著小于Elon Musk (> 20%) (Porter 2022)。

Bot Population among Comment Sections

        著名用户推文下的评论区是舆论的主战场(Weber 2014)。因此,我们调查了这些评论区的机器人百分比,并了解了以名人为中心和新闻分享组受到Twitter机器人攻击的程度。

        我们收集了2022年12月23日至31日期间对这些用户发表评论的所有账号。

        我们采用BotPercent对bot种群进行分析,结果如图所示4. 研究表明,加密货币名人评论区的bot百分比明显高于其他领域,技术领域的bot百分比也普遍高于平均水平,表明社交网络中bot的空间分布不均匀。

         虽然之前的作品主要集中在政治领域的Twitter机器人(Woolley 2016;Forelle et al. 2015),我们的研究结果表明,Twitter机器人在多个领域都很活跃,尤其是加密货币和技术,而且机器人在政治之外的影响也值得研究,它对金融欺诈、市场操纵等方面的影响。

         总的来说,Twitter和社交媒体已经成为政治话语的重要媒介,而Twitter机器人则被恶意行为者操纵,以干扰政治讨论(Caldarelli et al. 2020)。

        为了更好地理解Twitter机器人的政治干预模式,我们调查了11个政治话题,并使用Flores-Saviaga、Feng和Savage(2022)中提出的政治关键词来搜索不同时间段发布的推文,并分析相应的Twitter用户。对于每个政治话题,我们每季度收集1000个用户在过去十年中的推文2012年1月至2022年12月。如图6所示,bot账户的比例随着现实世界中的重大社会政治事件而变化。

 Bot Participation in Content Moderation Votes

         自2022年埃隆·马斯克(Elon Musk)收购Twitter以来,他对自己的个人账户进行了多次投票,其中两次投票产生了相应的内容审核结果:一次决定是否恢复唐纳德·特朗普在推特上的职位,另一次决定马斯克是否应该辞去推特首席执行官一职。
        虽然内容审核的直接民主政策看起来直截了当,但它有许多问题,其中之一是恶意行为者通过Twitter机器人进行干预。为此,我们利用BotPercent用于调查转发、评论或喜欢这两次的用户中的bot数量,而具体的投票数据无法通过Twitter API获得

        图9显示,在与两种内容审核投票进行交互的用户中,约有8%到14%是机器人。考虑到两党支持率接近(51.8%对48.2%),(57.5% vs . 42.5%),以至于机器人可能改变了结果,我们的分析对结果的有效性提出了质疑“大众之声,上帝之声”的社交媒体节制原则。

 Bot Population in Different Countries’ Politics

        现有的关于推特机器人人口的研究主要集中在美国政治中的机器人(Bessi和Ferrara 2016;Yang et al. 2020),而忽视了可能存在类似问题的其他国家的政治格局。

        我们通过调查不同国家政治社区的bot人口来补充稀缺的文献。具体来说,我们以总统或总理的Twitter账户为起点,抽样他们的追随者,作为不同国家政治参与社区的代理。图8显示,美国政治中机器人的比例最高,而其他英语国家也见证了更高水平的机器人干预。此外,阿根廷、法国和尼日利亚的政治社区中机器人的比例最低,这表明他们的政治话语更真实、更真实。这些结果再次证实,推特机器人在整个推特网络中具有空间模式,而恶意推特机器人在美国以外的国家的影响值得进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21275.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实例030 窗口颜色的渐变

实例说明 在程序设计时&#xff0c;可以通过设置窗体的BackColor属性来改变窗口的背景颜色。但是这个属性改变后整个窗体的客户区都会变成这种颜色&#xff0c;并且非常单调。如果窗体的客户区可以向标题栏一样能够体现颜色的渐变效果&#xff0c;那么窗体风格将会另有一番风味…

2024年浙财MBA项目招生信息全面了解

2024年全国管理类硕士联考备考已经到了最火热的阶段&#xff0c;不少考生开始持续将注意力集中在备考的规划中&#xff01;杭州达立易考教育整合浙江省内的MBA项目信息&#xff0c;为大家详细梳理了相关报考参考内容&#xff0c;方便大家更好完成择校以及针对性的备考工作。本期…

京东开源的、高效的企业级表格可视化搭建解决方案:DripTable

DripTable 是京东零售推出的一款用于企业级中后台的动态列表解决方案&#xff0c;项目基于 React 和 JSON Schema&#xff0c;旨在通过简单配置快速生成页面动态列表来降低列表开发难度、提高工作效率。 DripTable 目前包含以下子项目&#xff1a;drip-table、drip-table-gene…

静态网页加速器:优化性能和交付速度的 Node.js 最佳实践

如何使用 Node.js 发布静态网页 在本文中&#xff0c;我们将介绍如何使用 Node.js 来发布静态网页。我们将创建一个简单的 Node.js 服务器&#xff0c;将 HTML 文件作为响应发送给客户端。这是一个简单而灵活的方法&#xff0c;适用于本地开发和轻量级应用。 1、创建静态网页…

Linux中提示No such file or directory解决方法

说明&#xff1a; 在linux下&#xff0c;./xxx.sh执行shell脚本时会提示No such file or directory。但shell明明存在&#xff0c;为什么就是会提示这个呢&#xff1f; 这种其实是因为编码方式不对&#xff0c;如你在win下编辑sh&#xff0c;然后直接复制到linux下面 实现&…

机器学习笔记之优化算法(九)收敛速度的简单认识

机器学习笔记之优化算法——收敛速度的简单认识 引言收敛速度的判别标准 Q \mathcal Q Q-收敛速度 R \mathcal R R-收敛速度关于算法复杂度与收敛速度 引言 本节对收敛速度简单介绍。 收敛速度的判别标准 我们之前几节介绍了线搜索方法 ( Line Search Method ) (\text{Line …

【Linux命令200例】awk文本处理工具的系统与实战讲述(常用)

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;全栈领域新星创作者✌&#xff0c;阿里云社区专家博主&#xff0c;2023年6月csdn上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师&#xff0c;项目技术负责人。 &#x1f3c6;本文已…

美团基础架构面经总结汇总

美团基础架构的面经。 问的全是基础,一个编程语言的问都没有。 问题记录 MySQL-MVCC InooDB是通过 MVCC 实现可重复读的隔离级别的,MVCC 就是多版本并发控制,它其实记录了历史版本的数据,解决了读写并发冲突问题。有一个版本编码,然后它进入了各种操作下的数据状态,能…

redis数据未到过期时间被删除

1. 问题描述 使用了jeecgboot开发后端代码&#xff0c;代码设置的redis过期时间为24小时&#xff0c;部署使用的宝塔面板&#xff0c;在redis中看到的过期时间也是为24小时&#xff0c;但是并未到过期时间&#xff0c;数据就被删除。 2. 解决办法 观察了一下redis中的数据&a…

DataGrip实时模板的配置

DataGrip实时模板的配置 File→Setting→Editor→Live Templates→点击“”→Live Template 即可新写入一条模板语句 写入新模板 缩写&#xff1a;seld select $END$ from dual; 注意:一开始都是默认无应用的&#xff0c;需要手动配置应用于所有SQL 点击difine&#xff08;…

【计算机网络】NAT技术

文章目录 1. NAT技术简介2. 使用NAT技术转换IP的过程3. NAPT4. NAT技术的缺陷5. NAT和代理服务器 1. NAT技术简介 NAT&#xff08;Network Address Translation&#xff0c;网络地址转换&#xff09;技术&#xff0c;是解决IP地址不足的主要手段&#xff0c;并且能够有效避免外…

Linux下安装配置Redis

文章目录 安装依赖库上传安装包并解压 启动默认启动指定配置启动开机自启 安装 依赖库 Redis是基于C语言编写的&#xff0c;因此首先需要安装Redis所需要的gcc依赖&#xff1a; yum install -y gcc tcl上传安装包并解压 将Redis安装包上传到服务器的任意目录&#xff0c;例…

JavaScript |(三)内建对象 | 数组 | string对象 | 尚硅谷JavaScript基础实战

学习来源&#xff1a;尚硅谷JavaScript基础&实战丨JS入门到精通全套完整版 文章目录 &#x1f4da;数组&#x1f407;数组介绍⭐️数组&#xff08;Array&#xff09;⭐️基本操作⭐️数组的字面量 &#x1f407;数组中的常用方法⭐️push()⭐️pop()⭐️unshift()⭐️shif…

无人驾驶实战-第一课(自动驾驶概述)

在七月算法上报了《无人驾驶实战》课程&#xff0c;老师讲的真好。好记性不如烂笔头&#xff0c;记录一下学习内容。 课程入口&#xff0c;感兴趣的也可以跟着学一下。 ————————————————————————————————————————— 无人驾驶汽车的定义…

音频光耦合器

音频光耦合器是一种能够将电信号转换为光信号并进行传输的设备。它通常由发光二极管&#xff08;LED&#xff09;和光敏电阻&#xff08;光电二极管或光敏电阻器&#xff09;组成。 在音频光耦合器中&#xff0c;音频信号经过放大和调节后&#xff0c;被转换为电流信号&#xf…

Windows11+Opencv+Clion编译源码

Windows11OpencvClion编译源码 参考&#xff1a;https://www.robotsfan.com/posts/69395e08.html 注意事项 编译过程中使用的软件&#xff0c;开源码等所有工具的安装路径一定不要有中文和空格。cmake过程会下载一些文件&#xff0c;如果是局域网的话可能下载不下来&#xf…

Restful开发规范以及开发流程

目录 一、RestFul开发规范 二、开发流程 一、RestFul开发规范 RESTful&#xff08;Representational State Transfer&#xff09;是一种用于设计和开发网络应用程序的架构风格&#xff0c;它强调使用标准HTTP方法和状态码来进行资源的管理和交互。以下是一些常见的RESTful开发…

SystemVerilog scheduler

文章目录 简介调度器simulation regionPreponed regionActive regionInactive regionNBA(Non-blocking Assignment Events region)Observed regionReactive regionRe-Inactive Events regionRe-NBA RegionPostponed Region PLI region:Pre-active regionPre-NBA regionPost-NBA…

ELK日志分析系统

文章目录 一. ELK日志分析系统概述1.ELK 简介2.ELK日志分析系统2.1 ElasticSearch2.1.1 ElasticSearch概述2.1.2 ElasticSearch核心概念&#xff08;作用&#xff09; 2.2 Kiabana2.2.1 Kiabana 概念2.2.2 Kiabana 主要功能 2.3 Logstash2.3.1 Logstash 概念2.3.2 Logstash主要…

unreal engine 开启像素流笔记

本教程忽略了一些细节&#xff0c;但是不重要&#xff0c;需要详细教程参考https://docs.unrealengine.com/5.2/zh-CN/getting-started-with-pixel-streaming-in-unreal-engine/ 1.启用像素流插件Pixel Streaming 2.编辑器偏好设置 关卡编辑器-播放添加额外启动参数 image.png …