趣挨踢 | 用大数据扒一扒蔡徐坤的真假流量粉

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=jpeg


作者:AlfredWu 

转自: Alfred数据室

前段时间央视新闻公开披露流量明星数据造假。作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+。


在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?


640?wx_fmt=jpeg


为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。


640?wx_fmt=png


数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。


一、蔡徐坤的微博转发是否存在假流量?



解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。


640?wx_fmt=png


这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。


640?wx_fmt=png


我们合理地推测:这些流量就是所谓的假流量。


那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?


二、真假流量所占的比例各有多少?



通过一番探索分析,我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。


这部分数据,便是我们所说的假流量。


640?wx_fmt=png


可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。原来假流量占的比重那么高啊!


那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,真实转发的粉丝数量,占总转发量的3.84%。


640?wx_fmt=png


按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。


你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。


640?wx_fmt=png


我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。


640?wx_fmt=png


并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。


640?wx_fmt=png



三、假流量粉丝是如何生产出来的?



在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。


640?wx_fmt=png


可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!


我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。


640?wx_fmt=png


很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!


640?wx_fmt=png


这,估计就是自己花钱为偶像买流量的粉丝。


另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。


640?wx_fmt=png

640?wx_fmt=png


在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。


640?wx_fmt=png


另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。


640?wx_fmt=png


四、真流量粉的粉丝画像



先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。


640?wx_fmt=png


在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。


640?wx_fmt=png


真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。


640?wx_fmt=png


真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。


我们把真粉丝的简介做成了词云图。


640?wx_fmt=png


可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。


另外还把转发所带的评论做成了词云图。


640?wx_fmt=png


可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。


五、总 结



数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。


若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,Alfred觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。


640?wx_fmt=png


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg


推荐阅读:

  • 云有约 | 超融合的远航探险 看泽塔云2019年如何披荆斩棘?

  • 架构日趋复杂的今天,如何重构数据库和应用边界?

  • 女生适合做程序员吗?

  • Kubernetes 调度器实现初探

  • 李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐

  • 日本乐天要求员工学编程,AI 进中小学课堂,全民编程时代来了!

  • 做了四年以太坊核心开发者, 以太坊升级了, 我也该离开了……


640?wx_fmt=png喜欢就点击“在看”吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/524309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows OpenGL ES 图像曝光度调节

零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 转场 零基础 OpenGL ES 学习路线推荐…

C++中析构函数

析构函数: 1.析构函数不能被重载; 2.析构函数可以是虚函数; 3.析构函数没有参数,没有返回值; 4.当类对象的生命周期结束,系统会自动调用析构函数; 5.若没有显式的析构函数,系统会调用…

Jenkins进阶系列之——07更改Jenkins的主目录

Jenkins进阶系列之——07更改Jenkins的主目录 参考链接: https://blog.csdn.net/pansaky/article/details/80749567 Jenkins默认会存放在用户主目录下的.jenkins文件夹中 如:Linux root用户:/root/.jenkins 注意:这是linux版本的…

Windows OpenGL 图像曝光度调节

目录 一.OpenGL 图像曝光度调节 1.原始图片2.效果演示 二.OpenGL 图像曝光度调节源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 Op…

kubernetes精华问答 | Swarm和K8S的共同点有哪些?

kubernetes,简称K8s,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应…

The server quit without updating PID file

The server quit without updating PID file (/usr/local/var/mysql/bogon.pid) 今天网站web页面提交内容到数据库,发现出错了,一直提交不了,数找了下原因,发现数据写不进去!第一反应,重启mysql数据库&…

开发者如何快速精简容器云镜像?| 技术头条

戳蓝字“CSDN云计算”关注我们哦!作者:阿木接触过容器云或者用过容器的同学一般都会遇到容器镜像占用空间很大的问题,遇到此类问题的时候大部分同学可能更加习惯于为容器的镜像仓库增加磁盘空间,当然这种方式无可厚非,…

Linux环境 Jenkins集成构建SonarQube

参考链接: https://www.linuxhub.org/?p4450 https://blog.51cto.com/damaicha/2118766 https://max.book118.com/html/2019/0107/8067110025002000.shtmJenkins集成构建SonarQube 一、前提准备 应用服务器apache-tomcat-9.0.20.tar.gzjenkinsjenkins.warmysql版…

Windows OpenGL ES 图像对比度调节

目录 一.OpenGL ES图像对比度调节 1.原始图片2.效果演示 二.OpenGL ES 图像对比度调节源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基…

dubbo之.xml配置文件报错

【dubbo之.xml配置文件报错】Multiple annotations found at this line: - cvc-complex-type.2.4.c: The 异常现象: 1.dubbo配置xml文件报错 “Multiple annotations found at this line:- cvc-complex-type.2.4.c: The matching wildcard is strict, but no decl…

验证电脑的字节序

字节序的分类 大端字节序:低地址存高位,高地址存底位,网络字节序又叫大端端字节序; 小端字节序:低地址存地位,高地址存高位; 验证示例 记录2个示例来说明电脑采用的大端字节序还是小端字节序…

刚刚出新的Kubernetes 却曝出了“高危”安全漏洞;亚马逊将推免费新闻视频服务,对标苹果 | 极客头条...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 被宣布取消的AirPower(图片来源网络)【4月1日 星期一】云の声音5G最极致的应用领域应该是8K电视。——富士康科技集团副总裁、富士康企业大学创校校长 陈振国…

Maven实战手册

一、maven的作用: 1.1jar包的统一依赖管理,节省空间1.2项目的一键构建 二、Maven能做什么? 2.1编译 测试(junit) 运行 打包 部署 三、Maven的安装配置署 3.1下载安装3.2 官网链接:http://maven.apache.org/download.cgi 3.3下…

Windows OpenGL 图像对比度调节

零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 转场 零基础 OpenGL ES 学习路线推荐…

大端字节序与小端字节序的转换

逐步加深对字节操作的理解,记录一下大端字节序与小端字节序的转换,开发环境是vs2010,项目类型是控制台输出程序,下面是代码实现: // ByteOrder_demo.cpp : 定义控制台应用程序的入口点。 //#include "stdafx.h&q…

2019年技术盘点微服务篇(一) | 程序员硬核评测

戳蓝字“CSDN云计算”关注我们哦!作者:孙浩峰过去几年来,“微服务架构”方兴未艾,尽管这种架构风格没有确切的定义,但我们已经看到许多项目凭借此架构取得了积极的结构,因此对于许多开发者来说,…

虚拟化精华问答 | 虚拟化的关键技术有哪些?

在实际的生产环境中,虚拟化技术主要用来解决高性能的物理硬件产能过剩和老的旧的硬件产能过低的重组重用,透明化底层物理硬件,从而最大化的利用物理硬件。今天就让我们一起来看看关于虚拟化的精华问答吧。1Q:什么是虚拟化&#xf…

idea工具拉取GitHub远程代码

需求:idea工具拉取GitHub远程代码: 项目代码地址: gitgithub.com:gb-heima/createNewProject.git可以先进行test测试连接情况:

Windows OpenGL ES 图像饱和度调节

目录 一.OpenGL ES 图像饱和度调节 1.原始图片2.效果演示 二.OpenGL ES 图像饱和度调节源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基…

云重磅 | 阿里巴巴平均每天纳税超1.4亿;谷歌、Face book与AWS将共建美欧新海底电缆;阿里发布谣言粉碎机:1秒辨真伪...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周二第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…