上万条数据撕开微博热搜的真相!

戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg

作者 | 徐麟,某互联网公司数据分析狮

来源 | 数据森麟(id:shujusenlin)


吃瓜前言

640

关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热搜”是否存在迄今也是一个未解之谜smiley_44.png


除了吃瓜群众,新浪微博也聚集着一群被整个互联网圈所同情的一群苦逼程序员,每当有明星放出新闻,特别是结婚、离婚、分手、恋爱这类婚恋题材,新浪微博程序员都会严阵以待,此时的服务器会因为吃瓜群众的大量涌入而变得脆弱起来,随时有崩溃的风险,下图就是一张此前广为流传的程序员在自己婚礼处理服务器崩溃的经典图片:

640?wx_fmt=jpeg

我们此次通过爬取2019年2W+条热搜数据,包括内容以及搜索指数,为大家揭开微博热搜2019的诸多秘密,一起利用数据“硬核吃瓜”,包括:2019微博热搜最大的瓜,微博程序员集体加班的日子,微博热搜的常客,热搜里的2019互联网……

瓜源获取

640

我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:

640?wx_fmt=png

通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:


resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date:print(i)url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))html = requests.get(url=url, cookies=cookie, headers=header).contentdata = json.loads(html.decode('utf-8'))for j in range(100):resou = resou.append({'date':i,'title':data[j]['keyword'],'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最终获取到的吃瓜数据如下:

640?wx_fmt=png

硬核吃瓜

640

有了前面的瓜源获取过程,我们获取到了2W+吃瓜数据,下面就可以开始利用这些数据愉快地开始我们的吃瓜之旅


640

第一瓜:2019微博热搜最火事件

说到吃瓜,大家首先关注的一定是那些最大的瓜,要吃就吃最大的瓜也是广大吃瓜群众所遵从的基本原则,我们通过对比热搜数据的搜索指数,选取出了15个最大的瓜,数据如下:

640?wx_fmt=png

看来最大的瓜都是婚恋题材,排名前四的瓜涵盖了结婚、离婚、分手这些广大吃瓜群众所最为关心的内容,并且有了明星加成,结出这些巨型瓜也就不足为奇,大家可以看到排名第14的热搜“今天到底是什么日子”可能会好奇,为何这种标题也会有那么高的搜索量,想要知道这个问题的答案,就请继续去品尝下面的瓜


640

第二瓜:2019最让微博程序员抓狂的日子

刚才的瓜中,我们留下了一个悬念,为何“今天到底是什么日子”这种看似没有任何营养的内容,都会有那么高的搜索指数。为了回答这个问题,我们统计了2019年每天的TOP100热搜话题平均指数,并绘制了日历热度图:

640?wx_fmt=png

可以看到6月27日的指数远高于其他天数,而且基本上是其他时间的两到三倍,这一天就是“今天到底是什么日子”这个话题的诞生之日,并且这一天微博服务器毫无疑问地“应声倒地”,我想这一定是让微博程序员怀疑人生的日子

下面我们就来具体看看,这一天到底发生了些什么:

640?wx_fmt=png

看到这份榜单,我们仿佛看到了程序员们6月27日的绝望。宋慧乔&宋仲基离婚这个巨型瓜的出现,程序员们还可以用自己的信念支撑着服务器不要崩溃,然而正当程序员们以为稳操胜券的时候,范冰冰&李晨分手这个更加巨大的瓜出现了,我想程序员们内心一定是这样的:

640?wx_fmt=jpeg

因为有了这两个巨型瓜的存在,使得“张若昀&唐艺昕”,“马思纯当司仪”,“杜江否认出轨”这种平时能够轻松hold住的瓜也产生了威力加成,进一步压垮程序员,就连平时低调的B站也请来了五月天,真可谓是“瓜团锦簇”的一天。我想“今天到底是什么日子”这条热搜的创造者很有可能就是新浪微博的程序员smiley_4.png


640

第三瓜:2019最勤劳的瓜生产商

前面提到了6月27日是微博程序员最为抓狂的日子,那么又有那些生产商为广大吃瓜群众源源不断地创造吃瓜素材呢,我们也统计了相关数据,想必这些生产商也是广大程序员们最怕的人:


640?wx_fmt=jpeg


榜单中易烊千玺以80次的出现次数荣登榜首,也就是说平均每两天他就会为广大群众生产一次“吃瓜素材”,也是非常地勤劳,想到作者一个月一篇原创的节奏,默默留下了悔恨的泪水。周董也在榜单中以78次的数据位居次席,毕竟周董是一代人的青春记忆,大家也都在时刻关注着周董。


或许大家会认为榜单都被娱乐圈所霸占,没啥新意之时,东哥站了出来,成为荣登本榜单的唯一互联网人士,不过个人还是希望今后不要在榜单中再看到东哥的身影,毕竟老话说得好“no news is good news”。


640

第四瓜:那些专属热搜的词语

如同“****,是怎样的体验”这样的知乎体,“震惊!***”这样的uc体,热搜也有一些比较常出现,能代表热搜独特气质的词语,我们从中选取了一些比较有代表的词语并统计其出现次数

640?wx_fmt=png

华为在榜单中出现了86次,也印证了大家在上半年对于华为的关注度,未来也希望有更多类似于“华为**系统上线”这样振奋人心的消息出现在热搜中。


同时在小编看来否认,道歉,心疼这三个词是非常有特色的热搜词语,毕竟很难在其他的地方会时不时就看“心疼**”这种标题,我们针对于这三个词语制作了相应的词云:

否认版

640?wx_fmt=png

208次否认相关话题出现在了热搜榜单,足以说明在这个信息爆炸的时代有太多的事情难以去分辨真假,其中一些内容确实是虚造的,当事人也及时站出来进行否认。不过对于其他的一些事情,想必是“真亦假来假亦真”,需要大家自己去判断


道歉版

640?wx_fmt=png

强烈建议广大读者收藏上图,特别是在被老板骂或者因为生产BUG而被同事怼的时候拿出来看一下,调节一下自己的心情。想到连菲利普亲王都要道歉,及时认个怂好像也没啥,毕竟你的工资卡里也没剩几个钱smiley_44.png

心疼版

640?wx_fmt=png

最后这个可以说是极具微博特色了,广大吃瓜群众可谓忧国忧民,心疼的对象从韩庚到吴谨言,张雨绮,就连梅西都心疼名单中,这体现出了吃瓜群众乐于助人的正确价值观smiley_79.png


不过小编表示还是要先心疼一下自己,上面那些被心疼的人收入都是小编的上百倍甚至更多,还是先心疼一下自己的花呗比较现实smiley_20.png


除此之外,微博热搜也十分热衷于关心明星是不是哭了以及是不是胖了这种话题,可谓“先天下之忧而忧,后天下之乐而乐”,满满的责任感smiley_4.png

640?wx_fmt=png

640?wx_fmt=png

640

第五瓜:明星婚恋话题到底有多火

此前提到,排名靠前的内容大多都是明星婚恋题材的内容,比如**和**离婚,**和**结婚又离婚,或者**和**结婚又离婚又复婚……,我们就来看一下这些话题出现的次数

640?wx_fmt=png

不出所料,广大吃瓜群众对于这类题材都有着非常高的好奇心,为别人的婚恋情况操碎了心,可以说是很努力了,想必未来的**婚恋上市公司的老总一定会在吃瓜群众中诞生,我们也来具体看看那些相关的话题。


结婚 VS 离婚

640?wx_fmt=png

640?wx_fmt=png


恋情VS分手

640?wx_fmt=png

640?wx_fmt=png

最后我们以一句话来结束这部分的吃瓜内容:“贵圈真乱”

640

第六瓜:2019热搜中的互联网专属瓜

前面说的那些大多都是娱乐圈的内容,作为互联网从业(banzhuan)人员,对于互联网的专属瓜品也有着强烈兴趣,我们从中选取了互联网圈为2019热搜所生产的瓜品:

640?wx_fmt=png

640?wx_fmt=png

出人意料的是TOP2居然都和B站有关,经过查证,这两条都发生在最让微博程序员抓狂,瓜团锦簇的6月27日(比较奇怪的是B站十周年应该是6月26日,但上榜时间确是27日),平时八成熟的瓜立刻熟透。相信互联网人看到这份榜单,也会回忆起很多上半年发生的事情,2019上半年的互联网也是热闹非凡。


吃瓜结语

640

今天的吃瓜之旅就到这里结束了,看来吃瓜也是门学问,微博热搜数据也是一个大的分析宝库,里面还有很多可以继续分析的点,等待大家去挖掘

640?wx_fmt=png

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

640?wx_fmt=jpeg

推荐阅读:

  • 做了中台就不会死吗?每年至少40%开发资源是被浪费的!

  • 美女主播变大妈:在bug翻车现场说测试策略

  • 漫画高手、小说家、滑板专家……解锁程序员的另一面!

  • 手把手教你如何用Python模拟登录淘宝

  • 鸿蒙霸榜 GitHub,从最初的 Plan B 到“取代 Android”?

  • 每天超50亿推广流量、3亿商品展现,阿里妈妈的推荐技术有多牛?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习与Scikit Learn学习库

摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn。在我科研的时候,机器学习(ML)是计算机科学领域中最先吸引我的一门学科。虽然这…

工作流实战_19_flowable 任务委派

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78294766/ 用户名密码0000001test0000002test0000003test0000004test文章目录场景分析1. 演示2. 代码分享3. 委派的执行处理场景分析 解释:委派 A…

【视频点播最佳实践】使用OSS SDK上传视频到点播

摘要: 场景 点播上传SDK缺乏需要的语言版本(如C/C、Go等)或相应的功能(如网络流上传、追加上传),可以直接使用OSS的SDK进行上传。 准备工作 确认已开通点播服务并完成了相关配置。确认已准备了阿里云账号AK…

pythonxml库_对python 生成拼接xml报文的示例详解

最近临时工作要生成xml报名,通过MQ接口发送。简单小程序。 自增长拼成xml报文 Test_001.py # encodingutf-8 import time orderId s1 "\n" # for ID in range(1,5): item1 "" \ "" str(ID) "" \ "" time…

字符串数组长度的几种求法

第一种 根据库函数求出字符串的长度&#xff0c;采用这种方法要引入头文件string.h #include<string.h> int main() {char arr[] "abcdef";int sz strlen(arr);printf("%d", sz);return 0;}第二种 采用计数器的方法求得字符串的方法 int my_strl…

Aruba 推出Instant On 为中小型企业提供安全、高速的无线连接

戳蓝字“CSDN云计算”关注我们哦&#xff01;让你过几天没有Wi-Fi的生活&#xff0c;是一种什么样的感受&#xff1f;在现代人的生活里&#xff0c;离不开Wi-Fi已经成为日常&#xff0c;超市、酒店、住宅、医院、高铁……你能想到的所有场景几乎都已经部署了Wi-Fi。从个人角度来…

NSURLProtocol 拦截 NSURLSession 请求时body丢失问题解决方案探讨

摘要&#xff1a; “IP直连方案”主要在于解决DNS污染、省去DNS解析时间&#xff0c;通常情况下我们可以在项目中使用 NSURLProtocol 拦截 NSURLSession 请求&#xff0c;下面将支持 Post 请求中面临的一个挑战&#xff0c;以及应对策略介绍一下。 “IP直连方案”主要在于解决D…

工作流实战_18_flowable 流程任务的转办

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78184848/ 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码分享1. 演示 2. 代码分享 public ReturnVo<String> turnTa…

深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

摘要&#xff1a; Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告&#xff0c;报告对云化数据仓库&#xff08;Cloud Data Warehouse, CDW&#xff09;的主要功能、区域表现、细分市场和典型客户等进行了全面评估。 1.前言 本文基于Now Tech: Cloud Data Warehous…

用C语言倒置字符串

要逆置这个字符串&#xff0c;有很多种方法&#xff0c;在此说一次比较巧妙的方法 首先&#xff0c;逆置这个字符串&#xff0c;可以考虑单独的把每个单词都逆序一下&#xff0c;在对整个字符串进行逆序 考虑本题中的I like beijing. 首先对I、like、beijing. 中的每个单词逆序…

java中怎么把生成文件到项目根目录_[SpringBoot2.X] 02- 项目结构介绍

POM文件继承Spring Boot 的父级依赖&#xff0c;只有继承它项目才是 Spring Boot 项目。 spring-boot-starter-parent 是一个特殊的 starter&#xff0c;它用来提供相关的 Maven 默认依赖。使用它之后&#xff0c;常用的包依赖可以省去 version 标签。也就是继承的是springboot…

大咖云集、精彩议题、独家内容,2019 AI ProCon震撼来袭!(日程出炉)

2019年9月5-7日&#xff0c;面向AI技术人的年度盛会—— 2019 AI开发者大会 AI ProCon&#xff0c;火热来袭&#xff01; 继2018 年由CSDN成功举办AI 开发者大会一年之后&#xff0c;全球AI市场正发生着巨大的变化。顶尖科技企业和创新力量不断地进行着技术的更迭和应用的推进。…

机器学习的未来——深度特征融合

摘要&#xff1a; 深度特征融合是一项能够克服机器学习不足&#xff0c;为机器学习打开通往未来大门的新技术。新技术要不要了解一下&#xff1f;即使是最敏锐的技术布道师也无法预测大数据对数字革命的影响。因为他们最初的关注点都聚焦在了扩大基础设施以构建现有服务上。在提…

flowable 图片缓存

背景 由于我们的每次显示图片的话&#xff0c;都将需要大量的查询和相关的流。这样对我们的系统压力极大&#xff0c;用户体验极差。 所以使用了缓存把图片流缓存起来&#xff0c;这样就可以解决问题了。 实现 这里我用的是ehcache&#xff0c;由于他小巧依赖少。 1.把我们的…

原码,反码,补码的关系和大小端字节序存储的关系

在看如下代码之前&#xff0c;要知道原码&#xff0c;反码&#xff0c;补码之间的关系 首先要知道第一位是符号位&#xff0c;0代表是正数&#xff0c;1代码是负数 正数的原码&#xff0c;反码&#xff0c;补码相同 负数的反码是符号位不变&#xff0c;其他位按位取反 负数的补…

与机器学习算法有关的数据结构

摘要&#xff1a; 在机器学习中需要运用到许多数据结构&#xff0c;掌握它们是非常重要的。希望本文能有所帮助拥有机器学习技能是不够的。你还需要良好的数据结构的工作知识。学习更多&#xff0c;并解决一些问题。因此&#xff0c;你已经决定不再使用固定的算法并开始编写自己…

resnet结构_经典卷积网络(二)-ResNet

一、ResNet&#xff08;总结自csdn文章&#xff09;随着网络的加深&#xff0c;出现了训练集准确率下降的现象&#xff0c;确定这不是由于Overfit过拟合造成的。作者针对这个问题提出了一种全新的网络&#xff0c;叫深度残差网络&#xff0c;它允许网络尽可能的加深&#xff0c…

物联网避坑 3 大指南!

戳蓝字“CSDN云计算”关注我们哦&#xff01;整理 | 胡巍巍参考 | 中信出版社《物联网时代》如果你正是物联网从业者&#xff0c;你如何避免自己的投入&#xff0c;不会成为一种痛苦的学习经历&#xff0c;相反成为一个令人瞩目的成功故事呢&#xff1f;最好的方式之一&#xf…

flowable 账号密码加密

1.背景&#xff1a; 集成flowable的idm的时候&#xff0c;密码总是明文&#xff0c;这种肯定不行。 2.实现 2.1.配置config Configuration public class IdmProcessEngineConfiguration extends SpringIdmEngineConfiguration {Beanpublic PasswordEncoder bCryptEncoder() {…

深度学习工作机制通俗介绍

摘要&#xff1a; 本文是深度学习基础性介绍&#xff0c;以降维的角度分析卷积神经网络模型&#xff0c;并着重说明了目前人工智能存在的不科学性。在本文之前&#xff0c;写过一些关于人工智能的科普性文章&#xff0c;比如人工智能为什么能起作用、模型是什么以及如何去创建模…