2000万条直播数据,揭秘斗鱼主播生存现状

戳蓝字“CSDN云计算”关注我们哦!
640?wx_fmt=jpeg

2019年7月17日游戏直播平台斗鱼在美国纳斯达克股票交易所成功上市,成为继虎牙直播之后第二家赴美上市的国内直播平台。


7月底斗鱼因为平台主播“乔碧萝殿下”事件再次被推上热搜。


段子手们纷纷调侃成为主播的门槛之低:只需要变声软件+盗图+超级美颜。
那么直播行业真的如同网友们所说的这么简单吗?
主播们的真实生存现状如何?
分析一下。


获取数据


打开斗鱼直播界面,连续点击翻页
Network查看异步请求XHR,找到对应的URL

640?wx_fmt=gif
get。
640?wx_fmt=png


成功获取到对应的URL。


https://www.douyu.com/gapi/rkc/directory/0_0/2
翻页只变动末尾的最后一个数字。


采用requests+pyquery来爬取。


部分爬虫代码如下。
def get_datas(url):
    data = []
    doc = get_json(url)
    jobs=doc['data']['rl']
    for job in jobs:
        dic = {}
        dic['user_name']=jsonpath.jsonpath(job,'$..nn')[0#用户名
        dic['user_id']= jsonpath.jsonpath(job,'$..uid')[0#用户ID
        dic['room_name']=jsonpath.jsonpath(job,'$..rn')[0]  #房间名
        dic['room_id']=jsonpath.jsonpath(job,'$..rid')[0#房间ID
        dic['redu']=jsonpath.jsonpath(job,'$..ol')[0#热度
        dic['c2name']=jsonpath.jsonpath(job,'$..c2name')[0#分区
        dic['time']= stampToTime(time.time())  
        data.append(dic)
    return data  


剩下就是连续爬取,我设置的是10分钟爬取一次。
将爬取得到的数据存入Mysql中。
#存到Mysql
from sqlalchemy import create_engine

engine = create_engine('mysql+mysqldb://root:***密码***@localhost:3306/demo?charset=utf8mb4')
final_result.to_sql('data_douyu',con=engine, index=False, index_label=False,if_exists='append', chunksize=1000)
连续爬取了大概七天多时间,最终得到2062万条直播数据。
640?wx_fmt=png


数据分析

将数据导入python。
640?wx_fmt=jpeg


去重,其实爬虫部分已经设置去重,这里为了保险再来一次,不过事实证明确实没有重复。


因为实际爬取时间是0731下午到0808上午,为了方便后文计算,这里选取0801-0807这连续七天的直播数据。
#去重
data = data[['c2name''redu''room_id''room_name''time','user_id''user_name']].drop_duplicates()

#筛选时间
data = data.loc[(data['time'] <= '2019-08-07') & (data['time'] >= '2019-08-01')]


我们还需要对主播按照id分组汇总。


先利用groupby分类汇总,再计算增加新列。


data_abc['av_redu'] = data_abc['redu']/data_abc['time_num']
data_abc['hour'] = data_abc['time_num']/ 42  #每十分钟一次,七天
data_abc.head()


640?wx_fmt=jpeg


这样我们就又构建了一组以主播为索引的数据。
640?wx_fmt=png
也就是说这七天之内,直播过的主播共有23万余人,那么下文让我们看看他们的生存现状吧。


数据可视化


将这23万主播按照平均直播时长和平均直播热度绘制一个散点图。


import seaborn as sns
import matplotlib as mpl #配置字体
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
mpl.rcParams['axes.unicode_minus']

plt.figure(figsize=(8,8))
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

sns.scatterplot(data_test["hour"],data_test["av_redu"],hue=data_test["c2name"])
结果如下图所示。
640?wx_fmt=jpeg


从上图能看出,绝大部分主播都在底部,能够成为大主播的寥寥无几,且热度较高的主播集中于上述的几个热门分区,其他分区主播发展普遍一般。


由于有20多万的主播集中在下方,很难看出他们平均直播时长的分布。
另一方面,主播分化程度较为严重,为了更直观的展现趋势,我们以1万平均热度为分界,分析不同规模的主播每天平均直播时长。


#头部主播
plt.figure(figsize=(10,6))
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
sns.distplot(data_abc.loc[(data_abc['av_redu'] > 10000)]["hour"],kde=True,rug=False,color='y')
plt.show()


640?wx_fmt=png


图中可以发现较大的主播每天直播时长集中在5小时左右,这5个小时的游戏并非我们平时玩的那么简单。主播直播时往往既需要全神贯注玩游戏,又要和观众一起互动交流。


而较小主播直播时长则大部分在1小时左右,不能持续直播,导致观众少;观看人数少,主播没动力,久而久之,也就难以出头,形成恶性循环。


上图中有一些异常值,即平均每日直播时长超过20小时的直播间,这样的直播大部分为“一起看”分区,可以24小时连续播放电影电视剧之类的视频,余下都是游戏或者比赛的官方频道,用来循环播放官方视频。


那么主播们大部分在什么时间直播呢?

他们的观众也是同一时间准时观看吗?


640?wx_fmt=png


从同一时间段内主播直播与观众观看在线人数可以看出,有两个时段有差异。


一个是晚上21点后至凌晨6点前,以直播为职业的主播往往已经进行了5-6小时高强度不间断的直播,会选择后半夜好好休息一下,而将看直播作为娱乐的观众则躺在床上看到上头;


另一个时段是下午12点左右到18点,观众都正在上班上学,而很多全职主播中午起床吃饭后,正好下午开始了他们的直播。


2000万条数据能分析的当然不止这些,详情请移步。



大部分主播并非我们想象的那样,时间自由,赚钱容易。每天在线直播的主播人数以十万甚至百万为单位,但真正赢得观众喜爱和自愿刷大量礼物的事实上寥寥无几。一时的流量换不来观众永远的买账,以噱头博出位后如何用内容留住观众,是每个主播在探索的方向。


随着行业监管的加强,直播平台逐渐褪去“泡沫”,流量红利消失,回归理性。“熊猫”已经远走,行业内的竞争更加集中在剩下的头部平台之间,这些平台也更需要探索更优质的内容和更多元的发展,绝不可寄希望于花几千万签约“知名主播”或是炒作“乔碧萝”之类的噱头。


#下载链接相关爬虫代码# https://t.zsxq.com/iQRjeeY

640?wx_fmt=png

640?wx_fmt=png

福利
扫描添加小编微信,备注“姓名+公司职位”,入驻【CSDN博客】,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg

推荐阅读:
  • 10分钟Get拥抱无服务的正确姿势
  • 创纪录!浪潮云海完成OpenStack Rocky版本全球最大规模单一集群测试!
  • @程序员,第一份工作薪资不重要?
  • Python老司机给上路新手的3点忠告
  • 限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!
  • 小米推出售价 19999 元的 MIX Alpha;高通已向华为重启供货;.NET Core 3.0 发布 | 极客头条
  • 比特币又跌了, 还是赶紧学学比特币区块大小限制的原理, 原来并非越来越好!


真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最佳实践:使用负载均衡SLB IPv6搞定苹果AppStore审核

摘要&#xff1a; 1.Greetings HI&#xff0c;大家好&#xff0c;我是负载均衡SLB产品经理添毅&#xff0c;今天我们来聊一聊苹果的IPv6审核&#xff0c;以及使用阿里云负载均衡SLB&#xff08;IPv6&#xff09;搞定AppStore IPv6审核。 2.Appstore IPv6审核是什么 由于国外的I…

curl查看swift状态命令_前端应该会的23个linux常用命令

(给前端大学加星标&#xff0c;提升前端技能.)作者:null仔https://segmentfault.com/a/11900000214395601、ls 命令 : 显示目录内容列表Linux ls 命令用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。ls [-alrtAFR] [name...]常用 options-a 显示所有文件及…

深度剖析 | 阿里热修复如何精简优化补丁资源?

摘要&#xff1a; 这一年&#xff0c;关于Sophix热修复我们陆续做了很多优化和改进&#xff0c;包括&#xff1a; 兼容最新Android版本至Android P dp3 JIT混合编译的兼容 第三方加固的全面兼容 新增稳健接入方式 三星低版本特殊机型的兼容 补丁工具加速与初始化检查 资源补丁深…

开启企业级市场转型之路 群晖亮出安全“杀手锏”

戳蓝字“CSDN云计算”关注我们哦&#xff01;数据犹如企业经营者的眼睛&#xff0c;通过数据可以反映出很多经营中的问题。随着大数据应用日益渗透到各行各业中&#xff0c;数据所蕴含着的巨大商业价值也逐渐被发掘&#xff0c;通过挖掘分析与管理&#xff0c;释放更大的价值&a…

c语言空格键么 有什么意义,C语言里这个空格键跟'\0'到底啥区别啊?

满意答案为CS而liven2019.11.24采纳率&#xff1a;57% 等级&#xff1a;7已帮助&#xff1a;60人空格是空格&#xff0c;结束符0是结束符0&#xff0c;两者不对等。你贴的那个图是不是讲的scanf输入&#xff0c;scanf这个函数默认是将空格作为分割符号&#xff0c;所以你输入…

运放电路的工作原理_图文讲解!教你看懂7款经典运放电路

引言运放的基本分析方法&#xff1a;虚断&#xff0c;虚短。对于不熟悉的运放应用电路&#xff0c;就使用该基本分析方法。运放是用途广泛的器件&#xff0c;接入适当的反馈网络&#xff0c;可用作精密的交流和直流放大器、有源滤波器、振荡器及电压比较器。1、运放在有源滤波中…

自底向上——知识图谱构建技术初探

摘要&#xff1a; 知识图谱&#xff0c;是结构化的语义知识库&#xff0c;用于迅速描述物理世界中的概念及其相互关系&#xff0c;通过将数据粒度从document级别降到data级别&#xff0c;聚合大量知识&#xff0c;从而实现知识的快速响应和推理。文/阿里安全 染青“The world i…

如何关闭rabbitmq

rabbitmqctl stop方式2 先用ps -ef|grep rabbitmq 查询出进程号&#xff0c;然后用kill -9 进程号&#xff0c;杀死进程RabbitMQ常用命令 说明命令启用Web控制台rabbitmq-plugins enable rabbitmq_management开启服务systemctl start rabbitmq-server.service停止服务system…

全国信息联赛c语言,信息学竞赛之编程规则

本规定适用于NOI系列的各项全国性竞赛。NOI其它规章、规则中所有与本规定不符之处&#xff0c;均以本规定为准。不遵守本规定所造成的不良后果由选手本人承担。评测环境与竞赛环境相同。编程通则1&#xff0e;对于每一道试题&#xff0c;选手只应提交一个源程序文件。源程序文件…

正在播放2020Me比较特别的我_蓝牙耳放还是播放器,工作的人当然是都买之第二番 飞傲M5分享...

前言之说好的都买呢在4月份在入了BTR1后&#xff0c;研究下一个蓝牙耳放时&#xff0c;网上有人推荐过山灵m0&#xff0c;不过当时BTR3正在做活动&#xff0c;并且作为一个耳放来说BTR3更为纯粹&#xff0c;最后还是先入手BTR3并暂缓了m0的购置&#xff0c;在玩腻了BTR3后&…

支撑全网70%世界杯流量 盘点世界杯直播背后的阿里云黑科技

摘要&#xff1a; 上周六晚间的法阿大战精彩纷呈&#xff0c;开场11分钟法国队就首开纪录&#xff0c;随后阿根廷强势逆袭连扳2球&#xff0c;但下半场法国队的年龄优势凸显&#xff0c;帕瓦尔世界波以及姆巴佩梅开二度最终让阿根廷止步16强&#xff0c;梅西再度饮恨世界杯。 这…

教你编写一个机器学习代码也能使用的单元测试

摘要&#xff1a; 想不想节省重新训练数据的时间&#xff1f;想不想让你的研究成果有个质的飞跃&#xff1f;来看看这些单元测试&#xff0c;助你一臂之力。注&#xff1a;这篇文章自从发布出来&#xff0c;就受到读者的好评和关注&#xff0c;因此&#xff0c;我编写了一个机器…

手机pdf文件转语音_没有电脑也能处理PDF文件,手机里的这个功能太强大!

没电脑怎么处理PDF文件&#xff1f;急&#xff0c;在线等&#xff01;PDF文件因为它的强大兼容性而广泛使用&#xff0c;一半我们都是在电脑打开&#xff0c;如果你刚好没办法使用电脑怎么办&#xff1f;一般来说&#xff0c;我们手机还是能直接打开进行浏览的&#xff0c;以在…

图文+动画讲解排序算法总结!!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 大数据肌肉猿责编 | 阿秃很多同学算法零基础&#xff0c;我都不建议他们直接去刷「剑指offer」和「LeetCode」&#xff0c;可以从常见的查找和排序算法开始学起&#xff0c;本期我先整理了常见排序算法&#xff0c;大家可以收…

SpringMVC项目 使用IDEA快速构建

文章目录一、使用idea构建基础项目1. 创建一个新的项目2. 选择maven项目构建架子3. 项目储存路径4. 配置maven和仓库5. 自动下载所需依赖二、初始化项目结构2.1. 创建Java和resources文件夹2.2. 给文件夹赋予目录结构层级2.3. 初始化pom.xml2.4. 初始化web.xml2.5创建配置文件2…

GDPR到底是如何影响机器学习的?

摘要&#xff1a; GDPR时代来临&#xff0c;你的机器学习模型还能训练吗&#xff1f;一般数据保护条例&#xff08;GDPR&#xff09;对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明&#xff08;Recital&#xff09;&#xff0c;长而复杂&#xff0c;但是随着时…

iphone字体_iPhone 适合老人盘吗?

过年的时候&#xff0c;有多少人会选择给家里的老人购买一台新智能手机做为礼物呢&#xff1f;又有多少人选择赠送的手机是 iPhone 呢&#xff1f; &#xff08;图片来自网络&#xff09;很久以前&#xff0c;咆哥就看见很多有关‘ iPhone ’是否可以作为孝心机的话题&#xff…

干货 | 金融级消息队列的演进 — 蚂蚁金服的实践之路

摘要&#xff1a; 小蚂蚁说&#xff1a; 消息队列作为一个数据的集散中心&#xff0c;承载了越来越多的场景和数据&#xff0c;从最开始的 OLTP 到 OLAP&#xff0c;甚至再到物联网、人工智能、机器学习等场景&#xff0c;都有很大的想像空间。 在能力上&#xff0c;消息队列现…

海底光缆,到底是怎么安装和维护的?

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 鲜枣课堂责编 | 阿秃大家应该都知道海底光缆是什么吧&#xff1f;没错&#xff01;简单来说&#xff0c;就是埋在海底的光纤线缆。如今这个时代&#xff0c;我们每天都在上网。通过上网&#xff0c;我们可以随时和世界各地保…