bilibili 解析_用 Python 抓取 bilibili 弹幕并分析!

时隔一年,嵩哥带来他的新作《雨幕》。
他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。
如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。01 实现思路
首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。02 弹幕数据

7ba5fb913eddf1be1481cf7e41bb82cc.png


平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。
比如:https://comment.bilibili.com/123072475.xml一个固定的url地址 + 视频的cid + .xml
只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。一个视频的cid在哪里呢?
右键网页,打开网页源代码,搜索 "cid": 就能找到:

3f9c5916b9edc50e27e1d8a05fb8f44a.png

03 保存数据到本地
有了数据的接口链接,我们就可以利用request模块,获取数据了。
然后,再利用xpath简单的解析xml,就可以把所有的弹幕信息汇总到一个列表里了。最后,把列表转化成dataframe,保存到本地。# 许嵩新歌《雨幕》 # bilibili视频弹幕文件 url = 'https://comment.bilibili.com/123072475.xml' # 发送请求 response = requests.get(url) xml = etree.fromstring(response.content) # 解析数据 dm = xml.xpath("/i/d/text()") print(dm) # list # 把列表转换成 dataframe dm_df = pd.DataFrame(dm, columns=['弹幕内容']) print(dm_df) # 存到本地 # 解决了中文乱码问题 dm_df.to_csv('雨幕-弹幕.csv', encoding='utf_8_sig')
保存的csv数据:

fa789e5a63985262b39393819c571b5d.png

04 对数据进行分词
制作词云前,需要把弹幕数据进行分词。
关于jieba分词,可以参考:https://blog.csdn.net/dnxbjyj/article/details/72854460# jieba分词 dm_str = " ".join(dm) words_list = jieba.lcut(dm_str) # 切分的是字符串,返回的是列表 words_str = " ".join(words_list)05 词云可视化
通过创建词云对象、设置词云参数,最终生成图片,保存到本地。# 读取本地文件 backgroud_Image = plt.imread('1.jpg') # 创建词云 wc = WordCloud( background_color='white', mask=backgroud_Image, font_path='./SourceHanSerifCN-Medium.otf', # 设置本地字体 max_words=2000, max_font_size=100, min_font_size=10, color_func=random_color_func, random_state=50, ) word_cloud = wc.generate(words_str) # 产生词云 word_cloud.to_file("yumu.jpg") #保存图片

e3beb176a0d64a71cdf9962a0030c92e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019中国科学院、中国工程院院士增选名单正式发布

来源:医谷医学讯 今日,“两院”院士2019年增选名单正式公布。中国科学院选举产生了64名中国科学院院士和20名中国科学院外籍院士。中国工程院共选举产生75位院士和29位外籍院士。2019年新当选中国科学院院士名单(共64人,分学部按姓…

微信 小程序 canvas

测试手机为IPHONE6,开发者工具版本0.10.102800。开发者工具0.11.112301版本也一样 微信小程序里的canvas 非 h5 canvas有很多不一样的地方,以下把微信小程序的canvas叫做wxcanvas 下面全是我一点点测试出的干货,耐心看: 1.wxcanvas,不像h5can…

Android App赞赏功能,微信公众号赞赏功能升级:作者可直接收到赞赏, iOS安卓均可用...

DoNews6月6日消息 (记者 费倩文)微信公众平台发布消息称,公众号赞赏功能升级为“喜欢作者”,开启了赞赏的文章在原创文章底部有“喜欢作者”的入口,作者可以直接收到读者赞赏,在 iOS 版和 Android 版微信上都可以使用。据了解&…

基于单片机的功放protues_基于Proteus的音频放大器电路设计与仿真详解.doc

毕 业 论 文学生姓名尹有友学 号171107078学院 物理与电子电气工程学院专 业电子信息工程题 目基于Proteus的音频放大电路设计与仿真指导教师付浩 副教授/学士2015年5月论文原创性声明内容本人郑重声明:本论文是我个人在导师指导下进行的研究工作及取得的研究成果。…

hashcode是什么意思_什么才是 Java 的基础知识?

作者:晓风轻链接:zhuanlan.zhihu.com/p/28615617近日里,很多人邀请我回答各种j2ee开发的初级问题,我无一都强调java初学者要先扎实自己的基础知识,那什么才是java的基础知识?又怎么样才算掌握了java的基础知…

BZOJ 1305 二分+网络流

思路: 建图我根本没有想到啊……. (我是不会告诉你我借鉴了一下题解的思路) 把每个人拆成喜欢的和不喜欢的点 男 喜欢 向 男 不喜欢 连 边权为k的边 如果男喜欢女 那么 男喜欢向 女喜欢 连 1 如果男 不喜欢女 那么 男不喜欢 向 女不喜欢 连1…

迄今最详细宇宙模型建成

来源:科技日报一个国际科研团队最近创建了迄今最详细的大尺度宇宙模型TNG50。这一虚拟宇宙“芳龄”约138亿岁、宽约2.3亿光年,包含数万个正处于演化中的星系,星系的细节程度与单星系模型中的相当。该模型跟踪了200多亿个代表暗物质、气体、恒…

Android仿qq网络不给力,《天天酷跑》qq授权失败网络不给力?解决_图文攻略_高分攻略_百度攻略...

问:天天酷跑qq授权失败网络不给力?有神门解决办法答:其实这个问题小编是没有出现过,大部分情况是因为网速的原因,然后小编重新登录一下一般就可以了,不知道小伙伴们为什么会一直显示qq授权失败网络不给力&a…

深入浅出的mysql第三版和第二版的区别_深入浅出mysql数据库开发(第二版)笔记...

第一部分:【基础篇】2.2.1:SQL分类1)DDL(Data Definition Languages): 数据定义语言常用语句:create,drop,alter 等2)DML(Data Manipulation Language):数据操作语句常用语句:insert,delete&…

python代码变成运行程序_python脚本转化单个exe执行程序

操作系统平台: Windows Server 2003 R2 Enterprise SP2 X86简体中文版 1.ActivePython-2.7.5.6-win32-x86.msi 2.setuptools-1.4.1 python setup.py install 3.distribute-0.6.49(兼容性考虑,建议不要使用0.7.3) python setup.py …

线程操作函数

线程的挂起和恢复 DWORD SuspendThread ( HANDLE hThread ); //挂起线程 DWORD ResumeThread ( HANDLE hThread ); //恢复线程 SuspendThread 和 ResumeThread 都返回之前的挂起计数。 一个线程最多可以挂起MAXIMUM_SUSPEND_COUNT (WinNT.h中定义为127次)。 进程的挂起和恢…

先进激光三维成像雷达技术的研究进展与趋势分析

本文内容转载自《激光杂志》2019年第5期,版权归《激光杂志》编辑部所有。杨兴雨,李晨,郝丽婷,王元庆,古丽孜热∙艾尼外南京大学,伊犁师范学院摘要:激光雷达具有体积小、质量轻、探测距离远、高分…

android 时间控件使用,android 时间控件的使用

一、样式文件time.xmlandroid:orientation"vertical" android:layout_width"match_parent"android:layout_height"match_parent">android:layout_width"wrap_content"android:layout_height"wrap_content"android:id&quo…

python工具箱查询手册书籍京东_十二. 项目实战:爬取京东商城中的书籍信息

爬取网址:https://search.jd.com/Search?keywordpython爬取信息:书名,价格,出版社,日期爬取方式:scrapy框架 splash存储方式:csv页面如下,可以看到python相关的图书超过6000本。不…

Android Binder 系统学习笔记(一)Binder系统的基本使用方法

1.什么是RPC(远程过程调用) Binder系统的目的是实现远程过程调用(RPC),即进程A去调用进程B的某个函数,它是在进程间通信(IPC)的基础上实现的。RPC的一个应用场景如下: A进…

mongodb 监听不到端口_干货|MongoDB简单操作和通过python进行操作

点击上方“AI遇见机器学习”,选择“星标”公众号重磅干货,第一时间送达这次我们主要来简单的讨论一下在MongoDB中如何更新数据(修改数据),删除数据,以及如何通过Python调用MongoDB。一、简单使用MongoDB操作数据| a.更新数据| i.数…

人工智能+脑机接口:让我们距离“增强人类”越来越近

来源:资本实验室前段时间,一则新闻引发了广泛争议:国内一所小学利用头环来监控孩子的脑电波,以判断孩子上课是否走神。暂且不论该事件是否是一场打着高科技幌子的闹剧,头环本身所代表的脑机接口技术正在受到越来越多的…

oracle常见单词_Oracle中常见的英语单词

fatal:重要的,致命的。常见于[rootdido1 ~]# ps -ef|grep init.cssdroot 2918 1 0 09:59? 00:00:00 /bin/sh /etc/init.d/init.cssd fatal-------------------------dependencies:附属的diagnostic:诊断常见于[rootdido1 client]…

哲学的未来

来源:哲学园作者:约翰R塞尔译者:GTY约翰塞尔生于1932年,当代著名哲学家,现为美国加州大学伯克利分校Slusser哲学教授,在语言哲学、心灵哲学和社会哲学领域贡献巨大,是目前在世的最著名的分析哲学…

怎么知道wx.config执行成功没_作为一个减肥40斤,且10年没反弹的普通人,这份瘦身经验分享给你...

“减肥”是女生老生常谈的话题,但是“减肥失败”、“越减越肥”也是很多女生面临的常态。所以做为成功减肥40斤且10多年没有反弹的人,我想来给大家一些自己的经验。很多姑娘知道减肥的关键因素是“热量差”,无论是增加运动,还是减…