用Python扒出B站那些“惊为天人”的阿婆主!

戳蓝字“CSDN云计算”关注我们哦!

作者 | 徐麟

责编 | 阿秃

前言

近期B站的跨年晚会因其独特的创意席卷各大视频网站,给公司带来了极大的正面影响,股价也同时大涨,想必大家都在后悔没有早点买B站的股票:

然而今天我们要讨论的不是B站的跨年晚会,而是B站的核心资源:“惊为天人”的阿婆主们,文章的灵感来自于知乎热榜上的一个问题:

数据获取

上面的问题一共获得了859个回答,本文的数据也正来源于此,由于很多回答都会将带有阿婆主ID的链接在回答中体现,如下图所示:

我们可以将问题中出现的阿婆主空间id进行了爬取,但考虑到并不是所有回答都会带有这样的ID,于是将一些加粗的字体进行了提取,从中获得一些阿婆主的名称,作为数据的补充:

上面的这个回答就是一个典型的案例,其中提到了之前非常火的获得库克生日祝福的小学生,提取数据的一些代码如下:

# 开始爬取数据
driver = webdriver.Chrome()
driver.maximize_window()
url = 'https://www.zhihu.com/question/291506148'
js='window.open("'+url+'")'
driver.execute_script(js)
for i in range(1000):time.sleep(1)js="var q=document.documentElement.scrollTop=10000000"  driver.execute_script(js)print(i)# 整理数据
all_html = [k.get_property('innerHTML') for k in driver.find_elements_by_class_name('AnswerItem')]
all_text = ''.join(all_html)
pat = '/space.bilibili.com/\d+'
spaces = list(set([k for k in re.findall(pat,all_text)]))

现在获取到了要这些“惊为天人”的阿婆主们的ID,下一步要做的就是需要爬取他们B站的个人空间,获得更多详细的信息:

上面就是B站知名科学家手工耿的个人空间,从中我们可以获取手工耿的粉丝数,视频主要类型(一直以为应该是科技,没想到居然是生活,B站节操可以的)以及所有视频平均的播放量、弹幕数、评论数,作为后续进行排名的依据,部分代码如下:

upstat = pd.DataFrame(columns=['name','fans','face','main_type','total_video','total_play', 'total_comment'])
for i in range(len(spaces)):try:time.sleep(1)space_id = str(spaces[i].replace('/space.bilibili.com/',''))url= 'https://api.bilibili.com/x/web-interface/card?mid={}&jsonp=jsonp&article=true'.format(space_id)html = requests.get(url=url, cookies=cookie, headers=header).contentdata = json.loads(html.decode('utf-8'))['data']this_name = data['card']['name']this_fans = data['card']['fans']this_face = data['card']['face']this_video = int(data['archive_count'])total_page = int((this_video-1)/30)+1video_list=[]for j in range(total_page):url = 'https://api.bilibili.com/x/space/arc/search?mid={}&ps=30&tid=0&pn={}&keyword=&order=click&jsonp=jsonp'.format(space_id,str(j+1))html = requests.get(url=url, cookies=cookie, headers=header).contentdata = json.loads(html.decode('utf-8'))if j == 0 :type_list = data['data']['list']['tlist']this_list = data['data']['list']['vlist']video_list = video_list + [ this_list [k] for k in range(len(this_list))]type_list = list(type_list.values())type_list = {type_list[k]['name']:int(type_list[k]['count']) for k in range(len(type_list))}this_type = max(type_list,key=type_list.get)this_play = sum([video_list[k]['play'] for k in range(len(video_list)) if video_list[k]['play'] != '--'])this_comment = sum([video_list[k]['comment'] for k in range(len(video_list)) if video_list[k]['comment'] != '--'])upstat = upstat.append({'name':this_name,'fans':this_fans,'face':this_face,'main_type':this_type,'total_video':this_video,'total_play':this_play,'total_comment':this_comment},ignore_index=True)print('success:'+str(i))except:print('fail:'+str(j))continue

最终我们就获得了B站200多位“惊为天人”的阿婆主们的信息,概览数据如下:

总体概览

获得了这些数据之后,我们首先看一下这些“惊为天人”阿婆主们发布的视频主要类型分布:

由于B站生活的分类中包罗万象,手工耿和李子柒都被划归到了生活类,想想都玄幻,因此这一类型的视频是分组多的,另外科技和数码类的占比也是非常多的,印证了B站是个优秀的学习网站的结论。

除此之外的视频可统称为娱乐类,包括了游戏、影视这些,之后会将视频类型按照科技、生活、娱乐进行大的划分,寻找各个类别最为“惊为天人”的阿婆主。

在开始进行正式的排名前,首先用Python将这些阿婆主的头像进行拼接,获得下面的图片,看看一眼望去有多少是你非常熟悉的阿婆主:

这部分代码如下:

i = 0 
for i in range(upstat.shape[0]):loc = 'D:/爬虫/惊为天人/'+upstat['name'][i]+'.jpg'# request.urlretrieve(upstat['face'][i],loc)img = mpimg.imread(loc)[:,:,0:3]img = cv2.resize(img, (500,500),interpolation=cv2.INTER_CUBIC)if i % 20 == 0:row_img=imgelif i == 19:row_img=np.hstack((row_img,img))all_img = row_imgelif i % 20 == 19:row_img=np.hstack((row_img,img))all_img = np.vstack((all_img,row_img))else:row_img=np.hstack((row_img,img))i = i+1    
plt.axis('off')
plt.margins(0,0)
plt.imshow(all_img)
plt.savefig('头像.png',dpi=1000)

综合排名

下面要做的事情就比较大胆,要斗胆为这些阿婆主们进行排名,综合考虑他们的粉丝数,视频平均弹幕数、播放量、评论数,获得一个综合的指数,特此声明:本排名仅供娱乐,如要深究,AWSL

首先看一下进入TOP10的阿婆主们:

小编近期刚刚被安利的巫师财经榜上有名,建议大家去看一下,真的是将复杂的金融知识说得很接地气,华农兄弟和敬汉卿两大知名阿婆主也榜上有名,下面再来看下TOP11-20的榜单:

徐大sao,李子柒和手工耿在榜单中同时出现,未来有机会,希望有人能策划一次他们三人之间的合作,流程都想好了,手工耿为李子柒提供后现代的工具,李子柒利用手工耿的神器制作世界上最辣的辣椒,之后由徐大Sao一口吃掉,手工耿最后再用自己的脑瓜崩为徐大Sao缓解辣椒带来的不适感

分类排名

进行完综合排名之后,下面将所有阿婆主按照科技、生活、娱乐进行综合排名,分别活得各个分类的TOP10:

有了分类排名后,大家就可以按照自己的喜好按需索取,相信看完之后,脑洞会语法变大,一段时间后可以去尝试自己在B站发布视频,成为B站粉丝达到两位数的知名(才怪)阿婆主。

写在最后希望通过本文,大家能够找到自己喜欢的阿婆主,为自己2020新的一年带来不一样的精彩。福利
扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!推荐阅读:消息称苹果斥资2亿美元收购Xnor.ai;华为2000万英镑投资,加速发展HMS手机生态系统;国产SSD将迎来爆发……
如何打造“智能助理”?阿里对话开发平台这样做
浪潮十年:“云计算”中崛起,“智慧计算”中爆发
掌握 8 种语言、被阿里点赞,这名德国程序员简直开挂了!
为什么 k8s 在阿里能成功?| 问底中国 IT 技术演进170个新项目,579个活跃代码仓库,Facebook开源年度回顾
真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我们总结了每个技术团队都会遇到的 4 个难题

阿里巴巴 2019 年实习生校园招聘已经启动,为此,我们整理了一篇《每个技术团队都会遇到的4个难题》,帮助即将从校园进入公司实习的后端程序员,以实践的视角,看看一个后端技术团队会遇到的一些难题。虽然,技术…

怎么查看指定app日志_Linux系统查看系统信息和日志有哪些常用的命令

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1. 前言本文主要讲解Linux系统有哪些日志文件以及如果查看和分析这些日志文件。查看linux日志的方法2. Linux日志文件有哪些我们来看看L…

Git 切换提交历史节点

文章目录1. 命令版本2. idea图形化版本(推荐使用)1. 命令版本 git checkout 版本号注:适用于之前和之后 2. idea图形化版本(推荐使用) 未操作截图: 切换到第3次提交 切换到第2次提交 切换到第5次提交

阿里云RPA(机器人流程自动化)干货系列之三:阿里云RPA介绍

本文是阿里云RPA(机器人流程自动化)干货系列之三,详细介绍了阿里云RPA的产生背景、技术特点、功能特性、非功能指标以及发展现状等。 一、产生背景 在2011年,随着阿里巴巴集团的各项业务突飞猛进,集团内的各个部门都遇…

入局视频会议市场 揭秘“腾讯会议”背后的创新黑科技

戳蓝字“CSDN云计算”关注我们哦!作者 | 刘丹出品 | CSDN云计算(ID:CSDNcloud)曾经的你是否遇到过这样的窘境?出门在外巧遇紧急会议,手机接入模糊不清,挠头状……企业内部分支偏远,开…

阿里巴巴基于 Nacos 实现环境隔离的实践

随着Nacos 0.9版本的发布,Nacos 离正式生产版本(GA)又近了一步,其实已经有不少企业已经上了生产,例如虎牙直播。 本周三(今天),晚上 19:00~21:00 将会在 Nacos 钉钉群直播 Nacos 1.…

Git 版本对比 idea图形化版本

默认初始化5次提交 对比第4次提交和第5次提交的不同点&#xff1a; 依次双击文件即可&#xff0c;不同部分会标识出来&#xff0c;如下图所示&#xff1a; 这个图的意思是&#xff0c;第5次提交在第4次提交的基础上添加了一条<li>v5</li> 其他版本之间的对比…

点读笔客户端_新手妈妈如何选购点读笔

点读笔的起源现在的中国早教市场来说&#xff0c;点读笔受到很多家长的青睐。其实早在很久以前&#xff0c;点读笔已经风靡美国和欧洲。当时在美国&#xff0c;该产品称为电子书&#xff0c;原理是通过电子设备感应读出书中相应的内容。主要是给婴幼儿学习语言和锻炼阅读能力的…

在 Ali Kubernetes 系统中,我们这样实践混沌工程

在传统的软件测试中&#xff0c;我们通常通过一个给定的条件来判断系统的反馈&#xff0c;通过断言来判断是否符合预期&#xff0c;测试条件和结果通常比较明确和固定。而混沌工程&#xff0c;是通过注入一些“不确定”因素&#xff0c;象放进了一群淘气的猴子&#xff0c;在系…

解决idea一直updating index

是因为使用了电脑清理软件&#xff0c;可走以下流程解决问题&#xff0c; 点击【File 】-> 选择【invalidate Caches/Restart】 -> 点击【invalidate and Restart】&#xff0c;完美解决问题。

经过卖房创业与“云吞面”群聊,老季带着优刻得迎来了“开市大吉”……

CSDN记者晶少快报于上海证券交易所现场 今日&#xff0c;优刻得UCloud科技股份有限公司正式在科创板挂牌上市&#xff0c;股票简称优刻得&#xff0c;股票代码为688158。作为唯一一家没有“爸爸”的云计算服务商&#xff0c;2012年成立的优刻得UCloud&#xff0c;自创立近8年来…

天气模式_北方降雪骤减!南方开启湿冷模式多阴雨!|天气展望

刚刚过去的周末许多小伙伴期盼的雪花如愿到货白雪飘飘的冬日浪漫你感受到了吗→“初雪”刷屏&#xff1f;今天&#xff0c;来聊聊关于雪的那些事~然而在北方雪花纷飞的同时象象看到后台许多南方的粉丝感叹这雪与我无关只能穿着半袖开着空调吃着雪糕来感受下雪的氛围这不冷空气决…

Git bash 编码格式配置_02

文章目录1. 中文配置2. 基础编码3. 配置环境变量1. 中文配置 2. 基础编码 在git bash命令窗口总依次执行 git config --global i18n.commitencoding utf-8 #这个主要就是log输出的编码格式 git config --global i18n.logoutputencoding utf-8 git config --global gui.encodi…

AbutionGraph:构建以知识图谱为核心的下一代数据中台

作者 | 图特摩斯科技创始人闭雨哲来源 | AI科技大本营&#xff08;ID:rgznai100&#xff09;前言图特摩斯科技&#xff08;Thutmose&#xff09;基于自研的图形数据库AbutionGraph&#xff08;实时多维数据存储与计算一体化的高可用平台&#xff09;为核心&#xff0c;构建AI智…

Git 克隆远程项目到本地_01

git clone 远程项目ssh地址栗子&#xff1a; git clone gitgithub.com:gb-heima/yyblog.git

保证一致性吗_RabbitMQ消息一致性:重要消息,请设置持久化

在应用开发中&#xff0c;持久化也是经常被提起的&#xff0c;持久化就是存在在内存当中的数据&#xff0c;要写入到磁盘中&#xff0c;这样在内存中的数据由于各种原因丢失掉后&#xff0c;可以通过磁盘重新加载到内存中来&#xff0c;对于消息中间件&#xff0c;持久化也至关…

大厂HR年底绷不住了:怎么招程序员这么难,尤其搞这项技术的!!

力与力之间的作用一定是相互的。当我们感觉找工作难的时候&#xff0c;其实企业和HR也在每天崩溃&#xff1a;“怎么招程序员这么难&#xff1f;”以Python程序员为例&#xff0c;很多大牛都能拿到10&#xff5e;20万的年薪&#xff0c;但是很多企业却根本招不到人&#xff0c;…

国内RISC-V产学研基地成立,Intel、Arm、RISC-V将三分天下?

作者 | 伍杏玲来源 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;在IT界&#xff0c;CPU芯片和操作系统是网信领域最基础的核心技术。但在芯片领域&#xff0c;技术和资本的门槛较高&#xff0c;应用范围最广的指令集架构需获得专利授权才能使用&#xff0c;如x86、Ar…

git设置mergetool可视化工具

文章目录1. 下载并安装BeyondCompar2. 设置git配置3. 配置git mergetool3. 添加暂存区4. 将暂存区文件提交到版本库5. 原则1. 下载并安装BeyondCompar 2. 设置git配置 打开 git bash 3. 配置git mergetool 依次执行以下命令即可 git config --global merge.tool bc4 git …

盘点丨2019十大边缘计算项目

来源 | 边缘计算社区&#xff08;ID:edgewnet&#xff09;5G和物联网让边缘计算备受瞩目&#xff0c;巨头们纷纷跑步入场&#xff0c;边缘计算项目百花齐放&#xff0c;参差不齐。边缘计算社区经过1个月收集&#xff0c;梳理了10个2019年表现优异的边缘计算开源项目、边缘计算框…