python爬取b站403_Python如何爬取b站热门视频并导入Excel

代码如下

#encoding:utf-8

import requests

from lxml import etree

import xlwt

import os

# 爬取b站热门视频信息

def spider():

video_list = []

url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3"

html = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}).text

html = etree.HTML(html)

infolist = html.xpath("//li[@class='rank-item']")

for item in infolist:

rank = "".join(item.xpath("./div[@class='num']/text()"))

video_link = "".join(item.xpath(".//div[@class='info']/a/@href"))

title = "".join(item.xpath(".//div[@class='info']/a/text()"))

payinfo = "".join(item.xpath(".//div[@class='detail']/span/text()")).split("万")

play = payinfo[0] + "万"

comment = payinfo[1]

if comment.isdigit() == False:

comment += "万"

upname = "".join(item.xpath(".//div[@class='detail']/a/span/text()"))

uplink = "http://" + "".join(item.xpath(".//div[@class='detail']/a/@href"))

hot = "".join(item.xpath(".//div[@class='pts']/div/text()"))

video_list.append({

'rank': rank,

'videolink': video_link,

'title': title,

'play': play,

'comment': comment,

'upname': upname,

'uplink': uplink,

'hot': hot

})

return video_list

def write_Excel():

# 将爬取的信息添加到Excel

video_list = spider()

workbook = xlwt.Workbook() # 定义表格

sheet = workbook.add_sheet("b站热门视频") # 添加sheet的name

xstyle = xlwt.XFStyle() # 实例化表格样式对象

xstyle.alignment.horz = 0x02 # 字体居中

xstyle.alignment.vert = 0x01

head = ['视频名', 'up主','排名', '热度','播放量','评论数']

for h in range(len(head)):

sheet.write(0, h, head[h], xstyle)

i = 1

for item in video_list:

# 向单元格(视频名)添加该视频的超链接

if '"' in item["title"]:

item["title"] = item["title"].split('"')[1]

title_data = 'HYPERLINK("'+item["videolink"]+'";"'+item["title"]+'")' # 设置超链接

sheet.col(0).width = int(256 * len(title_data) * 3/5) # 设置列宽

sheet.write(i, 0, xlwt.Formula(title_data), xstyle)

name_data = 'HYPERLINK("'+item["uplink"]+'";"'+item["upname"]+'")'

sheet.col(1).width = int(256 * len(name_data) * 3/5)

sheet.write(i, 1, xlwt.Formula(name_data), xstyle)

sheet.write(i, 2, item["rank"], xstyle)

sheet.write(i, 3, item["hot"], xstyle)

sheet.write(i, 4, item["play"], xstyle)

sheet.write(i, 5, item["comment"], xstyle)

i += 1

# 如果文件存在,则将其删除

file = "b站热门视频信息.xls"

if os.path.exists(file):

os.remove(file)

workbook.save(file)

if __name__ == '__main__':

write_Excel()

结果展示:

202008101130071.png

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持随便开发网。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/365992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用调试器进行事后跟踪

我最近一直在使用的大多数调试器的好功能是能够在断点上记录信息。 这对理解代码而无需修改是非常有用的,它涉及字节码修改。 让我们考虑一下这种非常琐碎且效率低下的函数实现,以返回斐波那契数列中的第n个数字。 public class Fib {public long fib(…

链表排序c++代码_[链表面试算法](一) 链表的删除-相关题型总结(6题)

在数据结构的最高层抽象里,只有两种结构,数组和链表。这两种结构,是所有其他数据结构实现的基础。队列和栈,可以用链表和数组来实现。图,可以用邻接表和邻接矩阵来实现,其中,邻接表就是链表&…

c语言如何空格键返回主菜单,C语言中scanf函数与空格回车的用法说明

众所周知,C语言中的scanf函数的作用是从标准输入设备(通常是键盘)读取输入值,并存储到参数列表中指针所指向的内存单元。下面从几个方面说一下一些稍微细节的东西。下面的实验都在vc6.0中通过。1、scanf的返回值scanf通常返回的是成功赋值(从标准输入设备…

Linear_algebra_03_矩阵

1. 矩阵的线性运算: 2.1 矩阵的乘法:Xik * Ykj Zij 2.2 矩阵乘法性质: 3.1 矩阵的幂次方运算 3.2 矩阵转置的运算律 3.3 方阵运算 4 分块矩阵的运算 5. 矩阵的初等变换 5.1 单位矩阵I经过一次初等变换所得到的矩阵称为初等矩阵. 5.2 初等矩…

js转json工具_菜鸟丨Egert3D微信小游戏发布与Unity工具使用

本次教程将会为大家介绍Egret3D工具导出Unity场景对象的使用,以及发布微信小游戏流程。让大家对Egret 3D有更加熟悉的了解。需求工具:1、Unity场景导出插件;2、微信开发者工具。导出插件的使用一、打开需要导出的Unity场景,并且把…

OI杂记

从今天开始记录一下为数不多天的OI历程 8.25 上 今天举行了难得的五校联考,模拟noip,题目的解压密码竟然是$aKnoIp2o18$,对你没有看错!!! 7:50老师?啊啊啊啊,收不到题目啊&#xff0…

Java,Steam控制器和我

您是否想过是否可以将现有的东西用于新的东西? 我看了一些所谓的“蒸汽控制器”(从现在开始为SC)的镜头,并看着我的游戏手柄。 问我自己是否有可能以类似蒸汽的方式使用它,我找到了一些Java库并创建了一个项目&#xf…

unknown column in field list_tf.feature_column的特征处理探究

1. 背景tf.estimator是tensorflow的一个高级API接口,它最大的特点在于兼容分布式和单机两种场景,工程师可以在同一套代码结构下即实现单机训练也可以实现分布式训练,正是因为这样的特点,目前包括阿里在内的很多公司都在使用这一接…

pytorch如何定义损失函数_对比PyTorch和TensorFlow的自动差异和动态模型

使用自定义模型类从头开始训练线性回归,比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法,这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型,以及这些框架在训练循环…

Gradle命令行便利

在我的《用Gradle构建Java的gradle tasks 》一文中,我简要地提到了使用Gradle的“ gradle tasks ”命令来查看特定Gradle构建的可用任务。 在这篇文章中,我将对这一简短提及进行更多的扩展,并查看一些相关的Gradle命令行便利。 Gradle可以轻松…

java封装实现Excel建表读写操作

对 Excel 进行读写操作是生产环境下常见的业务,网上搜索的实现方式都是基于POI和JXL第三方框架,但都不是很全面。小编由于这两天刚好需要用到,于是就参考手写了一个封装操作工具,基本涵盖了Excel表(分有表头和无表头&a…

argmax函数_1.4 TensorFlow2.1常用函数

1.4 TF常用函数tf.cast(tensor,dtypedatatype)可以进行强制类型转换。tf.reduce_min(tensor)和tf.reduce_max(tensor)将计算出张量中所有元素的最大值和最小值。import tensorflow as tfx1 tf.constant([1., 2., 3.], dtypetf.float64)print("x1:", x1)x2 tf.cast(…

设计模式---数据结构模式之迭代器模式(Iterate)

一:概念 迭代模式是行为模式之一,它把对容器中包含的内部对象的访问委让给外部类,使用Iterator(遍历)按顺序进行遍历访问的设计模式。 在应用Iterator模式之前,首先应该明白Iterator模式用来解决什么问题。…

识别Gradle约定

通过约定进行配置具有许多优点,尤其是在简洁方面,因为开发人员不需要显式配置通过约定隐式配置的内容。 但是,在利用约定进行配置时,需要了解约定。 这些约定可能已经记录在案,但是当我可以编程方式确定约定时&#xf…

高校c语言题库,C语言-中国大学mooc-题库零氪

第1 周 程序设计与C语言简介1.1 程序设计基础随堂测验1、计算机只能处理由人们编写的、解决某些问题的、事先存储在计算机存储器中的二进制指令序列。第1周单元测验1、通常把高级语言源程序翻译成目标程序的程序称为( )。A、编辑程序B、解释程序C、汇编程序D、编译程序2、一个算…

场景法设计测试用例

在面向对象的软件开发中,事件触发机制是编程中经常遇到的。 (一)场景法原理 现在的软件几乎都是用事件触发来控制流程的。像GUI软件、游戏等。事件触发时的情景形成了场景,而同一事件不同的触发顺序和处理结果就形成了事件流。这种…

python中range函数是什么意思_python里range是什么

python range() 函数可创建一个整数列表,一般用在 for 循环中。函数语法(推荐学习:Python视频教程)range(start, stop[, step]) 参数说明: start: 计数从 start 开始。默认是从 0 开始。例如range(5&#x…

android高德地图搜索地址,地点/周边搜索-Android平台-开发指南-高德地图车机版 | 高德地图API...

关键字搜索第三方通过该接口可传入关键字信息给auto,调起auto执行关键字搜索并跳转到搜索结果展现界面,官网版本都可支持参数说明参数说明是否必填类型ActionAUTONAVI_STANDARD_BROADCAST_RECV是stringKEY_TYPE协议ID:10036是intSOURCE_APP第三方应用名称…

Luogu 3626 [APIO2009]会议中心

很优美的解法。 推荐大佬博客 如果没有保证字典序最小这一个要求,这题就是一个水题了,但是要保证字典序最小,然后我就不会了…… 如果一条线段能放入一个区间$[l, r]$并且不影响最优答案,那么对于这条线段$[l, r]$,设$…

python编程求导数_面向对象编程 —— java实现函数求导

首先声明一点,本文主要介绍的是面向对象(OO)的思想,顺便谈下函数式编程,而不是教你如何准确地、科学地用java求出函数在一点的导数。 一、引子 defd(f) :defcalc(x) : dx 0.000001 #表示无穷小的Δx return (f(xdx) - …