python 项目实战视频_腾讯视频 Python 爬虫项目实战

做了一些小项目,用的技术和技巧会比较散比较杂,写一个小品文记录一下,帮助熟悉。

需求:经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块。我一般会在这个条目下面挑电影。但是电影很多,又缺乏索引,只能不停地往下来,让js加载更多的条目。然而前面的看完了,每次找新的片就要拉很久。所以用爬虫将"豆瓣好评"里的电影都爬下来整理到一个表中,方便选片。Python人工智能 - 一节课,让你的效率提升10倍 - 创客学院直播室​www.makeru.com.cn

依赖

需要如下Python包:requests

bs4 - Beautiful soup

pandas

就这些,不需要复杂的自动化爬虫架构,简单而且常用的包就够了。

爬取影片信息

首先观察电影频道,发现是异步加载的。可以用Firefox(Chrome也行)的inspect中的network这个tab来筛选查看可能的api接口。很快发现接口的URL是这个格式的:

base_url = 'https://v.qq.com/x/bu/pagesheet/list?_all=1&append=1&channel=movie&listpage=2&offset={offset}&pagesize={page_size}&sort={sort}'

其中 offset是请求页开始的位置, pagesize是每页请求的数量, sort是类型。在这里 sort=21指我们需要的"豆瓣好评"类型。pagesize不能大于30,大于30也只会返回三十个元素,低于30会返回指定数量的元素。# 让Pandas完整到处过长的URL,后面会需要

pd.set_option('display.max_colwidth', -1)

# 豆瓣最佳类型

DOUBAN_BEST_SORT = 21

NUM_PAGE_DOUBAN = 167

写一个小小的循环就可以发现,豆瓣好评这个类型总共有167页,每页三十个元素。

我们使用 requests这个库来请求网页, get_soup会请求第 page_idx页的元素,用 Beautifulsoup来解析 response.content,生成一个类似 DOM,可以很方便地查找我们需要的element的对象。我们返回一个 list。每个电影条目是包含在一个叫list_item的 div里的,所以写一个函数来帮助我们提取所有的这样的 div。def get_soup(page_idx, page_size=30, sort=DOUBAN_BEST_SORT):

url = base_url.format(offset=page_idx * page_size, page_size=page_size, sort=sort)

res = requests.get(url)

soup = bs4.BeautifulSoup(res.content.decode('utf-8'), 'lxml')

return soup

def find_list_items(soup):

return soup.find_all('div', class_='list_item')

我们遍历每一页,返回一个含有所有的被 bs4过的条目元素的HTML的 list。def douban_films():

rel = []

for p in range(NUM_PAGE_DOUBAN):

print('Getting page {}'.format(p))

soup = get_soup(p)

rel += find_list_items(soup)

return rel

这是其中的一部电影的HTML代码:

霸王别姬

VIP

9.6

霸王别姬

主演:张国荣 张丰毅 巩俐 葛优
4671万

不难发现,霸王别姬这部电影,名称、播放地址、封面、评分、主演,是否需要会员和播放量都在这个 div中。在ipython这样的interactive环境中,可以方便地找出怎么用bs来提取他们的方法。我试用的一个技巧是,可以打开一个 spyder.py文件,在里面编写需要的函数,将ipython的自动重载模组的选项打开,然后就可以在console里debug之后将代码复制到文件里,然后ipython中的函数也会相应的更新。这样的好处是会比在ipython中改动代码方便许多。具体如何打开ipython的自动重载:%load_ext autoreload

%autoreload 2 # Reload all modules every time before executing Python code

%autoreload 0 # Disable automatic reloading

这个 parse_films函数用bs中的两个常用方法提取信息:find

find_all

因为豆瓣的API已经关闭了检索功能,爬虫又会被反爬虫检测到,本来想检索到豆瓣的评分添加上去这个功能就放弃了。

OrderedDict可以接受一个由(key, value)组成的list,然后key的顺序会被记住。这个在之后我们导出为pandas DataFrame的时候很有用。def parse_films(films):

'''films is a list of `bs4.element.Tag` objects'''

rel = []

for i, film in enumerate(films):

title = film.find('a', class_="figure_title")['title']

print('Parsing film %d: ' % i, title)

link = film.find('a', class_="figure")['href']

img_link = film.find('img', class_="figure_pic")['src']

# test if need VIP

need_vip = bool(film.find('img', class_="mark_v"))

score = getattr(film.find('div', class_='figure_score'), 'text', None)

if score: score = float(score)

cast = film.find('div', class_="figure_desc")

if cast:

cast = cast.get('title', None)

play_amt = film.find('div', class_="figure_count").get_text()

# db_score, db_link = search_douban(title)

# Store key orders

dict_item = OrderedDict([

('title', title),

('vqq_score', score),

# ('db_score', db_score),

('need_vip', need_vip),

('cast', cast),

('play_amt', play_amt),

('vqq_play_link', link),

# ('db_discuss_link', db_link),

('img_link', img_link),

])

rel.append(dict_item)

return rel

导出

最后,我们调用写好的函数,在主程序中运行。

被解析好,list of dictionaries格式的对象,可以直接传给DataFrame的constructor。按照评分排序,最高分在前面,然后将播放链接转换成HTML的链接标签,更加美观而且可以直接打开。注意,pandas生成的csv文件一直和excel有兼容性问题,在有中文字符的时候会乱码。解决方法是选择utf_8_sig这个encoding,就可以让excel正常解码了。

Pickle是一个Python十分强大的serialization库,可以保存Python的对象为文件,再从文件中加载Python的对象。我们将我们的DataFrame保存为 .pkl。调用 DataFrame的 to_html方法保存一个HTML文件,注意要将 escape 设置为False不然超链接不能被直接打开。if __name__ == '__main__':

df = DataFrame(parse_films(douban_films()))

# Sorted by score

df.sort_values(by="vqq_score", inplace=True, ascending=False)

# Format links

df['vqq_play_link'] = df['vqq_play_link'].apply(lambda x: 'Film link'.format(x))

df['img_link'] = df['img_link'].apply(lambda x: ''.format(x))

# Chinese characters in Excel must be encoded with _sig

df.to_csv('vqq_douban_films.csv', index=False, encoding='utf_8_sig')

# Pickle

df.to_pickle('vqq_douban_films.pkl')

# HTML, render hyperlink

df.to_html('vqq_douban_films.html', escape=False)

项目管理

代码部分就是这样。那么写完了代码,就要把它归档保存,也便于分析。选择放在Github上。

那么,其实Github是提供了一个命令行工具的(不是 git,是 git的一个扩展),叫做 hub。macOS用户可以这样安装

brew install hub

hub有许多比 git更简练的语法,我们这里主要用

hub create -d "Create repo for our proj" vqq-douban-film

来直接从命令行创建repo,是不是很酷!根本不用打开浏览器。然后可能会被提示在Github上登记一个你的SSH公钥(验证权限),如果没有的话用 ssh-keygen生成一个就好了,在Github的设置里把 .pub的内容复制进去。

项目目录里,可能会有 __pycache__和 .DS_Store这样你不想track的文件。手写一个 .gitignore又太麻烦,有没有工具呢,肯定有的!Python有一个包pip install git-ignore

git-ignore python # 产生一个python的template

# 手动把.DS_Store加进去

只用命令行,装逼装到爽。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431955.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中文乱码问题(转)

解决JSP中文乱码问题 大家在JSP的开发过程中,经常出现中文乱码的问题,可能一至困扰着大家,现把JSP开发中遇到的中文乱码的问题及解决办法写出来供大家参考。首先了解一下Java中文问题的由来: Java的内核和class文件是基于unicode的…

文本显示变量_几千个IO状态显示.十几分钟搞定实例

工程上常会在一个或者数个界面中对所有IO点监控,很多小伙伴用一一映射的传统方法来实现,在超小型项目中实用性较强,在稍微大一点的项目中实现起来效率低还经常出错。本文旨在分享有价值的实际经验,供小伙伴们参考。在实现监控前要…

贷款购房 房贷 每月还款额是如何计算出来的? 每月还款额计算步骤/方法

http://jingyan.baidu.com/m/article/0eb457e55f23fc03f1a905e5.html购房和贷款是每个普通百姓都关心的事情。贷款购房最基本的问题当然是琢磨贷款、还贷以及还贷年限与自己每月的那点“杯水车薪”收入之间的关系,怎样让它们门当户对起来,如何对着一张载…

wordl流程图怎么写字_DLG的制作流程图

1)影像自适应预处理及几何成像模型参数计算 对原始影像进行增强处理。 根据卫星影像的各种资料构建其几何成像模型。2)像控点及加密点量测 像控点的像方量测。将外业提供的控制点进行量测,点位的量测精度应尽量达到子像素级。 在卫星影像重叠和覆盖范围内量测一定数…

TabBarController创建及使用方法简介

TabBarController创建及使用方法简介 大致讲解一下TabBarController的创建过程: 首先,我们需要一些视图,如创建UIControllerView类型的view1,view2,view3. 然后,我们需要创建 一个UITabBarController类型的…

python操作sqlite3 导入csv文件_[转载]SQLite 3导入导出成txt或csv操作

平时使用官方提供的sqlite3.exe工具来操作 sqlite的数据库,可以在网上下到。进入管理:sqlite3.exe d:\\test.db //假设数据是 d:\\test.db>.databases //显示所有数据库 和 mysql的 showdatabases;>.tables //显示当前数据库的表格 和 mysql 的show tables…

android人脸识别的背景图_Android 图片人脸识别剪切

场景在开发中我们经常需要对图片以人脸为中心进行剪切并显示,这时就需要下面这个工具了。实现效果实现效果项目参考及引用项目使用将下载的jar 和 .so 文件加入到项目中。API 说明在项目中使用如下API即可:CImageView这是一个继承ImageView的图片控件&am…

华为gre隧道全部跑静态路由

最终实现: 1、pc1能用nat上网ping能pc3 2、pc1能通过gre访问pc2 3、全部用静态路由做,没有用ospf,如果要用ospf,那么两边除了路由器上跑ospf,核心交换机也得用ospf r2配置: acl number 3000 rule 5 deny…

数组与串,串的实现,KMP,BF算法

数组是一种常用的数据结构,高级语言头提供了支持数组的基本操作,而且数组也是构成其他数据结构的重要组成。 数组是N个相同元素的构成的占用一块地址连续的内存单元的有限序列。 数组的任一个元素都可以用在数组的位置来表示。 数组与线性表区别&#xf…

libsvm python_LibSVM for Python 使用

经历手写SVM的惨烈教训(还是太年轻)之后,我决定使用工具箱/第三方库PythonLibSVM是开源的SVM实现,支持C, C, Java,Python , R 和 Matlab 等, 这里选择使用Python版本。安装LibSVM将LibSVM仓库的所有内容放入…

结对开发——求最大值

一、题目: 返回一个整数数组中最大子数组的和。 要求: 1.输入一个整形数组,数组里有正数也有负数。 2.数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。 3.求所有子数组的和的最大值。要求时间复杂度为O(n)。 二…

浏览器获取设备信息_一条命令获取 IE 浏览器保存网站的账号和密码信息

渗透攻击红队一个专注于红队攻击的公众号大家好,这里是 渗透攻击红队 的第 41 篇文章,本公众号会记录一些我学习红队攻击的复现笔记(由浅到深),不出意外每天一更Powershell内网渗透一直以来都是一个热门话题,试想在一个大型的内网…

__bridge,__bridge_retained,__bridge_transfer

最近遇到类型转换需要添加__bridge等开始不是很理解,后面查询资料才知道在CFObject 与 NSObject 之间转换时,ARC是不能管理Core Foundation object的生命周期。 在CFObject 与 NSObject 之间转换时,需要用到__bridge,__bridge_retained,__bri…

thinkphp5 判断数据是否存在_ThinkPHP 5.1 中间件中判断要访问的操作是否存在

ThinkPHP 5.1 中间件中判断要访问的操作是否存在ifu25 • 2021 年 01 月 15 日按惯例还是吐槽 ThinkPHP 官方社区极度不友好,提问基本得不到答案,更很少有官方人员回复。ThinPHP 5.1 中间件判断 action 是否存在中间件public function handle($request, …

NodeJS 学习记录

一、环境 1. 操作系统:win7, 32位 2. nodejs版本:v0.12.0 3. npm版本:2.5.1 二、问题 1. npm安装镜像源问题 国外镜像源很慢,国内出名且公开的有淘宝,也有内部未公开的,比如我所在的公司 示例: …

(转) 一步一步学习ASP.NET 5 (四)- ASP.NET MVC 6四大特性

转发:微软MVP 卢建晖 的文章,希望对大家有帮助。原文:http://blog.csdn.net/kinfey/article/details/44459625 编者语 : 昨晚写好的文章居然csdn不审核,这个也难怪人,但自己比较忙没办法。分享继续&#xf…

mysql sql执行过程_MySQL探秘(二):SQL语句执行过程详解

昔日庖丁解牛,未见全牛,所赖者是其对牛内部骨架结构的了解,对于MySQL亦是如此,只有更加全面地了解SQL语句执行的每个过程,才能更好的进行SQL的设计和优化。 当希望MySQL能够以更高的性能运行查询时,最好的办…

Java——容器(泛型)

【泛型】 起因&#xff1a;JDK1.4之前类型不明确<1>装入集合的类型都被当做Object对待&#xff0c;从而失去自己的实际类型。<2>从集合中取出时往往需要转型&#xff0c;效率低&#xff0c;且很容易出错。解决办法&#xff1a;<1>在定义集合的时候同时定义集…

quartz mysql 初始化_quartz scheduler 从数据库初始化

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航&#xff0c;为用户…

mysql group by 慢_mysql“group by”查询非常慢

我在一个有大约100k记录的表中有这个查询,它运行得很慢(3-4s),当我取出组时它更快(少于0.5s).我很想知道如何解决这个问题&#xff1a;SELECT msg.id,msg.thread_id,msg.senderid,msg.recipientid,from_user.username AS from_name,to_user.username AS to_nameFROM msgtable A…