爬虫:获取豆瓣电影爱情片榜单封面图片

电影中单纯而美好的爱情总是让人陷入美好无瑕的幻想。

代码已上传至个人GitHub,可供查看:获取豆瓣电影爱情片榜单封面图片

爬虫:获取豆瓣电影爱情片榜单封面图片

目的:获取豆瓣电影爱情片榜单封面图片,并保存到本地。

思路:

1、分析网页URL,查看规律

2、敲代码(图片名设置为该电影名称)

 一、打开豆瓣电影分类排行榜-爱情片,F12审查元素

 在向下滑动的过程中,发现如下规律,每过20张图片就出现一个url,查看URL,就可以发现一些马脚

通过对网页和URL的分析,可以得出以下结论:

  • 每过20张图片就出现一个URL,即翻页,所以每页的图片数量为20张,这在URL中也有体现:limit=20;
  • URL中的start=xx表示该页是从第几张开始的;
  • URL中的interval_id=100%3A90表示的是评价在前10%的电影;
  • URL中的type=13表示的是电影类型的代号,13指的是爱情片;
  • 在以上条件的限制下,满足要求的电影数量为351部。

 二、上代码,为了防止IP被封,我使用了一些代理,并随机设置了睡眠时间,能够更有效的获取数据

from urllib import request
import json
import time
import random
class douban_love_moives():def __init__(self, k):self.k = kdef load_moive(self, start):url = 'https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=' + str(start) + '&limit=20'time.sleep(random.randint(1, 4))rsp = request.urlopen(url)json_data = json.loads(rsp.read().decode())for moive in json_data:self.k += 1time.sleep(random.randint(2, 5))try:request.urlretrieve(moive['cover_url'], 'F:\文件存放处\爱情片电影封面\\' + moive['title'] + '.jpg')print('第' + str(self.k) + '张图片下载成功:' + moive['cover_url'])except Exception:print('第' + str(self.k) + '张图片下载失败:' + moive['cover_url'])def get_moives(self):for start in range(0, 351, 20):# 使用代理步骤# - 1、设置代理地址proxys = [{'http': '39.137.69.10:8080'},{'http': '60.255.186.169:8888'},{'http': '117.191.11.108:80'}]# - 2、创建ProxyHandlerproxy = random.choice(proxys)proxy_handler = request.ProxyHandler(proxy)# - 3、创建Openeropener = request.build_opener(proxy_handler)# - 4、导入Openerrequest.install_opener(opener)self.load_moive(self.k)if __name__ == '__main__':print('开始下载图片......')moive = douban_love_moives(k=0)moive.get_moives()

运行结果:

代码已上传至个人GitHub,可供查看:获取豆瓣电影爱情片榜单封面图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

邬贺铨:解读5G技术关键点,及如何影响AIoT

来源:雷锋网雷锋网按:物联网发展至今,有两项技术对其赋能产业起到了关键作用,一项是这两年发展神速的AI,另一项则是当下逐渐开始商用的5G。前者使物联网(IoT)进化到智联网(AIoT),从单…

msdn画圆弧函数_精确之美——用TikZ画硬盘示意图

序言备考某等级考试的时候,在教材中碰到了几个一直不太理解的、关于硬盘的概念:磁道、柱面号、扇区。然而教材没有配图,无法直观地了解这些概念的物理形态。维基百科的硬盘[1]词条页中倒是有一副不错的示意图,我截图搬运了过来机械…

爬虫:验证码识别准确率(Tesseract-OCR)

爬虫:验证码识别准确率(Tesseract-OCR) 现在的网站为了防止人们轻易的获取登陆后的页面信息,在登陆上设置了很多的障碍,验证码就是其中的一种,所谓道高一尺,魔高一丈,人们总能想出办…

【赠书】21世纪科技竞争的核心是超级智能的控制权

这篇文章是根据《崛起的超级智能:互联网大脑如何影响科技未来》的核心观点对21世纪世界科技竞争的判断。《崛起的超级智能》受到张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹等专家的联合推荐。作者刘锋,2019年7月由中信出版社出版。《崛起的超级智能》主…

MATLAB中的微积分运算(数值符号)

显然这个函数是单词differential(微分)的简写,用于计算微分。实际上准确来说计算的是差商。 如果输入一个长度为n的一维向量,则该函数将会返回长度为n-1的向量,向量的值是原向量相邻元素的差,于是可以计算一…

电脑手写板_点到之处妙笔生花,实用平板电脑手写电容笔推荐

如今随着科技的不断发展,人们生活水平也在逐步地提升。除了手机以外,很多人都会给自己入手一款平板电脑。不管是观看电影还是游戏办公,大尺寸的屏幕都能带来更加清晰的视觉效果。而电容笔的出现,可以说跟平板电脑是一组巧妙的搭配…

图像处理:给验证码图片做降噪处理及数据清洗

上一篇博文:https://blog.csdn.net/qq_40962368/article/details/89312429 图像处理:给验证码图片做降噪处理及数据清洗 在上一篇博文中,tesseract对验证码识别的准确率还是非常低的,改进措施的话,可以从三个方面来考…

X-Brain:如此美丽可爱的大脑工作原理

这个帖子很好地提醒了我,为什么我愿意跟如此美丽可爱的大脑一起工作。因为真正的大脑非常不可爱,长得也难看。我们从外往里看吧。生物学有时似乎非常让人满意,比如你的头上有一个真正的俄罗斯套娃。你有头发,然后是头皮&#xff0…

SpringMVC注解@RequestParam全面解析

在SpringMVC后台控制层获取参数的方式主要有两种,一种是request.getParameter("name"),另外一种是用注解RequestParam直接获取。这里主要讲这个注解 一、基本使用,获取提交的参数 后端代码: Java代码 RequestMapping(…

MATLAB(六)数据处理

一、Matlab中的默认数据文件mat文件 例1、把Matlab工作空间中的数据矩阵a、b、c保存到数据文件data1.mat中。 >> a [1, 2, 3] a 1 2 3 >> b [4, 5, 6] b 4 5 6 >> c [7, 8, 9] c 7 8 9 >> save data1 a b c 例2、把例1生…

java怎么安装_Windows、Linux、Mac下安装JDK

前言在知乎上看到很多童鞋在学Java的时候,因为安装jdk时没有正确的配置,会遇到很多问题。所以决定今天写一下jdk在Windows、Mac、Linux下都怎么安装。下载JDK“巧妇难为无米之炊”,所以首先我们要去Oracle官网上下载jdk,Java8下载…

200年历史的神经科学难题,取得重大突破

图片来源:Diogo Matias,Champalimaud基金会来源:中国生物技术网北京时间8月13日,发表在《Nature Neuroscience》上的一项研究,来自葡萄牙里斯本Champalimaud未知中心的研究团队解决了一个长达200年历史的神经科学难题。…

关系数据库SQL之可编程性触发器

前言 前面关系数据库SQL之可编程性函数(用户自定义函数)一文提到关系型数据库提供了可编程性的函数、存储过程、事务、触发器及游标,前文已介绍了函数、存储过程、事务,本文来介绍一下触发器的使用。(还是以前面的银行系统为例) 概…

图像处理:图像特效之油画效果

利用OpenCVpython对图片进行处理产生油画的效果 算法可以分为五步: 1、获取图像的灰度(gray)图片2、设计一个小方框(4x4 or 8x8 or 10x10等),统计每个小方框的像素值3、将0-255的灰度值划分成几个等级,并把第二步处理…

socket模拟http的登陆_python模拟登陆知乎(最新版)

为啥要写这一篇文章呢?(主要是qq群内有人在模拟登陆知乎,一直不成功)然后我抓包看了下,发现知乎登陆页已经改版了,而且难度大大提高了。开始抓包首先内,还是打开知乎首页,然后输入账…

图像识别:利用KNN实现手写数字识别(mnist数据集)

图像识别:利用KNN实现手写数字识别(mnist数据集) 步骤: 1、数据的加载(trainSize和testSize不要设置的太大) 2、k值的设定(不宜过大) 3、KNN的核心:距离的计算 4、k个最近…

一个与生命起源有关的悖论终于得到了解决

来源:原理当Caitlin Cornell低头看显微镜时,她看见黑色的背景下浮现出一些大大的明亮斑点。它们就像微缩的太阳,在深色的太空幕布下闪耀着光芒。Conell回忆起把这些斑点展示给她的导师Sarah Keller时的兴奋,那时她们意识到&#x…

python ffmpy3与FFmpeg的安装

python ffmpy3与FFmpeg的安装 安装命令: pip install ffmpy3 去官网下载FFmpeg,根据自身电脑版本下载相应安装包 http://ffmpeg.org/download.html from ffmpy3 import FFmpeg ff FFmpeg(inputs{test.mp4: None},outputs{output.ts: None}) print(f…

千兆网线8根线定义图_家中的网线断裂/不够长,如何接线才最合适?

网线作为互联网时代不可或缺的主角,更是家装布线和工程施工中的常客。网线相对来说是很脆弱的,特别是一些质量一般的网线,在很多情况下都可能会被弄断,比如老鼠咬、过度拉伸、摆在地下人踩的人多了、电起火烧断、不小心被夹断等等…

中国决定以“六大政策”推动新一代人工智能发展

来源:智造智库以新一代人工智能为代表的新一轮科技革命和产业变革已经呈现出强大的影响力和生命力,人工智能技术对生产、流通、消费等形成高度渗透、跨界融合,新业态、新模式不断涌现,给以往的产业生态、社会分工、行业和企业边界…