Python爬虫-爬取豆瓣Top250电影信息

🎈 博主:一只程序猿子

🎈 博客主页:一只程序猿子 博客主页

🎈 个人介绍:爱好(bushi)编程!

🎈 创作不易:喜欢的话麻烦您点个👍和

🎈 欢迎访问我的主页(点我直达)

🎈 除此之外您还可以通过个人名片联系我

额滴名片儿

目录

1.介绍

2.网页分析

(1)获取电影列表

(2)获取电影信息

3.源码

4.效果展示

5.结语


1.介绍

        本文将详细介绍如何编写Python爬虫爬取豆瓣电影排行榜Top250榜单电影信息

        首先,感谢各位童鞋们的点赞关注收藏!!!

        其次,如果在编写代码的过程中,如果有任何疑问,可以在评论区留言、私信或名片联系我!!!

2.网页分析

(1)获取电影列表

         这里我们需要获取电影的名称和对应的URL地址:

        每一个li标签下都存放着一个电影,可见一页共有25个电影,一共有10个页面。我们需要把10个页面的电影名称和电影URL获取出来。

        每一页的url变化:

        可以看到只需要修改参数start=?即可实现换页!

(2)获取电影信息

        第一步我们获取到了电影名称和电影URL,通过电影URL可以进入到电影的详情页面:

        红色框标记出了我们需要获取的信息,我们将在代码中使用BeautifulSoup来匹配出对应的内容!当然,你也可以选择使用xpath或者正则表达式匹配数据!

3.源码

import random
import timeimport requestsfrom bs4 import BeautifulSoupclass DouBan_top250(object):def __init__(self):self.cookies = {'''换成你自己的cookies'''}self.headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*''/*;q=0.8,application/signed-exchange;v=b3;q=0.7','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Cache-Control': 'max-age=0','Connection': 'keep-alive','Sec-Fetch-Dest': 'document','Sec-Fetch-Mode': 'navigate','Sec-Fetch-Site': 'none','Sec-Fetch-User': '?1','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0','sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Microsoft Edge";v="120"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"',}def get_movie_list(self, start):params = {'start': str(start),'filter': '',}html_content = requests.get('https://movie.douban.com/top250', params=params, cookies=self.cookies,headers=self.headers).textsoup = BeautifulSoup(html_content, 'html.parser')ol_tag = soup.find('ol', {'class': 'grid_view'})li_tags = ol_tag.find_all('div', {'class': 'info'})titles =[]urls = []for li_tag in li_tags:title = li_tag.find('span', {'class': 'title'}).get_text()url = li_tag.find('a').get('href')titles.append(title)urls.append(url)return titles, urlsdef get_movie_info(self, url):resp = requests.get(url, headers=self.headers, cookies=self.cookies)if resp.status_code == 200:soup = BeautifulSoup(resp.text, 'html.parser')info = soup.find('div', {'id': 'info'})# 封面图片的URLimg_url = soup.find('a', {'class': 'nbgnbg'}).find('img').get('src')# 导演director = info.find_all('span', {'class': 'attrs'})[0].get_text()# 编剧scriptwriter = info.find_all('span', {'class': 'attrs'})[1].get_text().split(' /')# 主演actors = info.find_all('span', {'class': 'attrs'})[2].get_text().split(' /')# 类型type_tags = info.find_all('span', {'property': 'v:genre'})types = []for type_tag in type_tags:types.append(type_tag.get_text())# 制片国家/地区country = info.find_all('span', {'class': 'pl'})[4].next_sibling.strip().split(' / ')# 语言language = info.find_all('span', {'class': 'pl'})[5].next_sibling.strip().split(' / ')try:# 简介intro = soup.find('div', {'class': 'indent', 'id': 'link-report-intra'})\.find('span', {'class': 'all hidden'}).get_text()\.replace(' ', '').replace('\u3000', '  ').replace('\n\n', '\n').strip('\n')except AttributeError as e:# 简介intro = soup.find('div', {'class': 'indent', 'id': 'link-report-intra'})\.find('span').get_text()\.replace(' ', '').replace('\u3000', '  ').replace('\n\n', '\n').strip('\n')rating = soup.find('strong', {'class': 'll rating_num'}).get_text()rating_people = soup.find('span', {'property': 'v:votes'}).get_text()# print(director, scriptwriter, actors, types, country, language, intro, rating, rating_people, img_url)movie_info = [director, scriptwriter, actors, types, country, language, intro, rating, rating_people, img_url]else:print(f'数据请求失败。。。状态码:{resp.status_code}')movie_info = ['', '', '', '', '', '', '', '', '', '']return movie_infodef main(self):start = 0while start <= 25:titles, urls = self.get_movie_list(start)time.sleep(1)for title, url in zip(titles, urls):print(title, url)movie_info = self.get_movie_info(url)movie_info.insert(0, title)print(movie_info)time.sleep(random.randint(2, 5))start += 25time.sleep(random.randint(2, 5))if __name__ == '__main__':douban = DouBan_top250()douban.main()

        这是一个完整的源码, 你拿到后只要不缺少相关的模块库,添加上你自己浏览器访问豆瓣网的cookies就可正常运行!!

        因为时间关系,这次我在代码中添加的注释很少,后续有时间我再优化一下这一部分!争取添加更多的注释帮助你理解代码!!

4.效果展示

列表中的数据分别对应的是:【电影名称、导演、编剧、主演、电影类型、制片国家、 语言、电影简介、评分、评分人数、封面URL】 

5.结语

        本篇文章中,我仅实现了获取到豆瓣网电影排行榜Top250的电影信息,但是我还没有实现把获取到的信息保存到表格中或保存到数据库,把电影封面图片下载到本地,后续的文章中我将把这些功能实现!

        如果你对本文感兴趣且想要把数据持久化存储,可以留意我后续发布的文章!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/608796.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT qss文件设置样式

方式一 &#xff08;单个&#xff09; 方式二 &#xff08;全局&#xff09; 所有按钮都会采用这个样式。 方式三 &#xff08;qss文件&#xff09; 创建资源文件 创建qss文件&#xff08;Button.qss&#xff09; 引用qss文件 QApplication a(argc, argv);QString qss;QFile…

金三银四来了,助你一臂之力,10个专家级技巧助你优化React应用性能

Hey,高级JS React开发人员!您是否正在寻找提升技能,优化React应用程序以实现顶级性能? 您来对了! 在本文中,我将与您分享10个专家级性能技巧,这些技巧将大大增强您的React开发。 准备优化、简化和使您的应用程序快速如闪电。让我们深入探讨! 使用函数组件和React钩子: 与…

Kettle Local引擎使用记录(一)(基于Kettle web版数据集成开源工具data-integration源码)

Kettle Web &#x1f4da;第一章 前言&#x1f4da;第二章 demo源码&#x1f4d7;pom.xml引入Kettle引擎核心文件&#x1f4d7;java源码&#x1f4d5; controller&#x1f4d5; service&#x1f4d5; 其它&#x1f4d5; maven settings.xml &#x1f4d7;测试&#x1f4d5; 测试…

【STM32】STM32学习笔记-USART串口数据包(28)

00. 目录 文章目录 00. 目录01. 串口简介02. HEX数据包03. 文本数据包04. HEX数据包接收05. 文本数据包接收06. 预留07. 附录 01. 串口简介 串口通讯(Serial Communication)是一种设备间非常常用的串行通讯方式&#xff0c;因为它简单便捷&#xff0c;因此大部分电子设备都支持…

Python 使用input函数从键盘输入数据

在Python中&#xff0c;input()函数可以从键盘获取用户的输入数据。当我们使用input()函数时&#xff0c;会暂停程序的执行&#xff0c;等待用户输入数据&#xff0c;并将用户输入的数据作为字符串返回。 如&#xff1a; name input("请输入你的姓名&#xff1a;"…

py判断端口是否被占用

在Python中&#xff0c;你可以使用socket库来判断一个端口是否被占用。下面是一个简单的示例代码&#xff1a; import socketdef is_port_open(port):with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:return s.connect_ex((host, port)) 0# 使用示例 if is_por…

Python私有变量的定义与访问

class Student():def __init__(self, name, age):self.name nameself.age ageself.__score 0def marking(self, score):if score < 0:return 分数不能为0self.__score scoreprint(self.name 同学本次得分是: str(self.__score)) def __talk(self): # 私有的类可通过在…

RocketMQ5-03RocketMQ-Dashboard和Java客户端访问示例

接上篇02快速部署RocketMQ5.x(手动和容器部署) 已经完成 RocketMQ5.0 环境的部署&#xff0c;就需要对这个环境进行测试&#xff0c;查看集群、写入消息、读取消息等 本篇教你如何使用和查看部署的服务&#xff1a; Docker部署 Dashboard 获取镜像并下载部署服务 客户端连接 …

哈希-力扣01两数之和

题目 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答案里不能重复出现。 你可以按任意顺…

spring boot 2升级为spring boot 3中数据库连接池druid的问题

目录 ConfigurationClassPostProcessor ConfigurationClassBeanDefinitionReader MybatisPlusAutoConfiguration ConditionEvaluator OnBeanCondition 总结 近期给了一个任务&#xff0c;要求是对现有的 spring boot 2.x 项目进行升级&#xff0c;由于 spring boot 2.x 版…

35-javascript基础,引入方式;变量命名规范

html分为三部分&#xff1b;结构html&#xff0c;表现css&#xff0c;行为js&#xff1b;js就是javascript js包含三部分&#xff1a; ECMAScript&#xff1a;简称ES&#xff0c;ES5&#xff0c;ES6核心语法 DOM&#xff1a;获取和操作html元素的标准方法&#xff1b;BOM&am…

Linux Capabilities 进阶实战

目录 1. 快速回顾 2. 为可执行文件分配 capabilities 3. 构建半特权环境 4. 容器与 capabilities Linux Capabilities 基础概念与基本使用 上一篇学习了LinuxCapabilities的基础知识和基本使用&#xff0c;因为后面需要学习Docker的逃逸&#xff0c;理解Linux Capabilitie…

忆阻器芯片STELLAR权重更新算法(清华大学吴华强课题组)

参考文献&#xff08;清华大学吴华强课题组&#xff09; Zhang, Wenbin, et al. “Edge learning using a fully integrated neuro-inspired memristor chip.” Science 381.6663 (2023): 1205-1211. STELLAR更新算法原理 在权值更新阶段&#xff0c;只需根据输入、输出和误差…

在python里面探索web框架

一、常识性知识 python Web框架三巨头&#xff1a;Flask&#xff08;简单易学&#xff09;、Django(复杂庞大)、FastAPI 1. Django&#xff1a;Django是一个高级的Web框架&#xff0c;它提供了强大的功能和工具&#xff0c;用于快速开发复杂的Web应用程序。 2. Flask&#xff…

基于SpringBoot使用AOP开发接口的访问日志信息

SpringBoot的AOP原理 Spring Boot的AOP&#xff08;面向切面编程&#xff09;原理是基于动态代理实现的。 在Spring Boot中&#xff0c;AOP通过代理模式对目标对象进行包装&#xff0c;实现在目标对象的方法执行前后增加额外的逻辑。AOP可以在不修改目标对象的情况下&#xf…

BGP公认必遵属性——Origin(二)

BGP公认必遵属性共有三个&#xff0c;分别是&#xff1a;Next-hop、Origin、As-path&#xff0c;本期介绍Origin 点赞关注&#xff0c;持续更新&#xff01;&#xff01;&#xff01; Origin Origin属性用来定义路径信息的来源&#xff0c;只要不被修改&#xff0c;该属性就不…

【Java集合篇】ConcurrentHashMap是如何保证线程安全的

ConcurrentHashMap是如何保证线程安全的 ✔️典型解析✔️ 拓展知识仓✔️ 什么是CAS&#xff08;Compare And Swap&#xff09;✔️CAS和互斥量有什么区别✔️如何使用CAS和互斥量 ✔️CAS和Synchronized的区别✔️ConcurrentHashMap的优缺点✔️能用ConcurrentHashMap实现队列…

python对常见的激活函数绘图操作(详细代码讲解)

写论文的时候需要做一些激活函数的图像&#xff0c;为此将常见的激活函数进行整理汇总了一下&#xff0c;方便后续的复习 激活函数的作用是为让模型处理非线性问题&#xff0c;故次激活函数都是非线性的 生活中&#xff0c;非线性问题占大多数&#xff0c;而模型的训练通常都是…

metartc5_jz源码阅读-yang_send_avpacket

//pushh264中调用此方法将rtp包发送给p2p对端。 int32_t yang_send_avpacket(YangRtcSession *session, YangRtpPacket *pkt, YangBuffer *pbuf) {int32_t err Yang_Ok;//获取到pbuf的size作为要加密的sizeint32_t nn_encrypt yang_buffer_pos(pbuf);//将pbuf中的数据根据seq…

在React里面使用mobx状态管理详细步骤

1、安装MobX和MobX React&#xff1a; 在你的项目目录下运行以下命令安装MobX和MobX React&#xff1a; npm install mobx mobx-react2、创建MobX Store&#xff1a; 创建一个用于管理状态的MobX Store。这个Store应该包含你希望全局管理的状态和相关的操作。以下是一个简单…