【python】使用代理IP爬取猫眼电影专业评分数据

前言 

我们为什么需要使用IP代理服务?

在编写爬虫程序的过程中,IP封锁无疑是一个常见且棘手的问题。尽管网络上存在大量的免费IP代理网站,但其质量往往参差不齐,令人堪忧。许多代理IP的延迟过高,严重影响了爬虫的工作效率;更糟糕的是,其中不乏大量已经失效的代理IP,使用这些IP不仅无法绕过封锁,反而可能使爬虫陷入更深的困境。

本篇文章中介绍一下如何使用Python的Requests库和BeautifulSoup库来抓取猫眼电影网站上的专业评分数据。

正文

1、导包

import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

Requests库是一个简单易用的HTTP库,用于发送网络请求和获取响应数据。BeautifulSoup库则是一个用于解析HTML和XML文档的Python库,可以帮助我们从网页中提取所需的数据。

2、设置代理

设置代理和代理信息可以在这里获取:IP代理服务

# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "your_proxy_user"
proxyPass = "your_proxy_password"# 设置代理
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,
}
proxies = {"http": proxyMeta,"https": proxyMeta,
}

3、设置请求头

请求头的获取方式可以参考这篇文章:爬虫入门学习(三)请求headers处理-CSDN博客

当然不用自己的也行哈哈 


# 设置请求头,模拟浏览器访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

4、发起请求

# 发起请求,获取网页内容
url = 'https://maoyan.com/films?showType=3'
response = requests.get(url, headers=headers, proxies=proxies)  # 添加proxies参数
soup = BeautifulSoup(response.text, 'html.parser')

5、解析网页内容

# 解析网页内容,提取专业评分数据
movie_names = []
professional_scores = []for movie in soup.find_all('div', attrs={'class': 'movie-item film-channel'}):movie_name = movie.find('span', attrs={'class': 'name'}).textscore = movie.find('span', attrs={'class': 'integer'}).text + movie.find('span', attrs={'class': 'fraction'}).textmovie_names.append(movie_name)professional_scores.append(score)# 将数据存储到DataFrame中
data = {'电影名称': movie_names, '专业评分': professional_scores}
df = pd.DataFrame(data)

6、数据可视化

# 数据可视化
plt.figure(figsize=(10, 6))
plt.bar(df['电影名称'], df['专业评分'], color='skyblue')
plt.title('猫眼电影专业评分排行榜')
plt.xlabel('电影名称')
plt.ylabel('专业评分')
plt.xticks(rotation=45)
plt.show()

上述代码片段展示了如何运用Python中的Requests库与BeautifulSoup库,精准地抓取猫眼电影网站上的专业评分数据。随后,通过Pandas库对数据进行整理与分析,再借助Matplotlib库进行可视化呈现。这一数据采集、处理与可视化的完整流程。

完整代码如下:

# 导入所需的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "your_proxy_user"
proxyPass = "your_proxy_password"# 设置代理
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,
}
proxies = {"http": proxyMeta,"https": proxyMeta,
}# 设置请求头,模拟浏览器访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}# 发起请求,获取网页内容
url = 'https://maoyan.com/films?showType=3'
response = requests.get(url, headers=headers, proxies=proxies)  # 添加proxies参数
soup = BeautifulSoup(response.text, 'html.parser')# 解析网页内容,提取专业评分数据
movie_names = []
professional_scores = []for movie in soup.find_all('div', attrs={'class': 'movie-item film-channel'}):movie_name = movie.find('span', attrs={'class': 'name'}).textscore = movie.find('span', attrs={'class': 'integer'}).text + movie.find('span', attrs={'class': 'fraction'}).textmovie_names.append(movie_name)professional_scores.append(score)# 将数据存储到DataFrame中
data = {'电影名称': movie_names, '专业评分': professional_scores}
df = pd.DataFrame(data)# 数据可视化
plt.figure(figsize=(10, 6))
plt.bar(df['电影名称'], df['专业评分'], color='skyblue')
plt.title('猫眼电影专业评分排行榜')
plt.xlabel('电影名称')
plt.ylabel('专业评分')
plt.xticks(rotation=45)
plt.show()

当然,如果你自己要使用的话得用自己专属的IP代理信息,而且具体情况得具体分析。如果你买了代理IP的话,不会的直接问客服,直接给你服务的服服帖帖的😎。

小结

本文详细阐述了如何利用Python爬虫技术从猫眼电影网站获取专业评分数据的过程,并通过代码实例展示了从设置代理、发起请求、解析网页内容到数据提取与可视化的完整流程。

首先,文章介绍了必要的库导入,包括requests用于发起网络请求,BeautifulSoup用于解析HTML页面,pandas用于数据处理,以及matplotlib用于数据可视化。接着,通过设置代理和请求头,模拟了浏览器访问,成功绕过了可能存在的反爬虫机制,获取了目标网页的内容。

在解析网页内容方面,文章通过BeautifulSoup的find_all方法定位到包含电影信息的div元素,并提取了电影名称和专业评分数据。这些数据被存储在一个列表中,为后续的数据处理和分析提供了基础。

为了更直观地展示数据,文章还利用pandas库将提取的数据转换成了DataFrame格式,并使用matplotlib库绘制了专业评分排行榜的条形图。这不仅有助于读者更好地理解数据分布情况,还能为后续的深入分析提供直观的参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/744158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL用法---MySQL Workbench创建数据库和表

1. 连接数据库 打开软件,点击左下角卡片,输入设置的数据库密码,勾选单选框 2. 了解主页面的组成部分 3. 创建数据库 先点击工具栏的创建按钮 再输入数据库名称 点击 Apply 创建 4. 创建数据表 展开数据库,在Tables上右键&…

RocketMq安装部署(centos)

1、下载 官网下载地址:https://rocketmq.apache.org/zh/docs/quickStart/01quickstart/ 下载二进制包 2、上传 上传rocketmq-all-5.2.0-bin-release.zip至/home/rocketmq 解压缩: unzip rocketmq-all-5.2.0-bin-release.zip3、配置 broker.conf&…

docker学习(十四)docker搭建私服

docker私服搭建,配置域名访问,设置访问密码 启动registry docker run -d \-p 5000:5000 \-v /opt/data/registry:/var/lib/registry \registrydocker pull hello-world docker tag hello-world 127.0.0.1:5000/hello-world docker push 127.0.0.1:5000…

【2024-完整版】python爬虫 批量查询自己所有CSDN文章的质量分:附整个实现流程

【2024】批量查询CSDN文章质量分 写在最前面一、分析获取步骤二、获取文章列表1. 前期准备2. 获取文章的接口3. 接口测试(更新重点) 三、查询质量分1. 前期准备2. 获取文章的接口3. 接口测试 四、python代码实现1. 分步实现2. 批量获取文章信息3. 从exce…

WPF —— Calendar日历控件详解

1: Calendar的简介 日历控件用于创建可视日历,让用户选择日期并在选择日期时触发事件。 DisplayMode 用来调整日历显示模式,分为Month、Year 和Decade 三种。如下是None 2:Calendar控件常用的属性 SelectionMode 选中日历的类…

深入理解指针——C语言

目录 1. 内存和地址 2. 指针变量和地址 3. 指针变量类型的意义 4. const修饰指针 5. 指针运算 6. 野指针 7. assert断言 8. 指针的使用和传址调用 9. 数组名的理解 10. 使用指针访问数组 11. 一维数组传参的本质 12. 冒泡排序 13. 二级指针 14. 指针数组 15. 指…

齐次变换矩阵

文章目录 平移的齐次变换矩阵旋转的齐次变换矩阵旋转矩阵的转置与逆齐次变换矩阵的逆旋转变换通式参考文献平移的齐次变换矩阵 T r a n s ( Δ x , Δ y , Δ z ) = [ 1 0 0 Δ x 0 1 0 Δ y 0 0 1 Δ z 0 0 0 1 ] \mathrm{Trans}(\Delta x,\Delta y,\Delta z)=\begin{bmatrix}…

如何在Windows系统安装Node.js环境并制作html页面发布公网远程访问?

文章目录 前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址 前言 Node.js 是能够在服务器端运行 JavaScript 的开放源代码、跨平台运行环境。Node.js 由 OpenJS Foundation&#xff0…

创建一个Django项目

安装python、pip、Django 找不到python命令,请将C:\Python33、C:\Python33\Lib、C:\Python33\libs三个地址加入环境变量。 get-pip.py下载:https://bootstrap.pypa.io/ django版本需要与python版本对应,并将C:\Python33\Scripts加入环境变…

「AI人工智能」NodeJs使用openai流式请求与非流式请求

文章目录 前言一、非流式请求 1.1 无上下文模式1.2 上下文模式二、流式请求 前言 NodeJs使用openai流式请求与非流式请求 一、非流式请求 一次性返回所有数据,请求时间较久,兼容性好。 1.1 无上下文模式 router.post("/openai", async (r…

算法训练day42leetcode01背包问题 416. 分割等和子集

01 背包 题目描述 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 题目分析 每一件物品其实只有两个状态,取或者不取&…

CNC机加工引入复合机器人可以提高生产效率,降低成本

CNC加工企业在过去依赖大量的人工来完成生产线上的各项任务,包括CNC机床的上下料、物料搬运以及部分装配工作。然而,随着产能需求的不断增长和人工成本的持续上升,企业逐渐意识到自动化升级的重要性与迫切性。 面临的挑战与需求: …

Layer1 新星 Partisia Blockchain 撑起隐私保护伞,助你无忧加密交易!

信息纷繁芜杂、真假掺半的 Web3 行业,如何才能更快、更安全地实现快速交易?Partisia Blockchain 或许交出了一份满意的技术答卷。致力于隐私保护、互操作性和可持续创新的 Layer1 区块链新星,Partisia Blockchain 以安全公平标榜,…

VScode(Python)使用ssh远程开发(Linux系统树莓派)时,配置falke8和yapf总结避坑!最详细,一步到位!

写在前面:在Windows系统下使用VScode时可以很舒服的使用flake8和yapf,但是在ssh远程开发树莓派时,我却用不了,总是出现问题。当时我就开始了漫长的探索求知之路。中间也请教过许多大佬,但是他们就讲“能用不就行了&…

Jeff Bezos的投资正开始见效

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Vue+wow.js+animate.css实现动画效果

1.介绍 Wow.js 是一个轻量级的 JavaScript 库,用于在网页滚动时实现动画效果。基于 CSS3 的动画库 Animate.css,并通过触发 CSS 动画类来创建各种引人注目的过渡和动画效果。 使用 Wow.js,可以很容易地为网页中的元素添加动画效果&#xff…

MVC架构模式学习笔记(动力节点老杜2022)

GitHub代码笔记:laodu-mvc: 动力节点学习javaweb中的mvc笔记。 文章目录 1.视频链接 2.不使用MVC架构模式程序存在的缺陷 3.MVC架构模式理论基础 4.JavaEE设计模式-DAO模式 5.pojo & bean & domain 6.业务层抽取以及业务类实现 7.控制层 8.MVC架构模式与三…

Android apk 打包及签名

Android apk打包及签名主要分为3步: 1. 生成签名key store ➜ ~ keytool -genkey -v -keystore meet.jks -alias meet -keyalg RSA -keysize 2048 -validity 10000 keytool参数详解: -genkey:指示keytool生成一个新的密钥对。 -v&#xff…

Mac中文输入法区分回车和提交

一、功能描述: 在搜索框中输入关键词,回车跳转至搜索结果页 二、项目背景记录: vue3vuetify的项目 三、问题描述: 中文输入法。 在Windows下输入拼音后,敲击空格 > 显示第一个联想词,敲击回车 > 拼…

Python中的列表推导式是什么,并给出一个例子?

Python中的列表推导式(List Comprehension)是一种优雅且简洁的方式,用于快速生成列表。它是Python迭代机制的一种扩展,允许你使用一行代码就能根据已有的列表或可迭代对象(如元组、字符串、集合等)创建新的…