关于豆瓣电影数据抓取以及可视化

首先我们可以先了解以下网络爬虫的定义:
        爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它可以在互联网上自动抓取网页内容,将这些信息存储起来。爬虫可以抓取网站的所有网页,从而获取对于我们有价值的信息。爬虫主要由调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)五个部分组成。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。

下面我们就可以开始进行一个小实验,来深入了解以下爬虫获取数据的能力。

实验目标:

  • 能够使用Matplotlib的图像可视化
  • 掌握Python的基本语法
  • 能够操作创建并维护Python中Matplotlib显示中文编码问题
  • 主要是用来熟练pandas和爬虫及可视化技能
  • 爬取豆瓣网的top250的电影信息并保存在本地

第一步,我们需要对豆瓣网进行一个URL的获取:
 

import requestsdef urlopen():header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}url=requests.get('https://movie.douban.com/top250',headers=header)print(url)

成功之后会返回一个Response 200(这样我们就能成功的获取它的URL)

48e2401c17f24d5bab61df665acea5ae.png

下面我们就开始进行爬取豆瓣网TOP250的数据了(源码在最下面),这里是针对豆瓣电影 Top 250来进行数据获取的:

def askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36"} #伪装成网页的形式,请求网页信息request = urllib.request.Request(url,headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")#print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html

        重点说一下这个headhead放在这个地方,就是用来模拟浏览器的头部信息,模拟浏览器向豆瓣服务器发送信息,如果没有的话,就会被网页识别为爬虫,从而被拒绝访问。head 其实就是一个用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)

最后就会获取这样一个excel文件:
d0cdec52f3414c42b2e2631fac3029c5.png

以下是源码(重点步骤有所标注):

from bs4 import BeautifulSoup # 导入BeautifulSoup库,用于解析网页
import re # 导入正则表达式库,用于进行文字匹配
import urllib.request,urllib.error  # 导入urllib库,用于制定url和获取网页数据
import xlwt  # 导入xlwt库,用于进行excel操作
import sqlite3  # 导入sqlite3库,用于进行SQLite数据库操作def main():baseurl = "https://movie.douban.com/top250?start="# 爬取网页datalist = getData(baseurl)# 保存数据savepath = "豆瓣电影Top250.xls"saveData(datalist,savepath)# 定义电影链接的正则表达式
findLink = re.compile(r'<a href="(.*?)">')
# 定义封面图片的正则表达式
findImgSrc = re.compile(r'<img.*.*>',re.S)
# 定义电影名称的正则表达式
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 定义评分的正则表达式
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
# 定义评价人数的正则表达式
findJudge = re.compile(r'<span>(\d*)人评价</span>')
# 定义概况的正则表达式
findInq = re.compile(r'<span class="inq">(.*)</span>')
# 定义电影详细内容的正则表达式
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)# 爬取网页
def getData(baseurl):datalist = []for i in range(0,10):url = baseurl + str(i*25)html = askURL(url)# 逐一解析数据soup = BeautifulSoup(html,"html.parser")for item in soup.find_all('div',class_="item"):data = []item = str(item)Link = re.findall(findLink,item)[0]data.append(Link)ImgSrc = re.findall(findImgSrc,item)[0]data.append(ImgSrc)Title = re.findall(findTitle,item)if len(Title)==2:ctitle = Title[0]data.append(ctitle)otitle = Title[1].replace("/","")data.append(otitle)else:data.append(Title[0])data.append(' ')Rating = re.findall(findRating,item)[0]data.append(Rating)Judge = re.findall(findJudge,item)[0]data.append(Judge)Inq = re.findall(findInq,item)if len(Inq) !=0:Inq = Inq[0].replace("。","")data.append(Inq)else:data.append(" ")Bd = re.findall(findBd,item)[0]Bd = re.sub('<br(\s+)?/>(\s+)?'," ",Bd)data.append(Bd.strip())datalist.append(data)    # 把处理好的一个电影信息存储到datalist中return datalist# 获取指定一个网页内容
def askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36"} # 伪装成网页的形式,请求网页信息request = urllib.request.Request(url,headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html# 保存数据
def saveData(datalist,savepath):print("save....")book = xlwt.Workbook(encoding="utf-8",style_compression=0)sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)col = ("电影详情链接","封面链接","影片中文名","影片外国名","评分","评价数","概况","相关信息","")for i in range(0,8):sheet.write(0,i,col[i])for i in range(0,250):print("第%d条"%(i+1))data = datalist[i]for j in range(0,8):sheet.write(i+1,j,data[j])book.save('豆瓣电影Top250.xls')main()
print("爬取完毕")

4f3c46e2600646ae845970703c4d925b.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业战略落地:单项目无法解决的,交给项目组合管理

在快速变化的市场环境中&#xff0c;企业对项目管理的需求日益增加&#xff0c;但传统的单项目管理和项目集管理难以满足企业对项目管理的更高要求。随后&#xff0c;项目组合管理方法论逐渐被越来越多的企业运用&#xff0c;并用于指导企业在复杂多变的经营环境下&#xff0c;…

JVM(Jvm如何管理空间?对象如何存储、管理?)

Jvm如何管理空间&#xff08;Java运行时数据区域与分配空间的方式&#xff09; ⭐运行时数据区域 程序计数器 程序计数器&#xff08;PC&#xff09;&#xff0c;是一块较小的内存空。它可以看作是当前线程所执行的字节码的行号指示器。Java虚拟机的多线程是通过时间片轮转调…

《HCIP-openEuler实验指导手册》1.5 Apache持久化连接配置

一、知识点 二、配置方法 在/etc/httpd/conf.d目录中创建持久连接相关配置文件keepalived.conf&#xff0c;并添加如下配置信息&#xff1a; KeepAlive On KeepAliveTimeout 20 MaxKeepAliveRequests 500

目标检测——大规模商品数据集

引言 亲爱的读者们&#xff0c;您是否在寻找某个特定的数据集&#xff0c;用于研究或项目实践&#xff1f;欢迎您在评论区留言&#xff0c;或者通过公众号私信告诉我&#xff0c;您想要的数据集的类型主题。小编会竭尽全力为您寻找&#xff0c;并在找到后第一时间与您分享。 …

【STM32F407+CUBEMX+FreeRTOS+lwIP之TCP记录】

STM32F407CUBEMXFreeRTOSlwIP之TCP记录 注意TCP client(socket)示例 TCP_server(socket)效果 注意 如果连接失败&#xff0c;建议关一下代理软件。 配置方面可以参考一下上一篇UDP的文章 STM32F407CUBEMXFreeRTOSlwIP之UDP记录 TCP client(socket) #define LWIP_DEMO_PORT 8…

OpenSceneGraph

文章目录 关于 OpenSceneGraphScreenshots - OpenMW 关于 OpenSceneGraph 官网&#xff1a;https://openscenegraph.github.io/openscenegraph.io/github : https://github.com/openscenegraph/OpenSceneGraphClasses : https://podsvirov.github.io/osg/reference/opensceneg…

小清新DP题(多做多想)

牛客小白月赛90 F problem solution R(n), R(m); int L 0;F(i, 1, m) R(d[i].st), R(d[i].en), c[ L] d[i].st, c[ L] d[i].en;c[ L] n;sort(c 1, c L 1); int cnt 0;F(i, 1, L) if (c[i] ! c[i - 1]) {g[c[i]] cnt;D[cnt] c[i];}sort(d 1, d m 1);f[0][0][0] …

ElasticSearch 安装(docker)

下载安装包 阿里云链接&#xff1a; elasticSearch.exe https://www.alipan.com/s/3A356NnmWaJ 提取码: 93da 点击链接保存&#xff0c;或者复制本段内容&#xff0c;打开「阿里云盘」APP &#xff0c;无需下载极速在线查看&#xff0c;视频原画倍速播放。 安装步骤 1、首先…

冯唐成事心法笔记 —— 知人

系列文章目录 冯唐成事心法笔记 —— 知己 冯唐成事心法笔记 —— 知人 冯唐成事心法笔记 —— 知世 冯唐成事心法笔记 —— 知智慧 文章目录 系列文章目录PART 2 知人 人人都该懂战略人人都该懂战略第一&#xff0c;什么是战略第二&#xff0c;为什么要做战略第三&#xff0…

GPB | RegVar:基于深度神经网络的非编码区突变功能预测新方法

Genomics, Proteomics & Bioinformatics &#xff08;GPB&#xff09;发表了由军事医学研究院辐射医学研究所张成岗研究员、周钢桥研究员和卢一鸣副研究员团队完成的题为“RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants”的方法文章。我们的“…

Docker torchserve 部署模型流程——以WSL部署YOLO-FaceV2为例

Docker torchserve 部署模型流程——以WSL部署YOLO-FaceV2为例 Docker torchserve 模型部署 一、配置WSL安装docker二、配置docker环境1&#xff0c;拉取官方镜像2&#xff0c;启动docker容器&#xff0c;将本地路径映射到docker3&#xff0c;查看docker镜像4&#xff0c;进入…

Redis入门到实战教程(基础篇)笔记

教学来源&#xff1a; Redis课程介绍导学_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1cr4y1671t?p1一、Redis 入门 1.认识NoSQL 2.Redis在虚拟机中的安装和开机自启 Redis在虚拟机中安装和配置开机自启-CSDN博客https://blog.csdn.net/qq_69183322/article/deta…

项目管理中常用的三个工具:甘特图、看板、燃尽图

在日常项目管理的实践中&#xff0c;为了更有效地追踪项目进度、优化资源配置和提高团队协作效率&#xff0c;管理者常常会借助一些工具来辅助工作。这些工具的本质在于将抽象复杂的项目管理任务具象化、简单化&#xff0c;以更直观、方便的方式呈现出来。 以下介绍项目管理中…

2024.4.28 机器学习周报

目录 引言 Abstract 文献阅读 1、题目 2、引言 3、创新点 4、总体流程 5、网络结构 5.1、损失函数 5.2、Confidence Maps 5.3、Part Affinity Fields(PAFs) 5.4、多人的PAFs 6、实验 7、结论 深度学习 yolov8实现目标检测和人体姿态估计 Yolov8网络结构 yaml…

el-input-number 只能输入整数,最小值1,最大值5

<el-form-item label"排序" prop"name" > <el-input-number v-model"form.sort" placeholder"请输入唯一排序" :min1 :max"5" :precision"0" class"custom-input-number" /> </el-form-…

uniapp中vue写微信小程序的生命周期差别

根据uniapp官网里的生命周期&#xff0c;感觉不太对劲&#xff0c;就自己测试了几个&#xff0c;发现有所差别。 红字数字 为 实际测试生命周期顺序。 因为需要页面传参 后再 初始化数据&#xff0c;而onLoad(option)接收参数后&#xff0c;就已经过了create()了&#xff0c;所…

02_c/c++开源库ZeroMQ

1.安装 C库 libzmq sudo apt install libzmq3-dev 实例: https://zeromq.org/get-started/?languagec&librarylibzmq# 编译依赖: pkg-config --cflags --libs libzmq or cat /usr/lib/x86_64-linux-gnu/pkgconfig/libzmq.pc -isystem /usr/include/mit-krb5 -I/usr/in…

DSNeRF复现流程

创建虚拟环境安装依赖 conda create -n DSNeRF python3.7pip install -r requirements.txt下载LLFF数据放在创建的data文件下 https://drive.google.com/file/d/1RjhfcbsywOvw0ts1AFSri91mKANvEVOa/view?uspsharing 下载预先训练好的模型 bash download_models.sh渲染视频…

【Linux】进程间通信(共享内存、消息队列、信号量)

一、System V —— 共享内存&#xff08;详解&#xff09; 共享内存区是最快的 IPC 形式。一旦这样的内存映射到共享它的进程的地址空间&#xff0c;这些进程间数据传递不再涉及到内核&#xff0c;换句话说&#xff0c;就是进程不再通过执行进入内核的系统调用来传递彼此的数…

C# WinForm —— 10 单选按钮与复选框的介绍与使用

单选按钮 RadioButton 一组单选按钮中&#xff0c;只能选择一个&#xff0c;互相排斥 常用属性、事件&#xff1a; 属性用途(Name)单选按钮的ID&#xff0c;在代码里引用的时候会用到,一般以 rb开头Text单选按钮旁边显示的 文本信息Checked单选按钮的勾选状态Appearance控制单…