python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

530837fd9476c29a6ac917a96922da1972ccff20.jpg

前言

对于爬虫很不陌生,而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了,今天小编就介绍一下如果爬取豆瓣上面电影影评,以《我不是药神》为例。

基本环境配置

版本:Python3.6aab16f5b027b2733e3cf88d7bf31e261fd907c01.png

相关模块:

(1)requests:用来简单数据请求。

(2)lxml:比BeautiSoup更快更强的解析库。

(3)pandas:数据处理神器。

(4)time:设置爬虫访问间隔。

(5)random:生成随机数,配合time使用。

(6)tqdm:显示程序运行进度。

以上模块如果你没有安装可以在cmd命令提示符里进行pip install + 模块名 进行安装。

主要思路步骤

1、打开豆瓣电影《我不是药神》的短评网页,右键检查或者按F12,然后选择用户名和评论就会显示出对应的代码部分

dd7b76aa176fb6efde035c0bd2319810a49c57ed.jpg

正在上传...取消

2、通过requests模块发送一个get请求,并以utf-8重新编码;

3、添加一个交互,判断是否成功获取到资源(状态码为200),输出获取状态。

对于爬取下来《我不是药神》的短评内容,我们用lxml来进行解析。在步骤1中找到对应部分的代码,然后右键选择Copy,再选择Copy XPath,就能获取其路径了。

注意:

爬取下来的短评首尾可能有多余的空格,我们就需要使用字符串中的strip()方法来去掉这些多余的空格。

4、获取到数据之后,我们通过list构造dictionary,然后通过dictionary构造dataframe,并通过pandas模块将数据输出为csv文件

实现代码b51b12eb137b762dc54951afca260840a1bde909.jpg

运行结果e8a9099a3ff08f059f1b4f3687e9eabf6a4184a8.jpg

beb0d9285d398a5e66fb97a221d29c7455086722.jpg

正在上传...取消

当然了,如果你想要用这些数据做成词云图,进行数据展示也是可以的。

词云实现代码09b091ae11c5a545f0a22f4d1f88f40b89a23789.jpg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云服务器开启ftp_用云服务器怎么挂机器人

用服务器​怎么挂机器人?以往,大家大多使用个人电脑来做作为挂机使用,这不仅仅会加速电脑的老化,也需要支付高昂的电费、宽带费。那么怎么解决?使用云服务器!随着技术不断进步,现在各类应用逐步…

jquery上传图片_文件上传三种方式

来源&#xff1a;python宝典 链接&#xff1a;https://mp.weixin.qq.com/s/YUplCQDfAucA_rS8E1T6WA需求上传图片在页面显示Form表单上传<html lang"en"><head><meta charset"UTF-8"><title>Titletitle>head><body>…

vue seo关键词设置_SEO关键词优化排名的几个技巧

关键词是优化网站必须要思考分析的&#xff0c;SEO网站优化过程中&#xff0c;网站的文章内容及标题优化&#xff0c;那么必须要考虑到网站的主关键词与长尾关键词了。那么&#xff0c;SEO关键词优化排名的技巧有哪些&#xff1f;下面眼前一亮就跟大家分享下SEO关键词快速排名技…

loadrunner录制事件为0_Oracle数据库性能监控|LoadRunner 中配置监控Oracle

Oracle 是目前世界上大型应用系统广泛使用的数据库&#xff0c;Oracle 数据库产品为财富排行榜上的前1000 家公司所采用&#xff0c;许多大型网站也选用了Oracle 系统。Oracle 内部结构比较复杂&#xff0c;如图8.1 所示&#xff0c;出现性能问题的可能性是比较大的。因此在性能…

闪退的解决方法_王者荣耀2.0不闪退需要什么手机?王者荣耀2.0闪退解决方法

[海峡网]国民级手游《王者荣耀2.0》刚刚上线不久&#xff0c;很多玩家就发现游戏的时候出现了闪退、卡顿严重等严重影响游戏体验的情况&#xff0c;虽然官方做出了补丁更新的动作&#xff0c;但是依旧有很多小伙伴注定与《王者荣耀2.0》无缘&#xff0c;那么&#xff0c;为了玩…

string函数_C++[06] string成员函数之删除函数erase

介绍一下删除函数erase&#xff0c;老方法&#xff0c;新建cpp文件&#xff0c;并找到string的erase成员函数&#xff0c;可以看到&#xff0c;erase有3个重载函数右键转到定义&#xff0c;可以查看erase的源码_Myt& erase(size_type _P0 0, size_type _M npos){ if …

pc端jquery左右按钮控制带缩略图的图片切换代码_Web开发实用的图片预览插件,简单零依赖——PhotoSwipe...

介绍PhotoSwipe是一个JavaScript库&#xff0c;没有依赖项。要说唯一的依赖项那就是Vanilla.js(原生js),因此你可以在你的任何Web项目中使用&#xff0c;包括主流的Vue、React、Angular以及传统jQuery的项目。PhotoSwipe可以被用到各种大中小型项目当中&#xff0c;并且PC和移动…

怎么调试内存溢出的c++代码_【C/C++】内存对齐 到底怎么回事?

1 明确几个概念代码分区&#xff1a;在使用C/C编程时&#xff0c;我们定义的变量存在于内存中&#xff0c;而内存在C语言的角度上可以分为五大区。局部变量在栈区&#xff0c;静态/全局变量在全局区&#xff0c;动态申请的变量存在于堆区&#xff0c;const修饰的变量/字符常量存…

js粘贴板为什么获取不到图片信息_图床+typora,告别markdown中关于图片的困惑

在上一篇文章中向大家介紹了几款软件&#xff0c;这篇文章主要分享一下markdown编辑器typora软件如何使用图床&#xff0c;快速的将图片加载到markdown文档中。图床&#xff1a;指存储图片的服务器&#xff0c;将图片上传到服务器上&#xff0c;转换成链接为什么使用图床&#…

计算机二级mysql是什么_计算机二级mysql考什么内容?

计算机二级mysql考什么内容&#xff1f;一、基本概念与方法&#xff11;、数据库基础知识(1)数据库相关的基本概念(2)数据库系统的特点与结构(3)数据模型2、关系数据库、关系模型3、数据库设计基础(1)数据库设计的步骤(2)关系数据库设计的方法4、MySQL概述(1)MySQL系统特性与工…

eclipse软件有时会退出弹出一串错误弹框_修复iPhone上的iOS 13软件更新失败错误...

如果由于“软件更新失败&#xff1a;下载iOS 13时发生错误”错误而无法安装刚刚发布的用于检查新的暗模式功能的iOS 13更新&#xff0c;那么我可以理解这种挫败感。但幸运的是&#xff0c;有些解决方案可以尝试修复某些用户报告的iOS 13软件更新失败错误。解决iPhone 13软件失败…

mysql第四章分页显示查询出租房屋信息_MYSQL必知必会读书笔记第四章之检索数据...

MySQL是一种开放源代码的关系型数据库管理系统(RDBMS)&#xff0c;MySQL数据库系统使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理。使用Select语句返回的数据&#xff0c;可能会发现显示的数据会与其他的地方顺序不同。出现这种情况很正常。如果没有明确排序…

vep文件如何转换mp4_如何将DVD的vob视频格式转换成mp4格式

首先简述一下&#xff0c;VOB是DVD Video OBject的缩写&#xff0c;vob文件用来保存所有MPEG-2格式的音频和视频数据&#xff0c;这些数据不仅包含影片本身&#xff0c;而且还有供菜单和按钮用的画面以及多种字幕的子画面流。如何把视频vob格式转换成任意格式视频文件呢&#x…

esp8266接收到的数据如何存放到数组中_Java中HashMap的实现原理

最近面试中被问及Java中HashMap的原理&#xff0c;瞬间无言以对&#xff0c;因此痛定思痛觉得研究一番。一、Java中的hashCode和equals1、关于hashCodehashCode的存在主要是用于查找的快捷性&#xff0c;如Hashtable&#xff0c;HashMap等&#xff0c;hashCode是用来在散列存储…

python测试用例管理_Python测试框架Pytest的常用插件测试报告

原标题&#xff1a;Python测试框架Pytest的常用插件测试报告一、pytest-html 生成 html 测试报告 要求&#xff1a;Python 3.6 安装&#xff1a;pip install pytest-html 文档&#xff1a;https://github.com/pytest-dev/pytest-html、https://www.cnblogs.com/linuxchao/p/lin…

python symbol函数展开_QGIS表达式中的函数

编程语言中的函数&#xff0c;与数学函数的定义大不相同。在计算机领域&#xff0c;函数是指一段可以直接被另一段程序或代码引用的程序或代码&#xff0c;也叫做子程序(subroutine)、过程(procedure)、方法(method)。函数在QGIS表达式构建过程中起到重要作用&#xff0c;表达式…

layui 金额数据千分位_IG神秘打野韩服数据,盲僧数据或暗示英雄池问题

在LPL春季赛结束&#xff0c;而夏季赛还未开始的这段时间&#xff0c;是LPL各大战队能够利用的宝贵时间。为了备战S10&#xff0c;有一些队伍确实需要引援。而在这次转会期期间&#xff0c;率先出现转会传闻的是IG战队。据传IG打野Leyan有离队的可能&#xff0c;同时IG也在积极…

python设计模式pdf_精通Python设计模式 高清晰PDF+源码

精通Python设计模式讲述了16种基本设计模式&#xff0c;轻松解决软件设计常见问题&#xff1b;借力高效的Python语言&#xff0c;用现实例子展示各模式关键特性。 本书用实际生活中的例子带你了解常用的设计模式&#xff0c;介绍了诸多有关编写Python风格代码的底层细节和概念&…

datanode无法启动_Hadoop DataNode启动和初始化过程

简介我们先看DataNode的doc文档的介绍&#xff0c;DataNode是一个类&#xff0c;用于存储一组块&#xff0c;用于DFS部署。单个部署可以有一个或多个DataNode。每个DataNode通信定期与单个NameNode进行通信。它还可以与客户端和其他的DataNodes通信。DataNode存储一系列命名的块…

挖掘机燃料_2020广东挖掘机工程机械出租公司合作共赢

如今的挖掘机具有比以往更多的内置安全功能&#xff0c;但这并不意味着只有任何人都可以爬上驾驶室并安全操作。1、仔细检查地面区域使用挖掘机时&#xff0c;诸如岩石、建筑材料和树桩之类的物品会损害安全性。在开始操作机器之前&#xff0c;请确保已将其从该区域中清理。此外…