python数据挖掘电影评分分析_[Python数据挖掘]爬行豆瓣影评数据,python,爬取

# 1、导入需要的库

import urllib.request

from bs4 import BeautifulSoup

# 随机数的库

import random

# 时间库

import time

# 表格库

import csv

# 2、分多个浏览器访问豆瓣网,防止访问多页时被拒绝

# 每个浏览器在请求数据的时候,请求头是不一样

# 计算机命名规则:驼峰命名法

# url:传值过来的访问地址

def getRequest(url):

# 谷歌浏览器

header1 = {

"Host":"movie.douban.com",

"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"

}

# 火狐浏览器

header2 = {

"Host": "movie.douban.com",

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:73.0) Gecko/20100101 Firefox/73.0"

}

# 将浏览器装入列表里

list = [header1,header2]

# 随机取一个请求头 len(list)-1:列表长度-1

index = random.randint(0,len(list)-1)

# 随机用一个请求头,开始访问地址

req = urllib.request.Request(url=url,headers=list[index])

# 返回结果

return req

# 封装函数,爬取数据

def getData(url,commentAll):

# 获取处理后的请求

req = getRequest(url)

# 打开网址

html = urllib.request.urlopen(req)

# 读取数据(data得到所有数据)

data = html.read()

# 输出爬取到的所有数据,进制形式显示

# print(data)

# 定义soup对象,解析网页

soup = BeautifulSoup(data,"html.parser")

# 找到装有所有评论的id名为comments的div

# ["数据"] 数组里只有一个元素----数据

comments = soup.select("#comments")[0]

# print(comments)

# 读取到每一条评论,div的class名为comment-item

items = comments.select(".comment-item")

# print(items)

# 循环遍历每一条评论

for i in items:

# 找到装着用户名和星级的span标签,class名为comment-info

info = i.select(".comment-info")[0]

# print(info)

# 读出用户名的a标签里面的字符串用户名 []

# author = info.select("a")[0].string 数据在列表里

author = info.find("a").string

# print(author)

# 取星级,找到装着星级的span标签,读取title值

# ["看过",星级,时间]

star = info.select("span")[1]["title"]

# print(star)

# 取评论,找到class名为short的p标签

short = i.select(".short")[0].string

# print(short)

# 将 用户名、星级、评论 装入在字典里面

talk = {"author":author,"star":star,"short":short}

# print(talk)

# 将字典类型的数据,加到列表里面

commentAll.append(talk)

# 返回整个列表

return commentAll

# 封装函数,把数据装入表格中

def writeInto(commentAll):

# 打开表格 as从命名 file

# 参数1:表格名称

# 参数2:"a+"追加模式 "w"写入模式 "r"读取模式

# w:writer r:read a:append

# wb二进制,不带b就是文本

# 参数3:数据格式为utf-8

# 参数4:newline 新行,空行

with open("douban.csv","a+",encoding="utf-8",newline="") as file:

# 向表格写入数据

writer = csv.writer(file)

# 数据在commentAll列表,循环遍历列表,读取数据

for i in commentAll:

# 读取每一个字段 用户名、星级、评论

info = [i["author"],i["star"],i["short"]]

# 把数据写入表格

writer.writerow(info)

# 关闭表格

file.close()

# 函数的入口

# 直接输入main,有提示

if __name__ == '__main__':

# 初始化一个空列表,将得到的所有数据

commentAll = []

# range()产生序列 0.1.2,爬取3页

for i in range(0,3):

# 爬取的网页地址

# limit=20 每一页读取20条数据

# start = 80 从第几条读取数据 20-39 40-59 60-79 80-99

url = "https://movie.douban.com/subject/25931446/comments?start=%d&limit=20&sort=new_score&status=P"%(i*20)

# 调用函数,爬取数据

getData(url,commentAll)

# 每爬取一个页面数据,休息10秒,防止被封号

time.sleep(10)

# 调用函数,爬取完数据,装入表格

writeInto(commentAll)

# 将表格用 记事本 打开,另存为ANSI格式

# 如果你要操作数据,还要转回utf-8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站本地调试工具_一款Web调试代理工具:Fiddler

前言在移动软件开发工作中,我们经常需要对APP软件进行调试及问题定位。在我们检查定位问题的时候,很多情况下需要查看接口的请求情况,当我们没有在调试模式的情况下,如何才能有效快捷的得到各个接口的请求情况呢?这个时…

python语法知识_Python 语法小知识

对象通过引用传递的 不支持自增 自减之类的 i i 多元赋值 右边是元组 ,多元赋值可以实现不需要中间变量 交换两个变量的值 _xxx_ 系统定义的名字 _xxx 私有变量 python对象的类型和内存都是在运行时才确定的 当对象被创建时,就创建了一个引用计数 …

plsql无监听程序_详细!看看顶级互联网公司都在研究的无服务器架构!

无服务器计算(Severless computing,简称 Serverless)现在是软件架构圈中的热门话题,国外三大云计算供应商(Amazon、Google 和 Microsoft)都在大力投入这个领域,涌现了不计其数的相关书籍、开源框架、商业产品、技术大会。到底什么是 Serverle…

ef.extensions mysql_EFcore 使用 EFCore.BulkExtensions(不支持mysql)或 EntityFramework-Plus 批量增加、删除、修改...

EFCore.BulkExtensions,EntityFramework-Plus 都是Microsoft推荐的EFcore扩展 。可以通过nuget安装一、EFCore.BulkExtensions使用方法如下:实体批量操作:context.BulkInsert(entitiesList); context.BulkInsertAsync(entitiesList);context…

sqlyog怎么连接mysql错误2003_网站突然连不上,MySQL连接错误经常内存不够宕机

阿里云服务器 MySQL 经常自动停止、挂掉、重启。打开 MySQL 的 error.log 错误信息,在阿里云 CentOS 的路径为 /alidata/log/mysql/error.log,如下:2016-03-13 00:16:37 0[Warning] TIMESTAMP with implicit DEFAULT value is deprecated. Please use--e…

华为抓截屏_原来这才是华为截屏的正确姿势,今天才知道,千万别不当回事

原标题:原来这才是华为截屏的正确姿势,今天才知道,千万别不当回事大家都知道我们的华为手机有很多好用的功能,截屏就是其中一个,那么你知道华为手机截屏的正确姿势吗?今天小编就带大家一起看看吧&#xff0…

python显示图片列表_python读取图片任意范围区域

使用python进行图片处理,现在需要读出图片的任意一块区域,并将其转化为一维数组,方便后续卷积操作的使用。下面使用两种方法进行处理:convert 函数from PIL import Imageimport numpy as npimport matplotlib.pyplot as pltdef Im…

mysql进阶3_MySQL进阶

1.视图概述:视图就相当于一个临时表,但是只定义了对应关系,用这个视图的时候,就会自行执行视图里定义好的sql语句,视图是只能去查原表的数据,不能去修改原表里面的数据的;视图的增删改查&#x…

python 反射和动态加载_Python的反射

什么是反射反射是一个很重要的概念,它可以把字符串映射到实例的变量或者实例的方法然后可以去执行调用、修改等操作。它有四个重要的方法:getattr 获取指定字符串名称的对象属性setattr 为对象设置一个对象hasattr 判断对象是否有对应的对象(字符串)dela…

oracle和mysql通用建表语句_mysql建表语句到oracle怎么写?

mysql建表语句到oracle怎么写?CREATE TABLE Advertisment ( AdId int(8) NOT NULL auto_increment, AderId int(8) default NULL, AdName varchar(50) default NULL, AdKind varchar(30) default NULL, CreateMan varchar(30) default NULL, StartDate date d…

onenote快捷键_高效飞快地使用onenote快捷键:快捷键功能架构解析

默认快捷键有近200组,涉及到的功能如此之多,但真正频繁使用的,可能也就几十组。如何从这么多快捷键中选择出自己需要的呢?你需要一张功能架构参考图。1默认快捷键功能架构图官方文档已对快捷键做了初步分类,但比较抽象…

怎么设置php.ini允许sql语句插入空值到mysql里_php读取.sql文件,写入mysql,navicat显示乱码,编码设置...

案例:php文件:install.php--------编码:php保存文件的编码、php header编码、php程序的默认编码、php写入数据库的编码php读取的sql代码文件:php.sql--------编码:sql保存文件的编码mysql数据库:test1-----…

ueditor如何设置上传图片的高度宽度_上百张图片上传并对齐,你加班2小时没搞定,同事简单三步就完成...

Excel除了汇总数据还可以上传保存相片,比如我们在人力信息表中将每个人的相片放到表格里面去,或者我们需要将宠物对应的相片放到表格里面去,这就涉及到图片的批量上传以及对齐的操作。如图所示,我们需要将每个动物对应的图片&…

pdf在线翻译_如何免费快速地翻译pdf英文文档,并保留很好的格式?

对于那些科研工作者,每天阅读外文文献是必须要做的,大家都知道,一份外文的pdf文献内容是很多的,阅读量也是非常大,边看边翻译的话,这个任务还是很艰巨的,面对如此大的阅读量,该怎么快…

java的super_Java中this和super的用法总结

这几天看到类在继承时会用到this和super,这里就做了一点总结,与各位共同交流,有错误请各位指正~thisthis是自身的一个对象,代表对象本身,可以理解为:指向对象本身的一个指针。this的用法在java中大体可以分…

服务器具有挂起的重新启动_ESP8266与网络服务器实时通讯

背景知识视频教程Bootstrap 4布局:响应式单页设计​viadean.comNode.js,Express,MongoDB等:2020年完整的训练营 - 国外课栈​viadean.com高级Express - 国外课栈​viadean.com目前,所有已呈现的通信都是基于请求响应方…

java除号_Java的运算符

1.算数运算符 加(正号)  - 减(符号)  * 乘  / 除% 取模(取余)   自增  -- 自减号的几种作用:加法运算  表示为一个正数  还可以用来作字符串的拼接整数相除只能得到整数。如果想得到小数,必须把参与计算的数据变化为浮点类型的数据。自增和…

strace命令_在软件部署中使用 strace 进行调试

我最喜欢的用来解决“为什么这个软件无法在这台机器上运行?”这类问题的工具就是 strace。-- Simon Arneaud(作者)我的大部分工作都涉及到部署软件系统,这意味着我需要花费很多时间来解决以下问题:这个软件可以在原开发…

java 写文件filewriter_使用FileWriter写文件

package textMyself;//使用FileWriter写文件import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;public class text2 {public static void main(String[] args) {// TODO 自动生成的方法存根try {/** 先产…

procreate 笔刷_Procreate新手漫画入门:笔刷,图层,上色

上个月新入手了一个新的ipad,又打开了一种关于漫画的新的可能性~同时验证了那句话:对生活保持好奇,你将收获更多。于是就有一些喜欢画画的小伙伴有私信这样的漫画怎么画的?这个秘密工具就是:ipad ➕ Apple pencil ➕ a…