Python多线程豆瓣影评API接口爬虫

爬虫库

使用简单的requests库,这是一个阻塞的库,速度比较慢。
解析使用XPATH表达式
总体采用类的形式

多线程

使用concurrent.future并发模块,建立线程池,把future对象扔进去执行即可实现并发爬取效果

数据存储

使用Python ORM sqlalchemy保存到数据库,也可以使用自带的csv模块存在CSV中。

API接口

因为API接口存在数据保护情况,一个电影的每一个分类只能抓取前25页,全部评论、好评、中评、差评所有分类能爬100页,每页有20个数据,即最多为两千条数据。

因为时效性原因,不保证代码能爬到数据,只是给大家一个参考思路,上代码

from datetime import datetime
import random
import csv
from concurrent.futures import ThreadPoolExecutor, as_completedfrom lxml import etree
import pymysql
import requestsfrom models import create_session, Comments#随机UA
USERAGENT = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12'
]class CommentFetcher:headers = {'User-Agent': ''}cookie = ''cookies = {'cookie': cookie}# cookie为登录后的cookie,需要自行复制base_node = '//div[@class="comment-item"]'def __init__(self, movie_id, start, type=''):''':type: 全部评论:'', 好评:h 中评:m 差评:l:movie_id: 影片的ID号:start: 开始的记录数,0-480'''self.movie_id = movie_idself.start = startself.type = typeself.url = 'https://movie.douban.com/subject/{id}/comments?start={start}&limit=20&sort=new_score\&status=P&percent_type={type}&comments_only=1'.format(id=str(self.movie_id),start=str(self.start),type=self.type)#创建数据库连接self.session = create_session()#随机useragentdef _random_UA(self):self.headers['User-Agent'] = random.choice(USERAGENT)#获取api接口,使用get方法,返回的数据为json数据,需要提取里面的HTMLdef _get(self):self._random_UA()res = ''try:res = requests.get(self.url, cookies=self.cookies, headers=self.headers)res = res.json()['html']except Exception as e:print('IP被封,请使用代理IP')print('正在获取{} 开始的记录'.format(self.start))return resdef _parse(self):res = self._get()dom = etree.HTML(res)#id号self.id = dom.xpath(self.base_node + '/@data-cid')#用户名self.username = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@title')#用户连接self.user_center = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@href')#点赞数self.vote = dom.xpath(self.base_node + '//span[@class="votes"]/text()')#星级self.star = dom.xpath(self.base_node + '//span[contains(@class,"rating")]/@title')#发表时间self.time = dom.xpath(self.base_node + '//span[@class="comment-time "]/@title')#评论内容 所有span标签class名为short的节点文本self.content = dom.xpath(self.base_node + '//span[@class="short"]/text()')#保存到数据库def save_to_database(self):self._parse()for i in range(len(self.id)):try:comment = Comments(id=int(self.id[i]),username=self.username[i],user_center=self.user_center[i],vote=int(self.vote[i]),star=self.star[i],time=datetime.strptime(self.time[i], '%Y-%m-%d %H:%M:%S'),content=self.content[i])self.session.add(comment)self.session.commit()return 'finish'except pymysql.err.IntegrityError as e:print('数据重复,不做任何处理')except Exception as e:#数据添加错误,回滚self.session.rollback()finally:#关闭数据库连接self.session.close()#保存到csvdef save_to_csv(self):self._parse()f = open('comment.csv', 'w', encoding='utf-8')csv_in = csv.writer(f, dialect='excel')for i in range(len(self.id)):csv_in.writerow([int(self.id[i]),self.username[i],self.user_center[i],int(self.vote[i]),self.time[i],self.content[i]])f.close()if __name__ == '__main__':with ThreadPoolExecutor(max_workers=4) as executor:futures = []for i in ['', 'h', 'm', 'l']:for j in range(25):fetcher = CommentFetcher(movie_id=26266893, start=j * 20, type=i)futures.append(executor.submit(fetcher.save_to_csv))for f in as_completed(futures):try:res = f.done()if res:ret_data = f.result()if ret_data == 'finish':print('{} 成功保存数据'.format(str(f)))except Exception as e:f.cancel()

转载于:https://www.cnblogs.com/PyKK2019/p/10828632.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/251807.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【自制工具类】Java删除字符串中的元素

这几天做项目需要把多个item的id存储到一个字符串中,保存进数据库。保存倒是简单,只需要判断之前是否为空,如果空就直接添加,非空则拼接个“,” 所以这个字符串的数据结构是这样的 String str "a,b,c,d"; 保…

DMA存储器到外设代码讲解

实验目的: bsp_dma_mtp.h #ifndef __BSP_DMA_MTP_H #define __BSP_DMA_MTP_H#include "stm32f10x.h" #include <stdio.h>// 串口工作参数宏定义 #define DEBUG_USARTx USART1 #define DEBUG_USART_CLK RCC_APB2Periph_USAR…

java基础集合类——LinkedList 源码略读

1.概览 LinkedList是java的动态数组另一种实现方式&#xff0c;底层是基于双向链表&#xff0c;而不是数组。 public class LinkedList<E>extends AbstractSequentialList<E>implements List<E>, Deque<E>, Cloneable, java.io.Serializable LinkedLis…

[BZOJ] 1688: [Usaco2005 Open]Disease Manangement 疾病管理

1688: [Usaco2005 Open]Disease Manangement 疾病管理 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 727 Solved: 468[Submit][Status][Discuss]Description Alas! A set of D (1 < D < 15) diseases (numbered 1..D) is running through the farm. Farmer John woul…

es6 var、let、const命令

1.let和var <1>let声明的变量仅在块级作用域内有效&#xff1b; var声明的变量在全局有效&#xff1b; <2> var变量乐意在声明之前使用&#xff0c;输出undefined; let 不可以&#xff0c;直接抛出一个错误&#xff1b; 例如&#xff1a;//var 声明console.log(a);…

实例属性和类属

1.Python是动态语言&#xff0c;根据类创建的实例&#xff0c;可以任意绑定属性 2.给实例绑定属性的方法有两种&#xff1a; 通过实例变量或者通过self变量。 1 class Student(object): 2 def __init__(self, name): 3 self.namename 4 5 ##或者如下&#xff1a; 6 &g…

vim中跳到第一行和最后一行

底线命令模式 :0或:1跳到文件第一行 :$跳到文件最后一行 命令模式 gg跳到第一行 shiftg跳到文件最后一行转载于:https://www.cnblogs.com/liuys635/p/10831196.html

bootstrap-table 刷新页面数据

bom.bootstrapTable(load,msg[object]);//这一步 务必要添加。if(msg[code]1){bom.find(tbody).css(display,table-row-group)bom.bootstrapTable({data: msg[object],columns: columns,resizable: true,cache:false,pagination: true,sidePagination: client,pageNumber: 1,pa…

Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix

任务场景 Photos to semantic segmentationCityscapes labels to photosColorizationFacades labels to photoDay to nightThe edges to photoAnd so on.在生成器模型中&#xff0c;条件变量y实际上是作为一个额外的输入层&#xff08;additional input layer&#xff09;&…

5分钟从零构建第一个 Apache Flink 应用

为什么80%的码农都做不了架构师&#xff1f;>>> 在本文中&#xff0c;我们将从零开始&#xff0c;教您如何构建第一个Apache Flink &#xff08;以下简称Flink&#xff09;应用程序。 开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发…

WinForm窗体中如何在一个窗体中取到另一个窗体的值

例如我们定义两窗体&#xff0c;Form1和Form2&#xff0c;如何在Form2中取到Form1中的一个值呢&#xff1f; 解决方法1&#xff1a; 在Form1 中定义一个成员变量&#xff0c;例如public string a “ ”: 然后给这个成员变量赋值&#xff0c;例如 a lblname.text; 在Form2中我…

Android6.0------权限申请RxPermissions

前面写了Android6.0权限介绍和权限单个&#xff0c;多个申请&#xff0c;用的是纯Java代码&#xff0c;本文主要说的是借助第三方库来实现权限申请。 借助第三方库 RxPermissions来申请6.0权限。 RxPermissions库地址&#xff1a;https://github.com/tbruyelle/RxPermissions …

如何给 mongodb 设置密码

言简意赅&#xff0c;步骤如下&#xff1a; 连接mongo mongo进入admin数据库 use admin  创建管理员账户db.createUser({ user: "adminName", pwd: "adminPassword", roles: [{ role: "userAdminAnyDatabase", db: "admin&qu…

while和do-while循环结构

while(循环条件){ 循环操作 i; } 1.声明并初始化循环变量。 2.判断循环条件是否满足&#xff0c;如果满足则执行循环操作&#xff1b;否则退出循环。 3.执行完循环操作后&#xff0c;再次判断循环条件&#xff0c;决定继续执行循环或退出循环。 *while循环的特点&#xff1a;先…

Thread线程类及多线程

1.进程、线程、并发、并行是什么&#xff1f; 1)进程&#xff1a;操作系统中可以运行多个任务(程序)&#xff0c;这些运行的任务(程序)被称为进程。程序的运行产生进程(内存空间、程序执行的堆栈)&#xff0c;可以这样说&#xff0c;进程是作为操作系统分配资源的基本单位。 2)…

绛河 初识WCF5

然后我们在<Client>中添加一个终结点&#xff0c;这个是客户端的终结点&#xff0c;我们前面曾经提过&#xff0c;通信实际上发生在两个终结点间&#xff0c;客户端也有个终结点&#xff0c;然而请求总是从客户端首先发起&#xff0c;所以终结点地址应该填写为服务端终结…

python修炼第四天

今天换了师傅。江湖人称景女神^o^。 女师傅讲的比较细&#xff0c;原理的比较多。初学者来说有些难。但是基本功是必须要打牢的。努力&#xff01; 迭代器 迭代器&#xff0c;迭代的工具1 什么是迭代&#xff0c;指的是一个重复的过程&#xff0c;每一次重复称为一次迭代&#…

尴尬的存储过程

最近在给一个已沉淀了多年的系统框架进行优化&#xff0c;发现大部分的基础业务&#xff08;比如增删改&#xff09;的实现都是通过存储过程来实现。这让我纠结了很久&#xff0c;看了下代码格式我猜应该都是使用了代码生成器。这无疑为系统的扩展留下了一个难以弥补的大坑。 首…

java虚拟机06-内存分区/新生代、老年代

1.原因 JVM在程序运行过程当中&#xff0c;会创建大量的对象&#xff0c;这些对象&#xff0c;大部分是短周期的对象&#xff0c;小部分是长周期的对象&#xff0c;对于短周期的对象&#xff0c;需要频繁地进行垃圾回收以保证无用对象尽早被释放掉&#xff0c;对于长周期对象&a…

博客作业04--树

1.学习总结(2分) 1.1树结构思维导图 1.2 树结构学习体会 树这一章节比较复杂&#xff0c;知识点繁多&#xff0c;结合了递归的知识所以代码阅读起来会有障碍&#xff0c;难以理解&#xff0c;所以学起来比较吃力&#xff0c;而且很多经典的算法理解的不是很透彻解决pta上的问题…