网络爬虫--12.【XPath实战】获取百度贴吧中的图片

用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。

#coding=utf-8
import requests
from lxml import etree
import jsonclass Tieba:def __init__(self,tieba_name):self.tieba_name = tieba_name #接收贴吧名#设置为手机端的UAself.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}def get_total_url_list(self):'''获取所有的urllist'''url = "https://tieba.baidu.com/f?kw="+self.tieba_name+"&ie=utf-8&pn={}&"url_list = []for i in range(100): #通过循环拼接100个urlurl_list.append(url.format(i*50))return url_list #返回100个url的urllistdef parse_url(self,url):'''一个发送请求,获取响应,同时etree处理html'''print("parsing url:",url)response = requests.get(url,headers=self.headers,timeout=10) #发送请求html = response.content.decode() #获取html字符串html = etree.HTML(html) #获取element 类型的htmlreturn htmldef get_title_href(self,url):'''获取一个页面的title和href'''html = self.parse_url(url)li_temp_list = html.xpath("//li[@class='tl_shadow']") #分组,按照li标签分组total_items = []for i in li_temp_list: #遍历分组href = "https:"+i.xpath("./a/@href")[0] if len(i.xpath("./a/@href"))>0 else Nonetext = i.xpath("./a/div[1]/span[1]/text()")text = text[0] if len(text)>0 else Noneitem = dict(  #放入字典href = href,text = text)total_items.append(item)return total_items #返回一个页面所有的itemdef get_img(self,url):'''获取一个帖子里面的所有图片'''html = self.parse_url(url) #返回elemet累心的html,具有xpath方法img_list = html.xpath('//div[@data-class="BDE_Image"]/@data-url')img_list = [i.split("src=")[-1] for i in img_list] #提取图片的urlimg_list = [requests.utils.unquote(i) for i in img_list]return img_listdef save_item(self,item):'''保存一个item'''with open("teibatupian.txt","a") as f:f.write(json.dumps(item,ensure_ascii=False,indent=2))f.write("\n")def run(self):#1、找到了url规律,url listurl_list = self.get_total_url_list()for url in url_list:#2、遍历urllist 发送请求,获得响应,etree处理html# 3、提取title,hreftotal_item = self.get_title_href(url)for item in total_item:href = item["href"]img_list = self.get_img(href) #获取到了帖子的图片列表item["img"] = img_list# 4、保存到本地print(item)self.save_item(item)if __name__ == "__main__":tieba = Tieba("猫")tieba.run()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/452021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合并分ER图产生的冲突

合并分E-R图 各个局部应用所面向的问题不同,各个子系统的E-R图之间必定会存在许多不一致的地方,称之为冲突。 子系统E-R图之间的冲突主要有三类: ①属性冲突 ②命名冲突 ③结构冲突①属性冲突 属性域冲突,即属性值的类型、取值范围…

8.类定义、属性、初始化和析构

类定义 类 是一个独立存放变量(属性/方法)的空间 封装: 类可以把各种对象组织在一起,作为类的属性,通过 . (点)运算符来调用类中封装好的对象 属性: 变量在类中称为属性,但是类中的属性不仅仅只包含变量&#x…

GPL以及Copyleft协议使用率下降明显

根据最新的协议数据分析,不光是GPL,另外一些copyleft(AGPL,LGPL 等等)协议的使用率在不断下降,并且下降的速度越来越快。 这结果是在意料之中的,因为GPL非常的复杂。越来越多的个人和企业将选择…

概念模型和关系模型

ER模型(逻辑模型) ER模型的基本元素是:实体、联系和属性 实体:是一个数据对象,指应用中可以区别的客观存在的事物。(ER模型中的实体往往是指实体集) 实体集:指同一类实体构成的集合…

iOS AutoLayout使用技巧

关于ContentCompressionResistance, ContentHugging运用 如下图效果图,两个Label并列在同一排上,左边label自适应,右边label(红色)要使得内容全部展示,如果左边label内容很少,那么右…

网络爬虫--13.数据提取之JSON与JsonPATH

文章目录一. 前言二. JSON三. json.loads()四. json.dumps()五. json.dump()六. json.load()七. JsonPath八. JsonPath与XPath语法对比九. 案例分析一. 前言 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时…

vs2017生成sqlserver 2017项目出现.Net SqlClient Data Provider: Msg 10343

一、使用vs2017生成sqlserver 2017项目时由于添加的程序集(CLR集成,可以参考后面给出的链接进行理解) ,由于安全权限的配置不正确引发以下的问题: SQL72014: .Net SqlClient Data Provider: Msg 10343, Level 14, State 1, Line 1 针对带有 SAFE 或 EXT…

数据库系统常用的存取方法

1. B树索引存取方法 2. Hash索引存取方法 3. 聚簇存取方法

创建型模式二:工厂方法模式

1. 工厂模式介绍 工厂模式(Factory Pattern)的意义就跟它的名字一样,在面向对象程序设计中,工厂通常是一个用来创建其他对象的对象。工厂模式根据不同的参数来实现不同的分配方案和创建对象。 在工厂模式中,我们在创建…

spring 的4种事务管理(1种编程式+3种声明式)

见:http://blog.csdn.net/sinat_25926481/article/details/48208619 Spring的4种事务管理(1种编程式事务三种声明事务) 一、Spring事务的介绍 二、编程式事务xml的配置 注入后直接在service层调用模板的方法使用 三、基于AOP方式的声明式事务…

如何创造出更优秀的用户体验?

对于互联网公司来说,用户体验起到至关重要的作用,能否给用户留下深刻的印象;开发出的产品是否实用、易用?等等这些都是开发者必将思考的话题。当有用性一样的时候,大家的竞争重点就是易用性了,这就是互联网…

java并发编程实战-第三章-对象的共享

3.1可见性 首先我们需要知道的是,java的线程都有自己独立的缓存,线程之间进行共享变量的交互是通过自身和缓存和主存的交互实现的。如果线程的每次更改缓存都刷入主存,主存每次被一个线程的缓存修改,都通知所有的线程刷新自身的缓…

GitHub(从安装到使用)

一、安装Git for Windows(又名msysgit) 下载地址: https://git-for-windows.github.io/ 在官方下载完后,安装到Windows Explorer integration的时候,将选项中将“Git Bash here”和“Git GUI here”打对勾。 然后就一直next直到Fi…

Spring事务配置的五种方式和spring里面事务的传播属性和事务隔离级别、不可重复读与幻读的区别

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 spring事务配置的五种方式 前段时间对Spring的事务配置做了比较深入的研究,在此之间对Spring的事务配置虽说也配置过&#x…

Google编程之夏入围项目公布

Google编程之夏(Google Summer of Code),是由Google公司所主办的年度程式设计比赛,第一届从2005年开始。“Summer of Code”之名取自1967年的“夏日之爱”(Summer of Love)风潮。比赛的主要目的是鼓励学生参…

普通索引 唯一索引 主键索引 候选索引

普通索引 最基本的索引类型&#xff0c;没有唯一性之类的限制。普通索引可以通过以下几种方式创建&#xff1a; 创建索引&#xff0c;例如CREATE INDEX <索引的名字> ON tablename (列的列表)&#xff1b; 修改表&#xff0c;例如ALTER TABLE tablename ADD INDEX [索引…

Android 基于注解IOC组件化/模块化的架构实践

当前参与的项目历史也很久远&#xff0c;第一行代码据说是写于2014年的某一天&#xff0c;那时Android用的ide还是Eclipse、那时Android还没有很好的架构指导&#xff08;mvp、mvvm&#xff09;、那时Android最新的版本是5.0、那时Android的Material Design还没流行……背景随着…

网络爬虫--14.【糗事百科实战】

文章目录一. 要求二. 参考代码一. 要求 爬取糗事百科段子&#xff0c;假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 使用requests获取页面信息&#xff0c;用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到…

bzoj 5369: [Pkusc2018]最大前缀和

Description 小C是一个算法竞赛爱好者&#xff0c;有一天小C遇到了一个非常难的问题&#xff1a;求一个序列的最大子段和。 但是小C并不会做这个题&#xff0c;于是小C决定把序列随机打乱&#xff0c;然后取序列的最大前缀和作为答案。 小C是一个非常有自知之明的人&#xff0c…

微软:软件帝王的复兴之路

可以说在过去的两个月IT界所发生的一切都非同寻常&#xff0c;乔布斯辞职了&#xff0c;Google把Motorola并购了&#xff0c;微软炫了一下Windows 8&#xff0c;还宣布开始用ARM了&#xff0c;Google开始和英特尔合作了&#xff0c;AT&T与T-Mobile的并购也在紧密锣鼓进行中…