数据解析学习笔记(正则解析、bs4解析、xpath解析)

聚焦爬虫:爬取页面中指定的页面内容。
- 编码流程:
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储

数据解析分类:

  1. 正则
  2. bs4
  3. xpath(***)

数据解析原理概述:
- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
- 1.进行指定标签的定位
- 2.标签或者标签对应的属性中存储的数据值进行提取(解析)

一、正则解析

常用正则表达式回顾:
在这里插入图片描述

<div class="thumb"><a href="/article/121721100" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12172/121721100/medium/DNXDX9TZ8SDU6OK2.jpg" alt="指引我有前进的方向">
</a></div>ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

项目需求:爬取糗事百科指定页面的热图,并将其保存到指定文件夹中

在这里插入图片描述
在这里插入图片描述

import requests
import re
import osif __name__ == '__main__':# 创建一个文件夹,用来保存所有的图片if not os.path.exists('./qiutuLibs'):os.mkdir('./qiutuLibs')# 2.UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}# 设置一个通用的url模板url = 'https://www.qiushibaike.com/imgrank/page/%d/'for pageNum in range(2,3):# 对应页码的urlnew_url = format(url%pageNum)# 使用通用爬虫对url对应的一整张页面进行爬取page_text = requests.get(url=new_url,headers=headers).text# 使用聚焦爬虫将页面中所有的图片进行解析他/提取ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex,page_text,re.S)print(img_src_list)for src in img_src_list:# 拼接出一个完整的图片urlsrc = 'https:' + srcresponse = requests.get(url=src,headers=headers)# 请求到了图片的二进制数据img_data = response.content# 生成图片名称img_name = src.split('/')[-1]# 图片最终存储的路径imgPath = './qiutuLibs/' + img_namewith open(imgPath,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')

二、bs4解析

bs4进行数据解析- 数据解析的原理:- 1.标签定位- 2.提取标签、标签属性中存储的数据值- bs4数据解析的原理:- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中- 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取- 环境安装:- pip install bs4- pip install lxml
    - 如何实例化BeautifulSoup对象:- from bs4 import BeautifulSoup- 对象的实例化:- 1.将本地的html文档中的数据加载到该对象中fp = open('./test.html','r',encoding='utf-8')soup = BeautifulSoup(fp,'lxml')- 2.将互联网上获取的页面源码加载到该对象中page_text = response.textsoup = BeatifulSoup(page_text,'lxml')- 提供的用于数据解析的方法和属性:- soup.tagName:返回的是文档中第一次出现的tagName对应的标签- soup.find():- find('tagName'):等同于soup.div- 属性定位:-soup.find('div',class_/id/attr='song')- soup.find_all('tagName'):返回符合要求的所有标签(列表)- select:- select('某种选择器(id,class,标签...选择器)'),返回的是一个列表。- 层级选择器:- soup.select('.tang > ul > li > a')>表示的是一个层级- oup.select('.tang > ul a'):空格表示的多个层级- 获取标签之间的文本数据:- soup.a.text/string/get_text()- text/get_text():可以获取某一个标签中所有的文本内容- string:只可以获取该标签下面直系的文本内容- 获取标签中属性值:- soup.a['href']

在这里插入图片描述

from bs4 import BeautifulSoupif __name__ == '__main__':# 想要将本地的html文档的数据加载到对象中fp = open('./test.html','r',encoding='utf-8')soup = BeautifulSoup(fp,'lxml')# print(soup)# print(soup.a) # soup.tagName返回的是html中第一次出现的tagName标签# find('tagName') : 等同于soup.tagName# print(soup.find('div'))# 属性定位# print(soup.find('div',class_='song'))# print(soup.find_all('a')) # 返回符合要求的所有标签(返回一个列表)# print(soup.select('.tang')) # 返回一个列表# print(soup.select('.tang > ul > li > a')[0]) # 返回一个列表# print(soup.select('.tang > ul a')[0]) # 返回一个列表# 获取标签之间的文本数据# text/get_text():可以获取某一个标签中所有的文本内容print(soup.a.text)print(soup.a.get_text())# string:只可以获取该标签下面直系的文本内容print(soup.a.string)# 获取标签中属性值print(soup.a['href'])

在这里插入图片描述

项目需求:使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储

在这里插入图片描述
在这里插入图片描述

import requests
from bs4 import BeautifulSoupif __name__ == '__main__':# 对首页的页面数据进行爬取url = 'https://www.shicimingju.com/book/sanguoyanyi.html'# 2.UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}page_text = requests.get(url=url,headers=headers).text.encode('ISO-8859-1')# 1.实例化BeautifulSoup对象,需要将页面源码数据加载到该对象中soup = BeautifulSoup(page_text,'lxml')# 2.解析章节标题和详情页的urlli_list = soup.select('.book-mulu > ul > li')print(li_list)fp = open('./sanguo.txt','w',encoding='utf-8')for li in li_list:title = li.a.stringdetail_url = 'https://www.shicimingju.com/' + li.a['href']# 对详情页发起请求,解析出章节内容detail_page_text = requests.get(url=detail_url,headers=headers).text.encode('ISO-8859-1')# 解析成详情页中相关的章节内容detail_soup = BeautifulSoup(detail_page_text,'lxml')div_tag = detail_soup.find('div',class_='chapter_content')# 解析到了章节的内容content = div_tag.text# print(div_tag.text)fp.write(title+':'+content+'\n')print(title,'爬取成功!!!')

在这里插入图片描述

三、xpath解析

xpath解析:最常用且最便捷高效的一种解析方式。通用性最强。- xpath解析原理:- 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。- 环境的安装:- pip install lxml- 如何实例化一个etree对象:from lxml import etree- 1.将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)- 2.可以将从互联网上获取的源码数据加载到该对象中etree.HTML('page_text')- xpath('xpath表达式')- xpath表达式:- /:表示的是从根节点开始定位。表示的是一个层级。- //:表示的是多个层级。可以表示从任意位置开始定位。- 属性定位://div[@class='song'] tag[@attrName="attrValue"]- 索引定位://div[@class="song"]/p[3] 索引是从1开始的。- 取文本:- /text() 获取的是标签中直系的文本内容- //text() 标签中非直系的文本内容(所有的文本内容)- 取属性:/@attrName     ==>img/src

1.项目需求:xpath解析案例-4k图片解析爬取

在这里插入图片描述

import requests
from lxml import etree
import osif __name__ == '__main__':url = 'http://pic.netbian.com/4kmeishi/'# UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}response = requests.get(url=url,headers=headers)# 手动设定响应数据的编码格式# response.encoding = 'utf-8'page_text = response.text# 数据解析: src的属性值 alt的属性值tree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="slist"]/ul/li')print(li_list)#创建一个文件夹if not os.path.exists('./picLibs'):os.mkdir('./picLibs')for li in li_list:img_src = 'http://pic.netbian.com/' + li.xpath('./a/img/@src')[0]img_name = li.xpath('./a/img/@alt')[0] + '.jpg'# 通用的处理中文乱码的解决方案img_name = img_name.encode('iso-8859-1').decode('gbk')# print(img_src + img_name)# 请求图片进行持久化存储img_data = requests.get(url=img_src,headers=headers).contentimg_path = 'picLibs/' + img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')

在这里插入图片描述

2.项目需求:xpath解析案例-全国城市名称爬取

在这里插入图片描述

import requests
from lxml import etreeif __name__ == '__main__':url = 'https://www.aqistudy.cn/historydata/'# UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}page_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)# 解析到热门城市和所有城市对应的a标签a_list = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a | //div[@class="bottom"]/ul/li/a')all_city_names = []for a in a_list:city_name = a.xpath('./text()')[0]all_city_names.append(city_name)print(all_city_names,len(all_city_names))

在这里插入图片描述

3.项目需求:批量爬取站长素材免费ppt并保存到本地

在这里插入图片描述
在这里插入图片描述

import time
import requests
from lxml import etree
import osif __name__ == '__main__':start = time.perf_counter()if not os.path.exists('./ppt'):os.mkdir('./ppt')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',}url = 'https://sc.chinaz.com/ppt/free_1.html'response = requests.get(url=url,headers=headers)page_text = response.texttree = etree.HTML(page_text)num = 0urls = tree.xpath('//div[@id="vueWaterfall"]//a/@href')for url in urls:url = 'https://sc.chinaz.com/' + urlpage_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)download_url = tree.xpath('//div[@class="download-url"]/a[1]/@href')[0]print(download_url)response = requests.get(url=download_url,headers=headers).contentwith open('./ppt/' + download_url.split('/')[-1],'wb') as fp:fp.write(response)num = num + 1print('已经下载'+str(num)+'个模板!')print("爬取完成!")end = time.perf_counter()print('共耗时:', end - start, '秒')

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/470839.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rasa NLU 实践

文章目录1. 目录结构2. nlu.yml3. config.yml4. domain.yml5. 实践learn from https://github.com/Chinese-NLP-book/rasa_chinese_book_code 1. 目录结构 2. nlu.yml version: "3.0" nlu:- intent: greetexamples: |- 你好- hello- hi- 喂- 在么- intent: goodbye…

字符串数组判断数字,字母汉字,

c中判断字符串是否为数字的方法:cout << "请输入一个整数数组&#xff08;不超过1000个&#xff09;&#xff1a;" << endl;17 cin >> arr[0];18 while (getchar() ! \n)19 {20 cin >> arr[num];21 num;22 …

python3爬虫验证码识别——超级鹰打码平台的使用实战:识别古诗文网登录页面中的验证码

一、验证码和爬虫之间的爱恨情仇&#xff1f; 反爬机制&#xff1a;验证码.识别验证码图片中的数据&#xff0c;用于模拟登陆操作。 二、识别验证码的操作&#xff1a; 人工肉眼识别。&#xff08;不推荐&#xff09;第三方自动识别&#xff08;推荐&#xff09; - 超级鹰打…

Rasa Core实践 报时机器人

文章目录1. 领域 domain2. 故事 story用户消息机器人动作与事件辅助符号3. 动作 action回复动作表单默认动作自定义动作4. 词槽 slot词槽和对话行为词槽类型词槽映射5. 策略 policy6. 端点 endpoints.yml7. rasa SDK、自定义动作自定义动作运行自定义动作8. rasa 支持的客户端9…

python爬虫模拟登录人人网

模拟登录&#xff1a;爬取基于某些用户的用户信息。 需求1&#xff1a;对人人网进行模拟登录。 点击登录按钮之后会发起一个post请求post请求中会携带登录之前录入的相关的登录信息&#xff08;用户名&#xff0c;密码&#xff0c;验证码…&#xff09;验证码&#xff1a;每次…

在centos7环境下建立MariaDB多实例

环境全部基于vmware player 12 os: centos7 mariadb: mariadb-10.1.12-linux-x86_64.tar.gz 主要根据MariaDB给出的帮助文档&#xff0c;以及网上的这篇帖子进行操作 中间碰到了无数问题&#xff0c;在google的帮助下都一一解决了 耗费好几个小时&#xff0c;我真是个鶸 su roo…

python爬虫——代理IP

代理&#xff1a;破解封IP这种反爬机制。 什么是代理&#xff1a; 代理服务器。 代理的作用&#xff1a; 突破自身IP访问的限制。隐藏自身真实IP 代理相关的网站&#xff1a; - 快代理 西祠代理www.goubanjia.comhttps://ip.jiangxianli.com/?page1 代理ip的类型&#…

centos7 通过kvm+vnc 实现远程桌面虚拟化和创建windows、Linux虚拟机

感谢朋友支持本博客。欢迎共同探讨交流&#xff0c;因为能力和时间有限。错误之处在所难免&#xff0c;欢迎指正&#xff01;假设转载。请保留作者信息。博客地址&#xff1a;http://blog.csdn.net/qq_21398167 原博文地址&#xff1a;http://blog.csdn.net/qq_21398167/articl…

ES 安装、search、index、doc

文章目录1. 安装2. search3. index4. doc CRUDop_type获取 doc 元字段只获取 doc 源数据删除 docupdate doc1. 安装 https://www.elastic.co/cn/ 下载 https://www.elastic.co/cn/downloads/past-releases/elasticsearch-8-5-3 https://www.elastic.co/cn/downloads/past-rele…

UWP开发入门(十一)——Attached Property的简单应用

UWP中的Attached Property即附加属性&#xff0c;在实际开发中是很常见的&#xff0c;比如Grid.Row: <Grid Background"{ThemeResource ApplicationPageBackgroundThemeBrush}"><Grid.RowDefinitions><RowDefinition></RowDefinition><Ro…

一、bootstrap4基础(布局系统、栅格系统、显示与隐藏、对齐与排列、内容排版、代码与图文、表格样式、颜色和边框、工具类)

1.1 Bootstrap简单介绍 1.2 Bootstrap结构 1.3 Bootstrap安装和测试 1.4 布局系统 1.5 栅格系统 4.6 栅格等级 1.7 显示与隐藏 1.7 对齐与排列 1.8 内容排版 1.9 代码与图文 1.9.1 设置图片居中显示 1.9.1 设置图片响应式显示 1.9.2 设置图片缩略图显示&#xff0c;以及显示的位…

ES mget、bulk、mappings

文章目录1. mget 批量查询2. bulk 批量写入3. 条件删除4. 条件更新5. 映射 mappings6. 自动映射7. 显式映射1. mget 批量查询 批量查询 GET _mget {"docs": [{"_index": "test_index","_id": 1},{"_index": "kibana_…

ACM/ICPC 之 四道MST-Prim解法(POJ1258-POJ1751-POJ2349-POJ3026)

四道MST&#xff0c;适合Prim解法&#xff0c;也可以作为MST练习题。 题意包括在代码中。 POJ1258-Agri Net 水题 1 //Prim-没什么好说的2 //接受一个邻接矩阵&#xff0c;求MST3 //Time:0Ms Memory:220K4 #include<iostream>5 #include<cstring>6 #include<…

二、bootstrap4基础(flex布局)

1.1 Flex弹性布局&#xff08;一&#xff09; <div class"d-flex flex-column border border-danger justify-content-end mb-5" style"height: 200px;"><div class"p-2 border border-success">one</div><div class"…

《数据结构与算法之美》学习汇总

此篇文章是对自己学习这门课程的一个总结和课后的一些练习&#xff0c;做一个汇总&#xff0c;希望对大家有帮助。本人是半路程序员&#xff0c;2018年2月开始学习C的&#xff0c;下面的代码基本都是C11版本的&#xff0c;代码有错误的地方请不吝留言赐教。附有部分练习LeetCod…

android简单的夜间模式

现在android项目values下打 attrs.xml <?xml version"1.0" encoding"utf-8"?> <resources><attr name"bookimage" format"reference|color" /><attr name"tvcolor" format"reference|color&quo…

三、bootstrap4 组件(警告和提示框、徽章和面包屑、按钮按钮组、卡片、列表组、导航和选项卡、分页和进度条、巨幕和旋转图标、轮播图、折叠菜单、下拉菜单、导航条、滚动监听、轻量弹框、模态框、表单)

1.1 警告提示框 1.2 徽章和面包屑 1.3 按钮和按钮组 1.4 卡片 1.5 列表组 1.6 导航和选项卡 1.7 分页和进度条 1.8 巨幕和旋转图标 1.9 轮播图 1.10 折叠菜单 1.11 下拉菜单 <!DOCTYPE html> <html><head><meta charset"utf-8" /><title&…

吴恩达-《深度学习DeepLearning》汇总目录

从2019年2月底开始学习《数据结构与算法之美》&#xff0c;王争老师的课程非常好&#xff0c;到2019年8月底已经学完一遍&#xff0c;后面还要多次复习巩固以及OJ刷题。生命不息&#xff0c;学习不止&#xff0c;又要开始新的篇章了–《机器学习》&#xff0c;有点小兴奋&#…

javascript常用内置对象总结(重要)

Javascript对象总结 JS中内置了17个对象&#xff0c;常用的是Array对象、Date对象、正则表达式对象、string对象、Global对象 Array对象中常用方法&#xff1a; Concat&#xff08;&#xff09;&#xff1a;表示把几个数组合并成一个数组。 Join&#xff08;&#xff09;&#…

十三、axios框架学习

一、axios的基本使用 1.1 安装axios 执行命令&#xff1a;npm install axios --save 1.2 发送get请求演示 1.3 发送并发请求 有时候, 我们可能需求同时发送两个请求 使用axios.all, 可以放入多个请求的数组.axios.all([]) 返回的结果是一个数组&#xff0c;使用 axios.sp…