爬虫 | 基础模块了解

文章目录

  • 📚http协议
  • 📚requests模块
  • 📚re模块
    • 🐇 re.I 或 re.IGNORECASE
    • 🐇re.M或 re.MULTILINE
    • 🐇re.S 或 re.DOTALL
    • 🐇 re.A 或 re.ASCII
    • 🐇 re.X 或 re.VERBOSE
    • 🐇特殊字符类
  • 📚xpath模块
    • 🐇节点的排序
    • 🐇函数用法
    • 🐇节点关系
    • 🐇补充语法

📚http协议

  • 计算机网络|第二章:应用层
  • Python爬虫教程(一):基础知识
    在这里插入图片描述
  • 请求行:请求方式(get/post)请求地址
  • User-Agent:请求载体的身份标识(不同浏览器不同)
  • cookie:本地字符串数据信息(用户登录信息)
  • 请求体:放一些请求参数

在这里插入图片描述在这里插入图片描述

📚requests模块

  • 发送HTTP请求:通过调用requests库中的get()post()put()delete()等函数,可以发送不同类型的HTTP请求。
  • 添加请求参数:可以通过传递参数给get()post()函数,向请求中添加查询字符串参数、请求头等信息。
  • 处理响应:收到服务器的响应后,可以访问返回的响应状态码、头部信息和内容等,并根据需要进行处理。
  • 管理会话:使用Session对象可以创建和管理会话,以便在多个请求之间保持一致的会话状态,如使用cookies和身份验证等。
  • 处理异常:requests模块具有内置的异常处理机制,可以捕获和处理请求过程中可能出现的异常情况。

import requests# 发送HTTP GET请求,获取网页内容
url = "https://example.com"
response = requests.get(url)# 判断请求是否成功
if response.status_code == 200:# 输出网页内容print(response.text)
else:print("请求失败")
  • 用requests库发送了一个HTTP GET请求,并指定了要请求的网址。然后,通过访问 ​response.status_code​属性,判断请求是否成功(状态码为200表示成功)。如果请求成功,通过 ​response.text​属性获取到网页内容,并将其打印出来。

import requests# 创建Session对象
session = requests.Session()# 发送登录请求,获取cookies
login_url = "https://example.com/login"
payload = {"username": "your_username", "password": "your_password"}
response = session.post(login_url, data=payload)# 判断登录是否成功
if response.status_code == 200:# 发送带有cookies的请求,获取其他页面内容profile_url = "https://example.com/profile"response = session.get(profile_url)# 判断请求是否成功if response.status_code == 200:# 输出页面内容print(response.text)
else:print("登录失败")
  • 创建了一个Session对象。Session对象可以保持会话状态,并自动管理cookies。
  • 发送一个登录请求(POST请求),传递用户名和密码等表单数据。登录成功后,会话中会自动保存返回的cookies信息。
  • 通过使用相同的Session对象发送另一个请求(GET请求),这次访问一个需要登录后才能查看的页面。由于我们使用的是之前的会话,会携带之前登录成功后返回的cookies信息。
  • 判断请求是否成功,并输出页面内容。

📚re模块

  • 正则表达式匹配:使用re模块的match()(从字符串的开头开始匹配)、search()(搜索第一个匹配)和findall()(返回所有匹配的结果)等函数,可以根据指定的正则表达式,在字符串中查找匹配的内容。
  • 替换字符串:通过使用re模块的sub()subn()函数,可以将匹配到的内容替换为指定的字符串。sub()函数会替换所有匹配项,而subn()函数还会返回替换的次数。
  • 分割字符串:re模块的split()函数可以根据指定的正则表达式,将字符串分割为子字符串列表。
  • 匹配对象的操作:re模块中的Match对象表示一个匹配项,可以从中获取匹配的内容、位置以及其他相关信息。
  • 正则表达式修饰符:re模块提供了一些修饰符,用于控制正则表达式的匹配行为,如忽略大小写、多行匹配、全局匹配等。

🐇 re.I 或 re.IGNORECASE

  • 忽略大小写匹配,不论目标字符串的字母是大写还是小写,都可以与正则表达式模式相匹配。
    import re
    pattern = r"hello"
    text = "Hello, World!"
    result = re.search(pattern, text, re.I)
    print(result.group())  # 输出:Hello
    

🐇re.M或 re.MULTILINE

  • re.Mre.MULTILINE用于指定多行模式匹配。

  • 正则表达式通常按照默认的单行模式进行匹配,也就是只将目标文本视为单个行。在这种模式下,^表示字符串的开头,$表示字符串的结尾。

  • 而使用re.M标志可以将正则表达式切换到多行模式,即将目标文本视为多个行。在多行模式下,^$分别表示行的开头和行的结尾,而不再仅限于字符串的开头和结尾。

    import re
    text = "Hello\nWorld\nHow are you?"
    pattern = re.compile("^H", re.M)
    matches = pattern.findall(text)
    print(matches)
    
  • 由于使用了多行模式,模式中的^表示行的开头,因此只有以字母H开始的行会与模式进行匹配。所以最终的输出结果是['H', 'How'],分别对应于第一行和第三行匹配成功的结果。

🐇re.S 或 re.DOTALL

  • re.Sre.DOTALL单行匹配,用于指定点字符(.)匹配任意字符,包括换行符。
  • 在正则表达式中,.通常表示匹配除了换行符之外的任意字符。默认情况下,它不匹配换行符,但是使用re.S标志可以使其匹配包括换行符在内的任意字符。
    import re
    pattern = r"hello.*world"
    text = "hello\nworld"
    # 匹配以 "hello" 开始,并以 "world" 结尾,中间可以有任意数量的任意字符。
    result = re.search(pattern, text, re.S)
    print(result.group())  # 输出:hello\nworld
    

🐇 re.A 或 re.ASCII

  • 限制模式中的字符匹配为ASCII字符集。
    import re
    pattern = r"\w+"
    text = "你好, World!"
    result = re.findall(pattern, text, re.A)
    print(result)  # 输出:['World']
    

🐇 re.X 或 re.VERBOSE

  • 冗长模式,忽略正则表达式中的空白和注释。
    import re
    pattern = r"""hello        # 匹配 hello\s+          # 匹配一个或多个空格字符world        # 匹配 world
    """
    text = "hello     world"
    result = re.search(pattern, text, re.X)
    print(result.group())  # 输出:hello     world
    

🐇特殊字符类

  1. \d:匹配任意数字。相当于[0-9]
  2. \D:匹配任意非数字字符。相当于[^0-9]
  3. \s:匹配任意空白字符,包括空格、制表符、换行符等。
  4. \S:匹配任意非空白字符。
  5. \w:匹配任意字母、数字和下划线字符。相当于[a-zA-Z0-9_]
  6. \W:匹配任意非字母、数字和下划线字符。
  • 这些特殊字符类可以在正则表达式中使用,以便更精确地匹配特定类型的字符。需要注意的是,大写形式的特殊字符类(例如\D\S\W)表示相反的意义,即匹配对应类别之外的字符。

  • 例如,使用\d+可以匹配一个或多个连续的数字,而\D+则匹配一个或多个连续的非数字字符。

📚xpath模块

  • XPath(XML Path Language)是一种用于在 XML 文档中定位选择元素的语言。使用 XPath 模块,可以根据指定的 XPath 表达式从 XML 文档中定位和选择节点,提取所需的数据。
  • XPath 模块提供了以下主要功能:
    • 解析 XML 文档:使用 xml.etree.ElementTree.parse() 函数加载 XML 文件,并返回一个表示整个 XML 文档的树结构
    • 定位节点:使用 XPath 表达式 tree.xpath(xpath_expr) 在 XML 树结构中定位满足条件的节点。XPath 表达式描述了节点的路径或属性等选择条件。
    • 选择节点:使用 Element.xpath(xpath_expr) 方法在当前节点下选择满足条件的子节点。
    • 提取数据:使用 element.text 获取节点的文本内容,使用 element.attrib 获取节点的属性信息。
    from lxml import etree# 解析 XML 文档
    tree = etree.parse("data.xml")# 使用 XPath 表达式定位和选择节点
    # 从 XML 或 HTML 文档的根节点 catalog 中选取所有 book 元素下的 title 子元素,并提取它们的文本内容
    title = tree.xpath("/catalog/book/title/text()")
    author = tree.xpath("/catalog/book/author/text()")# 获取节点的文本内容
    title_text = title[0]
    author_text = author[0]# 打印结果
    print("Title:", title_text)
    print("Author:", author_text)
    
    • ​​title = tree.xpath("/catalog/book/title/text()")​:选择XML文档中所有 ​​节点的文本内容。
    • ​.text()​表示获取节点的文本内容,而不是节点本身。

🐇节点的排序

# 使用 [下标]来选择指定位置的节点,注意 XPath 下标从 1 开始计数
tree.xpath('//div[@class="root"]/div/p[2]/text()')# 获取当前层同级节点中的最后一个位置的节点 
tree.xpath('//div[@class="root"]/div/p[last()]/text()')# 获取倒数第二个位置的节点
tree.xpath('//div[@class="root"]/div/p[last()-1]/text()')# 获取位置小于等于2的节点
tree.xpath('//div[@class="root"]/div/p[position() <= 2]/text()')

🐇函数用法

# 用于筛选嵌套文本长度大于5的嵌套文本
tree.xpath("//ul/li[string-length(text()) > 5]/text()")# 判断属性是否包含指定的子字符串
tree.xpath("//ul/li[contains(@class, 'price')]/text()")# 匹配以指定字符开头的节点
tree.xpath("//ul/li[starts-with(text(), '啦啦')]/text()")# 计算节点数量
tree.xpath("count(//ul/li)")

🐇节点关系

# self::代表当前节点自身
tree.xpath('//div/p/self::p/text()')# * 代替标签名称,匹配任何标签
tree.xpath('//div/p/self::*/text()')# following-sibling::选取当前节点之后的同级节点
tree.xpath("//div/p[text()='第三段']/following-sibling::*/text()")# preceding-sibling::选取当前节点之前的同级节点: 
tree.xpath("//div/p[text()='第三段']/preceding-sibling::*/text()")# 父辈节点:parent::
tree.xpath('//div[@class="self"]/parent::*/@class')# 先辈节点:`ancestor::` 和 `ancestor-or-self::`
tree.xpath('//div[@class="self"]/ancestor::*/@class')
tree.xpath('//div[@class="self"]/ancestor-or-self::*/@class')# 后代关系:子节点 `child::`、所有后代节点 `descendant::` 和所有后代节点及自身 `descendant-or-self::`
tree.xpath("//div[@class='uncle']/child::*/@class")
tree.xpath("//div[@class='grandpa']/descendant::*/@class")
tree.xpath("//div[@class='grandpa']/descendant-or-self::*/@class")

🐇补充语法

  • 使用 * 通配符匹配任何满足条件的节点,不需要考虑父节点
    • tree.xpath("//*[@class='price' or @class='price-item']/text()")
  • 使用正则表达式模式匹配节点
    • tree.xpath("//ul/li[ns:match(text(), '哈哈$')]/text()", namespaces={"ns": "http://exslt.org/regular-expressions"})
    • 匹配带有以字母 “哈哈” 结尾的文本内容的 li 元素,并返回这些 li 元素的文本内容。同时使用 ​namespaces​ 参数来定义命名空间的映射。

参考博客:

  • Python爬虫教程(一):基础知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/105949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

攻防世界数据逆向 2023

https://adworld.xctf.org.cn/contest/list?rwNmOdr1697354606875 目录 请求数据参数加密 cookie加密 响应数据解密 代码 请求数据参数加密 我们可以根据请求的关键字qmze1yzvhyzcyyjr获取到对应的加密地方 可以看到使用了函数_0x1dc70进行了加密 cookie加密 该步骤需…

SpringBoot面试题4:Spring Boot 支持哪些日志框架?推荐和默认的日志框架是哪个?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Spring Boot 支持哪些日志框架?推荐和默认的日志框架是哪个? Spring Boot支持多种日志框架,包括以下几种: Logback:Logback 是一个快速、灵活…

面试总结(mysql定精度/oom排查/spring三级缓存/stream流)

Mysql数据类型上的一个把握 1、MySQL Decimal为什么不会丢失精度 DECIMAL的存储方式和其他数据类型都不同&#xff0c;它是以字符串形式存储的。假设一个字段为DECIMAL(3,0)&#xff0c;当我们存入100时&#xff0c;实际上存入的1、0、0这三个字符拼接而成的字符串的二进制值&…

物联网AI MicroPython传感器学习 之 TDS水质检测传感器

学物联网&#xff0c;来万物简单IoT物联网&#xff01;&#xff01; 一、产品简介 TDS是Total Dissolved Solids的缩写&#xff0c;中文名总溶解固体&#xff0c;也叫溶解性固体总量&#xff0c;他标识1升水中溶有多少毫克的可溶解性固体。一般来说&#xff0c;TDS值越高&…

react中利用useRef、forwardRef、useImperativeHandle获取并处理dom

React如何给组件设置ref属性&#xff0c;如果直接绑给组件&#xff0c;代码如下&#xff1a; import { useRef } from "react"function MyInput() {return (<input type"text"/>) }function App() {const myRef useRef(null)const handleClick ()…

电脑上播放4K视频需要具备哪些条件?

在电视上播放 4K&#xff08; 4096 2160 像素&#xff09;视频是很简单的&#xff0c;但在电脑设备上播放 4K 视频并不容易。相反&#xff0c;它们有自己必须满足的硬件要求。 如果不满足要求&#xff0c;在电脑上打开 4K 分辨率文件或大型视频文件会导致卡顿、音频滞后以及更…

HTTP/2 中的漏洞

另一个热门漏洞是 CVE-2023-44487。 该漏洞与 HTTP/2 协议实施中的一个缺陷有关&#xff0c;可用于实施 DDoS 攻击。使用该漏洞的攻击被命名为 HTTP/2 快速重置。 为什么它很危险 要利用该漏洞&#xff0c;攻击者需要在 HTTP/2 会话中打开大量请求&#xff0c;然后在不等待服…

mysql面试题49:MySQL中不同text数据类型的最大长度

该文章专注于面试&#xff0c;面试只要回答关键点即可&#xff0c;不需要对框架有非常深入的回答&#xff0c;如果你想应付面试&#xff0c;是足够了&#xff0c;抓住关键点 面试官&#xff1a;MySQL中TEXT数据类型的最大长度 在MySQL中&#xff0c;TEXT数据类型用于存储较大…

电脑提示Explorer.exe系统错误该怎么办?

平时我们在使用电脑时&#xff0c;系统有时会提示Explorer.exe系统错误&#xff0c;很多用户在遇到这类问题时不知道该怎么办。遇到Explorer.exe系统错误&#xff0c;该怎么办呢&#xff1f;下面我们一起来了解一下。 怎么修复Explorer.exe系统错误&#xff1f; Explorer.exe是…

LangChain-Decorators 包学习

libraryIO的链接&#xff1a;https://libraries.io/pypi/langchain-decorators 来colab玩玩它的demo 感觉这确实是个挺好用的库 想到之前纯调prompt来控制输出格式的痛苦&#xff0c;这个可太有效了 cool~ 最下面这个react的多智能体例子很好玩&#xff0c;来看看&…

The SDK location is inside Studio install location 解决

The SDK location is inside Studio install location 解决 安装 Android Studio SDK 时提示&#xff1a;The SDK location is inside Studio install location 解决 问题&#xff1a; 由于 SDK 与 编辑器(Android Studio)的安装在同一目录下所以报错。 解决 你需要在 Andro…

第三节:利用运行按钮运行VBA代码

《VBA之Excel应用》&#xff08;10178983&#xff09;是非常经典的&#xff0c;是我推出的第七套教程&#xff0c;定位于初级&#xff0c;目前是第一版修订。这套教程从简单的录制宏开始讲解&#xff0c;一直到窗体的搭建&#xff0c;内容丰富&#xff0c;实例众多。大家可以非…

leetcode-198.打家劫舍

1. 题目 2. 解答 dp[i]表示第i个位置的偷窃最大金额&#xff1b; room[i]表示第i间房间的现金&#xff1b; dp[0] room[0]; dp[1] max(room[0], room[1]); dp[i] max(dp[i-1], dp[i-2] room[i]); #include <stdio.h>int max(int a, int b) {return a > b? a:b;…

高校教务系统登录页面JS分析——重庆交通大学

高校教务系统密码加密逻辑及JS逆向 本文将介绍高校教务系统的密码加密逻辑以及使用JavaScript进行逆向分析的过程。通过本文&#xff0c;你将了解到密码加密的基本概念、常用加密算法以及如何通过逆向分析来破解密码。 本文仅供交流学习&#xff0c;勿用于非法用途。 一、密码加…

Neo4j入门基础:CREATE,DELETE,SET,REMOVE(看不懂我直接吃...)

1. 创建节点 1.1 创建一个节点 create (s:student1)创建一个标签为student1的节点 1.2 创建多个节点 create (s2:student2),(s3:student3)同时创建两个节点&#xff0c;标签分别为&#xff1a;student2&#xff0c;student3 1.3 创建节点并附带&#xff08;多个&#xff0…

【部署】Linux Shell脚本部署java程序 (jar包)

文章目录 前言 前言 #!/usr/bin/env bash #可变参数变量#部署磁盘路径 baseDirPath/data/apps/java/smj-exchange-upload #jar包名称 packageNamesmj-exchange-upload.jar #命令启动包名 xx.jar的xxpid #进程pid#检测pid getPid(){echo "检测状态-----------------------…

当想为SLB申请公网域名时,缩写是什么意思

SLB的缩写是Server Load Balancer&#xff0c;即服务器负载均衡器。 是一种内网吗? 不&#xff0c;SLB&#xff08;Server Load Balancer&#xff09;是一种位于应用程序和网络之间的设备或服务&#xff0c;用于在多个服务器之间分发流量、负载均衡以及提供高可用性。它通常…

教你快速解决unity无法添加脚本bug

原因一 就是报错的字面意思&#xff0c;文件名与类名不一致&#xff01; 原因二 与版本不兼容的汉化导致系统出错&#xff01; 解决办法一 使用原版本自带的英文显示 解决办法二 更换汉化包 我其实更加推荐使用英文版本的Unity&#xff01;

正则表达式基础语法

https://tool.oschina.net/regex 正则表达式&#xff1a;检查、匹配字符串的表达式 单个字符匹配&#xff1a; 有特殊含义的匹配&#xff1a; 多次重复匹配&#xff1a; 限定开头结尾的匹配&#xff1a; 贪婪模式&#xff1a;在满足条件的情况下&#xff0c;尽可能多匹配…

云耀服务器L实例部署Nextcloud企业云盘系统|华为云云耀云服务器L实例评测使用体验

文章目录 Nextcloud简介1.1 部署华为云云耀服务器L实例1.1.1 云耀服务器L实例购买1.1.2 云耀服务器L实例初始化配置1.1.3 远程登录云耀服务器L实例 2. 云耀服务器L实例中间件部署2.1 安装配置环境2.1.1 安装基本工具2.1.2 安装MariaDB2.1.3 安装Nginx2.1.4 安装PHP 3. 安装Next…