正则匹配问号_爬虫之正则表达式

d5b6c6656c99d3ab3e486cf2776992b5.png

1什么是正则表达式
正则表达式,也称规则表达式(Regular Expression,在代码中常简写为RE)。
2为什么使用
用来匹配、替换一类具有相同规则字符串
3使用规则
3.1单字符:

b6b9a1e4cda5d919c59afc655fdd20f8.png

3.2数量修饰:

5a8c2da2a95995378dbf1882082f1e00.png

3.3边界:

9b4404116bdbbf50c7236530976851c3.png

3.4分组:

7a7bd579637150e07e37bf13a9228cae.png

6a340734db3eed2adff37402121b20f2.png


3.5贪婪模式与非贪婪模式
贪婪模式:.* (匹配>=0次) .+ (匹配>=1次)

e8bc2cd2d0dc7e0649972a00a1c42db2.png

非贪婪模式:.*? .+?(加问号就是非贪婪)

411013236fe0fe29c2856d7f81b66106.png

3.6 匹配

07c01f477c33c1f396a34d4284d897f8.png

3.6.1 re.I-忽略大小写

b4e96d2e1956ce662fd9b97bcff251c8.png

3.6.2 re.M-匹配多行

4d6679b587bd300601ea902eab26f6c9.png

3.6.3 re.S-单行匹配

fc4db93683d33040d01cdcd947d14d99.png


3.7 正则表达式函数

22d78d30d9e8c356430cbb9a42a85581.png

3.7.1 re.match()

6e086b815fdda2ea1d9baa946c3b048e.png

3.7.2 re.search()

e33a215342da8199dde8d82557720e7f.png

3.7.3 re.findall()

57aa4192c4d5558744911c8e7d2f3944.png

3.7.4 re.sub()

beb80fbabec2457649c4fbf1d398bdf6.png

084bb6f291927451e203586b485db377.png


4 案例演示(爬取糗事百科图片)
4.1 爬虫思路:
① 确定网址
② 确定初始结束页
③ 发送请求获取内容
④ 获取图片列表
⑤ 写入文件并且下载单个图片

a06f1ab728d244bdbd47d544bf0da626.png

f736db00b7fc7a23439bd4b8e9832bc8.png

4.2 案例代码

18921bd72ec0d4724b77171dd06d7cc4.png

1fd210ffdefbeddf01b98128fa1cb73d.png

fd511a249de4dc06b82db455373fee57.png

74291c51528cc7c65cb412ecdbd98394.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java farm tycoon_Idle Farm Tycoon

详情Have you always wanted to run your own farm? Now you can fulfill your dream!To start things off, begin with a few wheat farms. Once the first money is rolling, you can purchase new crops, bushes, trees and animals!Dont be afraid of running out of spac…

java treeset subset_Java中TreeSet的详细用法

第1部分 TreeSet介绍TreeSet简介TreeSet 是一个有序的集合,它的作用是提供有序的Set集合。它继承于AbstractSet抽象类,实现了NavigableSet, Cloneable, java.io.Serializable接口。TreeSet 继承于AbstractSet,所以它是一个Set集合&#xff0c…

sql执行有时候快有时候慢_如何让你的 SQL 执行的飞起?

OR 不能瞎用午饭间的小 C,答应着一起吃饭,却眼不离屏。我知道准是上午人甲产品经理又来了一个脏活。话说 SQL 程序员本身是个光荣的职业,顷刻间百万数据、百亿金额从指间流过,心都不带咯噔的。在心如止水的 SQL 编码师眼里&#x…

binaryformatter java_Java,C#使用二进制序列化、反序列化操作数据

java使用二进制序列化、反序列化的操作首先,要引入java.io下面相关包,或者直接写import java.io.*;下面,为了书写操作的方便,采用复制文件,和throws声明异常的方式来写public void test6() throws IOException {byte[]…

未备案域名临时跳过备案提示_做好了网页,有域名和服务器,还要怎么搭建网站?...

不知道你选择的服务器是国内大陆的还是国外或者香港的,如果是国内大陆的服务器我们的网站域名还需要备案,你的服务器提供商是那家就在那家备案,备案流程跟着提示走就可以了,接下来我们开始正式进入将网站三要素(域名、…

python怎么退出help_(转)python中如何使用help命令?

查看python所有的modules:help("modules")单看python所有的modules中包含指定字符串的modules: help("modules yourstr")查看python中常见的topics: help("topics")查看python标准库中的module:imp…

louvain算法_单细胞聚类(四)图解Leiden算法对Louvain算法的优化

Louvain算法是目前单细胞分析中最常用的聚类算法[1],Seurat/Scanpy/RaceID等单细胞分析工具都默认louvain算法。6天前HumanCell Atlas(HCA)团队发表在Nature Method上的单细胞分析流程中[2],默认的聚类算法是scran包的方法:细胞间权重基于排序…

java 动态绑定原理_详解Java动态绑定机制的内幕(图)

在Java方法调用的过程中,JVM是如何知道调用的是哪个类的方法源代码? 这里面到底有什么内幕呢? 这篇文章我们就将揭露JVM方法调用的静态(static binding) 和动态绑定机制(auto binding) 。静态绑定机制//被调用的类package hr.test;class Fath…

python重新加载模块_jupyter实现重新加载模块

最近几年,jupyter在全球数据科学领域,已经成为不可或缺的重要工具。在jupyter中用python写程序,若import了自己写的外部模块,如果这个外部模块有更新,再次执行import,jupyter是不会重新导入的。一般的做法是…

java连接access2013数据库_滴水穿石–Java连接Access数据库及其操作

1、配置数据源【控制面板】—>【管理工具】—>【数据源ODBC】点击添加选择Microsoft Access Driver填写数据源名(自定义,如test),并选择数据库(指定你的Access数据库文件),如下图红色箭头标注最后,点击确定数据源配置完成2、…

python抠透明图_python利用蒙版抠图(使用PIL.Image和cv2)输出透明背景图

因为最近在做深度学习抠图,正好要用到蒙版进行抠图,所以我将抠图代码进行了封装注释,可以直接使用。可能走了弯路,若有高见请一定提出!主要代码import cv2from PIL import Imageimport numpy as npclass UnsupportedFo…

java退出不报异常_如何优雅的处理异常(java)?

这篇文章应该可以解答你的疑问。Java中异常提供了一种识别及响应错误情况的一致性机制,有效地异常处理能使程序更加健壮、易于调试。异常之所以是一种强大的调试手段,在于其回答了以下三个问题:什么出了错?在哪出的错?为什么出错?在有效使…

无法复制winevt中的文件_u盘文件无法复制怎么解决 u盘文件无法复制解决方法【详细步骤】...

在使用u盘的过程中有时会出现 文件无法复制 的问题,并且会弹出磁盘已满的提示,而经过检查,u盘容量却拥有足够大的空间,那么此时该如何解决呢?接下来就跟着小编学习如何解决 u盘文件无法复制 的问题。u盘文件无法复制并提示磁盘已…

python 接口测试 url_Python 接口测试之接口请求方法封装

引言前面讲过三篇文章:既然我们接口测试用例写好了,测试数据也拿到了,那么就是模拟调用接口的方法了,方法有get,post,put,delete,具体是选择哪种,我们需要根据不同接口规定好请求方法来调用。为了方便&…

jenkins 项目启动日志_jenkins 修改启动文件即jdk路径、log路径和切换jenkins用户

环境操作系统: win7服务器(虚拟机):centos6.5(7)工具:CRT提前条件已经安装好了jenkins修改(或者说添加)jdk路径sudo vim /etc/init.d/jenkins# jenkins的版本是2.8candidates" /usr/programe_files/jdk1.8.0_121/bin/java /etc/alternat…

python3远程连接_Python3 SSH远程连接服务器的方法示例

下载paramiko首先,我的windows系统上有python2和python3。使用下面命令切换到python3:activate py3接着使用下面命令下载相关模块:pip install ecdsapip install Cryptopip install paramiko连接服务器操作:# -*- coding: utf-8 -*-import pa…

java jar 环境变量_java-jar jar包带环境变量(参数)启动

需求java工程我们可以编译成jar也可以翻译成war,一般地,war包我会丢到tomcat容器里,启动tomcat来访问服务,端口、SSL证书、日志等等,都托给tomcat。如果打的是jar包,我通常会用nohup启动,比如生…

java单列_Java 单例模式

单例模式保证一个类只有一个实例,并且提供一个访问该实例的全局访问点常见的应用场景:任务管理器。回收站。网站的计数器。操作系统的文件系统。在servlet编程中,每个servlet也是单例模式,项目中,读取配置文件的类&…

python字符串索引必须是整数_TypeError:在Python中,字符串索引必须是整数

我想从currency converter API得到的Json响应中获取key和value,得到一个错误:“of string index must be integers”。下面是Python代码、Json中的数据和错误消息。在import jsonfrom urllib.request import urlopenwith urlopen ("http://free.cur…

java 数字图片识别_java – 识别图像中的数字

您很可能需要执行以下操作:>在整个页面上应用Hough Transform算法,这应该会产生一系列页面部分。>对于您获得的每个部分,请再次应用。如果当前部分产生2个元素,那么你应该处理类似于上面的矩形。>完成后,您可…