正则匹配问号_爬虫之正则表达式

d5b6c6656c99d3ab3e486cf2776992b5.png

1什么是正则表达式
正则表达式,也称规则表达式(Regular Expression,在代码中常简写为RE)。
2为什么使用
用来匹配、替换一类具有相同规则字符串
3使用规则
3.1单字符:

b6b9a1e4cda5d919c59afc655fdd20f8.png

3.2数量修饰:

5a8c2da2a95995378dbf1882082f1e00.png

3.3边界:

9b4404116bdbbf50c7236530976851c3.png

3.4分组:

7a7bd579637150e07e37bf13a9228cae.png

6a340734db3eed2adff37402121b20f2.png


3.5贪婪模式与非贪婪模式
贪婪模式:.* (匹配>=0次) .+ (匹配>=1次)

e8bc2cd2d0dc7e0649972a00a1c42db2.png

非贪婪模式:.*? .+?(加问号就是非贪婪)

411013236fe0fe29c2856d7f81b66106.png

3.6 匹配

07c01f477c33c1f396a34d4284d897f8.png

3.6.1 re.I-忽略大小写

b4e96d2e1956ce662fd9b97bcff251c8.png

3.6.2 re.M-匹配多行

4d6679b587bd300601ea902eab26f6c9.png

3.6.3 re.S-单行匹配

fc4db93683d33040d01cdcd947d14d99.png


3.7 正则表达式函数

22d78d30d9e8c356430cbb9a42a85581.png

3.7.1 re.match()

6e086b815fdda2ea1d9baa946c3b048e.png

3.7.2 re.search()

e33a215342da8199dde8d82557720e7f.png

3.7.3 re.findall()

57aa4192c4d5558744911c8e7d2f3944.png

3.7.4 re.sub()

beb80fbabec2457649c4fbf1d398bdf6.png

084bb6f291927451e203586b485db377.png


4 案例演示(爬取糗事百科图片)
4.1 爬虫思路:
① 确定网址
② 确定初始结束页
③ 发送请求获取内容
④ 获取图片列表
⑤ 写入文件并且下载单个图片

a06f1ab728d244bdbd47d544bf0da626.png

f736db00b7fc7a23439bd4b8e9832bc8.png

4.2 案例代码

18921bd72ec0d4724b77171dd06d7cc4.png

1fd210ffdefbeddf01b98128fa1cb73d.png

fd511a249de4dc06b82db455373fee57.png

74291c51528cc7c65cb412ecdbd98394.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java treeset subset_Java中TreeSet的详细用法

第1部分 TreeSet介绍TreeSet简介TreeSet 是一个有序的集合,它的作用是提供有序的Set集合。它继承于AbstractSet抽象类,实现了NavigableSet, Cloneable, java.io.Serializable接口。TreeSet 继承于AbstractSet,所以它是一个Set集合&#xff0c…

sql执行有时候快有时候慢_如何让你的 SQL 执行的飞起?

OR 不能瞎用午饭间的小 C,答应着一起吃饭,却眼不离屏。我知道准是上午人甲产品经理又来了一个脏活。话说 SQL 程序员本身是个光荣的职业,顷刻间百万数据、百亿金额从指间流过,心都不带咯噔的。在心如止水的 SQL 编码师眼里&#x…

未备案域名临时跳过备案提示_做好了网页,有域名和服务器,还要怎么搭建网站?...

不知道你选择的服务器是国内大陆的还是国外或者香港的,如果是国内大陆的服务器我们的网站域名还需要备案,你的服务器提供商是那家就在那家备案,备案流程跟着提示走就可以了,接下来我们开始正式进入将网站三要素(域名、…

louvain算法_单细胞聚类(四)图解Leiden算法对Louvain算法的优化

Louvain算法是目前单细胞分析中最常用的聚类算法[1],Seurat/Scanpy/RaceID等单细胞分析工具都默认louvain算法。6天前HumanCell Atlas(HCA)团队发表在Nature Method上的单细胞分析流程中[2],默认的聚类算法是scran包的方法:细胞间权重基于排序…

java 动态绑定原理_详解Java动态绑定机制的内幕(图)

在Java方法调用的过程中,JVM是如何知道调用的是哪个类的方法源代码? 这里面到底有什么内幕呢? 这篇文章我们就将揭露JVM方法调用的静态(static binding) 和动态绑定机制(auto binding) 。静态绑定机制//被调用的类package hr.test;class Fath…

java连接access2013数据库_滴水穿石–Java连接Access数据库及其操作

1、配置数据源【控制面板】—>【管理工具】—>【数据源ODBC】点击添加选择Microsoft Access Driver填写数据源名(自定义,如test),并选择数据库(指定你的Access数据库文件),如下图红色箭头标注最后,点击确定数据源配置完成2、…

无法复制winevt中的文件_u盘文件无法复制怎么解决 u盘文件无法复制解决方法【详细步骤】...

在使用u盘的过程中有时会出现 文件无法复制 的问题,并且会弹出磁盘已满的提示,而经过检查,u盘容量却拥有足够大的空间,那么此时该如何解决呢?接下来就跟着小编学习如何解决 u盘文件无法复制 的问题。u盘文件无法复制并提示磁盘已…

内存泄漏java例子_一次线上Java应用内存泄漏分析实例

由于JVM的内存管理采用GC垃圾自动回收机制,这使得Java程序员在编程的时候确实可以从内存管理中释放出来,但这也引发了另外一个大问题,一旦Java应用出现内存泄漏的时候,常常让人措手不及,陷入无从下手的尴尬境地&#x…

.net core 2.1 mysql_ASP.NET Core 2.2 + MySQL + DB First

1 项目添加 Pomelo.EntityFrameworkCore.MySql2 编辑项目文件,在节点中添加如下代码:netcoreapp2.2InProcess3 CMD 切换到当前项目目录,执行如下命令dotnet ef dbcontext scaffold "Serverlocalhost;User Id数据库访问用户;Password数据…

windows linux cpu 抢占式 时间片_嵌入式Linux中进程调度怎样来解析

合作微信:xydf321456Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。1.前言处理机(CPU)是整个计算机系…

java 堆内存分析_JVM内存堆布局图解分析

JAVA能够实现跨平台的一个根本原因,是定义了class文件的格式标准,凡是实现该标准的JVM都能够加载并解释该class文件,据此也可以知道,为啥Java语言的执行速度比C/C语言执行的速度要慢了,当然原因肯定不止这一个,如在JVM中没有数据寄…

wpf表格datagrid拖动列_这才是老板要的Excel表格,你做的太丑了!

在网上看到一个高手做的Excel表格,非常的漂亮,今天我们一起仿做一下。原始的表格,再熟悉不过的样式:完成后的效果,是不是有让你颠覆三观的感觉?同样的数据,不同的展示方式,后者不但好…

proteus跑马灯仿真_不花费一分钱,实现跑马灯编程实验

建立仿真工程初学者学习单片机编程,并不需要去网上买个开发板才能开始编程做实验,若是想先了解,可以先用proteus仿真软件来做实验,Protues软件具有其它EDA工具软件的功能。这些功能是:1.原理布图2&#xff…

power bi 日期计算_PowerBI 动态计算周内日权重指数

在很多行业,尤其是零售业,其销售规律在一周内呈现一定的特点。例如:平时有一种购买特点;周末有一种购买特点。故而一周内的星期一到星期日呈现一定的权重分布。周内日权重分布1 到 12 表示月序号;1 到 7 表示周内日。这…

vb 6.0 获取重定向的url_接口测试:A07_HttpRunner重定向_04_解决方案

A07_HttpRunner重定向_04_解决方案既然 HttpRunner 是对 requests 模块的封装,那我们就试图从 requests 中寻找答案,在其官网中发现了对重定向的描述和处理:地址:http://cn.python-requests.org/zh_CN/latest/user/quickstart.htm…

java wordcount程序_[java]wordcount程序

词数统计系统。作业解析:这次作业的内容是从本地读取一个程序代码,计算出这个程序中的行数,单词数,也可进行拓展。实现语言:java编程思路:程序是由各种单词和符号组成的,单词包括关键字&#xf…

robot ride edit 页面不显示_【框架】robot-framework预研

隔壁组在使用robot framework进行自动化测试,这玩意之前我没接触过,决定来预研一下这个auto test框架。背景一个好的框架,背后少不了一个牛逼的团队或组织(金主爸爸),也是判断是否值得投入时间学习的一个参考因素(虽然强如塞班系统…

php 任意字符串_php 生成任意长度字符串的类(只含有数字 只含有字母 混合数字和字母)...

[php]代码库/** 生成随机字符串的类,默认只包含数字、大小写字母*/class randomString {/** 生成的字符串包含的字符设置*/const NUMERIC_ONLY 1; //只含有数字const LETTER_ONLY 2; //只含有字母const MIXED 3; //混合数字和字母/** 用户传入变量,分…

explode php 报错,ecshop在php5.4下报错怎么办

ecshop在php5.4下报错的解决办法:1、打开“cls_template”文件,并修改“$tag_selarray_shift(explode( ,$tag));”;2、修改“static”;3、修改cls_captcha文件。本教程操作环境:windows7系统、PHP5.4版、Dell G3电脑。…

sql 相加_SQL经典题型

SQL内容及常见面试题如下:以下为具体的面试题内容和答案一、简单查询题目查询姓“猴”的学生名单查询姓名中最后一个字是“猴”的学生名单查询姓名中带“猴”的学生名单查询姓“孟”老师的个数二、汇总分析题目查询课程号为“0002”的总成绩查询选了课程的学生人数查…