Python爬虫-正则表达式

正则表达式

只提取关注的数据,进行数据赛选

原子:

基本组成单位

普通的字符

非打印支付

通用字符


 

普通的字符

>>> import re
>>> pat="yue"
>>> string="http://yum.iqianyue.com"
>>> rst1=re.search(pat,string)
>>> print(rst1)
<_sre.SRE_Match object; span=(16, 19), match='yue'>
>>> pat2="abc"
>>> rst2=re.search(pat2,string)
>>> print(rst2)
None
>>>

非打印字符()


 

通用字符

|w                                    |W处理字符下滑线任意的字符

|d 十进位数                    |D

|s 空白字符                    |S

>>> pat4="\w\dpython\w"
>>> string"hahahhadhsfd10pythondasdsadas"
SyntaxError: invalid syntax
>>> string="hahahhadhsfd10pythondasdsadas"
>>> rst5=re.search (pat4,string)
>>> print(rst5)
<_sre.SRE_Match object; span=(12, 21), match='10pythond'>
>>> 

原子表 【jsz】表示 只有一位的匹配出来

>>> pat="pyth[jsz]n"
>>> string = "hsdsdfjsdzpythsdfdfda"
>>> rst6=re.search (pat,string)
>>> print(rst6)
None

元字符

特殊含义的字符,比如重复前边的n字符

.匹配任意字符

^匹配

$匹配结束

*匹配一次 零次 或者多次

?匹配零次或者一次

{n}

{n,}

s{4,7} 表示 s 最少出现4次 最多出现7次

 

t{3}前面的原子出现t,3次

()

import re
pat=".python..."
string="dfdsfsfpythonfsdfdsfds"
rst=re.search (pat,string)
print(rst)
。除了换行符任意字符
pat1="python|php"
string2="abcdphp5454pythonfdfd"
rst2=re.search(pat1,string2)
print(rst2)

模式修正符

在不改变正则表达式的情况下,实则想要的结果

忽略大小写L M L U S

pat3="python"
pat4="python"
string3="dfdsfasPythonfafdfa"
rst4=re.search(pat3,string3)
print(rst4)
rst5=re.search(pat3,string,re.L)
print(rst5)
<_sre.SRE_Match object; span=(7, 13), match='python'>

贪婪模式和懒惰模式

贪婪尽可能多的匹配

懒惰尽可能少的匹配

import restring="dfdsfsfpythonfsdfdsfdsfdfdfdfy"
pat5="p.*y"#贪婪模式
pat6="p.*?y"#懒惰模式
rst5=re.search(pat5,string)
print(rst5)
rst6=re.search(pat6,string)
print(rst6)<_sre.SRE_Match object; span=(7, 30), match='pythonfsdfdsfdsfdfdfdfy'>
<_sre.SRE_Match object; span=(7, 9), match='py'>
>>> 

正则表达式函数

re.match() :从头开始搜索

re.search(): 字符串中搜索 左 到 右 

全局匹配函数:re.compile(pat1).findall(string)

re.sub()

import repat="p.*?y"
string="pdasdaysdfdsfdsfpdadadasydfsfdfsf"
rst=re.compile(pat).findall(string)
print(rst)
['pdasday', 'pdadadasy']
>>> 

 

转载于:https://www.cnblogs.com/duxiao/p/7543646.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/251810.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openfire(一):使用idea编译openfire4.2.3源码

最近公司项目要使用openfire&#xff0c;并对源码做一些修改&#xff0c;使用的openfire版本为官网目前最新版本4.2.3&#xff0c;网上资料较少&#xff0c;踩了很多坑&#xff0c;特此记录。 1.下载源码 http://www.igniterealtime.org/downloads/source.jsp 2.使用idea导入源…

JAVA synchronized关键字锁机制(中)

synchronized 锁机制简单的用法&#xff0c;高效的执行效率使成为解决线程安全的首选。 下面总结其特性以及使用技巧&#xff0c;加深对其理解。 特性: 1. Java语言的关键字&#xff0c;当它用来修饰一个方法或者一个代码块的时候&#xff0c;能够保证在同一时刻最多只有一个线…

Python多线程豆瓣影评API接口爬虫

爬虫库 使用简单的requests库&#xff0c;这是一个阻塞的库&#xff0c;速度比较慢。 解析使用XPATH表达式 总体采用类的形式 多线程 使用concurrent.future并发模块&#xff0c;建立线程池&#xff0c;把future对象扔进去执行即可实现并发爬取效果 数据存储 使用Python ORM sq…

【自制工具类】Java删除字符串中的元素

这几天做项目需要把多个item的id存储到一个字符串中&#xff0c;保存进数据库。保存倒是简单&#xff0c;只需要判断之前是否为空&#xff0c;如果空就直接添加&#xff0c;非空则拼接个“&#xff0c;” 所以这个字符串的数据结构是这样的 String str "a,b,c,d"; 保…

DMA存储器到外设代码讲解

实验目的: bsp_dma_mtp.h #ifndef __BSP_DMA_MTP_H #define __BSP_DMA_MTP_H#include "stm32f10x.h" #include <stdio.h>// 串口工作参数宏定义 #define DEBUG_USARTx USART1 #define DEBUG_USART_CLK RCC_APB2Periph_USAR…

java基础集合类——LinkedList 源码略读

1.概览 LinkedList是java的动态数组另一种实现方式&#xff0c;底层是基于双向链表&#xff0c;而不是数组。 public class LinkedList<E>extends AbstractSequentialList<E>implements List<E>, Deque<E>, Cloneable, java.io.Serializable LinkedLis…

[BZOJ] 1688: [Usaco2005 Open]Disease Manangement 疾病管理

1688: [Usaco2005 Open]Disease Manangement 疾病管理 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 727 Solved: 468[Submit][Status][Discuss]Description Alas! A set of D (1 < D < 15) diseases (numbered 1..D) is running through the farm. Farmer John woul…

es6 var、let、const命令

1.let和var <1>let声明的变量仅在块级作用域内有效&#xff1b; var声明的变量在全局有效&#xff1b; <2> var变量乐意在声明之前使用&#xff0c;输出undefined; let 不可以&#xff0c;直接抛出一个错误&#xff1b; 例如&#xff1a;//var 声明console.log(a);…

实例属性和类属

1.Python是动态语言&#xff0c;根据类创建的实例&#xff0c;可以任意绑定属性 2.给实例绑定属性的方法有两种&#xff1a; 通过实例变量或者通过self变量。 1 class Student(object): 2 def __init__(self, name): 3 self.namename 4 5 ##或者如下&#xff1a; 6 &g…

vim中跳到第一行和最后一行

底线命令模式 :0或:1跳到文件第一行 :$跳到文件最后一行 命令模式 gg跳到第一行 shiftg跳到文件最后一行转载于:https://www.cnblogs.com/liuys635/p/10831196.html

bootstrap-table 刷新页面数据

bom.bootstrapTable(load,msg[object]);//这一步 务必要添加。if(msg[code]1){bom.find(tbody).css(display,table-row-group)bom.bootstrapTable({data: msg[object],columns: columns,resizable: true,cache:false,pagination: true,sidePagination: client,pageNumber: 1,pa…

Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix

任务场景 Photos to semantic segmentationCityscapes labels to photosColorizationFacades labels to photoDay to nightThe edges to photoAnd so on.在生成器模型中&#xff0c;条件变量y实际上是作为一个额外的输入层&#xff08;additional input layer&#xff09;&…

5分钟从零构建第一个 Apache Flink 应用

为什么80%的码农都做不了架构师&#xff1f;>>> 在本文中&#xff0c;我们将从零开始&#xff0c;教您如何构建第一个Apache Flink &#xff08;以下简称Flink&#xff09;应用程序。 开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发…

WinForm窗体中如何在一个窗体中取到另一个窗体的值

例如我们定义两窗体&#xff0c;Form1和Form2&#xff0c;如何在Form2中取到Form1中的一个值呢&#xff1f; 解决方法1&#xff1a; 在Form1 中定义一个成员变量&#xff0c;例如public string a “ ”: 然后给这个成员变量赋值&#xff0c;例如 a lblname.text; 在Form2中我…

Android6.0------权限申请RxPermissions

前面写了Android6.0权限介绍和权限单个&#xff0c;多个申请&#xff0c;用的是纯Java代码&#xff0c;本文主要说的是借助第三方库来实现权限申请。 借助第三方库 RxPermissions来申请6.0权限。 RxPermissions库地址&#xff1a;https://github.com/tbruyelle/RxPermissions …

如何给 mongodb 设置密码

言简意赅&#xff0c;步骤如下&#xff1a; 连接mongo mongo进入admin数据库 use admin  创建管理员账户db.createUser({ user: "adminName", pwd: "adminPassword", roles: [{ role: "userAdminAnyDatabase", db: "admin&qu…

while和do-while循环结构

while(循环条件){ 循环操作 i; } 1.声明并初始化循环变量。 2.判断循环条件是否满足&#xff0c;如果满足则执行循环操作&#xff1b;否则退出循环。 3.执行完循环操作后&#xff0c;再次判断循环条件&#xff0c;决定继续执行循环或退出循环。 *while循环的特点&#xff1a;先…

Thread线程类及多线程

1.进程、线程、并发、并行是什么&#xff1f; 1)进程&#xff1a;操作系统中可以运行多个任务(程序)&#xff0c;这些运行的任务(程序)被称为进程。程序的运行产生进程(内存空间、程序执行的堆栈)&#xff0c;可以这样说&#xff0c;进程是作为操作系统分配资源的基本单位。 2)…

绛河 初识WCF5

然后我们在<Client>中添加一个终结点&#xff0c;这个是客户端的终结点&#xff0c;我们前面曾经提过&#xff0c;通信实际上发生在两个终结点间&#xff0c;客户端也有个终结点&#xff0c;然而请求总是从客户端首先发起&#xff0c;所以终结点地址应该填写为服务端终结…

python修炼第四天

今天换了师傅。江湖人称景女神^o^。 女师傅讲的比较细&#xff0c;原理的比较多。初学者来说有些难。但是基本功是必须要打牢的。努力&#xff01; 迭代器 迭代器&#xff0c;迭代的工具1 什么是迭代&#xff0c;指的是一个重复的过程&#xff0c;每一次重复称为一次迭代&#…