【Linux】正则表达式

正则表达式是一种可供Linux工具过滤文本的自定义模板,Linux工具(如sed、gawk)会在读取数据时使用正则表达式对数据进行模式匹配。

正则表达式使用元字符来描述数据流中的一个或多个字符。它是由正则表达式引擎实现的。正则表达式引擎是一种底层软件,负责解释正则表达式并用这些模式进行文本匹配。

最流行的正则表达式引擎有两种:

POSIX基础正则表达式(basic regular expression,BRE)引擎;

POSIX扩展正则表达式(extended regular expression,ERE)引擎。

一、BRE模式

 最基本的BRE模式是匹配数据流中的文本字符。

1、普通文本

正则表达式匹配的第一条原则:区分大小写

正则表达式中也可以使用空格数字

 2、特殊字符

正则表达式能识别的特殊字符如下:

* [] ^ $ {} \ + ? | ()

 如果要将某个特殊字符视为普通字符,则必须用反斜线(\)将其转义。

# 匹配文本中的美元符号$
sed -n '/\$/p' test1.txt

转义反斜线(\)

正斜线(/) 虽然不属于正则表达式中的特殊字符,但也需要进行转义,否则会报错。

3、锚点字符

 有两个特殊字符可以用来将正则表达式模式锁定在数据流中的行首或者行尾,这两个特殊字符被称为锚点字符。

锚定行首

脱字符(^)可以指定位于数据流中文本行行首的模式,如果模式出现在行首之外的其它地方,则正则表达式无法匹配。

使用脱字符时必须将其置于正则表达式之前

如果将脱字符放在正则表达式开头之外的位置,sed就会将其视为普通字符进行匹配。

如果只是匹配脱字符,则不用进行转义。

如果要匹配脱字符及其它文本,则需要将脱字符进行转义。

锚定行尾

 特殊字符美元符号($)定义了行尾锚点。将其放在正则表达式之后则表示数据行必须以该模式结尾

 组合锚点

查找只含有特定文本模式的数据行。

将两锚点直接组合在一起,之间不加任何文本,可以过滤出数据流中的空行

如下所示,指定的正则表达式会查找行首和行尾之间什么都没有的那些行,由于空行在两个换行符之间没有文本,所以正好被匹配到。

这是一种从文本中删除空行的一种不错的方法。

sed '/^$/d' test1.txt

4、点号字符

 点号字符匹配除换行符以外的任意单个字符,它必须匹配一个字符

5、字符组

 可以在正则表达式中定义用来匹配某个位置的一组字符。如果字符组中的某个字符出现在了数据流中,那就匹配成功。

方括号用于定义字符组,在方括号中加入希望出现在该字符组中的所有字符,就可以在正则表达式中像其它字符一样使用字符组了。

不确定某个字符的大小写时:

 在单个正则表达式中可以使用多个字符组

字符组中也可以使用数字

6、排除型字符组

 可以反转字符组的作用,即匹配字符组中没有的字符。只需在字符组的开头添加脱字符即可。

如下所示,匹配除c或h之外的任何字符以及文本模式。其中空格也能被匹配到。

7、区间

 可以使用单连字符在字符组中表示字符区间。

还可以在字符组内指定多个不连续的区间。

如下所示,指定的范围是1到4个7到9。

 8、特殊字符组

BRE有一些特殊的字符组。

BRE特殊字符组
[[:alpha:]]匹配任意字母字符,无论是大写还是小写
[[:alnum:]]匹配任意字母数字字符,0~9,A~Z或a~z
[[:blank:]]匹配空格或制表符
[[:digit:]]匹配0~9中的数字
[[:lower:]]匹配小写字母a~z
[[:upper:]]匹配大写字母A~Z
[[:print:]]匹配任意可打印字符
[[:punct:]]匹配标点符号
[[:space:]]匹配任意空白字符:空格、制表符、换行符、分页符、回车符、垂直制表符

这些特殊字符组的用法和普通字符组的用法一样

9、星号*

 匹配次数大于等于0次。

这个特殊符号常用于处理有常见拼写错误或在不同语言中有拼写变化的单词。

 点号字符星号字符组合起来,能够匹配任意数量的任意字符,一般用在数据流中两个可能相邻或不相邻的字符串之间。

星号还能用于字符组,指定可能在文本中出现0次或多次的字符组或字符区间。

不能出现字符组以外的其它字符,否则就无法匹配到。

 二、ERE模式

gawk支持ERE模式,但sed不支持。前者可以使用大多数扩展的正则表达式符号,并能提供一些sed所不具备的额外过滤功能,但正因为如此,也使得gawk在处理数据时较慢。

1、问号?

匹配0次1次,不能匹配超过1次的多次。

问号也可以和字符组一起使用:如果字符组中的字符出现了0次或1次,就能匹配上;如果两个字符都出现或者其中一个出现了两次及以上,就不能匹配上。

2、加号+

 匹配1次或多次,必须至少1次。

它也可以用于字符组上,用法和星号、问号一样。

3、花括号{}

 可为正则表达式指定字符或字符组出现的可重复次数,称之为区间,有以下两种方式:

  • m:正则表达式恰好出现m次;
  • m,n:正则表达式至少出现m次,至多出现n次。

默认情况下,gawk不识别正则表达式区间,必须指定gawk的命令行选项--re-interval才行。

如下所示,只匹配一次e:

可以同时指定区间的下限上限

也可以用在字符组上:

字母a或e在文本模式中只出现了1~2次,则正则表达式匹配成功,否则,不成功。

字母a和e出现的次数加起来最多只能是2次。

 4、竖线符号|

竖线符号允许在检查数据流时,以逻辑OR方式指定正则表达式引擎要使用的两个或多个模式。如果其中任何一个模式成功匹配,就视为匹配成功,否则,则匹配失败。

格式:expr1|expr2|...

正则表达式和竖线符号之间不能有空格,否则竖线符号会被认为是正则表达式模式的一部分, 

 竖线符号两侧的子表达式可以采用正则表达式可用的任何模式符号,包括字符组。

如下所示,该正则表达式可以匹配cat、hat和dog。

5、正则表达式分组

 可以用圆括号对正则表达式进行分组。分组之后,每一组都会被视为一个整体,可以像对普通字符一样对该组应用特殊字符。

如下所示,该正则表达式可以让正则表达式能够匹配Sunday或者Sun。

 最常见的用法是将分组竖线符号结合起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据平台浅理解

定义 数据平台架构是指用于收集、存储、处理和分析数据的一系列组件、技术和流程的整体架构设计。它就像是一个复杂的数据生态系统的蓝图,旨在高效地管理数据从产生源头到产生价值的整个生命周期。 主要层次 数据源层 这是数据的起点,包含各种类型的数据…

Python入门10:高阶函数

一、什么是高阶函数 1.1、高阶函数的概念和作用: 高阶函数是指 接受函数作为参数 或者 返回函数 作为结果的函数。它在函数式编程中是一个重要概念(函数式编程(Functional Programming , FP )是一 种编程范式&#xf…

Android ScrollView嵌套X5WebView大片空白问题

scrollview嵌套后webview的高度不可控。留有大片空白。 注:官方不建议scrollview嵌套webview 最好让webview自身滚动 解决方案: act_news_detail_wv.setWebViewClient(new WebViewClient() {Overridepublic void onPageFinished(WebView webView, Str…

浅谈云计算12 | KVM虚拟化技术

KVM虚拟化技术 一、KVM虚拟化技术基础1.1 KVM虚拟化技术简介1.2 KVM虚拟化技术架构1.2.1 KVM内核模块1.2.2 用户空间工具(QEMU、Libvirt等) 二、KVM虚拟化技术原理2.1 硬件辅助虚拟化2.2 VMCS结构与工作机制 三、KVM虚拟化技术面临的挑战与应对策略3.1 性…

GO:GO程序如何处理缓存加载和大数据缓存

如果我们会在程序启动时,需要加载所有数据,最简单的方式就是程序启动,通过轮训从数据库拉取所有数据,并写入到本地缓存中。 问题:数据量较大的时候,程序加载慢,启动时间长,遇到问题不…

【优选算法篇】:分而治之--揭秘分治算法的魅力与实战应用

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:优选算法篇–CSDN博客 文章目录 一.什么是分治算法1.分治算法的基本概念2.分治算法的三个步…

【人工智能】从Keras到TensorFlow 2.0:深入掌握Python深度学习技术

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 随着人工智能技术的迅猛发展,深度学习作为其核心分支,已在图像识别、自然语言处理、语音识别等…

OpenAI Whisper:语音识别技术的革新者—深入架构与参数

当下语音识别技术正以前所未有的速度发展,极大地推动了人机交互的便利性和效率。OpenAI的Whisper系统无疑是这一领域的佼佼者,它凭借其卓越的性能、广泛的适用性和创新的技术架构,正在重新定义语音转文本技术的规则。今天我们一起了解一下Whi…

MATLAB学习笔记-table

table 的每一列具有固定的数据类型。如果要让表的所有单元格都可以任意填充,就得让每一列都是 cell 类型,这样表中每个单元格都是“一个元胞”。创建时可以先构造一个 空 cell 数组(大小为行数列数),再用 cell2table 转…

Spring Boot教程之五十六:用 Apache Kafka 消费 JSON 消息

Spring Boot | 如何使用 Apache Kafka 消费 JSON 消息 Apache Kafka 是一个流处理系统,可让您在进程、应用程序和服务器之间发送消息。在本文中,我们将了解如何使用 Apache Kafka 在 Spring Boot 应用程序的控制台上发布 JSON 消息。 为了了解如何创建 …

python+playwright自动化测试(一):安装及简单使用,截图录屏

目录 基本使用 浏览器调用 启用浏览器 创建窗口对象 访问URL 页面的刷新、返回、前进 关闭 截图、录屏、保存pdf 截图 录屏 保存为pdf 设置窗口大小 调试模式 手机模式及new_context的更多参数 手机模式 new_context的其他参数 设置语言和时区 设置和修改位置…

初识C++(二)

六、引用 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空间,它和它引用的变量共用同一块内存空间。 通俗地讲,可以理解为一个人能够拥有多个称呼,这些所有的称呼都是表示这一…

上海市计算机学会竞赛平台2024年12月月赛丙组查找 404

题目描述 Eve 有一个字符串 SS,该字符串仅由字符 *、4 和 0 组成。字符 * 可以被替换为 4 或 0。 Eve 想要计算在所有可能通过替换 * 生成的字符串中,包含子序列 404 的总数。由于这个数字可能非常大,你需要其输出模 10971097 的结果。 例…

【RedisStack】Linux安装指南

【RedisStack】Linux安装指南.md 前言下载解压创建启动文件设置密码把密码设置到环境变量启动/停止相关命令测试&验证官网资料参考资料 前言 Redis Stack是使用Redis的最佳起点。我们将我们必须提供的最好的技术捆绑在一起,形成一个易于使用的软件包。Redis St…

达梦8-DMSQL程序设计学习笔记1-DMSQL程序简介

1、DMSQL程序简介 DMSQL程序是达梦数据库对标准SQL语言的扩展,是一种过程化SQL语言。在DMSQL程序中,包括一整套数据类型、条件结构、循环结构和异常处理结构等,DMSQL程序中可以执行SQL语句,SQL语句中也可以使用DMSQL函数。 DMSQ…

STM32 FreeRTOS 基础知识

多任务处理 内核是操作系统的核心组件。诸如 Linux 这样的操作系统采用的内核, 看似允许用户同时访问计算机。很明显,多个用户可以同时执行多个程序。 每个执行程序都是受操作系统控制的任务(或线程)。如果一个操作系统能够以这…

商用车电子电气零部件电磁兼容条件和试验(2)—术语和定义

写在前面 本系列文章主要讲解商用车电子/电气零部件或系统的传导抗干扰、传导发射和辐射抗干扰、电场辐射发射以及静电放电等试验内容及要求,高压试验项目内容及要求。 若有相关问题,欢迎评论沟通,共同进步。(*^▽^*) 目录 商用车电子电气…

计算机视觉与深度学习 | 使用深度学习来训练基于视觉的车辆检测器(matlab源码-faster RCNN)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== faster RCNN训练一个深度学习车辆检测器 下载预训练检测器加载数据集创…

T-SQL编程

目录 1、T-SQL的元素 1.1 标识符 1. 常规标识符 2. 分隔标识符 1.2 变量 1. 全局变量 2. 局部变量 1.3 运算符 1. 算数运算符 2. 赋值运算符 3. 位运算符 4. 比较运算符 5. 逻辑运算符 6. 字符串连接运算符 7. 一元运算符 8. 运算符的优先级和结合性 1.4 批处…

如何将原来使用cmakelist编译的qt工程转换为可使用Visual Studio编译的项目

将原来使用CMakeLists.txt编译的Qt工程转换为可使用Visual Studio编译的项目,可以通过以下步骤实现: 一、准备阶段 安装必要的软件: 确保已安装Visual Studio,并选择了C开发相关的组件。安装CMake,并确保其版本与Qt和…