Shell脚本文本处理三剑客(grep、awk、sed)和正则表达式

一、正则表达式

1.正则表达式基础

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串,将匹配的子串替换或者从某个串中取出符号某个条件的子串等,在linux中代表自定义的模式模板,linux工具可以用正则表达式过滤文本。linux工具能够在处理数据时使用正则表达式对数据进行模式匹配,如果数据符号匹配的要求,那么就会进入下一步处理,如果数据不符合匹配的要求,就会被过滤掉。

正则表达式(正规表达式、常规表达式):

1.使用字符串来描述、匹配一系列符号某个规则的字符串

2.普通字符包括大小写字母、数字、标点符号及一些其他符号组成,元字符是指在正则表示式中具有特殊意义的专用字符

2.元字符

基础正则表达式支持的工具:grep、egrep、sed、awk

字符功能
\转义,把一些特殊的符号转换成普通的符号字符,还可以把一些普通字符转换成特殊功能,例:\!、\n、\$等
^表示匹配字符串开始的位置,匹配行首
$表示匹配字符串末尾的位置,匹配行尾
.匹配任意的单个字符
*

匹配前面子表达式0次或多次,贪婪模式尽可能长

.*表示任意长度的任一字符,不包括0次
\?匹配其前面的字符0或1次,可有可无
\+匹配其前面字符最少1次,有且大于等于1次
\{n\}匹配前面的子表达式n次
\{n,\}匹配前面的子表达式不少于n次
\{,n\}匹配前面的子表达式不多于n次
\{n,m\}匹配前面的子表达式n到m次(m>=n)
\w匹配包括下划线的任何单词字符
\W匹配任何非单词字符。等价于"[^A-Za-z0-9_]"。
\d匹配一个数字字符
\D匹配一个非数字字符。等价于[^0-9]。
\s空白符
[:alpha:]字母,即A-Z,a-z
[:alnum:]字母和数字
[:lower:]小写字母,即a-z
[:upper:]大写字母,即A-Z
[:blank:]空白字符(空格和制表符)
[:space:]包括空格、制表符、换行符、回车符等各类型空白
[:print:]可打印字符
[:punct:]标点符号

3.扩展正则表达式元字符

支持的工具:egrep、awk、grep -E、sed -r

字符功能
+表示匹配前面的子表达式1次以上
表示匹配前面的子表达式0次或1次
()将括号里的内容看成一个整体
|以或的方式匹配字符串

+:表示匹配前面的子表达式1次以上

?:表示匹配前面的子表达式0或1次

():将括号里的内容看成一个整体

|:以或的方式匹配字符串

二、grep命令

grep(Global Regular Expression Print):表示全局正则表达式,使用权限是所有用户,grep命令是文本搜索工具,能使用正则表达式搜索文本,并把匹配的行打印出来

选项功能
-m匹配几次后停止
-v反选
-i忽略字符大小写
-n显示匹配行号
-c统计匹配行数
-o仅显示匹配到的字符串
-q静默模式
-A后几行
-B前几行
-C前后各几行
-e多个选项之间“或者”关系
-w匹配整个单词
-E启用扩展正则表达式=egrep
-F不支持正则表达式=fgrep
-f处理两个文件的相同内容,以第一个文件作为匹配条件
-r递归,但不处理软链接
-R递归,处理软链接

统计lsblk命令显示中磁盘总个数:

在大量文件中快速过滤/etc文件夹下包含root单词的所有文件:

1.^:表示匹配字符串开始的位置,匹配行首

2.$:表示匹配字符串末尾的位置,匹配行尾

3.*:匹配前面子表达式0次或多次,贪婪模式尽可能长

4..:匹配除\n之外的任意的一个字符

5..*:表示任意长度的任一字符,不包括0次

6.\{n\}  匹配前面的子表达式n次

三、sed命令

1.sed基础

1.sed编辑器是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流

2.sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要存储在一个命令文本文件中

2.sed编辑器的工作流程

sed的工作流程主要包括读取、执行和显示三个过程:

1.读取:sed从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)

2.执行:默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行

3.显示:发送修改后的内容到屏幕,在发送数据后,模式空间将会被清空,在所有的文件内容都被处理完成之前,上述过程将重复执行,直到被全部处理完成

注:默认情况下所有sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,
除非是用重定向存储输出或者sed -i

3.sed命令选项

选项功能
-n不输出模式空间内容,即不自动打印,加p恢复自动打印
-e多点编辑
-f从指定文件中读取编辑脚本
-r  -E使用扩展正则表达式
-i备份文件并原处编辑

4.sed命令操作

操作功能
s替换,替换指定字符
d删除,删除选定的行
a增加,在当前行下面增加一行指定内容
i插入,在选定行上面插入一行指定内容
c替换,将选定行替换为指定内容
Y字符转换,转换前后的字符长度必须相同
p打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。其通常与"-n"选项一起使用
=打印行号
l打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

5.sed打印内容

1.打印输入的全部内容

2.查看文件,打印文件中全部内容

3.打印指定行内容

4.打印指定多行内容

5.打印多(3)行后退出

6.打印最后一行,使用通配符$(最后)

7.支持正则表达式,打印范围内容

8.过滤关键字

9.从第n行开始匹配

10.找到第n个关键字为止

11.打印文本的奇数行和偶数行

6.sed删除内容

1.删除指定行

2.删除指定的多行

3.删除文本中的空行

4.删除以指定字符结尾的行及取反

5.先备份内容再删除

7.插入内容

1.在指定行后插入

2.插入空行,修改文件的换行,要多加一个\

8.替换行内容

9.取反(使用!)

10.搜索替代

替换标记作用
数字表明新字符串将替换第几处匹配的地方
g表明新字符串将会替换所有匹配的地方
p打印与替换命令匹配的行,与-n一起使用
w文件将替换的结果写到文件中

1.修改selinux开机不自启配置文件

2.修改多行,使用r以及-e

3.修改全局,后面加g

4.查找几点到几点之间的日志

11.分组调用

1.调用分组段

2.提取IP地址

四、awk命令

1.awk基础

awk是一种处理文本文件的语言,是一个强大的文本分析工具,可以在无交互的模式下实现复杂的文本操作,相较于sed常作用于一整个行的处理,awk则比较倾向于一行当中分成数个字段来处理,因为awk相当适合小型的文本数据

2.awk格式及原理

awk命令逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理,awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示

命令格式:

awk  [选项]  '模式条件{操作}'  文件1  文件2

awk  -f |-v  脚本文件  文件1   文件2

3.awk常见内建变量

变量功能
FS列分隔符,指定每行文本的字段分隔符,默认为空格或制表位,与-F作用相同
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)
$0当前处理的行的整行内容
$n当前处理行的第n个字段(第n列)
FILENAME被处理的文件名
RS行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’
$NF最后一段
$(NF-1)倒数第二段

4.awk打印文本内容:

awk可以自动将多个空格压缩成一个空格

打印字符串需要加双引号

2.打印磁盘已经使用情况

df  |awk  '{print $5}'

3.打印字符串

awk  '{print "hello eva"}'

4.打印字符串确定文件有多少行

5.awk根据$n已经NR提取字段

$n代表提取第几列

1.提取ip地址

ifconfig ens33 |sed -n '2p' |awk '{print $2}'

ifconfig ens33 |awk 'NR==2{print $2}'

2.提取ipv6地址

ifconfig ens33 |sed -n '3p' |awk '{print $2}'

ifconfig ens33 |awk 'NR==3{print $2}'

6.awk根据选项-F指定分隔符

1.打印/etc/passwd所有用户名

cat /etc/passwd |awk -F ":" '{print $1}'

cat /etc/passwd |awk -F:  '{print $1}'

2.打印多列内容

打印时逗号可以表示空格,如果使用:或+,需要将特殊符号加上双引号当成字符串打印

cat /etc/passwd |awk -F":" '{print $1,$2}'

cat /etc/passwd |awk -F: '{print $1":"$2}'

cat /etc/passwd |awk -F: '{print $1"+"$2}'

3.awk打印磁盘已经使用情况,去掉%

df |awk '{print $5}' |awk -F% '{print $1}'

df |awk -F "[ % ]+" '{print $5}'

df |awk -F "( |% )+" '{print $5}'

4.取出文本中的ip地址及时间

cat test.txt |sed '2d' |awk -F"[[ ]" '{print $5"\t"$1}'

cat test.txt |sed '2d' |awk -F"[[ ]" '{print $5,$1}'

5.取出文本中的主机并放回

7.awk根据关键字提取所在行

1.提取/etc/passwd以root开头的行

cat /etc/passwd |awk -F":" '/^root/{print}'

.提取/etc/passwd root所在的行

cat /etc/passwd |awk -F: '/root/{print}'

3.提取/etc/passwd nologin结尾的行

cat /etc/passwd |awk -F":" '/nologin$/{print}'

cat /etc/passwd |awk -F":" '/\/sbin\/nologin$/{print}'

8.FS:指定每行文本的字段分隔符,默认为空格或制表符,与-F相同

9.NF:当前处理行的整行内容

1.当前处理的行的字段个数

cat /etc/passwd |awk -F: '{print NF}'

2.打印出每行最后一个字段

cat /etc/passwd |awk -F: '{print $NF}'

3.打印出每行倒数第二个字段

cat /etc/passwd |awk -F: '{print $(NF-1)}'

df|awk '{print $(NF-1)}'

10.NR:当前处理行的行号

1.当前处理的行的行号

2.NR==n代表行号等于什么

3.NR%2==0取偶数行

4.NR%2==1取奇数行

5.NR==1,NR==4取区间行

6.取UID数值范围$n>1000

11.例子

1.统计/etc/fstab文件中每个文件系统类型出现的次数

2.统计/etc/fstab文件中每个单词出现的次数

3.将某日志文件访问用户的IP地址,在第三列冒号隔开,统计出访问量前十的IP地址

4.提取出字符串uf5951df1s56f1wf1w9f1w1f651f61w中所有的数字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

青否数字人直播源码超级管理后台操作步骤!

青否数字人直播源码超级管理后台,我们将详细介绍一下数字人的管理后台的详细操作步骤! 1.管理端入口 2.管理后台预览 账号管理,模特管理,声音管理,任务管理,卡类管理,代理商,克隆端 …

七月份大理站、ACM独立出版、高录用稳检索,2024年云计算与大数据国际学术会议(ICCBD 2024)

【ACM独立出版 | 高录用 | EI核心检索稳定】 2024年云计算与大数据国际学术会议(ICCBD 2024) 2024 International Conference on Cloud Computing and Big Data (ICCBD 2024) 一、重要信息 大会官网:www.iccbd.net (点击投稿/参会/了解会…

小程序 UI 风格,独具匠心

小程序 UI 风格,独具匠心

docker 下载镜像发现超时,加速加速方法

报错原因有可能旧的不能用了!!!换下面的!!! cat /etc/docker/daemon.json "registry-mirrors": ["https://bhu1x6ya.mirror.aliyuncs.com"] 编辑完成后执行以下命令重启docker即可&a…

Linux.小技巧快捷键

1. ctrl c 强制停止 终止某些程序的运行 也可以取消某行命令 2. ctrl d 退出或登出 进入python环境中,使用ctrl d 退出 3.history 查看历史使用了哪些命令 4. ! 历史最近使用的命令的开头 5.使用ctrl r 搜索历史使用的命令 按下 ctrl r 会进入 reverse -…

19 - 查询结果的质量和占比(高频 SQL 50 题基础版)

19 - 查询结果的质量和占比 -- round(avg(rating<3)*100,2)round(avg(if(rating<3,1,0))*100,2) select query_name,round(avg(rating/position),2) quality,round(avg(if(rating<3,1,0))*100,2) poor_query_percentage fromQueries group byquery_name;

vue 响应拦截器,针对某个接口的返回值做特殊处理

1、service.interceptors.response.use 接收两个参数&#xff1a; &#xff08;1&#xff09;参数一&#xff1a;接口成功的回调函数 &#xff08;2&#xff09;参数二&#xff1a;接口失败的回调函数 如要实现以下需求&#xff1a;匹配路径中包含 /api-special 的接口&…

企业微信hook接口协议,ipad协议http,一个用户多个标签

一个用户多个标签 参数名必选类型说明uuid是String每个实例的唯一标识&#xff0c;根据uuid操作具体企业微信 请求示例 {"uuid": "168885xxx599424","userid":0,//用户id"labelid_list":[ //标签id数组0] } 返回示例 {"data…

基于python的网上挂号预约系统-计算机毕业设计源码35796

摘 要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;医院当然也不例外。网上挂号预约系统是以实际运用为开发背景&#xff0c;运用软件工程原理和开发方法&#xff0c;采用Py…

nesting in wrf

Choices for Nesting are:0 no nesting (only available for serial and smpar) 0. no nesting (only available for serial and smpar)1. basic2. preset moves preset moves3. vortex following • default is option 0 for serial/smpar, 1 for dmpar • smpar Shared Mem…

VS code上创建Vue项目详细化教程2-配置并创建Vue项目

目录 1. 环境准备 1.1 Node.js环境配置 1.1.1 安装Node.js 1.1.2 Node配置全局安装目录&#xff1a; 1.2 安装Vue-cli 2. 工程化Vue项目创建 2.1 命令行形式 2.2 UI 界面&#xff08;我们此处采用UI模式&#xff09; 2.2.1 在文件目录下终端输入 2.2.2 创建新项目 2…

源码文章上传无忧,论坛小程序支持

前言 在数字化时代&#xff0c;知识的分享与传播显得愈发重要。为了满足广大创作者和求知者的需求&#xff0c;我们推出了全新的论坛小程序&#xff0c;不仅支持文章、源码、链接等多样化内容的上传&#xff0c;还实现了付费观看功能&#xff0c;为创作者们提供了一个展示才华…

快速自定义表单开发的优势介绍

进行高效率的办公是很多职场人的梦想。借助什么样的软件平台可以提质增效&#xff1f;低代码技术平台是当前较为流行的办公软件平台产品&#xff0c;具有灵活性、易操作、好维护等多个优势特点&#xff0c;操作人员只需要像搭积木似地操作&#xff0c;就可以搭建属于客户的个性…

UnityXR Interactable Toolkit如何实现Climb爬梯子

前言 在VR中,通常会有一些交互需要我们做爬梯子,爬墙的操作,之前用VRTK3时,里面是还有这个Demo的,最近看XRI,发现也除了一个爬的示例,今天我们就来讲解一下 如何在Unity中使用XR Interaction Toolkit实现爬行(Climb)操作 环境配置 步骤 1:设置XR环境 确保你的Uni…

【ArcGISProSDK】 读取多面体信息并导出XML

结果展示 代码 using ArcGIS.Core.CIM; using ArcGIS.Core.Data; using ArcGIS.Core.Data.DDL; using ArcGIS.Core.Geometry; using ArcGIS.Core.Internal.CIM; using ArcGIS.Desktop.Catalog; using ArcGIS.Desktop.Core; using ArcGIS.Desktop.Editing; using ArcGIS.Deskto…

代码签名证书:软件安全的守护神

在数字化日益普及的今天&#xff0c;软件安全问题愈发受到人们的关注。而在这其中&#xff0c;一个常被提及但可能不为大众所熟知的名词——“代码签名证书”&#xff0c;实际上在软件安全领域扮演着举足轻重的角色。今天&#xff0c;我们就来聊聊代码签名证书对软件安全到底有…

巴拿马太平洋万国博览会学会参加济州论坛 韩国工作会议同期举办

本届论坛以“为更好的世界而合作”为主题&#xff0c;聚焦国际经济、政治、文化等领域的热点问题&#xff0c;寻求合作与发展的新机遇。天狮集团派员参加&#xff0c;将与全球商界领袖、政要名流面对面交流&#xff0c;共同探讨全球合作与发展的新机遇和新挑战。对于中国企业而…

Lean 4 安装教程及环境管理

唠唠闲话 Lean 是一个交互式定理证明器&#xff08;Interactive Theorem Prover, ITP&#xff09;&#xff0c;也是一门通用函数式编程语言。微软研究院在 2013 年推出这一计算机定理证明器&#xff0c;数学家可以把数学定理转换成代码&#xff0c;再输入到 Lean 中&#xff0…

Paperless-Ngx文档管理系统结合内网穿透实现随时远程搜索查阅文本

文章目录 前言1. 部署Paperless-ngx2. 本地访问Paperless-ngx3. Linux安装Cpolar4. 配置公网地址5. 远程访问6. 固定Cpolar公网地址7. 固定地址访问 前言 Paperless-ngx是一个开源的文档管理系统&#xff0c;可以将物理文档转换成可搜索的在线档案&#xff0c;从而减少纸张的使…

CVE-2024-2961:将phpfilter任意文件读取提升为远程代码执行(RCE)

0x00 前言 前几天p牛师傅在星球发了一个帖子&#xff1a;PHP利用glibc iconv()中的一个缓冲区溢出漏洞CVE-2024-2961&#xff0c;实现将文件读取提升为任意命令执行漏洞&#xff0c;当时觉得这个漏洞蛮有意思&#xff0c;就想研究一下。于是web狗开启了一次二进制漏洞的学习之…