使用awk和正则表达式过滤文本或字符串 - 详细指南和示例

当我们在 Linux 中运行某些命令来读取或编辑字符串或文件中的文本时,我们经常尝试将输出过滤到感兴趣的特定部分。这就是使用正则表达式派上用场的地方。

什么是正则表达式?

正则表达式可以定义为表示多个字符序列的字符串。关于正则表达式最重要的事情之一是它允许您过滤命令或文件的输出、编辑文本或配置文件的一部分等等。

正则表达式的特点

正则表达式由以下部分组成:

  • 普通字符,例如空格、下划线(_)、A-Z、a-z、0-9。
  • 扩展为普通字符的元字符包括:
    • (.) 它匹配除换行符之外的任何单个字符。
    • (*) 它匹配零个或多个其前面的直接字符。
    • [character(s)]匹配character(s)中指定的任意一个字符,也可以使用连字符(-)表示一系列字符,如[a-f]、[1-5]等。
    • ^ 它匹配文件中行的开头。
    • $ 匹配文件中的行尾。
    • \ 它是一个转义字符。

为了过滤文本,必须使用 awk 等文本过滤工具。您可以将 awk 视为一种编程语言。但对于本指南[1]使用 awk 的范围,我们将其作为一个简单的命令行过滤工具进行介绍。

awk 的一般语法是:

awk 'script' filename

其中“script”是 awk 可以理解在文件 filename 上执行的一组命令。

它的工作原理是读取文件中的给定行,制作该行的副本,然后执行该行上的脚本。文件中的所有行都会重复此操作。

“script”的形式为“/pattern/action”,其中pattern是正则表达式,而action是 awk 在行中找到给定pattern时将执行的操作。

如何在Linux中使用awk过滤工具

在下面的示例中,我们将重点关注 awk 的元字符。

  • 由于没有给出模式,下面的示例打印文件 /etc/hosts 中的所有行。
awk '//{print}'/etc/hosts
alt
  • 使用 Awk 模式:在文件中匹配带有“localhost”的行

在下面的示例中,已给出模式 localhost,因此 awk 将匹配 /etc/hosts 文件中具有 localhost 的行。

awk '/localhost/{print}' /etc/hosts 
alt
  • 在模式中使用带有 (.) 通配符的 Awk

(.) 将匹配下面示例中包含 loc、localhost、localnet 的字符串。

awk '/l.c/{print}' /etc/hosts
alt
  • 在模式中使用带有 (*) 字符的 Awk

它将匹配包含 localhost、localnet、lines、capable 的字符串,如下例所示:

awk '/l*c/{print}' /etc/localhost
alt

您还将意识到 (*) 试图为您提供它可以检测到的最长匹配项。

让我们看一个案例来演示这一点,采用正则表达式 t*t,它表示匹配以下行中以字母 t 开头并以 t 结尾的字符串:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint. 

当您使用模式 /t*t/ 时,您将得到以下可能性:

this is t
this is tecmint
this is tecmint, where you get t
this is tecmint, where you get the best good t
this is tecmint, where you get the best good tutorials, how t
this is tecmint, where you get the best good tutorials, how tos, guides, t
this is tecmint, where you get the best good tutorials, how tos, guides, tecmint

/tt/ 通配符中的 () 允许 awk 选择最后一个选项:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint
  • 使用带有 set [ 字符 ] 的 awk

以集合[al1]为例,这里awk将匹配文件/etc/hosts中一行中包含字符a或l或1的所有字符串。

awk '/[al1]/{print}' /etc/hosts
alt

下一个示例匹配以 K 或 k 开头后跟 T 的字符串:

# awk '/[Kk]T/{print}' /etc/hosts 
alt
  • 指定范围内的字符

用 awk 理解字符:

  • [0-9]表示单个数字
  • [a-z] 表示匹配单个小写字母
  • [A-Z] 表示匹配单个大写字母
  • [a-zA-Z] 表示匹配单个字母
  • [a-zA-Z 0-9] 表示匹配单个字母或数字
awk '/[0-9]/{print}' /etc/hosts 
alt

在上面的示例中,文件 /etc/hosts 中的所有行都至少包含一个数字 [0-9]。

  • 将 Awk 与 ($) 元字符结合使用

它匹配以提供的模式结尾的所有行:

awk '/ab$/{print}' /etc/hosts
awk '/ost$/{print}' /etc/hosts
awk '/rs$/{print}' /etc/hosts
alt
  • 将 Awk 与 () 转义字符一起使用

它允许您将其后面的字符视为文字,也就是说按原样考虑它。

在下面的示例中,第一个命令打印出文件中的所有行,第二个命令不打印任何内容,因为我想匹配包含 $25.00 的行,但没有使用转义字符。

第三个命令是正确的,因为转义字符已用于按原样读取 $。

awk '//{print}' deals.txt
awk '/$25.00/{print}' deals.txt
awk '/\$25.00/{print}' deals.txt
alt
Reference
[1]

Source: https://www.tecmint.com/use-linux-awk-command-to-filter-text-string-in-files/

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自建Redis蜜罐以捕获和分析潜在攻击

一、引言 随着网络攻击的日益频繁和复杂,传统的防御措施往往难以应对。蜜罐作为一种主动防御技术,通过模拟有价值的服务来吸引攻击者,从而收集和分析攻击数据,提高网络安全性。本文将介绍如何自建一个Redis蜜罐,以捕获…

纷争不断的低代码平台

在IT行业,技术的更新换代总是伴随着争议和质疑。低代码平台,作为一种旨在简化软件开发过程的技术,也不例外。但是,就像任何新兴技术一样,真正的价值往往在于实际应用中得到验证。今天,我要分享的故事&#…

docker 安装 Jenkins

一、安装 jenkins 中文文档: https://www.jenkins.io/zh/doc/book/installing/#docker jenkins 提供了详细的安装方式和步骤,这里咱们使用 docker 进行安装 根据文档上的命令,自己修改如下: docker run \ -u root \ --name jenki…

嵊州吃喝玩乐篇

1. 豆腐馒头 胖大姐豆腐馒头(推荐) 地址: 嵊州市越秀路96-98号 高德地图搜 “胖大姐黄泽豆腐馒头” 黄泽豆腐馒头 地址:嵊州市越秀路111号 高德地图搜 “嵊州市玉英豆腐馒头店” 2. 烧烤 老张烧烤(推荐) 地址&a…

【IDEA】2023版IDEA安装破解教程

2023版IDEA安装破解教程 第一步:IDEA的卸载 这里以Windows11系统为例,首先我们打开控制面板,点击程序,找到自己的IDEA,双击卸载。(或者可以直接找到idea所在文件位置,直接delete文件夹&#x…

vue实现xml,sql,JSON自动格式化高亮

实现xml&#xff0c;json&#xff0c;sql代码组件格式化高亮&#xff1a; 需要下载的依赖&#xff1a; <template><div class"box"><div class"top" v-if"flag"><span class"text">Theme:</span><…

惠普 DsekJet GT 5810/5820常见问题及解决方法

1、HP DeskJet GT 5810/5820机器的屏幕出现“P”时&#xff0c;该如何操作&#xff1f; 当屏幕出现“P”时&#xff0c;放入A4纸&#xff0c;按住“进纸键”3秒即可&#xff0c;打印机会打印出一张校准页。 2、HP DeskJet GT 5810/5820机器的屏幕出现“A”时&#xff0c;该如何…

【开源】JAVA+Vue.js实现食品生产管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 加工厂管理模块2.2 客户管理模块2.3 食品管理模块2.4 生产销售订单管理模块2.5 系统管理模块2.6 其他管理模块 三、系统展示四、核心代码4.1 查询食品4.2 查询加工厂4.3 新增生产订单4.4 新增销售订单4.5 查询客户 五、…

Redis常见的15个【坑】,避坑指南

一、常见命令 1.1 过期时间意外丢失 原因&#xff1a; SET命令如果不设置过期时间&#xff0c;那么Redis会自动【擦除】这个key的过期时间 1.2 DEL命令阻塞redis key是String类型时&#xff0c;DEL时间复杂度是O(1)key是List/Hash/Set/ZSet类型&#xff0c;DEL时间复杂度是…

开发知识点-前端-layUI

layui layertabletable render <script type"text/html" id"buttonTpl">{{# if(d.check true){ }}<button class"layui-btn layui-btn-xs">已审核</button>{{# } else { }}<button class"layui-btn layui-btn-prim…

#include “stdafx.h“代码的位置,导致编译通不过

1.先上代码: #include <iostream> //std::cout #include <iterator> //std::distance #include <list> //std::list using namespace std;#include "stdafx.h" int _tmain(int argc, _TCHAR* argv[]) { list<int> mylist; …

神经网络算法详解

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 引言 神经网络&#xff0c;作为人工智能和机器学习领域的核心技术之一&#xff0c;具有极其重要的意义。它们通过模拟人类大脑的工作机制&#…

【鸿蒙 HarmonyOS 4.0】弹性布局(Flex)

一、介绍 弹性布局&#xff08;Flex&#xff09;提供更加有效的方式对容器中的子元素进行排列、对齐和分配剩余空间。容器默认存在主轴与交叉轴&#xff0c;子元素默认沿主轴排列&#xff0c;子元素在主轴方向的尺寸称为主轴尺寸&#xff0c;在交叉轴方向的尺寸称为交叉轴尺寸…

(Linux学习七)进程介绍

一、进程 进程生命周期&#xff1a;由系统程序。form出来的子程序&#xff0c;具备一定的父的资源&#xff08;权利&#xff0c;内存空间&#xff0c;PID&#xff09;直到运行完毕&#xff0c;退出系统 查看进程 ps aux 查看所有进程参数&#xff1a;aux ps a 显示现行…

详细分析Linux内存知识并释放内存

目录 前言1. 基本知识1.1 free1.2 cat /proc/meminfo1.3 slabtop 2. 清空内存 前言 本篇文章主要分析内存 如果是磁盘空间&#xff0c;推荐阅读&#xff1a;服务器出现根目录磁盘满了解决方法 1. 基本知识 在Linux系统中&#xff0c;查看内存的基本知识包括以下几个方面&…

测试一下测试u一下3月5日

目录 前言 1. 环境准备 2. 在EB tresos上配置MCAL 步骤1&#xff1a;下载软件 步骤2&#xff1a;安装EB Tresos 23 步骤3&#xff1a;安装MCAL 3. 新建EB工程 4. 导出Arxml文件 前言 前面已经讲解了MCAL的作用。按照博主的理解&#xff0c;配置autosar工程肯定是从驱动…

大气颗粒物与VOCs PMF源解析:环保行业的新利器

在现今日益严峻的环境问题中&#xff0c;大气颗粒物和臭氧污染尤为突出&#xff0c;它们不仅深刻影响着全球气候和生态环境&#xff0c;更对人体健康构成了严重威胁。为了有效应对这一挑战&#xff0c;我们首先需要深入了解颗粒物和臭氧的来源&#xff0c;特别是臭氧的前体物之…

[Flutter get_cli] 配置 sub_folder:false报错

flutter get_cli 配置 get_cli:sub_folder:false报错如下 Because getx_cli_learn01 depends on get_cli from unknown source "sub_folder", version solving failed. 原因是在 pubspec.yaml文件中, get_cli:sub_folder:false要和 dependencies: xxx dev_depe…

自动驾驶预测与决策规划(nuplan数据集)

欢迎大家关注我的B站&#xff1a; 偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com) 目录 1.概述 2 数据采集 3.开环与闭环仿真 4.数据注释 5.场景 6.规划框架 6.1Train 6.2Simulation 6.3Metric 6.4Visualization 7.下载…

【排序】详解冒泡排序

一、思想 冒泡排序的基本思想是利用两两比较相邻记录的方式&#xff0c;通过一系列的比较和交换操作&#xff0c;使得较大或较小的元素逐渐移动到数列的一端。在每一轮的排序过程中&#xff0c;都会从数列的起始位置开始&#xff0c;对相邻的元素进行比较&#xff0c;如果它们…