linux命令更新-文本处理awk

awk命令简介

awk是一种强大的文本处理工具,可以对文本文件进行格式化、统计、计算等操作。它逐行读取文本文件,并对每一行进行处理。awk的语法相对简单,但功能非常强大,是Linux系统中常用的文本处理工具之一。

awk命令基本语法

awk的基本语法格式如下:

awk 'pattern {action}' input-file
  • pattern: 模式,用于匹配特定的行。

  • action: 动作,对匹配的行进行的操作。

  • input-file: 输入文件。

awk命令常用参数

  • -F fs: 指定字段分隔符,默认是空格或Tab。

  • -v var=value: 定义变量。

  • -f script: 从脚本文件中读取awk程序。

awk命令常用功能

1 打印指定字段
awk -F ':' '{print $1,$3}' passwd  # 打印passwd文件中每一行的第一个和第三个字段
2 条件过滤
awk -F ':' '$3 >= 500 {print $1}' passwd  # 打印uid大于等于500的用户

3 算术运算
awk -F ':' '{print $1,$3*1024}' passwd  # 将第三个字段乘以1024

4 字符串操作
awk -F ':' '$1 ~ /root/ {print $0}' passwd  # 匹配用户名为root的行
5 自定义函数
awk -F ':' 'function sum(a,b) {return a+b} {print sum($2,$3)}' passwd  # 自定义求和函数
6 BEGIN和END块
awk 'BEGIN {print "User\tUID"} {print $1"\t"$3} END {print "Total users:" NR}' passwd

awk命令运维案例

1 统计日志文件中的错误次数

假设有一个日志文件access.log,格式如下:

192.168.1.1 - - [06/Apr/2004:00:01:02 -0400] "GET /index.html HTTP/1.1" 200 12345
192.168.1.2 - - [06/Apr/2004:00:02:03 -0400] "GET /error.html HTTP/1.1" 404 567

统计出现404错误的次数:

awk -F ' ' '$9 == "404" {count++} END {print "Total 404 errors:", count}' access.log
2 计算文件大小总和

假设有一个文件列表file_list.txt,每一行是一个文件名和大小(以字节为单位),格式如下:

file1.txt 12345
file2.txt 67890

计算所有文件的大小总和:

awk '{sum+=$2} END {print "Total size:", sum}' file_list.txt
3 格式化输出

假设有一个CSV文件user.csv,包含用户名、年龄和性别,格式如下:

张三,25,男
李四,30,女

将数据格式化为表格形式输出:

awk -F ',' 'BEGIN {print "姓名\t年龄\t性别"} {print $1"\t"$2"\t"$3}' user.csv

脚本用例

脚本一:分析系统日志,找出异常登录行为

脚本功能:

  • 分析系统日志,找出连续多次登录失败的 IP 地址。

  • 将异常登录信息写入日志文件。

#!/bin/bash# 日志文件
logfile="/var/log/secure"# 连续登录失败次数阈值
fail_count=5# 输出日志文件
output_log="failed_login.log"# 使用 awk 分析日志,找出满足条件的记录
awk -v fail_count="$fail_count" -v output="$output_log" 'BEGIN {count = 0}/Failed password for/ {ip = $11if (ip in failed_ips) {failed_ips[ip]++} else {failed_ips[ip] = 1}if (failed_ips[ip] >= fail_count) {print $0 >> outputdelete failed_ips[ip]}}
' "$logfile"

脚本解释:

  • 变量:

  • logfile:指定要分析的日志文件。

  • fail_count:设置连续登录失败的次数阈值。

  • output_log:指定输出日志文件的路径。

  • awk 部分:

  • BEGIN 块:初始化变量 count 和关联数组 failed_ips

  • /Failed password for/ 模式:匹配包含 “Failed password for” 的行,即登录失败的行。

  • 提取 IP 地址,并更新 failed_ips 数组中的计数。

  • 当某个 IP 的失败次数达到阈值时,将该行写入输出日志文件,并从 failed_ips 中删除该 IP。

脚本二:分析 Nginx 访问日志,查找异常请求

脚本功能:

  • 分析 Nginx 访问日志,找出访问频率过高的 IP 地址。

  • 将异常请求信息写入日志文件。

#!/bin/bash# 日志文件
logfile="/var/log/nginx/access.log"# 时间窗口(秒)
time_window=600# 请求次数阈值
request_count=100# 输出日志文件
output_log="abnormal_requests.log"# 使用 awk 分析日志,找出满足条件的记录
awk -v window="$time_window" -v count="$request_count" -v output="$output_log" 'BEGIN {start_time = systime()}{if (systime() - start_time > window) {for (ip in requests) {if (requests[ip] >= count) {print ip, requests[ip] >> output}delete requests[ip]}start_time = systime()}ip = $1requests[ip]++}END {for (ip in requests) {if (requests[ip] >= count) {print ip, requests[ip] >> output}}}
' "$logfile"

脚本解释:

  • 变量:

  • logfile:指定要分析的日志文件。

  • time_window:设置时间窗口,即统计请求次数的时间段。

  • request_count:设置请求次数阈值。

  • output_log:指定输出日志文件的路径。

  • awk 部分:

  • BEGIN 块:初始化 start_time

  • 每处理一行日志:

  • 判断是否超过时间窗口,如果是,则输出超过请求次数阈值的 IP。

  • 更新 requests 数组,记录每个 IP 的请求次数。

  • END 块:处理最后剩余的请求数据。

总结

awk命令是Linux系统中非常强大的文本处理工具,通过灵活运用其模式匹配、变量、函数等功能,可以实现各种文本处理任务。本文仅介绍了awk命令的基本用法和一些常见的运维案例,awk的功能远不止于此。建议读者通过查阅相关资料和实践来深入学习awk。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超燃!纯AI生成《泰坦尼克号》大片!浙大阿里发布MovieDreamer:超长电影生成“梦工厂“

论文链接:https://arxiv.org/pdf/2407.16655 项目主页:https://aim-uofa.github.io/MovieDreamer/ github链接:https://github.com/aim-uofa/MovieDreamer 亮点直击 MovieDreamer,一个新颖的分层框架,将自回归模型与扩…

idea设置类注释模板作者、日期、描述等信息

文章目录 前言一、新建类的时候自动添加类注释1.打开设置2.模版配置示例如下3.实际生成效果 前言 由于每次换电脑时都需要重新对idea进行设置,为了方便大家的开发配置,同时也为自己以后配置留一份记录(毕竟每次换环境都需要重新配置一遍&…

代码审计 | .NET SqlSugar框架注入漏洞

01阅读须知 此文所节选自小报童《.NET 代码审计》专栏,主要内容有涉及的.NET目录和文件操作、SQL注入方向的敏感函数、还有不安全的配置导致的漏洞挖掘思路,对.NET代码审计感兴趣的朋友们可以解锁该电子报刊,解锁更多的报刊内容。 02基本介…

【Unity】 HTFramework框架(五十三)使用 Addressables 可寻址系统

更新日期:2024年7月25日。 Github源码:[点我获取源码] Gitee源码:[点我获取源码] 索引 Addressables 可寻址系统使用 Addressables 可寻址系统一、导入 Addressables二、切换到 Addressables 加载模式三、切换资源加载助手四、加载资源五、注…

C++基础知识:函数重载是什么?函数重载基础用法,函数重载的作用,函数重载满足条件(关键),注意事项,函数重载代码语法的函数

1.作用: 函数名可以相同,提高复用性 2.函数重载满足条件(关键): 1.同一个作用域下 2.函数名称相同 3.函数参数类型不同 或者 个数不同 或者 顺序不同 注意:函数的返回值不可以作为函数重载的条件 1.常见…

【python】python销售数据分析可视化(源码+论文+数据集)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

CTF-pwn-虚拟化-vmmware 前置

文章目录 参考vmware逃逸简介虚拟机和主机通信机制(guest to host)共享内存(弃用)backdoor机制Message_Send和Message_RecvGuestRPC实例RpcOutSendOneRawWork实例 vmware-rpctool info-get guestinfo.ip各个步骤对应的backdoor操作Open RPC channelSend …

【MySQL进阶之路 | 高级篇】页锁+锁的思想(悲观锁和乐观锁)

1. 页锁 页锁就是在页的粒度上进行锁定,锁定的数据资源比行锁要多,因为一个页中可以有多个行记录.当我们使用页锁的时候,会出现数据浪费的现象,但这样的浪费最多也就是一个页上的数据行。页锁的开销介于表锁和行锁之间&#xff0…

Internet Download Manager2024功能特点优势分析及使用建议及注意事项

1. Internet Download Manager简介 2. 功能特点 3. 优势分析 4. 专家评价 5. 使用建议及注意事项 6. 常见问题解答 7. 用户反馈及案例分享 8. IDM下载器的未来发展趋势 文章: 在互联网快速发展的今日,人们对于网络资源的获取和利用越来越频繁。无论…

【Python面试题收录】Python编程基础练习题①(数据类型+函数+文件操作)

本文所有代码打包在Gitee仓库中https://gitee.com/wx114/Python-Interview-Questions 一、数据类型 第一题(str) 请编写一个Python程序,完成以下任务: 去除字符串开头和结尾的空格。使用逗号(","&#…

axios请求大全

本文讲解axios封装方式以及针对各种后台接口的请求方式 axios的介绍和基础配置可以看这个文档: 起步 | Axios中文文档 | Axios中文网 axios的封装 axios封装的重点有三个,一是设置全局config,比如请求的基础路径,超时时间等,第二点是在每次…

kafka服务介绍

kafka 安装使用管理 Kafka Apache Kafka 是一个开源的分布式事件流平台,主要用于实时数据传输和流处理。它最初由 LinkedIn 开发,并在 2011 年成为 Apache 基金会的顶级项目。Kafka 设计的目标是处理大规模的数据流,同时提供高吞吐量、低延迟…

Java语言程序设计——篇八(1)

🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 Java常用核心类 主要内容Object: 终极父类toString( )方法equals( )方法getClass( )方法hashCode( )方法clone( )方法finalize( )方法实战演练 …

8. kubernetes资源——ingress

kubernetes资源——ingress 一、ingress介绍1、作用2、实现方式3、核心组件 二、部署ingress1、下载ingress_1.9.6.yaml文件2、事先导入镜像3、部署ingress 三、通过ingress发布k8s中的服务1、创建服务2、创建ingress规则发布服务3、测试访问 一、ingress介绍 1、作用 ingres…

若依+AI项目开发(二)

后端代码分析 二次开发 开始执行 生成成功 创建子模块

docker安装jenkins,并配置jdk、node和maven

拉取jenkins镜像 docker pull jenkins/jenkins:2.468-jdk21 创建一个文件夹,用于二次打包jenkins镜像 mkdir -p /data/jenkins cd /data/jenkins 提前准备好jdk和maven,并放到/data/jenkins下 由于3.8.x以上版本的maven只支持https协议,我们…

深入理解SQL中的INNER JOIN操作

本文介绍了INNER JOIN的定义、使用场景、计算方法及与其他JOIN的比较。INNER JOIN是关系数据库中常用的操作,用于返回两个表中匹配的行,只有在连接条件满足时才返回数据。本文详细解释了INNER JOIN的语法及其在一对多、多对多关系中的应用,通…

Redis实战---分布式锁

1. 什么是Redis分布式锁? 分布式锁,顾名思义,就是分布式系统中使用的锁,在单体应用中我们使用synchronized、ReentrantLock来解决线程时间的共享资源的访问问题,而在分布式系统中,资源贡献问题已经由线程之…

【Ubuntu】安装 Snipaste 截图软件

Snipaste 下载安装并使用 Snipastefor more information报错解决方案每次启动软件需要输入的命令如下添加开机自启动 下载 下载地址 安装并使用 Snipaste 进入终端输入命令 # 1、进入到 Snipaste-2.8.9-Beta-x86_64.AppImage 所在目录(根据自己的下载目录而定&…