linux命令更新-文本处理awk

awk命令简介

awk是一种强大的文本处理工具,可以对文本文件进行格式化、统计、计算等操作。它逐行读取文本文件,并对每一行进行处理。awk的语法相对简单,但功能非常强大,是Linux系统中常用的文本处理工具之一。

awk命令基本语法

awk的基本语法格式如下:

awk 'pattern {action}' input-file
  • pattern: 模式,用于匹配特定的行。

  • action: 动作,对匹配的行进行的操作。

  • input-file: 输入文件。

awk命令常用参数

  • -F fs: 指定字段分隔符,默认是空格或Tab。

  • -v var=value: 定义变量。

  • -f script: 从脚本文件中读取awk程序。

awk命令常用功能

1 打印指定字段
awk -F ':' '{print $1,$3}' passwd  # 打印passwd文件中每一行的第一个和第三个字段
2 条件过滤
awk -F ':' '$3 >= 500 {print $1}' passwd  # 打印uid大于等于500的用户

3 算术运算
awk -F ':' '{print $1,$3*1024}' passwd  # 将第三个字段乘以1024

4 字符串操作
awk -F ':' '$1 ~ /root/ {print $0}' passwd  # 匹配用户名为root的行
5 自定义函数
awk -F ':' 'function sum(a,b) {return a+b} {print sum($2,$3)}' passwd  # 自定义求和函数
6 BEGIN和END块
awk 'BEGIN {print "User\tUID"} {print $1"\t"$3} END {print "Total users:" NR}' passwd

awk命令运维案例

1 统计日志文件中的错误次数

假设有一个日志文件access.log,格式如下:

192.168.1.1 - - [06/Apr/2004:00:01:02 -0400] "GET /index.html HTTP/1.1" 200 12345
192.168.1.2 - - [06/Apr/2004:00:02:03 -0400] "GET /error.html HTTP/1.1" 404 567

统计出现404错误的次数:

awk -F ' ' '$9 == "404" {count++} END {print "Total 404 errors:", count}' access.log
2 计算文件大小总和

假设有一个文件列表file_list.txt,每一行是一个文件名和大小(以字节为单位),格式如下:

file1.txt 12345
file2.txt 67890

计算所有文件的大小总和:

awk '{sum+=$2} END {print "Total size:", sum}' file_list.txt
3 格式化输出

假设有一个CSV文件user.csv,包含用户名、年龄和性别,格式如下:

张三,25,男
李四,30,女

将数据格式化为表格形式输出:

awk -F ',' 'BEGIN {print "姓名\t年龄\t性别"} {print $1"\t"$2"\t"$3}' user.csv

脚本用例

脚本一:分析系统日志,找出异常登录行为

脚本功能:

  • 分析系统日志,找出连续多次登录失败的 IP 地址。

  • 将异常登录信息写入日志文件。

#!/bin/bash# 日志文件
logfile="/var/log/secure"# 连续登录失败次数阈值
fail_count=5# 输出日志文件
output_log="failed_login.log"# 使用 awk 分析日志,找出满足条件的记录
awk -v fail_count="$fail_count" -v output="$output_log" 'BEGIN {count = 0}/Failed password for/ {ip = $11if (ip in failed_ips) {failed_ips[ip]++} else {failed_ips[ip] = 1}if (failed_ips[ip] >= fail_count) {print $0 >> outputdelete failed_ips[ip]}}
' "$logfile"

脚本解释:

  • 变量:

  • logfile:指定要分析的日志文件。

  • fail_count:设置连续登录失败的次数阈值。

  • output_log:指定输出日志文件的路径。

  • awk 部分:

  • BEGIN 块:初始化变量 count 和关联数组 failed_ips

  • /Failed password for/ 模式:匹配包含 “Failed password for” 的行,即登录失败的行。

  • 提取 IP 地址,并更新 failed_ips 数组中的计数。

  • 当某个 IP 的失败次数达到阈值时,将该行写入输出日志文件,并从 failed_ips 中删除该 IP。

脚本二:分析 Nginx 访问日志,查找异常请求

脚本功能:

  • 分析 Nginx 访问日志,找出访问频率过高的 IP 地址。

  • 将异常请求信息写入日志文件。

#!/bin/bash# 日志文件
logfile="/var/log/nginx/access.log"# 时间窗口(秒)
time_window=600# 请求次数阈值
request_count=100# 输出日志文件
output_log="abnormal_requests.log"# 使用 awk 分析日志,找出满足条件的记录
awk -v window="$time_window" -v count="$request_count" -v output="$output_log" 'BEGIN {start_time = systime()}{if (systime() - start_time > window) {for (ip in requests) {if (requests[ip] >= count) {print ip, requests[ip] >> output}delete requests[ip]}start_time = systime()}ip = $1requests[ip]++}END {for (ip in requests) {if (requests[ip] >= count) {print ip, requests[ip] >> output}}}
' "$logfile"

脚本解释:

  • 变量:

  • logfile:指定要分析的日志文件。

  • time_window:设置时间窗口,即统计请求次数的时间段。

  • request_count:设置请求次数阈值。

  • output_log:指定输出日志文件的路径。

  • awk 部分:

  • BEGIN 块:初始化 start_time

  • 每处理一行日志:

  • 判断是否超过时间窗口,如果是,则输出超过请求次数阈值的 IP。

  • 更新 requests 数组,记录每个 IP 的请求次数。

  • END 块:处理最后剩余的请求数据。

总结

awk命令是Linux系统中非常强大的文本处理工具,通过灵活运用其模式匹配、变量、函数等功能,可以实现各种文本处理任务。本文仅介绍了awk命令的基本用法和一些常见的运维案例,awk的功能远不止于此。建议读者通过查阅相关资料和实践来深入学习awk。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超燃!纯AI生成《泰坦尼克号》大片!浙大阿里发布MovieDreamer:超长电影生成“梦工厂“

论文链接:https://arxiv.org/pdf/2407.16655 项目主页:https://aim-uofa.github.io/MovieDreamer/ github链接:https://github.com/aim-uofa/MovieDreamer 亮点直击 MovieDreamer,一个新颖的分层框架,将自回归模型与扩…

idea设置类注释模板作者、日期、描述等信息

文章目录 前言一、新建类的时候自动添加类注释1.打开设置2.模版配置示例如下3.实际生成效果 前言 由于每次换电脑时都需要重新对idea进行设置,为了方便大家的开发配置,同时也为自己以后配置留一份记录(毕竟每次换环境都需要重新配置一遍&…

代码审计 | .NET SqlSugar框架注入漏洞

01阅读须知 此文所节选自小报童《.NET 代码审计》专栏,主要内容有涉及的.NET目录和文件操作、SQL注入方向的敏感函数、还有不安全的配置导致的漏洞挖掘思路,对.NET代码审计感兴趣的朋友们可以解锁该电子报刊,解锁更多的报刊内容。 02基本介…

【Unity】 HTFramework框架(五十三)使用 Addressables 可寻址系统

更新日期:2024年7月25日。 Github源码:[点我获取源码] Gitee源码:[点我获取源码] 索引 Addressables 可寻址系统使用 Addressables 可寻址系统一、导入 Addressables二、切换到 Addressables 加载模式三、切换资源加载助手四、加载资源五、注…

C++基础知识:函数重载是什么?函数重载基础用法,函数重载的作用,函数重载满足条件(关键),注意事项,函数重载代码语法的函数

1.作用: 函数名可以相同,提高复用性 2.函数重载满足条件(关键): 1.同一个作用域下 2.函数名称相同 3.函数参数类型不同 或者 个数不同 或者 顺序不同 注意:函数的返回值不可以作为函数重载的条件 1.常见…

【python】python销售数据分析可视化(源码+论文+数据集)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

CTF-pwn-虚拟化-vmmware 前置

文章目录 参考vmware逃逸简介虚拟机和主机通信机制(guest to host)共享内存(弃用)backdoor机制Message_Send和Message_RecvGuestRPC实例RpcOutSendOneRawWork实例 vmware-rpctool info-get guestinfo.ip各个步骤对应的backdoor操作Open RPC channelSend …

【MySQL进阶之路 | 高级篇】页锁+锁的思想(悲观锁和乐观锁)

1. 页锁 页锁就是在页的粒度上进行锁定,锁定的数据资源比行锁要多,因为一个页中可以有多个行记录.当我们使用页锁的时候,会出现数据浪费的现象,但这样的浪费最多也就是一个页上的数据行。页锁的开销介于表锁和行锁之间&#xff0…

Internet Download Manager2024功能特点优势分析及使用建议及注意事项

1. Internet Download Manager简介 2. 功能特点 3. 优势分析 4. 专家评价 5. 使用建议及注意事项 6. 常见问题解答 7. 用户反馈及案例分享 8. IDM下载器的未来发展趋势 文章: 在互联网快速发展的今日,人们对于网络资源的获取和利用越来越频繁。无论…

【Python面试题收录】Python编程基础练习题①(数据类型+函数+文件操作)

本文所有代码打包在Gitee仓库中https://gitee.com/wx114/Python-Interview-Questions 一、数据类型 第一题(str) 请编写一个Python程序,完成以下任务: 去除字符串开头和结尾的空格。使用逗号(","&#…

axios请求大全

本文讲解axios封装方式以及针对各种后台接口的请求方式 axios的介绍和基础配置可以看这个文档: 起步 | Axios中文文档 | Axios中文网 axios的封装 axios封装的重点有三个,一是设置全局config,比如请求的基础路径,超时时间等,第二点是在每次…

kafka服务介绍

kafka 安装使用管理 Kafka Apache Kafka 是一个开源的分布式事件流平台,主要用于实时数据传输和流处理。它最初由 LinkedIn 开发,并在 2011 年成为 Apache 基金会的顶级项目。Kafka 设计的目标是处理大规模的数据流,同时提供高吞吐量、低延迟…

【前端】Vue2.0和Vue3.0 的一些主要区别

Vue2.0和Vue3.0的主要区别 Vue2.0Vue3.0API类型Option(选项式)Composition(组合式)响应式系统基于Object defineProperty,有一定的局限性基于ES6 Proxy,能够更好地支持动态添加属性和删除属性声明响应式变量需在data声明使用ref,reactive声明生命周期beforeCreate、…

Java语言程序设计——篇八(1)

🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 Java常用核心类 主要内容Object: 终极父类toString( )方法equals( )方法getClass( )方法hashCode( )方法clone( )方法finalize( )方法实战演练 …

8. kubernetes资源——ingress

kubernetes资源——ingress 一、ingress介绍1、作用2、实现方式3、核心组件 二、部署ingress1、下载ingress_1.9.6.yaml文件2、事先导入镜像3、部署ingress 三、通过ingress发布k8s中的服务1、创建服务2、创建ingress规则发布服务3、测试访问 一、ingress介绍 1、作用 ingres…

postman请求JSON格式,后台@RequestBody实体类接收不到数据

转载自:https://blog.csdn.net/m0_66490875/article/details/134551126 我的是全大写的字段,传到后台RequestBody接收到的字段全是null 博主说的对 两种解决方式: 1.在实体类上加上 JsonProperty(value" ") 注解 2.修改实体类名&am…

【vue3】表格导出简单使用方法

安装依赖 npm install xlsx创建工具文件exportToExcel.ts import * as XLSX from xlsx;interface TableData {[key: string]: any; }type MappingFunction (row: TableData) > { [key: string]: any };export const exportToExcel (data: TableData[],fileName: string,…

Android SurfaceFlinger——缓冲区入队回调(三十四)

在 Android 的 SurfaceFlinger 中,生产者/消费者模型主要用于处理缓冲区(Buffer)的管理和交换,以支持高效的图形渲染和显示。在这个模型中,“生产”和“消费”的对象是缓冲区(Buffer),更具体地说,就是 GraphicBuffer 对象,它们包含了实际的图像数据。 一、基础介绍 生…

若依+AI项目开发(二)

后端代码分析 二次开发 开始执行 生成成功 创建子模块

docker安装jenkins,并配置jdk、node和maven

拉取jenkins镜像 docker pull jenkins/jenkins:2.468-jdk21 创建一个文件夹,用于二次打包jenkins镜像 mkdir -p /data/jenkins cd /data/jenkins 提前准备好jdk和maven,并放到/data/jenkins下 由于3.8.x以上版本的maven只支持https协议,我们…