awk的应用

步骤一:awk的基本用法

1)基本操作方法

格式1:awk [选项] '[条件]{指令}' 文件

格式2:前置指令 | awk [选项] '[条件]{指令}'

其中,print 是最常用的编辑指令;若有多条编辑指令,可用分号分隔。

处理文本时,默认将空格、制表符作为分隔符。

条件可以用/ /的方式,与sed类似

awk常用内置变量:

$0 文本当前行的全部内容

$1 文本的第1列

$2 文件的第2列

$3 文件的第3列,依此类推

NR 文件当前行的行号

NF 文件当前行的列数(有几列)

  1. [root@svr5 ~]# cat abc.txt
  2. hello the world
  3. welcome to beijing
  4. awk '{print}' abc.txt                #输出所有
  5. awk '/to/{print}' abc.txt            #输出有to的那行
  6. awk '{print $2}' abc.txt            #输出所有行的第2列
  7. awk '/to/{print $1}' abc.txt        #输出有to的那行的第1列
  8. awk '{print $0}' abc.txt            #输出所有行所有列
  9. awk '{print $0,$1}' abc.txt        #输出所有行所有列,第1列
  10. awk '{print NR}' abc.txt            #输出所有行的行号
  11. awk '{print NR,$0}' abc.txt        #输出所有行的行号,所有列
  12. awk '{print NR,NF}' abc.txt        #输出所有行的行号,列号(有几列)

选项 -F 可指定分隔符

  1. awk -F: '{print $1}' user         #文档中如果没有空格,可以用F修改分隔符
  2. awk -F: '{print $1,$6}' user        #使用冒号作为列的分隔符,显示第1、6列

awk的print指令不仅可以打印变量,还可以打印常量

  1. awk -F: '{print $1" 的家目录是 "$6}' user #输出常量,加双引号即可

格式化输出信息

  1. awk [选项] '[条件]{指令}' 文件
  2. awk [选项] 'BEGIN{指令} {指令} END{指令}' 文件
  • BEGIN{ } 行前处理,读取文件内容前执行,指令执行1次
  • { } 逐行处理,读取文件过程中执行,指令执行n次
  • END{ } 行后处理,读取文件结束后执行,指令执行1次
  • awk -F: 'BEGIN{print "start"}{print $1}END{print "over"}' user
  • awk 'BEGIN{print NR}{print NR}END{print NR}' user

输出信息时,可以使用“\t”显示Tab制表位:

  1. awk -F: 'BEGIN{print "User\tUID\tHome"}{print $1"\t"$3"\t"$6}END{print "总计"NR"行"}' user #合在一起写

步骤一:认识awk处理条件的设置

使用正则设置条件

/正则/ ~ 包含 !~不包含

  1. awk -F: '$6~/root/{print}' user #输出第6列包含root的行
  2. awk -F: '$6~/bin/{print}' user #输出第6列包含bin的行
  3. awk -F: '$6!~/bin/{print}' user #输出第6列不包含bin的行

定义数组的格式:数组名[下标]=元素值

调用数组的格式:数组名[下标]awk 'BEGIN{a["abc"]="abcabc";a["xyz"]="xyzxyz";print a["xyz"]}'

 
  1. awk '{a[$1]++}END{for(i in a){print i,a[i]}}' shu.txt #使用逐行任务与数组收集文档shu.txt中的信息,然后在END任务中使用for循环显示所有数组a的下标与值

:统计Web访问量排名

通过awk提取信息时,利用IP地址作为数组下标,每遇到一个重复值就将此数组元素递增1,最终就获得了这个IP地址出现的次数。

针对文本排序输出可以采用sort命令,相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列,而-r表示反序,-k可以指定按第几个字段来排序

awk '{ip[$1]++}END{for(i in ip){print ip[i],i}}' /var/log/httpd/access_log | sort -nr

/var/log/secure是安全日志,如果有人登陆时输入错误密码的话信息会记录下来,这种信息可以用awk抓取出来,方法如下:

  1. awk '/Failed password for root/{ip[$11]++}END{for(i in ip){print i,ip[i]}}' /var/log/secure #统计安全日志中访问root账户且密码输入错误的ip地址与次数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/21822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【多视图聚类】COMPLETER:Incomplete Multi-view Clustering via Contrastive Prediction

CVPR 2021 0.摘要 在本文中,我们研究了不完全多视图聚类分析中的两个具有挑战性的问题,即i)如何在没有标签的帮助下学习不同视图之间的信息性和一致性表示,以及ii)如何从数据中恢复缺失的视图。为此,我们…

PHP发票真假API在线文档、票据ocr识别、医疗票据查验

翔云人工智能开放平台提供详细的发票查验API在线开发文档,不仅包含了PHP语言,还包含Java、python、go、C#、C等众多的主流开发语言,便于有需要的用户快速的将发票查验功能集成到自己的系统或者应用中,极大的缩短了企业的开发时间和…

四大运营商频段-2024

四大运营商频段-2023 中国移动900MHz(Band8),889-904/934-949MHz:1.8GHz(Band3),1710-1735/1805-1830MHz:1.9GHz(Band39),1885-1915MHz:2GHz(Band34),2010-2025MHz:2.3GHz(Band40),2320-2370MHz:2.6GHz(Band41,n41),25…

英伟达开源新利器NV-Embed向量模型,基于双向注意力的LLM嵌入模型,MTEB 56项任务排名第一

前言 文本嵌入模型能够将文本信息转化为稠密的向量表示,并在信息检索、语义相似度计算、文本分类等众多自然语言处理任务中发挥着关键作用。近年来,基于解码器的大型语言模型 (LLM) 开始在通用文本嵌入任务中超越传统的 BERT 或 T5 嵌入模型&#xff0c…

Centos 7之Hadoop搭建

介绍 Hadoop Distributed File System简称 HDFS,是一个分布式文件系统。HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throu…

Java的扩展性

Java的扩展性主要体现在其面向对象编程的特性上,以及通过抽象、继承、接口和多态等机制来实现代码的重用和扩展。以下是关于Java扩展性的详细描述: 一、基本概念 面向对象编程:Java是一种完全面向对象的编程语言,它支持将现实世…

三分钟“手撕”队列与习题

代码放开头,方便大家查阅 目录 一、实现代码 二、什么是队列 三、队列常见方法 入队push() 出队 四、Queue使用 Java自带的Queue 双端队列 五、习题 循环队列 用队列实现栈 用栈实现队列 一、实现代码 package demo2;publi…

怎么做 Redis 容灾

Redis容灾通常指的是数据备份和恢复机制,以确保在发生故障时可以尽快恢复服务。Redis提供了几种方法来保证数据的高可用性: 1. 使用RDB快照:通过配置文件设置定时快照,可以在指定的时间间隔保存数据集到磁盘。 2. 使用AOF日志&a…

一款小众清新的Typecho主题

源码介绍 DearLicy主题,一款小众化小清新风格的博客主题 主题支持Typecho所支持的所有版本PHP 简约、小众、优雅 源码截图 安装教程 将主题上传至/usr/themes/文件夹下解压后台进行启用访问前台查看效果 源码下载 https://www.qqmu.com/3378.html

LeetCode刷题第2题

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0 …

一键设置常用纸张和页面边距-Word插件-大珩助手

Word大珩助手是一款功能丰富的Office Word插件,旨在提高用户在处理文档时的效率。它具有多种实用的功能,能够帮助用户轻松修改、优化和管理Word文件,从而打造出专业而精美的文档。 【新功能】常用纸张和常用边距 1、一键设定符合中国人常用…

PyTorch、显卡、CUDA 和 cuDNN 之间的关系

概述 PyTorch、显卡、CUDA 和 cuDNN 之间的关系及其工作原理可以这样理解: 显卡 (GPU) 显卡,特别是 NVIDIA 的 GPU,具有大量的并行处理单元,这些单元可以同时执行大量相似的操作,非常适合进行大规模矩阵运算&#x…

273 基于matlab的改进型节点重构小波包频带能量谱与 PNN(概率神经网络)的联合故障诊断新方法

基于matlab的改进型节点重构小波包频带能量谱与 PNN(概率神经网络)的联合故障诊断新方法。针对风电机组故障信号的非平稳性以及故障与征兆的非线性映射导致的故障识别困难问题,提出了改进型的节点重构小波包频带能量谱与PNN(概率神…

大数据数据治理工具

大数据数据治理-CSDN博客 大数据数据治理工具: 开源工具: Apache Atlas: 一个开源的数据治理和元数据框架,为Hadoop生态系统提供数据分类、管理和安全功能。 Apache Ranger: 一个集中式安全管理框架,用于…

Java Web学习笔记2——Web开发介绍

什么是Web? Web:全球广域网,也称为万维网(WWW World Wide Web),能够通过浏览器访问的网站。 1)淘宝、京东、唯品会等电商系统; 2)CRM、OA、ERP企业管理系统&#xff1…

ubuntu-server(22.04)安装

准备工作 首先我们先从网上获取ubuntu的iso镜像文件 Index of /ubuntu-releases/22.04/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 我们安装这个最小包即可 找到我们ubuntu安装完成后所需要下载安装源的网址(常用是阿里云) ubuntu安装…

手写节流throttle

节流throttle 应用场景 滚动事件监听scroll:例如监听页面滚动到底部加载更多数据时,使用节流技术减少检查滚动位置的频率,提高性能。鼠标移动事件mousemove:例如实现一个拖拽功能,使用节流技术减少鼠标移动事件的处理…

【论文阅读】K-Pointer-Network for Express Delivery Routes Planning

文章目录 论文基本信息摘要1.引言2. THE METHOD3. RESULT4. DISCUSSION5. 总结补充 论文基本信息 《K-Pointer-Network for Express Delivery Routes Planning》 摘要 在本研究中,作者打算提供一个合适的快速分配路径的设计,以缩短交货时间。如果路线…

分布式session共享配置

目录 1、spring-session 1.1 添加依赖 1.2 spring-mvc.xml配置文件 1.3 web.xml 2、tomcat配置session、共享 2.1 Tomcat配置 2.2 Web.xml配置 1、spring-session 官方文档:https://docs.spring.io/spring-session/docs/1.3.0.RELEASE/reference/html5/ 1.…

OpenCV中的圆形标靶检测——斑点检测算法(一)

1.导读 在上一节内容中我们简要描述了OpenCV中实现圆形标靶检测的API的使用方法,其处理流程可大致分为1)斑点形状的检测,和2)基于规则的斑点形状的过滤与定位。第一步将类似圆斑形状的区域检测出来,但可能存在一些误检测的噪声,第二步则利用圆斑的分布规则(M*N排列)进行…