awk教程入门与实例练习(三)

在 awk 系列的这篇总结中,Daniel 向您介绍 awk 重要的字符串函数,以及演示了如何从头开始编写完整的支票簿结算程序。在这个过程中,您将学习如何编写自己的函数,并使用 awk 的多维数组。学完本文之后,您将掌握更多 awk 经验,可以让您创建功能更强大的脚本。

格式化输出
虽然大多数情况下 awk 的 print 语句可以完成任务,但有时我们还需要更多。在那些情况下,awk 提供了两个我们熟知的老朋友 printf() 和 sprintf()。是的,如同其它许多 awk 部件一样,这些函数等同于相应的 C 语言函数。printf() 会将格式化字符串打印到 stdout,而 sprintf() 则返回可以赋值给变量的格式化字符串。如果不熟悉 printf() 和 sprintf(),介绍 C 语言的文章可以让您迅速了解这两个基本打印函数。在 Linux 系统上,可以输入 “man 3 printf” 来查看 printf() 帮助页面。

以下是一些 awk sprintf() 和 printf() 的样本代码。可以看到,它们几乎与 C 语言完全相同。

x=1
b=”foo”
printf(”%s got a %d on the last test/n”,”Jim”,83)
myout=(”%s-%d”,b,x)
print myout

此代码将打印:

Jim got a 83 on the last test
foo-1

字符串函数
awk 有许多字符串函数,这是件好事。在 awk 中,确实需要字符串函数,因为不能象在其它语言(如 C、C++ 和 Python)中那样将字符串看作是字符数组。例如,如果执行以下代码:

mystring=”How are you doing today?”
print mystring[3]

将会接收到一个错误,如下所示:

awk: string.gawk:59: fatal: attempt to use scalar as array

噢,好吧。虽然不象 Python 的序列类型那样方便,但 awk 的字符串函数还是可以完成任务。让我们来看一下。

首先,有一个基本 length() 函数,它返回字符串的长度。以下是它的使用方法:

print length(mystring)

此代码将打印值:

24

好,继续。下一个字符串函数叫作 index,它将返回子字符串在另一个字符串中出现的位置,如果没有找到该字符串则返回 0。使用 mystring,可以按以下方法调用它:

print index(mystring,”you”)

awk 会打印:

9

让我们继续讨论另外两个简单的函数,tolower() 和 toupper()。与您猜想的一样,这两个函数将返回字符串并且将所有字符分别转换成小写或大写。请注意,tolower() 和 toupper() 返回新的字符串,不会修改原来的字符串。这段代码:

print tolower(mystring)
print toupper(mystring)
print mystring

……将产生以下输出:

how are you doing today?
HOW ARE YOU DOING TODAY?
How are you doing today?

到现在为止一切不错,但我们究竟如何从字符串中选择子串,甚至单个字符?那就是使用 substr() 的原因。以下是 substr() 的调用方法:

mysub=substr(mystring,startpos,maxlen)

mystring 应该是要从中抽取子串的字符串变量或文字字符串。startpos 应该设置成起始字符位置,maxlen 应该包含要抽取的字符串的最大长度。请注意,我说的是最大长度;如果 length(mystring) 比 startpos+maxlen 短,那么得到的结果就会被截断。substr() 不会修改原始字符串,而是返回子串。以下是一个示例:

print substr(mystring,9,3)

awk 将打印:

you

如果您通常用于编程的语言使用数组下标访问部分字符串(以及不使用这种语言的人),请记住 substr() 是 awk 代替方法。需要使用它来抽取单个字符和子串;因为 awk 是基于字符串的语言,所以会经常用到它。

现在,我们讨论一些更耐人寻味的函数,首先是 match()。match() 与 index() 非常相似,它与 index() 的区别在于它并不搜索子串,它搜索的是规则表达式。match() 函数将返回匹配的起始位置,如果没有找到匹配,则返回 0。此外,match() 还将设置两个变量,叫作 RSTART 和 RLENGTH。RSTART 包含返回值(第一个匹配的位置),RLENGTH 指定它占据的字符跨度(如果没有找到匹配,则返回 -1)。通过使用 RSTART、RLENGTH、substr() 和一个小循环,可以轻松地迭代字符串中的每个匹配。以下是一个 match() 调用示例:

print match(mystring,/you/), RSTART, RLENGTH

awk 将打印:

9 9 3

字符串替换
现在,我们将研究两个字符串替换函数,sub() 和 gsub()。这些函数与目前已经讨论过的函数略有不同,因为它们确实修改原始字符串。以下是一个模板,显示了如何调用 sub():

sub(regexp,replstring,mystring)

调用 sub() 时,它将在 mystring 中匹配 regexp 的第一个字符序列,并且用 replstring 替换该序列。sub() 和 gsub() 用相同的自变量;唯一的区别是 sub() 将替换第一个 regexp 匹配(如果有的话),gsub() 将执行全局替换,换出字符串中的所有匹配。以下是一个 sub() 和 gsub() 调用示例:

sub(/o/,”O”,mystring)
print mystring
mystring=”How are you doing today?”
gsub(/o/,”O”,mystring)
print mystring

必须将 mystring 复位成其初始值,因为第一个 sub() 调用直接修改了 mystring。在执行时,此代码将使 awk 输出:

HOw are you doing today?
HOw are yOu dOing tOday?

当然,也可以是更复杂的规则表达式。我把测试一些复杂规则表达式的任务留给您来完成。

通过介绍函数 split(),我们来汇总一下已讨论过的函数。split() 的任务是“切开”字符串,并将各部分放到使用整数下标的数组中。以下是一个 split() 调用示例:

numelements=split(”Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec”,mymonths,”,”)

调用 split() 时,第一个自变量包含要切开文字字符串或字符串变量。在第二个自变量中,应该指定 split() 将填入片段部分的数组名称。在第三个元素中,指定用于切开字符串的分隔符。split() 返回时,它将返回分割的字符串元素的数量。split() 将每一个片段赋值给下标从 1 开始的数组,因此以下代码:

print mymonths[1],mymonths[numelements]

……将打印:

Jan Dec

特殊字符串形式
简短注释 — 调用 length()、sub() 或 gsub() 时,可以去掉最后一个自变量,这样 awk 将对 $0(整个当前行)应用函数调用。要打印文件中每一行的长度,使用以下 awk 脚本:

{
print length()
}

财务上的趣事
几星期前,我决定用 awk 编写自己的支票簿结算程序。我决定使用简单的 tab 定界文本文件,以便于输入最近的存款和提款记录。其思路是将这个数据交给 awk 脚本,该脚本会自动合计所有金额,并告诉我余额。以下是我决定如何将所有交易记录到 “ASCII checkbook” 中:

23 Aug 2000 food - - Y Jimmy’s Buffet 30.25

此文件中的每个字段都由一个或多个 tab 分隔。在日期(字段 1,$1)之后,有两个字段叫做“费用分类帐”和“收入分类帐”。以上面这行为例,输入费用时,我在费用字段中放入四个字母的别名,在收入字段中放入 “-”(空白项)。这表示这一特定项是“食品费用”。:) 以下是存款的示例:

23 Aug 2000 - inco - Y Boss Man 2001.00

在这个实例中,我在费用分类帐中放入 “-”(空白),在收入分类帐中放入 “inco”。”inco” 是一般(薪水之类)收入的别名。使用分类帐别名让我可以按类别生成收入和费用的明细分类帐。至于记录的其余部分,其它所有字段都是不需加以说明的。“是否付清?”字段(”Y” 或 “N”)记录了交易是否已过帐到我的帐户;除此之外,还有一个交易描述,和一个正的美元金额。

用于计算当前余额的算法不太难。awk 只需要依次读取每一行。如果列出了费用分类帐,但没有收入分类帐(为 “-”),那么这一项就是借方。如果列出了收入分类帐,但没有费用分类帐(为 “-”),那么这一项就是贷方。而且,如果同时列出了费用和收入分类帐,那么这个金额就是“分类帐转帐”;即,从费用分类帐减去美元金额,并将此金额添加到收入分类帐。此外,所有这些分类帐都是虚拟的,但对于跟踪收入和支出以及预算却非常有用。

代码
现在该研究代码了。我们将从第一行(BEGIN 块和函数定义)开始:

balance,第 1 部分

#!/usr/bin/env awk -f
BEGIN {
FS=”/t+”
months=”Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec”
}

function monthdigit(mymonth) {
return (index(months,mymonth)+3)/4
}

首先执行 “chmod +x myscript” 命令,那么将第一行 “#!…” 添加到任何 awk 脚本将使它可以直接从 shell 中执行。其余行定义了 BEGIN 块,在 awk 开始处理支票簿文件之前将执行这个代码块。我们将 FS(字段分隔符)设置成 “/t+”,它会告诉 awk 字段由一个或多个 tab 分隔。另外,我们定义了字符串 months,下面将出现的 monthdigit() 函数将使用它。

最后三行显示了如何定义自己的 awk 。格式很简单 — 输入 “function”,再输入名称,然后在括号中输入由逗号分隔的参数。在此之后,”{ }” 代码块包含了您希望这个函数执行的代码。所有函数都可以访问全局变量(如 months 变量)。另外,awk 提供了 “return” 语句,它允许函数返回一个值,并执行类似于 C 和其它语言中 “return” 的操作。这个特定函数将以 3 个字母字符串格式表示的月份名称转换成等价的数值。例如,以下代码:

print monthdigit(”Mar”)

……将打印:

3

现在,让我们讨论其它一些函数。

财务函数
以下是其它三个执行簿记的函数。我们即将见到的主代码块将调用这些函数之一,按顺序处理支票簿文件的每一行,从而将相应交易记录到 awk 数组中。有三种基本交易,贷方 (doincome)、借方 (doexpense) 和转帐 (dotransfer)。您会发现这三个函数全都接受一个自变量,叫作 mybalance。mybalance 是二维数组的一个占位符,我们将它作为自变量进行传递。目前,我们还没有处理过二维数组;但是,在下面可以看到,语法非常简单。只须用逗号分隔每一维就行了。

我们将按以下方式将信息记录到 “mybalance” 中。数组的第一维从 0 到 12,用于指定月份,0 代表全年。第二维是四个字母的分类帐,如 “food” 或 “inco”;这是我们处理的真实分类帐。因此,要查找全年食品分类帐的余额,应查看 mybalance[0,”food”]。要查找 6 月的收入,应查看 mybalance[6,”inco”]。

balance,第 2 部分

function doincome(mybalance) {
mybalance[curmonth,$3] += amount
mybalance[0,$3] += amount
}

function doexpense(mybalance) {
mybalance[curmonth,$2] -= amount
mybalance[0,$2] -= amount
}

function dotransfer(mybalance) {
mybalance[0,$2] -= amount
mybalance[curmonth,$2] -= amount
mybalance[0,$3] += amount
mybalance[curmonth,$3] += amount
}

调用 doincome() 或任何其它函数时,我们将交易记录到两个位置 — mybalance[0,category] 和 mybalance[curmonth, category],它们分别表示全年的分类帐余额和当月的分类帐余额。这让我们稍后可以轻松地生成年度或月度收入/支出明细分类帐。

如果研究这些函数,将发现在我的引用中传递了 mybalance 引用的数组。另外,我们还引用了几个全局变量:curmonth,它保存了当前记录所属的月份的数值,$2(费用分类帐),$3(收入分类帐)和金额($7,美元金额)。调用 doincome() 和其它函数时,已经为要处理的当前记录(行)正确设置了所有这些变量。

主块
以下是主代码块,它包含了分析每一行输入数据的代码。请记住,由于正确设置了 FS,可以用 $ 1 引用第一个字段,用 $2 引用第二个字段,依次类推。调用 doincome() 和其它函数时,这些函数可以从函数内部访问 curmonth、$2、$3 和金额的当前值。请先研究代码,在代码之后可以见到我的说明。

balance,第 3 部分

{
curmonth=monthdigit(substr($1,4,3))
amount=$7

#record all the categories encountered
if ( $2 != “-” )
globcat[$2]=”yes”
if ( $3 != “-” )
globcat[$3]=”yes”

#tally up the transaction properly
if ( $2 == “-” ) {
if ( $3 == “-” ) {
print “Error: inc and exp fields are both blank!”
exit 1
} else {
#this is income
doincome(balance)
if ( $5 == “Y” )
doincome(balance2)
}
} else if ( $3 == “-” ) {
#this is an expense
doexpense(balance)
if ( $5 == “Y” )
doexpense(balance2)
} else {
#this is a transfer
dotransfer(balance)
if ( $5 == “Y” )
dotransfer(balance2)
}
}

在主块中,前两行将 curmonth 设置成 1 到 12 之间的整数,并将金额设置成字段 7(使代码易于理解)。然后,是四行有趣的代码,它们将值写到数组 globcat 中。globcat,或称作全局分类帐数组,用于记录在文件中遇到的所有分类帐 — “inco”、”misc”、”food”、”util” 等。例如,如果 $2 == “inco”,则将 globcat[”inco”] 设置成 “yes”。稍后,我们可以使用简单的 “for (x in globcat)” 循环来迭代分类帐列表。

在接着的大约二十行中,我们分析字段 $2 和 $3,并适当记录交易。如果 $2==”-” 且 $3!=”-”,表示我们有收入,因此调用 doincome()。如果是相反的情况,则调用 doexpense();如果 $2 和 $3 都包含分类帐,则调用 dotransfer()。每次我们都将 “balance” 数组传递给这些函数,从而在这些函数中记录适当的数据。

您还会发现几行代码说“if ( $5 == “Y” ),那么将同一个交易记录到 balance2 中”。我们在这里究竟做了些什么?您将回忆起 $5 包含 “Y” 或 “N”,并记录交易是否已经过帐到帐户。由于仅当过帐了交易时我们才将交易记录到 balance2,因此 balance2 包含了真实的帐户余额,而 “balance” 包含了所有交易,不管是否已经过帐。可以使用 balance2 来验证数据项(因为它应该与当前银行帐户余额匹配),可以使用 “balance” 来确保没有透支帐户(因为它会考虑您开出的尚未兑现的所有支票)。

生成报表
主块重复处理了每一行记录之后,现在我们有了关于比较全面的、按分类帐和按月份划分的借方和贷方记录。现在,在这种情况下最合适的做法是只须定义生成报表的 END 块:

balance,第 4 部分

END {
bal=0
bal2=0
for (x in globcat) {
bal=bal+balance[0,x]
bal2=bal2+balance2[0,x]
}
printf(”Your available funds: %10.2f/n”, bal)
printf(”Your account balance: %10.2f/n”, bal2)
}

这个报表将打印出汇总,如下所示:

Your available funds:1174.22
Your account balance:2399.33

在 END 块中,我们使用 “for (x in globcat)” 结构来迭代每一个分类帐,根据记录在案的交易结算主要余额。实际上,我们结算两个余额,一个是可用资金,另一个是帐户余额。要执行程序并处理您在文件 “mycheckbook.txt” 中输入的财务数据,将以上所有代码放入文本文件 “balance”,执行 “chmod +x balance”,然后输入 “./balance mycheckbook.txt”。然后 balance 脚本将合计所有交易,打印出两行余额汇总。

升级
我使用这个程序的更高级版本来管理我的个人和企业财务。我的版本(由于篇幅限制不能在此涵盖)会打印出收入和费用的月度明细分类帐,包括年度总合、净收入和其它许多内容。它甚至以 HTML 格式输出数据,因此我可以在 Web 浏览器中查看它。:) 如果您认为这个程序有用,我建议您将这些特性添加到这个脚本中。不必将它配置成要 记录任何附加信息;所需的全部信息已经在 balance 和 balance2 里面了。只要升级 END 块就万事具备了!

我希望您喜欢本系列。有关 awk 的详细信息,请参考以下列出的参考资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/535760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HDFS-常用命令

1. -help:显示帮助信息 hadoop fs -help rmshel2. -ls:显示目录信息 hadoop fs -ls /3. -mkdir:在HDFS上创建目录 hadoop fs -mkdir -p /user/ha4. -moveFromLocal:从本地剪切粘贴到HDFS hadoop fs -moveFromLocal ~/test.txt…

如何关闭WINDOWS2003 DEP数据保护功能

近来很多朋友和客户都使用了WINDOWS2003来架设自己的GAME SERVER,但有很多朋友反映说,不如WINDOWS2000好,原因不是稳定,而是成功率高,和简单.但我个人觉得WINDOWS2003还是不错的系统,如果朋友们都不用这个系统,而用WINDOWS2000 有点不值得了.我就开始找寻这样的问题.我对GAME 不…

JDK源码解析之 java.lang.Thread

位于java.lang包下的Thread类是非常重要的线程类,它实现了Runnable接口,今天我们来学习一下Thread类,在学习Thread类之前,先介绍与线程相关知识:线程的几种状态、上下文切换,然后接着介绍Thread类中的方法的…

TASKLIST

TASKLIST [/S system [/U username [/P [password]]]] [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]参数列表:/S system 指定连接到的远程系统。/U [domain/]user 指定使用哪个用户执行这个命令。/P [password] 为指定的用户指定密码。/SVC 显示每个进程中的服务…

JDK源码解析之 java.lang.ThreadLocal

此类提供线程局部变量。这些变量与普通变量不同,每个访问一个线程(通过其get或set方法)的线程 都有其自己的,独立初始化的变量副本。 ThreadLocal实例通常是希望将状态与线程关联的类中的私有静态字段(例如&#xff0c…

华尔街顶级大师胡立阳名言

1.不要听“亲朋好友”的话,他们只会让你成为“平凡人”。 2.不要只会“用功读书”,重要的是“要读对书”。  3.不要只是“努力工作”,重要的是“做对工作”。   4.不要指示结交“志趣相投”的朋友,否则你永远只看到…

JDK源码解析之 Java.lang.Enum

Enum是一个特殊的类. 我们不能以class Xxx extends Enum的方式手动继承, 必须写成enum Xxx的形式; 然而这段枚举类的定义在编译之后又变回了class Xxx extends Enum. 一、类定义 public abstract class Enum<E extends Enum<E>>implements Comparable<E>, …

Linux下的一些简单网络配置命令介绍

1、 ifconfig可以使用ifconfig命令来配置并查看网络接口的配置情况。例如&#xff1a;&#xff08;1&#xff09; 配置eth0的IP地址&#xff0c; 同时激活该设备。#ifconfig eth0 192.168.1.10 netmask 255.255.255.0 up&#xff08;2&#xff09; 配置eth0别名设备eth0:1的IP地…

JDK源码解析之 java.lang.Throwable

在 Java 中&#xff0c;所有的异常都有一个共同的祖先 Throwable&#xff08;可抛出&#xff09;。Throwable 指定代码中可用异常传播机制通过 Java 应用程序传输的任何问题的共性。 一、类定义 public class Throwable implements Serializable {}Serializable&#xff1a;可…

JDK源码解析之 java.lang.Error

java.lang.Error 错误。是所有错误的基类&#xff0c;用于标识严重的程序运行问题。这些问题通常描述一些不应被应用程序捕获的反常情况。 一、源码部分 //继承了java.lang.Throwable public class Error extends Throwable {//适用于java序列化机制,过判断类的serialVersionU…

linux命令之有关网络的操作命令

1&#xff0e;hostname 命令&#xff08;1&#xff09;一般格式&#xff1a;hostname [选项] [主机名]&#xff08;2&#xff09;说明&#xff1a;显示或设置系统的主机名&#xff1b;如果无任何选项和主机名&#xff0c;则用于显示系统的主机名。&#xff08;3&#xff09…

JDK源码解析之 java.lang.Exception

异常。是所有异常的基类&#xff0c;用于标识一般的程序运行问题。这些问题通常描述一些会被应用程序捕获的反常情况。 一、源码部分 //继承了java.lang.Throwable public class Exception extends Throwable {//适用于java序列化机制,过判断类的serialVersionUID来验证的版本…

linux命令之有关关机和查看系统信息的命令

shutdown 正常关机 reboot 重启计算机 ps 查看目前程序执行的情况top 查看目前程序执行的情景和内存使用情况kill 终止一个进程date 更改或查看目前时间 一&#xff0e;查看系统的进程 要管理进程&#xff0c;首先要知…

HDFS-文件读写过程

一、文件读取 Client向NameNode发起RPC请求&#xff0c;来确定请求文件block所在的位置&#xff1b;NameNode会视情况返回文件的部分或者全部block列表&#xff0c;对于每个block&#xff0c;NameNode 都会返回含有该 block 副本的 DataNode 地址&#xff1b; 这些返回的 DN 地…

linux命令复习之有关磁盘空间的命令

1&#xff0e;mount 命令&#xff08;1&#xff09;一般格式&#xff1a;mount 文件系统类型 [选项] 挂接设备&#xff08;2&#xff09;说明&#xff1a;将某个文件系统挂载到某个目录上。当这个命令执行成功后&#xff0c;直到使用 umount 将这个文件系统移除为止。&…

HDFS-常用API操作

一、Maven <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version> </dependency> <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>…

linux命令之-管理文件和目录的命令

一. 创建和删除目录的命令 1&#xff0e;mkdir 命令 &#xff08;1&#xff09;一般格式&#xff1a;mkdir [选项] 目录名 &#xff08;2&#xff09;说明&#xff1a;该命令创建由目录名命名的目录。 &#xff08;3&#xff09;举例1&#xff1a; 在目录 /usr/fedora 下建…

Hive-简介入门

Hive简介 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代&#xff0c;大数据是现在互联网的趋势&#xff0c;而hadoop就是大数据时代里的核心技术&#xff0c;但是hadoop的mapreduce操作专业性太强&#xff0…

Hive-原理解析

一、Hive 架构 下面是Hive的架构图。 Hive的体系结构可以分为以下几部分 1、用户接口&#xff1a;CLI&#xff08;hive shell&#xff09;&#xff1b;JDBC&#xff08;java访问Hive&#xff09;&#xff1b;WEBUI&#xff08;浏览器访问Hive&#xff09; 2、元数据&#x…

linux命令之history命令

在Linux系统上输入命令并按下Enter后&#xff0c;这个命令就会存放在命令记录表 ( ~/.bash_history )中&#xff0c;预定的记录为1000条&#xff0c;这些都定义在环境变量中。列出所有的历史记录&#xff1a;#history 只列出最近10条记录&#xff1a;#history 10 (注,history和…