大家好，又见面了，我是你们的朋友全栈君。

文章目录

一、概述
二、基础语法
三、awk条件判断
四、awk数组与循环
五、awk函数
六、常用命令
七、常用技巧

参考书籍：《Linux Shell核心编程指南》——丁明一

一、概述

awk是专门为文本处理设计的编程语言，是一门数据驱动的编程语言，与sed类似都是以数据驱动的行处理软件，主要用于数据扫描、过滤、统计汇总工作，数据可以来自标准输入、管道或者文件。

awk在20世纪70年代诞生与贝尔实验室。现在使用的版本是1988年发布的Gnu awk。

二、基础语法

`2.1.记录与字段`

awk是一种处理文本文件的编程语言，文件的每行数据都被称为记录，默认以空格或制表符为分隔符，每条记录被分成若干字段(列)，awk每次从文件中读取一条记录。

语法格式：

awk [选项] ‘条件{ 
   动作}  条件{ 
   动作} ... ...’  文件名

`2.2.内置变量`

awk语法由一系列条件和动作组成，在花括号内可以有多个动作，多个动作之间用分号分隔，在多个条件和动作之间可以有若干空格，也可以没有。

如果没有指定条件则匹配所有数据，如果没有指定动作则默认为print打印。
在这里插入图片描述

# free | awk '{print $2}' #逐行打印第2列
used
3062364
0
free | awk '{print NR}'			#输出行号
free | awk '{print NF}'			#输出每行数据的列数
awk '{print $NF}' /tmp/hosts	#打印每行数据的最后一列
awk '{print $(NF-1)}' /tmp/hosts	#打印每行倒数第二列

cp /etc/hosts /tmp/hosts
awk '{print $0}' /tmp/hosts		#打印每行全部内容

在这里插入图片描述
同样是输出行号，NR将所有文件的数据视为一个数据流，而FNR则是将多个文件的数据视为独立的若干个数据流，遇到新文件时行号从1开始重新递增。

`2.3.自定义变量`

awk -v x="bob" -v y=10 '{print x,y}' /tmp/hosts

在这里插入图片描述

`2.4.调用系统变量`

awk -v shell=$SHELL '{print shell}' /tmp/hosts	或者
awk '{print "'$SHELL'"}' /tmp/hosts		#双引号加单引号组合能正确获取系统变量

在这里插入图片描述

`2.5.自定义分隔符`

默认以空格、换行符、制表符作为分隔符，使用-F可以指定分隔符

awk -F: '{print $1}' /etc/passwd		#以冒号作为分隔符
awk -F"[:,_]" '{print $1}' /etc/passwd	#使用集合定义分隔符

`2.6.内置变量RS、OFS、ORS`

RS

内置变量RS保存的是输入数据的行分隔符，默认为\n，可以指定其它字符作为行分隔符

awk -v RS="." '{print $1}' /tmp/hosts		#指定.作为行分隔符

OFS

保存的是输出字段的分隔符（列分隔符），默认为空格

awk -v OFS="-" '{print $1,$2}' /tmp/hosts	#以"-"作为字段分隔符
awk -v OFS="\t" '{print $1,$2}' /tmp/hosts	#以Tab制表符为字段分隔符
awk -v OFS=". " '{print NR,$0}' /tmp/hosts	#在每行前面加上行号和点

在这里插入图片描述

ORS

保存的是输出记录的分隔符

awk -v ORS="-" '{print $1}' /tmp/hosts

在这里插入图片描述

`2.7.print指令`

可以输出常量和变量，如果是字符串常量需要用双引号括起来，数字常量可以直接打印

awk '{print 123}' /tmp/hosts
awk '{print "IP:",$1}' /tmp/hosts
awk '{print "第1列:"$1,"\t第2列:"$2}' /tmp/hosts

在这里插入图片描述

`2.8.条件匹配`

awk支持使用正则进行模糊匹配，也支持字符串和数字的精确匹配，并且支持逻辑与和逻辑或。
在这里插入图片描述

awk '/localhost/' /tmp/hosts
awk '$3~/local/' /tmp/hosts		#每行的第3列去匹配local
awk '$3~/local/{print $1,$2}' /tmp/hosts
awk '$2=="localhost"' /tmp/hosts		#第2列精确匹配localhost
awk '$2!="localhost"' /tmp/hosts		#取反
awk -F: '$3<=10' /etc/passwd			#第3列小于等于10的行
awk -F: 'NR==10' /etc/passwd			#仅显示第10行
awk -F: '$3>1 && $3<5' /etc/passwd		#逻辑与
awk -F: '$3==1 || $3==5' /etc/passwd	#逻辑或

`2.9.BEGIN和END`

BEGIN导致动作指令仅在读取任何数据记录之前执行一次，END导致动作指令仅在读取完所有数据记录后执行一次

BEGIN可以进行数据初始化，END可以进行数据汇总

awk 'BEGIN{print "OK"}'
awk 'END{print NR}' /etc/passwd		#打印最后一行的行号

在这里插入图片描述

awk -F: 'BEGIN{print "用户名 UID 解释器"} \ {print $1,$3,$7} \ END {print "共有"NR"个账号."}' /etc/passwd | column -t	#column实现格式化输出，并按升序排序

中间省略
在这里插入图片描述

`2.10.数字计算`

[15:30:04][root@localhost:~]# awk 'BEGIN{print 2+3}'
5
[15:30:13][root@localhost:~]# awk 'BEGIN{print 2*3}'
6
[15:30:17][root@localhost:~]# awk 'BEGIN{print 2/5}'
0.4
[15:30:31][root@localhost:~]# awk 'BEGIN{print 5%2}'
1
[15:30:45][root@localhost:~]# awk 'BEGIN{print 5**2}'
25
[15:30:52][root@localhost:~]# awk 'BEGIN{x=5;y=2;print x-y}'
3
[15:31:27][root@localhost:~]# awk 'BEGIN{x=1;x++;print x}'
2
[15:31:46][root@localhost:~]# awk 'BEGIN{x=1;x+=1;print x}'
2

awk中变量不需定义就可以直接使用，作为字符处理时未定义的变量默认值为空，作为数字处理时未定义的变量默认值为0

awk 'BEGIN{print "["x"]","["y"]"}'		#x和y默认为空
awk 'BEGIN{print x+8}'					#x默认为0

在这里插入图片描述

`2.11.循环计数`

awk '/bash$/{x++} END{print x}' /etc/passwd

逐行读取/etc/passwd文件，x初始值为0，匹配到以bash结尾的行时自加1，最后打印x的值。
此处表明以bash结尾的行共有5行
在这里插入图片描述

who | awk '$1=="root"{x++} END{print x}'	#统计有多少个客户端登录root
seq 200 | awk '$1%6==0 && $1~/6/'			#打印1~200之间能被6整除且包含数字6的整数数字

在这里插入图片描述

三、awk条件判断

if判断后面如果只有一个动作指令，则花括号{}可省略，如果if判断后面的指令为多条指令则需要使用花括号括起来，多个指令使用分号分隔。

`3.1.单分支语句`

语法：

if(判断条件){ 
   
动作指令序列;
}

查找cpu使用率大于0.3的进程

ps -eo user,pid,pcpu,comm | awk '{if($3>0.5) print}'

在这里插入图片描述

`3.2.双分支if语句`

语法：

if(判断条件){ 
   
动作指令1;
} else { 
   
动作指令2;
}

统计系统用户与普通用户的个数

awk -F: '{if($3<1000){x++} else{y++}} END{print "系统用户个数:"x"","普通用户个数:"y""}' /etc/passwd

在这里插入图片描述

`3.3.多分支语句`

if(判断条件){ 
   
动作指令1;
} else if(判断条件2){ 
   
动作指令2;
} else { 
   
动作指令N;
}

四、awk数组与循环

awk 'BEGIN{a[0]=11;a[1]=12;print a[0],a[1]}'

awk 'BEGIN{ \ tom["age"]=22; \ tom["addr"]="sichuan"; \ print tom["age"],tom["addr"] \ }'

在这里插入图片描述

`4.1.遍历数组`

语法：

for(变量 in 数组名){ 
   
动作指令序列
}

示例：

awk 'BEGIN{ \ > a[0]=1;a[11]=22;a["book"]=32;a["work"]="home"; \ > for(i in a){print i,a[i]} \ > }'

输出是无序的。i是索引，a[i]是值
在这里插入图片描述
成员关系判断

awk 'BEGIN{ \ > a[11]=1;a[22]=2; \ > if("22" in a){print "yse"} else {print no} \ > }'

在这里插入图片描述

`4.2.for循环`

采用与C语言一样的语法格式

for(表达式1;表达式2;表达式3) { 
   
动作指令序列
}

awk 'BEGIN{ for (i=1;i<=4;i++) {print i}}'

awk -F: '{ \ for(i=1;i<=NF;i++) \ > {if($i=="root") x++} \ > } END {print x}' /etc/passwd

统计root出现的次数。
这里面包含了两个循环，一个是隐含循环，awk会逐行处理数据；一个是for循环每列的值，如果等于root，就让x自加1，最后打印x的值
在这里插入图片描述

`4.3.while循环`

语法：

while(条件判断){ 
   
动作指令序列;
}

示例：

awk 'BEGIN{ i=1; while(i<=5) {print i;i++}}'

`4.4.中断语句`

与shell类似，awk提供了continue、break、exit循环中断语句。

awk 'BEGIN{ \ i=0; while(i<=5) { \ i++; \ if(i==3) {continue}; \ print i \ }; \ } \ END {print "END"}' /tmp/hosts

在这里插入图片描述

五、awk函数

`5.1.内置I/O函数`

getline函数

能让awk立刻读取下一行数据（读取下一条记录并复制给$0,并重新设置NF、NR和FNR）

#解决挂载逻辑卷时，分区信息跨行显示的问题
df -h | awk '{if(NF==1) {getline;print $3}; if(NF==6) {print $4}}'

next函数

停止处理当前的输入记录，立刻读取下一条记录并返回awk程序的第一个模式匹配重新处理数据。
有点类似于循环语句中的continue,不会执行当次循环的后续语句

awk -F: '/root/{getline;print "next line:",$0} {print "normal line"}' /etc/passwd

在这里插入图片描述

awk -F: '/root/{next;print "next line:",$0} {print "normal line"}' /etc/passwd

在这里插入图片描述
经比较可以看出，getline，会继续执行后续的指令print “next line:”,而next不会执行后续指令，而是重新开始匹配

system(命令)函数

可以直接在awk中调用shell命令，会启动一个新shell进程执行命令

awk 'BEGIN{system("ls")}'
awk '{system("echo date:"$0)}' /tmp/hosts

在这里插入图片描述

`5.2.内置数值函数`

cos(expr)、sin(expr)、sqrt(expr)

int(expr)函数

可以对小数取整

[14:23:42][root@localhost:~]# awk 'BEGIN{print int(6.8)}'
6

rand()函数

返回0到1之间的随机数

awk 'BEGIN{print rand()}'
awk 'BEGIN{for(i=1;i<=5;i++) print int(100*rand())}'	#生成5个100以内的随机数

在这里插入图片描述

srand([expr])

可以使用expr定义新的随机数种子，没有expr时则使用当前系统的时间为随机数种子

awk 'BEGIN{srand();print rand()}'		#使用时间做随机数种子
awk 'BEGIN{srand(22);print rand()}'		#使用数值做随机数种子

在这里插入图片描述

`5.3.内置字符串函数`

length([s])函数

可以统计字符串s的长度，如果不指定字符串s则统计$0的长度

awk 'BEGIN{test="hello"; print length(test)}'		#打印字符串长度
awk 'BEGIN{t[0]="hi";t[1]="the"; print length(t)}'	#返回数组元素个数
awk '{print length()}' /etc/shells					#返回文件每行的字符长度

在这里插入图片描述

index(字符串1，字符串2)

返回字符串2在字符串1中的位置

awk 'BEGIN{test="hello";print index(test,"l")}'

在这里插入图片描述

match(s,r)

根据正则表达式r返回其在字符串s中的位置坐标

[14:47:52][root@localhost:~]# awk 'BEGIN{print match("How much","[a-z]")}' #小写字母在第2个位置开始出现
2

tolower(srt)

可以将字符串转换为小写

[14:49:51][root@localhost:~]# awk 'BEGIN{print tolower("HELLo")}'
hello

toupper(str)

将字符串转为大写

split(字符串，数组，分隔符)

将字符串按特定的分隔符切片后存储在数组中，如果没指定分隔符，则使用IFS定义的。
数组下标从1开始

awk 'BEGIN{split("hello world",test); print test[1],test[2]}'
awk 'BEGIN{split("hello:world",test,":"); print test[1],test[2]}'	#指定冒号(:)为分隔符

在这里插入图片描述

gsub(r,s,[,t])

将字符串t中所有与正则表达式r匹配的字符串全部替换为s,如果没有指定字符串t，则默认对$0进行替换操作

[15:11:47][root@localhost:~]# head -1 /etc/passwd | awk '{gsub("[0-9]","**");print $0}'
root:x:**:**:root:/root:/bin/bash

sub(r,s,[,t])

与gsub类似，但仅替换第一个匹配的字符串，而不是替换全部

substr(s,i,[,n])

对字符串s进行截取，从第i位开始，截取n个字符串，如果n没有指定则一直截取到字符串s的末尾位置

[15:16:17][root@localhost:~]# awk 'BEGIN{hi="Hello World"; print substr(hi,2,3)}' #从第2位开始截取3个字符
ell

`5.4.内置时间函数`

systime()
返回当前时间距离1970-01-01 00:00:00有多少秒

[15:16:21][root@localhost:~]# awk 'BEGIN{print systime()}'
1627802328

`5.5.用户自定义函数`

语法：

function 函数名(参数列表) { 
    命令序列 }

awk ' \ function max(x,y) { \ if(x>y) {print x} \ else {print y} } \ BEGIN {max(5,6)} '

在这里插入图片描述

六、常用命令

cat example.txt | awk 'NR%2==1' 	#删除example.txt文件中的所有偶数行
echo " false" |awk -F' ' '{print $NF}'		#去掉前面的空格
docker images | grep 'mysql' | awk '{printf"%s:%s\n",$1,$2}'	#获取镜像名:Tag
ps -ef | grep java | grep -v 'color' awk '{for (i=8;i<=NF;i++)printf("%s ", $i);print ""}' #获取从第八列开始到最后一列的内容

七、常用技巧

`打印各磁盘可用大小`

df | grep -v tmpfs | awk 'NR!=1 {disk[$1]=$4} \ END {for(i in disk) {printf "%-20s %-10s\n",i,disk[i]/1024"M"} }'

在这里插入图片描述

`统计磁盘可用容量`

df | tail -n +2 | grep -v tmpfs | awk '{sum+=$4} END{print "磁盘可用容量:"sum/1024/1024"G"}'

在这里插入图片描述

`统计/etc下文件总大小`

ls -l /etc | awk '/^-/{sum+=$5} END{print "文件总大小:"sum/1024"M"}'

在这里插入图片描述

`统计访问Nginx的各IP访问次数`

awk ' \ {IP[$1]++} \ END { \ for (i in IP) {print i,IP[i]} \ }' /var/log/nginx/access.log

`查看Nginx 1点到5点半的日志`

awk -F"[: /]" '$7":"$8 >= "01:00" && $7":"$8 <="05:30"' /var/log/nginx/access.log

`查看Docker容器的CPU使用率`

docker stats jenkins --no-stream |awk 'NR==2{print $3}'

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/157357.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

awk命令详解

文章目录

一、概述

二、基础语法

2.1.记录与字段

2.2.内置变量

2.3.自定义变量

2.4.调用系统变量

2.5.自定义分隔符

2.6.内置变量RS、OFS、ORS

RS

OFS

ORS

2.7.print指令

2.8.条件匹配

2.9.BEGIN和END

2.10.数字计算

2.11.循环计数

三、awk条件判断

3.1.单分支语句

3.2.双分支if语句

3.3.多分支语句

四、awk数组与循环

4.1.遍历数组

4.2.for循环

4.3.while循环

4.4.中断语句

五、awk函数

5.1.内置I/O函数

getline函数

next函数

system(命令)函数

5.2.内置数值函数

int(expr)函数

rand()函数

srand([expr])

5.3.内置字符串函数

length([s])函数

index(字符串1，字符串2)

match(s,r)

tolower(srt)

toupper(str)

split(字符串，数组，分隔符)

gsub(r,s,[,t])

sub(r,s,[,t])

substr(s,i,[,n])

5.4.内置时间函数

5.5.用户自定义函数

六、常用命令

七、常用技巧

打印各磁盘可用大小

统计磁盘可用容量

统计/etc下文件总大小

统计访问Nginx的各IP访问次数

查看Nginx 1点到5点半的日志

查看Docker容器的CPU使用率

相关推荐

[模板] Dijkstra单源最短路径

【15】进大厂必须掌握的面试题-容器化和虚拟化面试

BeanUtils.populate方法详解

第十三周（动物这样叫）[通俗易懂]

android之存储篇_ContentProvider存储

JAVA Map转List

发表回复

`2.1.记录与字段`

`2.2.内置变量`

`2.3.自定义变量`

`2.4.调用系统变量`

`2.5.自定义分隔符`

`2.6.内置变量RS、OFS、ORS`

`2.7.print指令`

`2.8.条件匹配`

`2.9.BEGIN和END`

`2.10.数字计算`

`2.11.循环计数`

`3.1.单分支语句`

`3.2.双分支if语句`

`3.3.多分支语句`

`4.1.遍历数组`

`4.2.for循环`

`4.3.while循环`

`4.4.中断语句`

`5.1.内置I/O函数`

`5.2.内置数值函数`

`5.3.内置字符串函数`

`5.4.内置时间函数`

`5.5.用户自定义函数`

`打印各磁盘可用大小`

`统计磁盘可用容量`

`统计/etc下文件总大小`

`统计访问Nginx的各IP访问次数`

`查看Nginx 1点到5点半的日志`

`查看Docker容器的CPU使用率`