前几天看完了awk Oneliner系列的文章,本来想有机会把他的第五部他的总结和另外一个十例篇也做个翻译拿来学习备忘下。不过因为俗务缠身,一时无暇去看,不过今天在测试tcpdump和wireshark抓取用户名和密码的的文档进行处理时,刚好又用到了awk的强大的删除重行,这里也拿来分享下。

11 2 3
21 2 3
31 2 4
41 2 3
51 2 5

这里假设我要处理的文件如上面的例子。不难看出里面有三行123,而我想所有的排列顺序不变,遇到重复的就自动删除。想实现的最终效果为:

11 2 3
21 2 4
31 2 5

而如果使用sort加uniq进行排序的话,这个文档是看不出有什么不妥,不过我要处理的是用户名与密码一行行对应好的,如果使用sort + uniq处理的话,用户名都排到一块了,密码也又都跑到一块了。这样就分不出来那个是那个了。 而使用的脚本很简单:

1awk '!x[$0]++' filename

注:此处的x只是一个数据参数的名字而已,随你用a、b、c、d都行。

简要解释一下,awk 的基本执行流程是,对文件的每一行,做一个指定的逻辑判断,如果逻辑判断成立,则执行指定的命令;如果逻辑判断不成立,则直接跳过这一行。

我们这里写的 awk 命令是!x[$0]++,意思是,首先创建一个 map 叫x,然后用当前行的全文$0作为 map 的 key,到 map 中查找相应的 value,如果没找到,则整个表达式的值为真,可以执行之后的语句;如果找到了,则表达式的值为假,跳过这一行。由于表达式之后有++,因此如果某个 key 找不到对应的 value,该++操作会先把对应的 value 设成 0,然后再自增成 1,这样下次再遇到重复的行的时候,对应的 key 就能找到一个非 0 的 value 了。

注:该处的map类似于array数组,只不过在awk中叫array不恰当。

awk Oneline中我们也学到过,awk 的流程是先判断表达式,表达式为真的时候就执行语句,可是我们前面写的这个 awk 命令里只有表达式,没有语句,那我们执行什么呢?原来,当语句被省略的时候,awk 就执行默认的语句,即打印整个完整的当前行。就这样,我们通过这个非常简短的 awk 命令实现了去除重复行并保留原有文件顺序的功能。

当然,我们也可以对该例进行下改变,通过判断某列的值相同,就只保留首行。 

1awk '!a[$3]++' filename

删除第三列重复的行

1awk '!a[$NF]++' filename

删除最后一列重复的行

PS:2014-11-25日后记

今天看到有人在关于我页面上评论说如何在去除重复行时对空白行不做处理,我这里总结了三种实现方法(都是仅使用awk工具),具体如下(为了便于区分,这里我使用nl命令加了行号):

 1[root@361way ~]# cat a.txt |nl -b a   #原文件
 2     1  1 2 3
 3     2  1 2 3
 4     3
 5     4
 6     5  1 2 4
 7     6  1 2 3
 8     7
 9     8
10     9  1 2 5
11[root@361way ~]# awk '!NF || !a[$0]++'  a.txt |nl -b a   #方法一
12     1  1 2 3
13     2
14     3
15     4  1 2 4
16     5
17     6
18     7  1 2 5
19[root@361way ~]# awk '!NF {print;next} !($0 in a) {a[$0];print}'  a.txt |nl -b a   #方法二
20     1  1 2 3
21     2
22     3
23     4  1 2 4
24     5
25     6
26     7  1 2 5
27[root@361way ~]# awk '!/./ || !a[$0]++' a.txt |nl -b a  #方法三
28     1  1 2 3
29     2
30     3
31     4  1 2 4
32     5
33     6
34     7  1 2 5
35[root@361way ~]#