分享

linux比较文件内容命令:comm diff grep awk join

 吾乃阿尔法 2013-11-27

0. 综述: 目前据我所了解的有如下几种方法,来比较两个文件的行,以输出他们的不同之处:

1)   comm mission:    comm [-123] file1 file2 [> sfile]

2)   diff mission:         diff [-opt] file1 file2

3)   grep mission:       grep -v -f file1 file2

  /*注::此法在对比数字时候比较凑效果,文本对比不建议使用*/

4)   awk mission:

        awk '{print NR,$0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'

  或者:

  awk '{print $0}' file1 file2 |sort|uniq -u

5) join mission:  join [-i][-a<1或2>][-e<字符串>][-o<格式>][-t<字符>][-v<1或2>][-1<栏位>][-2<栏位>]

1. comm 命令详解

        comm [-123] file1 file2 [> sfile]
        NOTE: file1,file2 must be firstly sorted !
        -1/2/3 means: -1 ----- rid the only retained contents in file1
                      -2 ----- rid the only retained contents in file2
                      -3 ----- rid the communal lines in both two files
         正如,上面说的那样,comm命令运用的前提是针对两个sorted文件!

       该命令是对两个已经排好序的文件进行比较。其中file1和file2是已排序的文件。comm读取这两个文件,然后生成三列输出:仅在file1中出现 的行;仅在file2中出现的行;在两个文件中都存在的行。如果文件名用“- ”,则表示从标准输入读取。

  选项1、2或3抑制相应的列显示。例如comm - 12就只显示在两个文件中都存在的行;comm - 23只显示在第一个文件中出现而未在第二个文件中出现的行;comm - 123则什么也不显示。

2. diff 命令详解  (http://www./detail976.shtml)
diff命令比较两个文木文件,并找出它们的不同。它比comm命令完成更复杂的检查,并且不要求两个文件预先排好序。
    (1)一般格式:     diff[选项]filel  file2
    (2)说明:该命令逐行比较两个文件,列出它们的不同之处,并且告诉用户,为了使两个文件一致,需要修改它们的哪些行。如果两个文件完全一样,则该命令不显示任何输出。
    该命令输出的一般形式如下:
    nl  a  n3, n4(表示把文件I的nl行附加到文件2的n3-n4行后,则二者相同)
    nl, n2  d  n3(表示删除文件1的nl -n2行及文件2的n3行,则二者相同)
    nl, n2  c  n3, n4(表示把文件1的n l -n2行改为文件2的n3,-n4行,则二者相同)
    这些行类似ed命令把文件file l转换成文件file2。字母(a, d和c)之前的行号(nl,n2)是针对文件filel的,其后面的行号(n3, n4)是针对文件file2的。字母a表示附加,字母d表示删除,字母c表示修改。
    在上述形式的每一行的后面跟随受到影响的若干行,以“<”打头的行属于文件file 1,以“>”打头的行属于文件file2o
    diff命令能区分块特别文件、字符特别文件及FIFO(管道文件),不会把它们与普通文件进行比较。   

   (3)选项:   

    -b忽略空格造成的差别。例如,"How   are you”与“How are you”被看做是相同的字符串。
    -c输出格式是带上下文的三行格式。
    -C n输出格式是有上下文的n行格式。
    -e输出一个合法的ed脚本。
    -i忽略字母大小写的区别。
    -r当文件file l和文件file2都是目录时,递归比较找到的各子目录。
    (4)注意:  如果用“一”表示文件filel或文件file2,则意味着标准输入。如果filel或file2是目录,那么diff将使用该目录中的同名文件进行比较。如果filel和filet都是目录,则diff会产生很多信息。如果一个目录中只有一个文件,则产生一条信息,指出该目录路径名和其中的文件名。

   (5)彩色输出不同:ColorDiff

    colordiff file1 file2

   你也可以将 ColorDiff 用于 diff 命令的管道输出:diff -u file1 file2 | colordiff

3. grep 命令详解
http://www./200902/linux-grep.html
http://blog./linux/1008.html
http://blog.csdn.net/tenfyguo/article/details/6387786
http://www./xueyuanzhuanqu/jishuwenzhang/201111/jishuwenzhang-1168.html


4. awk 命令详解
http://www./index-Index-show-view22152.html

5. join 命令详解
功能说明:将两个文件中,指定栏位内容相同的行连接起来。
语  法:join [-i] [-a<1或2>][-e<字符串>][-o<格式>][-t<字符>][-v<1或 2>][-1<栏位>][-2<栏位>][--help][--version][文件1][文件2]
补充说明:找出两个文件中,指定栏位内容相同的行,并加以合并,再输出到标准输出设备。
参  数:
  -a<1或2>   除了显示原来的输出内容之外,还显示指令文件中没有相同栏位的行。
  -e<字符串>   若[文件1]与[文件2]中找不到指定的栏位,则在输出中填入选项中的字符串。
  -i或--igore-case   比较栏位内容时,忽略大小写的差异。
  -o<格式>   按照指定的格式来显示结果。
  -t<字符>   使用栏位的分隔字符。
  -v<1或2>   跟-a相同,但是只显示文件中没有相同栏位的行。
  -1<栏位>   连接[文件1]指定的栏位。
  -2<栏位>   连接[文件2]指定的栏位。
  --help   显示帮助。
  --version   显示版本信息。
links:
http:///unixcd12/article_5023.html
http://www./2009/11/17/1642/
http://codingstandards./blog/796299

自己写的一个例子
#!/bin/sh
#2012-06-14
#List format is
#C4 189751 27251 1
#C1 189751 66396 1
#C1 189751 89702 1

time=`date +%y%m%d%H%M%S`
echo "start at 20"$time

fHead=ee
fTail=.txt
file1=$fHead$fTail
file2="sf-"$fHead$fTail
fDiff=$fHead"Diff"$fTail
rm $fDiff

sed -i 's/ /_/g' $file1
sed -i 's/ /_/g' $file2
time=`date +%y%m%d%H%M%S`
echo "step 1: done the sed s/ /_/g on 20"$time

awk '{print $0}' $file1 $file2 |sort|uniq -u > $fDiff
time=`date +%y%m%d%H%M%S`
echo "step 2: done the awk diff on 20"$time

fTemp=$fHead"TempDiff"$fTail
fNew=$fHead"DetailDiff"$fTail
rm $fTemp $fNew
cp $fDiff $fTemp

for i in `cat $fTemp`
do

  line=""
  line=`cat $file1 | grep $i`
  #echo "1: line is " $line
  if [ "$line" != "" ]
  then
    echo "only mine have:" $line >> $fNew
    sed -i '/'$i'/d' $fTemp
  fi

  line=""
  line=`cat $file2 | grep $i`
  #echo "2: line is " $line
  if [ "$line" != "" ]
  then
    echo "only Bham have:" $line >> $fNew
    sed -i '/'$i'/d' $fTemp
  fi

done
time=`date +%y%m%d%H%M%S`
echo "step 3: Done on 20"$time

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多