sed原理及sed命令格式 ,缓存区，模式空间

cy413026 2018-07-07

展开全文

sed是一个非交互式的流编辑器。所谓非交互式，是指使用sed只能在命令行下输入编辑命令来编辑文本，然后在屏幕上查看输出；而所谓流编辑器，是指sed每次只从文件（或输入）读入一行，然后对该行进行指定的处理，并将结果输出到屏幕（除非取消了屏幕输出又没有显式地使用打印命令），接着读入下一行。整个文件像流水一样被逐行处理然后逐行输出。

下面我们看一下sed的工作过程。

sed不是在原输入上直接进行处理的，而是先将读入的行放到缓冲区中，对缓冲区里的内容进行处理，处理完毕后也不会写回原文件（除非用shell的输出重定向来保存结果），而是直接输出到屏幕上。sed运行过程中维护着两个缓冲区，一个是活动的“模式空间（pattern space）”，另一个是起辅助作用的“暂存缓冲区（holding space）”。一般情况下，每当运行sed，sed首先把第一行装入模式空间，进行处理后输出到屏幕，然后将第二行装入模式空间替换掉模式空间里原来的内容，然后进行处理，以此类推。

一般情况下暂存缓冲区是用不到的，但有特殊的命令可以在模式空间与暂存缓冲区之间交换数据，后文将有介绍。由于sed对文本的所有操作都是在缓冲区里进行的，所以不会对原文件造成任何破坏。

4.2 Sed命令格式

sed的命令格式如下：

sed [-Options] [‘Commands’] filename

其中，Command是一个sed命令，sed命令一定要被包含在一对单引号中，以免被shell解释，其格式如下：

[address-range][sed-command]或

[Pattern-to-match][sed-command]

address-range是指要处理的行的范围，又叫地址范围；pattern-to-match是一个要匹配的模式，是一个正则表达式，sed-command是一个sed命令，用来对指定的行进行处理。下面是一个简单的例子：

sed –n ‘1,3p’ students

这个命令将文件students中的第1到3行打印到屏幕。注意，地址范围和sed命令之间没有空格，如果加入空格，sed也会将其忽略。参数-n用来取消默认输出。默认情况下，sed每读入一行到模式空间，无论是否对其进行处理，在读入下一行之前多要将模式空间中的内容输出到屏幕上。参数-n可以用来取消这种默认的输出，只有当用户用命令p时才将指定的行输出到屏幕。如果没有用参数-n而又对指定行执行了p命令，那么这些行将会被打印两次。

地址范围可以是一个数字，这个数字代表了一个行号；也可以是一个用逗号分隔的两个数字表示的范围（包括这两行）。范围可以是数字，正则表达式，或是两者的组合。

pattern-to-match是一个要匹配的模式，sed将会对所有匹配的行执行sed-command。其实，这里的pattern-to-match也可以看作是一个地址，这个地址是所有与指定模式匹配的行的行号。因此sed的格式可以归纳为一种：

sed [-Options] ‘[address-range][sed-command]’ filename

看不明白的接着看下面的示例解释：
sed -n '1,3 p' a.txt #sed 命令 -n(sed的命令行选项----取消标准输出） 1,3 (读到缓冲区处理的地址范围） p(sed命令--这个命令表示要怎样处理缓冲区的内容，p是打印输出缓存区内容)

sed -n '1,3 s/11/88/p;' a.txt #把1,3行读到缓冲区，处理缓冲区操作是 s/11/88/p 即替换其中的第一个11为88 p是打印结果。

sed -n '1,3 s/11/88/gp;' a.txt #把1,3行读到缓冲区，处理缓冲区操作是 s/11/88/gp 即替换其中的所有的(g命令表示所有,正则的全局匹配)11为88 p是打印结果。

sed -n 's/11/88/gp' a.txt #这个命令，由于没有定义范围，sed默认逐行读内容到缓冲区，并使用s/11/88/gp 命令处理。即：每读一行处理一次。

下面看个复杂的：
sed -n ':lb; /start/,/end/{/end/! {$! {N;b lb}}}; s/333.*555/8888/; p;' a.txt

#上面的解释：

{}是sed命令里的语句块

:lb 是send的label 功能，类似，c语言里的goto lable功能。 lb 是label名称可以自已随便起

:lb; /start/,/end/{/end/! {$! {N;b lb}}}; 可以简化成:lb; /start/,{/end/! {$! {N;b lb}}}; 表示范围是/start/开始，{/end/! {$! {N;b lb}}};结束的内容读到缓冲区。

s/333.*555/8888/; p; 使用这个命令处理缓冲区的内容。

其中：

/end/! {$! {N;b lb}} 中，/end/! 如果不end 那么就执行这个块{$! {N;b lb}}，$!表示如果也不是结尾，就是N循环lb 的label块。即：只要没有遇见end字符串(/end/!)，也没到文档结尾（$!），就是一至一行一行读内容到缓冲区。

1.简介

sed是非交互式的编辑器。它不会修改文件，除非使用shell重定向来保存结果。默认情况下，所有的输出行都被打印到屏幕上。

sed编辑器逐行处理文件（或输入），并将结果发送到屏幕。具体过程如下：首先sed把当前正在处理的行保存在一个临时缓存区中（也称为模式空间），然后处理临时缓冲区中的行，完成后把该行发送到屏幕上。sed每处理完一行就将其从临时缓冲区删除，然后将下一行读入，进行处理和显示。处理完输入文件的最后一行后，sed便结束运行。sed把每一行都存在临时缓冲区中，对这个副本进行编辑，所以不会修改原文件。

2.定址

定址用于决定对哪些行进行编辑。地址的形式可以是数字、正则表达式、或二者的结合。如果没有指定地址，sed将处理输入文件的所有行。

地址是一个数字，则表示行号；是“$"符号，则表示最后一行。例如：

sed -n'3p' datafile 只打印第三行

只显示指定行范围的文件内容，例如：

# 只查看文件的第100行到第200行
sed -n '100,200p' mysql_slow_query.log

地址是逗号分隔的，那么需要处理的地址是这两行之间的范围（包括这两行在内）。范围可以用数字、正则表达式、或二者的组合表示。例如：

sed'2,5d' datafile #删除第二到第五行 sed '/My/,/You/d' datafile #删除包含"My"的行到包含"You"的行之间的行 sed '/My/,10d' datafile #删除包含"My"的行到第十行的内容

3.命令与选项

sed命令告诉sed如何处理由地址指定的各输入行，如果没有指定地址则处理所有的输入行。

3.1 sed命令

命令	功能
a\	在当前行后添加一行或多行。多行时除最后一行外，每行末尾需用“\”续行
c\	用此符号后的新文本替换当前行中的文本。多行时除最后一行外，每行末尾需用"\"续行
i\	在当前行之前插入文本。多行时除最后一行外，每行末尾需用"\"续行
d	删除行
h	把模式空间里的内容复制到暂存缓冲区
H	把模式空间里的内容追加到暂存缓冲区
g	把暂存缓冲区里的内容复制到模式空间，覆盖原有的内容
G	把暂存缓冲区的内容追加到模式空间里，追加在原有内容的后面
l	列出非打印字符
p	打印行
n	读入下一输入行，并从下一条命令而不是第一条命令开始对其的处理
q	结束或退出sed
r	从文件中读取输入行
!	对所选行以外的所有行应用命令
s	用一个字符串替换另一个
g	在行内进行全局替换

w	将所选的行写入文件
x	交换暂存缓冲区与模式空间的内容
y	将字符替换为另一字符（不能对正则表达式使用y命令）

3.2 sed选项

选项	功能
-e	进行多项编辑，即对输入行应用多条sed命令时使用
-n	取消默认的输出
-f	指定sed脚本的文件名

-i | 决定不是不将sed的操作作用在源文件上

------------------------------------------------------------------------
-r | 想少用\ 那你就用-r
------------------------------------------------------------------

4.退出状态

sed不像grep一样，不管是否找到指定的模式，它的退出状态都是0。只有当命令存在语法错误时，sed的退出状态才不是0。

5.正则表达式元字符

与grep一样，sed也支持特殊元字符，来进行模式查找、替换。不同的是，sed使用的正则表达式是括在斜杠线"/"之间的模式。

如果要把正则表达式分隔符"/"改为另一个字符，比如o，只要在这个字符前加一个反斜线，在字符后跟上正则表达式，再跟上这个字符即可。例如：sed -n '\o^Myop' datafile

元字符	功能	示例
^	行首定位符	/^my/ 匹配所有以my开头的行
$	行尾定位符	/my$/ 匹配所有以my结尾的行
.	匹配除换行符以外的单个字符	/m..y/ 匹配包含字母m，后跟两个任意字符，再跟字母y的行
*	匹配零个或多个前导字符	*/my/ 匹配包含字母m,后跟零个或多个y字母的行**
[]	匹配指定字符组内的任一字符	/[Mm]y/ 匹配包含My或my的行
[^]	匹配不在指定字符组内的任一字符	/[^Mm]y/ 匹配包含y，但y之前的那个字符不是M或m的行
	保存已匹配的字符	1,20s/self/\1r/ 标记元字符之间的模式，并将其保存为标签1，之后可以使用\1来引用它。最多可以定义9个标签，从左边开始编号，最左边的是第一个。此例中，对第1到第20行进行处理，you被保存为标签1，如果发现youself，则替换为your。
&	保存查找串以便在替换串中引用	s/my/&/ 符号&代表查找串。my将被替换为my
\<	词首定位符	/\<my/ 匹配包含以my开头的单词的行
\>	词尾定位符	/my\>/ 匹配包含以my结尾的单词的行
x\{m\}	连续m个x	/9\{5\}/ 匹配包含连续5个9的行
x\{m,\}	至少m个x	/9\{5,\}/ 匹配包含至少连续5个9的行
x\{m,n\}	至少m个，但不超过n个x	/9\{5,7\}/ 匹配包含连续5到7个9的行

6.范例

6.1 p命令

命令p用于显示模式空间的内容。默认情况下，sed把输入行打印在屏幕上，选项-n用于取消默认的打印操作。当选项-n和命令p同时出现时,sed可打印选定的内容。

sed '/my/p' datafile #默认情况下，sed把所有输入行都打印在标准输出上。如果某行匹配模式my，p命令将把该行另外打印一遍。

sed -n '/my/p' datafile #选项-n取消sed默认的打印，p命令把匹配模式my的行打印一遍。

定行的范围：逗号

$ sed -n '/test/,/check/p' example 所有在模板test和check所确定的范围内的行都被打印。
$ sed -n '5,/^test/p' example 打印从第五行开始到第一个包含以test开始的行之间的所有行。
$ sed '/test/,/check/s/$/sed test/' example-----对于模板test和west之间的行，每行的末尾用字符串sed test替换。

6.2 d命令

命令d用于删除输入行。sed先将输入行从文件复制到模式空间里，然后对该行执行sed命令，最后将模式空间里的内容显示在屏幕上。如果发出的是命令d，当前模式空间里的输入行会被删除，不被显示。

实例

删除：d命令

$ sed '2d' example-----删除example文件的第二行。
$ sed '2,$d' example-----删除example文件的第二行到末尾所有行。
$ sed '$d' example-----删除example文件的最后一行，其余的都被显示。
$ sed '/test/'d example-----删除example文件所有包含test的行。

sed'/my/d' datafile #删除包含my的行，其余的都被显示，注意：d可以在引号里，也也可以在引号外。

sed'/my$/d' datafile #删除以my结尾的行，

sed'/^my/d' datafile #删除以my开头的行，

6.3 s命令

实例

替换：s命令

$ sed 's/test/mytest/g' example 在example 所有行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。
$ sed -n 's/^test/mytest/p' example (-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的test被替换成mytest，就打印它。
$ sed 's/^192.168.0.1/&localhost/' example &符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加localhost，变成192.168.0.1localhost。
$ sed 's#10#100#g' example 不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把所有10替换成100。
sed-n'1,20s/My$/You/gp' datafile #取消默认输出，处理1到20行里匹配以My结尾的行，把行内所有的My替换为You，并打印到屏幕上。

6.4 e选项

-e是编辑命令，用于sed执行多个编辑任务的情况下。在下一行开始编辑前，所有的编辑动作将应用到模式缓冲区中的行上。

sed-e'1,3d'-e's/My/Your/g' datafile

#选项-e用于进行多重编辑。第一重编辑删除第1-3行。第二重编辑将出现的所有My替换为Your。因为是逐行进行这两项编辑（即这两个命令都在模式空间的当前行上执行），所以编辑命令的顺序会影响结果。

6.5 r命令

r命令是读命令。sed使用该命令将一个文本文件中的内容加到当前文件的特定位置上。

sed'/My/r introduce.txt' datafile #如果在文件datafile的某一行匹配到模式My，就在该行后读入文件introduce.txt的内容。如果出现My的行不止一行，则在出现My的各行后都读入introduce.txt文件的内容。

6.6 w命令

sed-n'/hrwang/w me.txt' datafile

6.7 a\ 命令

a\ 命令是追加命令，追加将添加新文本到文件中当前行（即读入模式缓冲区中的行）的后面。所追加的文本行位于sed命令的下方另起一行。如果要追加的内容超过一行，则每一行都必须以反斜线结束，最后一行除外。最后一行将以引号和文件名结束。

sed'/^hrwang/a\ >hrwang and mjfan are husband\ and wife' datafile

#如果在datafile文件中发现匹配以hrwang开头的行，则在该行下面追加如下两行

hrwang and mjfan are husband

and wife

6.8 i\ 命令

i\ 命令是在当前行的前面插入新的文本。

$ sed '/test/i\

new line' example

如果test被匹配，则把反斜杠后面的文本newline 插入到匹配行的前面。

6.9 c\ 命令

sed使用该命令将已有文本修改成新的文本。

6.10 n命令

sed使用该命令获取输入文件的下一行，并将其读入到模式缓冲区中，任何sed命令都将应用到匹配行紧接着的下一行上。

sed'/hrwang/{n;s/My/Your/;}' datafile

注：如果需要使用多条命令，或者需要在某个地址范围内嵌套地址，就必须用花括号将命令括起来，每行只写一条命令，或者用分号分割同一行中的多条命令。

6.11 y命令

该命令与UNIX/Linux中的tr命令类似，字符按照一对一的方式从左到右进行转换。例如，y/abc/ABC/将把所有小写的a转换成A，小写的b转换成B，小写的c转换成C。

sed'1,20y/hrwang12/HRWANG^$/' datafile #将1到20行内，所有的小写hrwang转换成大写，将1转换成^,将2转换成$。 #正则表达式元字符对y命令不起作用。与s命令的分隔符一样，斜线可以被替换成其它的字符。

6.12 q命令

q命令将导致sed程序退出，不再进行其它的处理。

sed'/hrwang/{s/hrwang/HRWANG/;q;}' datafile

6.13 h命令和g命令

#cat datafile

My name is hrwang.

Your name is mjfan.

hrwang is mjfan's husband.

mjfan is hrwang's wife.

sed-e'/hrwang/h'-e'$G' datafile

sed -e '/hrwang/H' -e '$G' datafile

#通过上面两条命令，你会发现h会把原来暂存缓冲区的内容清除，只保存最近一次执行h时保存进去的模式空间的内容。而H命令则把每次匹配hrwnag的行都追加保存在暂存缓冲区。

sed -e '/hrwang/H' -e '$g' datafile

sed -e '/hrwang/H' -e '$G' datafile

#通过上面两条命令，你会发现g把暂存缓冲区中的内容替换掉了模式空间中当前行的内容，此处即替换了最后一行。而G命令则把暂存缓冲区的内容追加到了模式空间的当前行后。此处即追加到了末尾。

7. sed脚本

sed脚本就是写在文件中的一列sed命令。脚本中，要求命令的末尾不能有任何多余的空格或文本。如果在一行中有多个命令，要用分号分隔。执行脚本时，sed先将输入文件中第一行复制到模式缓冲区，然后对其执行脚本中所有的命令。每一行处理完毕后，sed再复制文件中下一行到模式缓冲区，对其执行脚本中所有命令。使用sed脚本时，不再用引号来确保sed命令不被shell解释。

==================================

下一个：n命令

$ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配，则移动到匹配行的下一行，替换这一行的aa，变为bb，并打印该行，然后继续。

变形：y命令

$ sed '1,10y/abcde/ABCDE/' example-----把1--10行内所有abcde转变为大写，注意，正则表达式元字符不能使用这个命令。

退出：q命令

$ sed '10q' example-----打印完第10行后，退出sed。

保持和获取：h命令和G命令

$ sed -e '/test/h' -e '$G example-----在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的一行等待处理。在这个例子里，匹配test的行被找到后，将存入模式空间，h命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是，当到达最后一行后，G命令取出保持缓冲区的行，然后把它放回模式空间中，且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说，任何包含test的行都被复制并追加到该文件的末尾。

保持和互换：h命令和x命令