笔者经常会接触大批量的数据,需要从A台服务器复制到B台,但是大多都是较小的图片数据,打包或者scp速度太慢了。直到我知道了rsync: rsync 的命令格式
推荐在 SSH 的基础上使用rsync。可以事先在~/.ssh/config中加入配置,这样远端可以写作SSH配置名:路径。 目录SRC是否以斜杠结尾,会影响同步的结果:
转载注: - 标题:rsync 同步的艺术 - 作者:roc - 原文:http:///?p=2643 如果你是一位运维工程师,你很可能会面对几十台、几百台甚至上千台服务器,除了批量操作外,环境同步、数据同步也是必不可少的技能。 说到“同步”,不得不提的利器就是rsync,今天就来说说我从这个工具中看到的同步的艺术。 不带任何选项我们经常这样使用rsync: $ rsync main.c machineB:/home/userB 只要目的端的文件内容和源端不一样,就会触发数据同步,rsync会确保两边的文件内容一样。 但rsync不会同步文件的 modify time ,凡是有数据同步的文件,目的端的文件的 modify time 总是会被修改为最新时刻的时间。 rsync不会太关注目的端文件的 rwx 权限,如果目的端没有此文件,那么权限会保持与源端一致;如果目的端有此文件,则权限不会随着源端变更。 只要rsync有对源文件的读权限,且对目标路径有写权限,rsync就能确保目的端文件同步到和源端一致。 rsync只能以登陆目的端的账号来创建文件,它没有能力保持目的端文件的输主和属组和源端一致。除非你使用 root 权限,才有资格要求属主一致、属组一致。 -t 选项我们经常这样使用-t选项:
使用-t选项后,rsync总会想着一件事,那就是将源文件的 modify time 同步到目标机器。 带有-t选项的rsync,会变得更聪明些,它会在同步前先对比两边文件的时间戳和文件大小,如果一致,则就认为两边文件一样,对此文件就不再采取更新动作了。 因为rsync的聪明,也会反被聪明误。如果目的端的文件的时间戳、大小和源端完全一致,但是内容恰巧不一致时,rsync是发现不了的。这就是传说中的“坑”! 对于rsync自作聪明的情况,解决办法就是使用-I选项。 -I 选项我们经常这样使用-I选项:
-I选项会让rsync变得很乖很老实,它会挨个文件去发起数据同步。 -I选项可以确保数据的一致性,代价便是速度上会变慢,因为我们放弃了 quick check 策略。 quick check 策略,就是先查看文件的时间戳和文件大小,依次先排除一批认为相同的文件。 无论情况如何,目的端的文件的 modify time 总会被更新到当前时刻。 -v 选项这个选项,简单易懂,就是让rsync输出更多的信息,我们可以举一个例子:
你增加越多的v,就可以获得越多的日志信息。
-z 选项这是个压缩选项,只要使用了这个选项,rsync就会把发向对端的数据先进行压缩再传输。对于网络环境较差的情况下建议使用。 一般情况下,-z的压缩算法会和 gzip 的一样。 -r 选项我们在第一次使用rsync时,往往会遇到这样的囧境:
如果你不额外告诉rsync你需要它帮你同步文件夹的话,它是不会主动承担的,这也正是rsync的懒惰之处。 所以,如果你真的想同步文件夹,那就要加上-r选项,即 recursive(递归的、循环的),像这样:
我们在上面的讲解中说过,如果时间戳和文件大小完全一致,只有文件内容不同,且你没有使用-I选项的话,那么,rsync是不会进行数据同步的。 那么,提个问题:“因为在Linux的世界里,文件夹也是文件,如果这类文件(文件夹)也只有内容不同,而时间戳和文件大小都相同,rsync会发现么?” 实验大家可以自己动手做,结论在这里告诉大家: 对于文件夹,rsync是会明察秋毫的,只要你加了-r选项,它就会恪尽职守的进入到文件夹里去检查,而不会只对文件夹本身做 quick check 的。 -l 选项如果我们要同步一个软链接文件,你猜rsync会提示什么?
嗯,你猜对了,rsync又无情地拒绝了我们。它一旦发现某个文件是软链接,就会无视它,除非我们增加-l选项。
使用了-l选项后,rsync会完全保持软链接文件类型,原原本本的将软链接文件复制到目的端,而不会 follow link 到指向的实体文件。 如果我偏偏就想让rsync采取 follow link 的方式,那就用-L选项就可以了。你可以自己试试效果。 -p 选项这个选项的全名是 perserve permissions,顾名思义,就是保持权限。 如果你不使用此选项的话,rsync是这样来处理权限问题的: 如果目的端没有此文件,那么在同步后会将目的端文件的权限保持与源端一致; 如果目的端已存在此文件,那么只会同步文件内容,权限保持原有不变。 如果你使用了-p选项,则无论如何,rsync都会让目的端保持与源端的权限一致的。 -g 和 -o 选项这两个选项是一对,用来保持文件的属组(group)和属主(owner),作用应该很清晰明了。不过要注意的一点是,改变属主和属组,往往只有管理员权限才可以。 -D选项-D选项,原文解释是 preserve devices (root only),从字面意思看,就是保持设备文件的原始信息。由于博主没有实际体验过它的好处,所以没有太多发言权。 -a 选项-a选项是rsync里比较霸道的一个选项,因为你使用-a选项,就相当于使用了-rlptgoD这一坨选项。以一敌七,唯-a选项也。(在看了前文之后,你应该可以很轻松的理解这七个选项的作用了。) -a选项的学名应该叫做 archive option,中文叫做归档选项。使用-a选项,就表明你希望采取递归方式来同步,且尽可能的保持各个方面的一致性。 但是-a选项也有阿克琉斯之踵,那就是-a无法同步“硬链接”情况。如果有这方面需求,要加上-H选项。 -delete 选项如果源端没有此文件,那么目的端也别想拥有,删除之。 -delete选项必须和-r选项搭配使用。 -delete-excluded 选项专门指定一些要在目的端删除的文件。 -delete-excluded选项必须和-r选项搭配使用。 -delete-after 选项默认情况下,rsync是先清理目的端的文件再开始数据同步;如果使用此选项,则rsync会先进行数据同步,都完成后再删除那些需要清理的文件。 -delete-after选项必须和-r选项搭配使用。 -delete_before接收者在传输之前进行删除操作 这个可以用来快速删除海量文件 具体步骤如下: 1. 先创建一个空目录 mkdir /tmp/empty/ 2. 清空目标目录 rsync --delete-before -avH --progress --stats /tmp/empty/ /nas/data -n 选项看到这么多 delete,你是否有点肝颤? 的确,在rsync的官方说明里也有这么一句话:
It is a very good idea to run first using the dry run option (-n) to see what files would be deleted to make sure important files aren't listed. 从这句话里,我们学到了一个小技巧,那就是-n选项,它是一个吓唬人的选项,它会用受影响的文件列表来警告你,但不会真的去执行,这就让我们有了确认的机会和回旋的余地。我们看看实际用法吧:
-exclude 和 -exclude-from 选项如果你不希望同步一些东西到目的端的话,可以使用-exclude选项来隐藏,rsync还是很重视大家隐私的,你可以多次使用-exclude选项来设置很多的“隐私”。 如果你要隐藏的隐私太多的话,在命令行选项中设置会比较麻烦,rsync还是很体贴,它提供了-exclude-from选项,让你可以把隐私一一列在一个文件里,然后让rsync直接读取这个文件就好了。 -include 和 -include-from 选项 这两个选项的作用是:重新加入已经被-exclude或-exclude-from选项排除的文件。 -include选项可以被多次使用。-include-from选项用于指定文件中读取文件列表。 请注意 exclude 和 include 的先后顺序。先 exclude 再 include。 -partial 选项这就是传说中的断点续传功能。默认情况下,rsync会删除那些传输中断的文件,然后重新传输。但在一些特别情况下,我们不希望重传,而是续传。 我们在使用中,经常会看到有人会使用-P选项,这个选项其实是为了偷懒而设计的。以前人们总是要手动写-partial -progress,觉得太费劲了,倒不如用一个新的选项来代替,于是-P应运而生了。有些读者会问-partial我知道作用了,可-progress是干什么用的呢?为什么很多人要使用它呢,它有那么大的吸引力? 真有…… -progress 选项使用这个选项,rsync会显示出传输进度信息,有什么用呢,rsync给了一个很有意思的解释: This gives a bored user something to watch. 好了,写了这么多,大家看的已经很乏味了,去实际用用-progress解解闷,是个不错的选择。^_^
|
|