分享

shutil:更优雅地拷贝文件

 古明地觉O_o 2022-12-08 发布于北京

楔子


shutil 是一个 Python 内置模块,该模块对文件的复制、删除和压缩等操作都提供了非常方便的支持。

下面来详细介绍一下该模块的用法。


chown:更改指定路径的所有者用户(组)


函数原型:

shutil.chown(path, user=None, group=None)

参数含义如下:

  • path:指定要操作的路径;

  • user:指定所有者,可以是系统用户名或者 UID,如果用户不存在则报错 "没有此用户";

  • group:表示组

该方法只适用于 Unix 系统,下面演示一下。

>>> import shutil
>>> import pwd # Unix
>>> import os
>>> 
>>> uid = os.stat("/home/lighthouse").st_uid
>>> pwd.getpwuid(uid)
pwd.struct_passwd(pw_name='lighthouse'
                  pw_passwd='x'
                  pw_uid=1000
                  pw_gid=1000
                  pw_gecos=''
                  pw_dir='/home/lighthouse'
                  pw_shell='/bin/bash')

# 将所有者改成 root
>>> shutil.chown("/home/lighthouse", user="root")
# 再次查看,发现所有者已经被修改了
>>> uid = os.stat("/home/lighthouse").st_uid
>>> pwd.getpwuid(uid)
pwd.struct_passwd(pw_name='root'
                  pw_passwd='x'
                  pw_uid=0
                  pw_gid=0
                  pw_gecos='root'
                  pw_dir='/root'
                  pw_shell='/bin/bash')

copy:复制文件


copy 函数可以将一个文件复制为另一个文件。

函数原型:

shutil.copy(src, dst, *, follow_symlinks=True)

参数含义如下:

  • src:文件的路径,注意:必须是文件,如果是目录则报出权限错误;

  • dst:文件或目录的路径,如果是一个已经存在的目录,那么会将 src 拷贝到该目录中;否则会创建相应的文件;

  • follow_symlinks:表示是否遵循符号链接,默认为 True。如果为 True 则复制文件,为 False、并且 src 为软连接,则创建一个新的软连接;

该函数会返回目标路径,即新创建的文件的路径。

import shutil

shutil.copy("1.txt""test")

如果 test 存在并且是目录,那么将 1.txt 拷贝到 test 目录中;如果 test 不存在,那么创建一个名为 test 的文件,内容和 1.txt 一致;如果 test 存在并且不是目录,那么会把已存在的 test 文件覆盖掉,此时需要具备对 test 的写权限,否则会报出权限错误:PermissionError。

另外使用 copy 复制文件时,文件的元信息(创建时间、修改时间)不会被保留,相当于创建了新文件。如果要保留文件的元信息,需要使用 copy2 函数(和 copy 函数用法一致,区别就是前者不保留文件元信息、后者会保留)。


copyfile:复制文件

参数和 copy、copy2 完全一致,只不过 copyflle 的 dst 如果已存在,那么必须是文件。

# 如果 test 存在并且是目录,会报错
# PermissionError: [Errno 13] Permission denied: 'test'
shutil.copyfile("1.txt""test")

# 如果 test 不存在
# 那么会创建一个名为 test 的文件,内容和 1.txt 一致
# 如果 test 存在并且不是目录,那么会把原来的文件覆盖掉
shutil.copyfile("1.txt""test")

比较简单,可以自己试一下,所以 copy 要比 copyfile 更高级一些。copyfile 要求 dst 存在时必须是文件,而 copy 则允许 dst 是目录,会自动将文件拷贝到目录中。

使用 copyfile 同样需要写权限,并且 src 和 dst 不能是同一个文件,否则会报错:SameFileError。

除了 copyfile 之外,还有一个更加低级的 copyfileobj。copyfileobj 也是拷贝,接收三个参数:fsrc、fdst、length,前两个参数和 copy 类似,只不过 fsrc 和 fdst 都必须是打开的文件对象,从名字上也能看出。至于第三个参数 length 表示缓冲区,默认是 16 * 1024 字节,如果为负数代表不走缓冲区,而是直接复制

import shutil
from io import StringIO

buf1 = StringIO()
buf2 = StringIO()

# buf1 里面写入一些内容
buf1.write("古明地觉")
# 调整指针,移到开头,否则读取不到内容
buf1.seek(0)
# 将 buf1 的内容拷贝到 buf2 中
shutil.copyfileobj(buf1, buf2)
# 查看 buf2 的内容
print(buf2.getvalue())  # 古明地觉

虽然 copyfileobj 比较低级,但是它的速度也更快。当复制大文件时,采用 copyfileobj 会更有效率,复制小文件则使用 copyfile 会更方便一些。


copymode:复制权限位

参数和 copy 函数也完全相同,只不过它是将一个文件的权限复制给另一个文件。比如 A 文件是只读,那么复制给 B 之后 B 也是只读,但是 A 的内容不会复制给 B,因为 copymode 只是复制权限。

除了 copymode 还有一个 copystat,参数也是一样的,只不过它除了复制权限之外还复制最后访问时间、最后修改时间等元信息,可以自己试一下这两个函数。


copytree:递归复制整个目录树

copytree 方法可以递归复制整个目录,并返回目标目录的路径,函数原型如下:

def copytree(src, dst, symlinks=False, 
             ignore=None, copy_function=copy2,
             ignore_dangling_symlinks=False, 
             dirs_exist_ok=False)
:

    ...

参数含义如下:

  • src:表示路径的字符串,必须是一个已存在的目录,不能是文件;

  • dst:表示路径的字符串,必须是一个不存在的目录,否则报错:FileExistsError;

  • symlinks:是否遵循符号链接,默认为 True。如果为 True,表示复制文件,如果为 False,那么当 src 为软连接时,则创建一个新的软连接;

  • ignore:在复制的时候,用于过滤某些文件;

  • copy_function:从默认值可以看出,表示拷贝函数,这里采用的是 copy2,会将文件的元信息也一块拷过去;

  • ignore_dangling_symlinks:是否忽略 symlinks,如果值为 True 则忽略,值为 False,那么当文件不存在时则产生异常。对于不支持 os.symlink() 的平台,此参数无任何影响;

举个例子:

import shutil

# 将 dir1 拷贝为 dir2
shutil.copytree("dir1""dir2")

# 将 dir1 拷贝为 dir3,同时忽略掉 .txt 结尾的文件
shutil.copytree("dir1""dir3"
                ignore=shutil.ignore_patterns("*.txt"))

disk_usage:获取磁盘的使用情况

该函数接收一个参数 path,会自动获取该路径所在磁盘的使用情况:总空间、已使用空间和空闲空间,以字节为单位。

import shutil

disk = shutil.disk_usage("/")
print(disk)
"""
usage(total=494384795648, used=71737876480, free=422646919168)
"""

print(disk.total / 1024 / 1024 / 1024)
print(disk.used / 1024 / 1024 / 1024)
print(disk.free / 1024 / 1024 / 1024)
"""
460.4317207336426
66.81110382080078
393.6206169128418
"""

关于获取磁盘信息,之前还介绍过一个模块叫 psutil。


get_archive_formats:获取支持的压缩格式

一会要介绍文件压缩,所以先来看看都支持哪些压缩格式。

import shutil
from pprint import pprint

pprint(shutil.get_archive_formats())
"""
[('bztar', "bzip2'ed tar-file"),
 ('gztar', "gzip'ed tar-file"),
 ('tar', 'uncompressed tar file'),
 ('xztar', "xz'ed tar-file"),
 ('zip', 'ZIP file')]
"""

既然有压缩,那么就有解压缩,get_unpack_formats 函数可以返回当前系统支持的解压缩格式列表:

import shutil
from pprint import pprint

pprint(shutil.get_unpack_formats())
"""
[('bztar', ['.tar.bz2', '.tbz2'], "bzip2'ed tar-file"),
 ('gztar', ['.tar.gz', '.tgz'], "gzip'ed tar-file"),
 ('tar', ['.tar'], 'uncompressed tar file'),
 ('xztar', ['.tar.xz', '.txz'], "xz'ed tar-file"),
 ('zip', ['.zip'], 'ZIP file')]
"""

get_terminal_size:获取终端窗口的大小

get_terminal_size 函数可以获取终端窗口的大小。

import shutil

print(shutil.get_terminal_size())
"""
os.terminal_size(columns=80, lines=24)
"""

系统如果不支持查询,或者未连接到终端,那么默认返回 80, 24。


make_archive:创建压缩文件

通过 make_archive 可以创建压缩文件,函数原型如下:

def make_archive(base_name, format, root_dir=None, 
                 base_dir=None, verbose=0, dry_run=0
                 owner=None, group=None, logger=None)
:

    ...

参数含义如下:

  • base_name:表示生成的压缩文件的名称(不包含扩展名),也可以是完整路径。如果只写文件名则保存到当前目录,否则保存到指定路径;

  • format:表示压缩包格式,如 zip、tar、bztar、gztar 等,会根据 format 生成扩展名并拼接到 base_name 后面;

  • root_dir:表示要压缩的目录路径,默认是当前目录;

  • base_dir:表示要压缩的目录路径,默认为当前目录;那么问题来了,它和 root_dir 之间有什么区别呢?假设我们要对 dir1 目录进行压缩,压缩后的文件名是 xx.zip。如果指定的是 root_dir="dir1",那么 xx.zip 解压之后得到的目录的名字为 xx;如果指定的是 base_dir="dir1",那么 xx.zip 解压之后得到的目录的名字仍是 dir1。当然不管目录名是 xx 还是 dir1,里面存储的内容不变,这两个参数我们指定一个即可;

  • verbose:已弃用;

  • dry_run:表示是否创建存档,如果 dry_run 为 True,则不会创建存档,但会将执行的操作记录到 logger;

  • owner:可选参数,用于指定用户,默认为当前用户;

  • group:可选参数,用于指定组,默认为当前组;

  • logger:用于记录日志,通常为 logging.Logger 对象;

make_archive 函数依赖于 zipfile 和 tarfile 模块。

import shutil

shutil.make_archive("xx""zip",  root_dir="dir1")

之后会在当前目录中出现一个 xx.zip,目录 "dir1" 里面的所有内容都会被压缩到里面。

有压缩,那么自然有解压缩:

shutil.unpack_archive(filename, extract_dir=None, format=None)
"""
filename: 解压缩文件的路径
extract_dir: 解压到哪个目录,未指定则解压到当前目录
format: 压缩文件的格式,如:zip、bztar、gztar 等等
        如果没有提供,那么根据压缩文件的扩展名进行推断
"""

该方法同样依赖于 zipfile 和 tarfile 两个模块。


move:移动文件和目录

move 函数用于将文件或目录移动到目标目录,如果移动到了不同的文件系统中,那么移动将会变成复制。这里我们考虑同一个文件系统即可,想拷贝的话,建议使用 copy 函数。下面看一下 move 函数的用法:

import shutil

"""
src: 源文件或目录
dst: 路径不存在相当于重命名,存在则进行移动
copy_function:默认是 copy2
"""

# dir22 不存在,所以相当于将 dir2 重命名为 dir22
shutil.move("dir2""dir22")

# dir3 存在,所以会将 dir22 移动到 dir3 中
shutil.move("dir22""dir3")

当 dst 不存在时,无论 src 是文件还是目录,都相当于重命名。如果 dst 存在并且是目录,那么 src 无论是文件还是目录,都会被移动到 dst 里面去。如果 dst 存在并且是文件,那么 src 必须也是一个文件,此时相当于覆盖,可以理解为先删除 dst、再将 src 重命名为 dst。


rmtree:删除整个目录树

rmtree 函数用于删除整个目录树,参数如下:

  • path:表示路径的字符串,必须是一个目录,不能是文件;

  • ignore_errors:默认为 False,表示是否忽略删除中出现的错误。如果为 True 表示忽略、为 False 表示不忽略;

  • onerror:一个错误处理函数,出现异常时自动调用,并且会往里面传递三个参数:os.lstat、path(路径)、excinfo(返回的异常信息)。如果 onerror 被省略,那么当发生错误时会给出提示;

import os
import shutil

print(os.access("dir3", os.F_OK))  # True
shutil.rmtree("dir3")
print(os.access("dir3", os.F_OK))  # False

which:获取可执行文件的路径

我们在终端中输入 python 的时候会自动进入交互式解释器,这是因为在环境变量中配置了 python 解释器的路径,而通过 which 函数可以获取相应的路径。该函数接收的参数如下:

  • cmd:相关命令;

  • mode:用于指定需要传递的权限掩码,默认为 os.F_OK | os.X_OK,表示测试路径是否存在、并且是否可执行;

  • path:默认为 None,表示查找 cmd 命令的路径。如果不指定则在环境变量中查找,指定了则在指定的路径参数中查找。但是注意:不管该参数有没有指定,当前目录始终会被添加到搜索路径中;

import shutil

print(shutil.which("python"))  # /usr/bin/python
print(shutil.which("gcc"))  # /usr/bin/gcc
print(shutil.which("xxxxx"))  # None

如果找不到的话,返回 None。


小结

以上就是 shutil 的一些用法,在工作中不妨多使用一下。尤其是涉及文件拷贝的时候,真的非常方便。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多