分享

谈一谈|Word文档图片的提取

 算法与编程之美 2020-11-05

1 问题分析

docx格式的文件本质上是一个ZIP文件,因此一个docx文件的后缀改为zip后是可以用解压工具打开的。而将一个docx文件的后缀改为zip后就可以发现有一个文件夹储存了所有的Word文档图片。

   

1. 1更改文件后缀名

docx文件的后缀改为ZIP后:

1. 2 zip文件目录

可以看到一个固定的存放图片文件夹:/word/media/

1. 3图片存放目录

找到了图片存放的固定的路径,那么只需要修改文件后缀名,再将图片拷贝出来,最后把文件从zip改回docx即可。

2 实现代码

import zipfile

docx_path = "…"    # docx文件路径

image_path = "…"   # 图片存放路径

docx = zipfile.ZipFile(docx_path)

for info in docx.infolist():

    if  info.filename.endswith((".png", ".jpeg",  ".gif")):

         docx.extract(info.filename, image_path)

3 运行结果

原文件包含的图片:

3. 1原文件包含的图片

提取的图片:

3. 2提取的图片


END

主  编   |   王文星

责  编   |   雀   跃

能力越强,责任越大。实事求是,严谨细致。    

                                                  ——where2go 团队


微信号:算法与编程之美          

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多