分享

用Python读写word文档

 horkss 2019-03-24
2018年04月05日 13:21:53 只读课堂 阅读数:1178

Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。

这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。

1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档

  1. #coding:utf-8
  2. import docx
  3. #新建文档
  4. doc_new = docx.Document()
  5. #读取文档
  6. doc = docx.Document(ur'C:\1.docx')

2、保存文件。有打开,就有保存。用Document类的save方法,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。

doc.save(path_or_stream)

3、对象集合。python-docx包含了word文档的相关对象集合。

  1. doc.paragraphs #段落集合
  2. doc.tables #表格集合
  3. doc.sections #节 集合
  4. doc.styles #样式集合
  5. doc.inline_shapes #内置图形 等等...

4、插入段落。段落是word最基本的对象之一。

  1. doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”
  2. #默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式
  3. doc.add_paragraph(u'第二段',style='Heading 2')
  4. #这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
  5. print [s.name for s in doc.styles if s.type==1]

5、新增样式。这个帮助文档里面说得不仔细,而且还是英文的。我手头上的项目用到这个,就自己琢磨出怎么使用,如下。

  1. #coding:utf-8
  2. from docx import Document
  3. from docx.shared import RGBColor #这个是docx的颜色类
  4. #新建文档
  5. doc = Document()
  6. #新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)
  7. style = doc.styles.add_style('style name 1', 2)
  8. #设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)
  9. style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)

6、应用字符样式。字符自然是在段落里面的,可以采用下面方法给段落追加文字和设置字符样式。

  1. #插入一个空白段落
  2. p = doc.add_paragraph('')
  3. p.add_run('123', style="Heading 1 Char")
  4. p.add_run('456')
  5. p.add_run('789', style="Heading 2 Char")
  6. #这样一个段落就应用了两个字符样式,中间“456”就没应用样式
  7. print p.text #输出结果是u'123456789' 也还是连续的

7、设置字体。当然可以不用通过设置样式对某些字进行设置,也可以直接设置。

  1. p = doc.add_paragraph('')
  2. r = p.add_run('123')
  3. r.font.bold = True #加粗
  4. r.font.italic = True #倾斜 等等...

8、表格操作。表格也是经常用到的一种对象类型。

  1. #新建一个2x3的表格,style可以不写
  2. table=doc.add_table(rows=2,cols=3,style=None)
  3. #可以用table 的rows和columns得到这个表格的行数和列数
  4. print len(table.rows)
  5. print len(table.columns)
  6. #遍历表格
  7. for row in table.rows:
  8. row.cells[0].text = '1'
  9. #print row.cells[0].text
  10. #新增行或列
  11. table.add_row()
  12. table.add_column()

Word常见操作差不多就是这些。大家可以查看帮助文档,也可以用dir和help查看对象的方法属性和帮助。

下面的例子可以运行于任何平台(PC、Mac、树莓派……)。但是,如果想看到产生的文档,你还是需要一个能打开Office文档的应用。没有安装微软Office的话,其他替代软件比如AbiWord、OpenOffice、WPS之类的都可以。

首先安装python-docx这个Python库

$ pip install python-docx -U

(注意,在PyPi里还有一个叫docx的库,已经停止更新,不建议使用)

这个库依赖于lxml,在Windows下可能需要编译器。如果在安装python-docx过程中发现找不到编译器或者编译lxml错误的现象,可到 https://pypi.python.org/pypi/lxml/2.3/下载和安装预编译的版本。

只需要4行代码就可以创建一个Word文档:

  1. from docx import Document
  2. document = Document()
  3. document.add_paragraph('Hello,Word!')
  4. document.save('demo.docx')

第一行引入docx库和Document类。Document类即代表了『文档』,第二行创建了Document类的一个实例document,相当于『这篇文档』。紧接着,我们在文档中利用add_paragraph函数添加一个段落,段落的内容是Hello,Word!。最后,用save函数将文档保存在磁盘上。

运行这个脚本,就得到了文件demo.docx。用Office软件打开,看看里面的内容。

下面一个任务是在一个Word文档里添加255个圆圈,颜色为红色由浅入深。显然,这个任务在Word里人工完成是非常麻烦的。但用代码就非常简单了。

  1. from docx import Document
  2. from PIL import Image,ImageDraw
  3. from io import BytesIO
  4. document = Document() #新建文档
  5. p = document.add_paragraph() #添加一个段落
  6. r = p.add_run() #添加一个游程
  7. img_size = 20
  8. for x in range(255):
  9. im = Image.new("RGB", (img_size,img_size), "white")
  10. draw_obj = ImageDraw.Draw(im)
  11. draw_obj.ellipse((0,0,img_size-1,img_size-1), fill=255-x)#画圆
  12. fake_buf_file = BytesIO()#用BytesIO将图片保存在内存里,减少磁盘操作
  13. im.save(fake_buf_file,"png")
  14. r.add_picture(fake_buf_file)#在当前游程中插入图片
  15. fake_buf_file.close()
  16. document.save("demo.docx")


画图我们利用了常用的PIL库。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多