从PPT到Word,用Python轻松实现办公自动化
作者 | 陈熹 来源 | 早起Python(ID:zaoqi-python) 大家好,又到了 Python 办公自动化系列。 在之前的自动化系列文章中,我们分别讲过如何使用 Python 将 Word 中表格信息批量提取至 Excel,也讲过如何将多个 Excel 表格汇总至 Word,今天继续讲解如何将文字从 PPT 中提取出来并写入 Word,主要将涉及如何使用 python-pptx 和 python-docx 交互操作 word 和 ppt 文件! 本文依旧来源于真实的办公自动化需求! 需求说明 有一份如图所示的 ppt,包含了 Python 的介绍。现在需要将 PPT 中的文字都提取出来并写入 Word 中,如下图: 涉及知识 代码实际上非常简单,基于 python-pptx 和 python-docx 两个模块即可,核心代码只有 6 行。但需要先熟悉 PPT 和 Word 两种文件的格式,可通过下面的图解对 Word 结构有个直观认识。 不考虑表格图片等情况,一个纯文字组成的 Word 文档由文档 document-段落 paragraph-文字块 run 三级结构组成。再看一下 ppt 结构组成,会较 Word 复杂许多。当然这也跟 PPT 的高度自定义拓展性有关。 简单来说,一个 PPT 文件为 presentation,基本的结构为展示 文件