WPS Image Extractor

项目简介

WPS Image Extractor(WIE)是一款面向 Windows 平台的桌面应用,用于提取和管理 Microsoft Word 与 WPS Office 文档中的内嵌图片。

项目并不仅仅提供图片提取功能,而是围绕文档图片整理这一实际需求,将图片提取、缩略图浏览、筛选、去重、导出、删除以及文档定位等功能整合到统一的图形界面中,帮助用户完成完整的文档图片处理流程。

对于包含大量截图或插图的技术手册、配置文档、实施文档等场景,能够有效减少重复性的人工操作,提高图片整理效率。


开发背景

在处理大型 Office 文档时,经常需要从文档中批量提取图片,并进一步完成筛选、去重、导出或删除等操作。

传统方式通常需要在多个工具之间切换,不仅效率较低,也容易出现误操作。因此,本项目尝试将这些常见操作集中到同一应用中,使整个图片管理流程更加连贯、高效。


主要功能

  • 提取 .docx.docm.dotx 文档中的图片
  • 缩略图方式浏览文档中的所有图片
  • 图片预览与快速定位至 WPS Writer / Microsoft Word
  • 基于 MD5 的重复图片检测
  • 按文件名、MD5、文档部件及图片尺寸进行筛选
  • 批量导出所选图片
  • 删除文档中的图片,并自动生成备份文件
  • 导入、导出 MD5 过滤规则,实现过滤规则复用
  • 文档发生外部修改后自动重新加载,并尽可能保留当前浏览状态

技术实现

项目采用模块化设计,将文档解析、Office 自动化以及图形界面进行解耦,主要涉及以下技术:

  • Python
  • Tkinter
  • OOXML 文档解析
  • Windows COM 自动化
  • MD5 哈希
  • Nuitka 打包

适用场景

  • 从技术手册中批量提取截图
  • 清理文档中的重复图片
  • 批量导出文档插图
  • 快速定位图片在原文中的位置
  • 对大量文档图片进行浏览与筛选

项目地址

GitHub:

https://github.com/riverfind/WPS_IMAGE_EXTRACTOR


项目总结

(待补充)