【实用脚本】 word文件转txt文件 – 码中人的博客

您所在的位置:网站首页 doc转换txt网站 【实用脚本】 word文件转txt文件 – 码中人的博客

【实用脚本】 word文件转txt文件 – 码中人的博客

2024-07-17 16:11| 来源: 网络整理| 查看: 265

File Converter - Convert & compress everything in 2 clicks!

File Converter is a very simple tool which allows you to convert and compress one or several file(s) using the context menu in windows explorer.

文件转换器(File Converter)是我非常喜欢的一个工具,它可以在Windows资源管理器中添加一个右键菜单,可以将文件转换为其他格式。比如,我经常将JPG/PNG的图片转成 WebP 格式,这样可以减少图片的大小,提高网页的加载速度。


但是,File Converter 并不支持将Word文档转成txt文件。因此,我写了一个 Python 脚本,临时将Word文档转成txt文件。希望对你有用。

word 格式


.doc:这是Microsoft Word的旧版文件格式,用于Microsoft Office 97-2003。它是二进制文件格式,包含了文档的所有元素(如文本、图像、表格等)和格式。

.docx:这是Microsoft Word 2007及以后版本的默认文件格式。它是基于XML的文件格式,比.doc文件更加紧凑、更有效率。.docx文件实际上是一个压缩文件,包含了多个目录和XML文件,这些文件描述了文档的结构和内容。


然而,.doc文件在旧版的Word软件中有更好的兼容性。如果你需要在没有安装最新版Microsoft Word的计算机上打开文件,可能需要使用.doc格式。




pypandoc · PyPI

pypandoc 是 Python 的一个库,可以用来调用 pandoc 命令行工具,将文件转换成其他格式。


在安装 pypandoc 之前,需要先安装 pandoc 命令行工具。

Releases · jgm/pandoc

这个 Pandoc 安装包还是挺大的,20~30MB,谁让它是“瑞士军刀”呢。

安装完 Pandoc 之后,就可以安装 pypandoc 了。

1 pip install pypandoc docx 转 txt

一行代码就可以将 docx 文件转成 txt 文件。

1 2 3 import pypandoc output = pypandoc.convert_file('some_docx_file.docx', 'plain', outputfile="somefile.txt") doc 转 docx

前面说过,word文档有两种格式,.doc 和 .docx。Pandoc 只支持 .docx 格式,不支持 .doc 格式。

Feature request: support .doc (old MS Word) format · Issue #5809 · jgm/pandoc

Pandoc 的作者说,支持 .doc 格式太麻烦了,It would be a ton of work。而且,.doc 格式转成 .docx 格式,是一件很容易的事情,只需要打开 .doc 文件,然后另存为 .docx 文件即可。

顺着这个思路,我们可以先将 .doc 文件转成 .docx 文件。这里,我们使用 win32com 模块来操作 Microsoft Word。

pywin32 是一个 Python 库,它提供了一些用于与 Windows 操作系统进行交互的工具和模块。这个库可以让你在 Python 程序中调用 Windows API,进行一些如操作文件、处理 Windows 事件、操作注册表等任务。例如,你可以使用 pywin32 来创建和操作 COM 对象,这在自动化 Office 应用程序(如 Word 或 Excel)时非常有用。

1 pip install pywin32


1 2 3 4 5 6 def doc_to_docx(doc_path): word = win32com.client.Dispatch('Word.Application') doc = word.Documents.Open(doc_path) docx_path = doc_path.replace('.doc', '.docx') doc.SaveAs(docx_path, FileFormat=16) # 16 是 .docx 格式的代码 doc.Close() 完整代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 import pypandoc import win32com.client import glob import argparse def docx_to_txt(file_path): pypandoc.convert_file(file_path, 'plain', outputfile=file_path.replace('.docx', '.txt')) def doc_to_docx(doc_path): word = win32com.client.Dispatch('Word.Application') doc = word.Documents.Open(doc_path) docx_path = doc_path.replace('.doc', '.docx') doc.SaveAs(docx_path, FileFormat=16) doc.Close() def get_word_files(folder_path, extension): return glob.glob(folder_path + '/*.' + extension) def main(folder_path): print("convert doc to docx") doc_files = get_word_files(folder_path, 'doc') for file_path in doc_files: print("Converting: " + file_path) doc_to_docx(file_path) print("convert docx to txt") docx_files = get_word_files(folder_path, 'docx') for file_path in docx_files: print("Converting: " + file_path) docx_to_txt(file_path) print("All done!") if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('-p', '--path', help='path to folder') args = parser.parse_args() print(args.path) main(args.path)




    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3