个人搜索到当前读取doc文档的解决办法,就是通过win32com打开并转换为docx,再通过docx库读取内容。
但这其中有两个地方很容易出错,一个是打开,事实证明只有client.Dispatch('Word.Application')
可用。然后保存前一定要确保doc、docx是关闭的也就是不被占用,如果漏了加doc.Close()
,则会一直被挂在后台。
附上代码
import win32com.client
import os
import docxdef output_docx_content(docx_path):# 打开转换后的 .docx 文件doc = docx.Document(docx_path)# 遍历文档中的段落并输出内容for paragraph in doc.paragraphs:print(paragraph.text)# 遍历文档中的表格并输出内容for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text)def convert_doc_to_docx(doc_path):# 创建Word对象wps = win32com.client.Dispatch("word.Application")# 打开文档doc = wps.Documents.Open(doc_path)docxNamePath = doc_path + "x"print('转换中...')if os.path.exists(docxNamePath):print(f"File '{docxNamePath}'已存在.")doc.Close()return docxNamePathdoc.SaveAs(docxNamePath, 12)print('转换完成!' + docxNamePath)doc.Close()return docxNamePath# 使用示例
doc_path = r'D:\path\document.doc'
new_docx_path = convert_doc_to_docx(doc_path)output_docx_content(new_docx_path)