作品展示:
背景需求:
把python实现docx表格文字和段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)合并在一起统计数量
【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读226次,点赞4次,收藏6次。【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136750032
【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读396次,点赞10次,收藏4次。【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136751324
素材准备——包含段落文字和表格文字
目测有
Word 文档中表格内共有 3 个 '\n' 手动换行符(软回车)。
Word 文档中表格内共有 1 个 <w:p> 段落标记(硬回车)。
Word 文档中段落内共有 3 个 '\ n' 手动换行符(软回车)。
Word 文档中段落内共有 2 个 <w:p> 段落标记(硬回车)。
结果验证数量正确
然后把word段落里的手动换行符和word表格里的手动换行符都变成段落标记符号(合并)
全部代码
'''
了解在Python里docx表格里、段落里分别有几个手动换行符(软回车),有几个段落标记符号(硬回车)
作者:AI 对话大师、百度AI对话
时间:2024年3月16日
'''from docx import Document# 表格里的doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')# 初始化换行符计数器
soft_newline_count_in_tables = 0
hard_newline_count_in_tables = 0# 遍历文档中的所有表格
for table in doc.tables:for row in table.rows:for cell in row.cells:# 遍历单元格中的每个段落for paragraph in cell.paragraphs:# 遍历段落中的每个文本运行for run in paragraph.runs:# 统计文本运行中软回车(换行符)的数量soft_newline_count_in_tables += run.text.count("\n")# 段落结束,增加一个硬回车的计数(包括表格单元格中的段落)hard_newline_count_in_tables += 1# 打印统计结果
print(f"Word 文档中表格内共有 {soft_newline_count_in_tables} 个 '\\n' 手动换行符(软回车)。")
print(f"Word 文档中表格内共有 {hard_newline_count_in_tables} 个 <w:p> 段落标记(硬回车)。")# 段落里的
# 初始化换行符计数器
newline_count = 0
p_count = 0# 遍历文档中的每个段落,统计换行符数量
for paragraph in doc.paragraphs:for run in paragraph.runs:# 统计每个文本运行中换行符的数量newline_count += run.text.count("\n")if paragraph._element is not None and paragraph._element.tag.endswith('p'):p_count += 1print(f"Word 文档中段落内共有 {newline_count} 个 '\ n' 手动换行符(软回车)。")
print(f"Word 文档中段落内共有 {p_count} 个 <w:p> 段落标记(硬回车)。")'''
word表格文字和段落里里的手动换行符变成段落标记 (docx表格)
作者:AI对话大师、百度AI对话
时间:2024年3月15日
'''
from docx import Document
from docx.shared import Pt# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')# 用于保存要删除的单元格
cells_to_delete = []
# 用于保存要删除的段落
paragraphs_to_delete = []# 遍历文档中的所有表格
for table in doc.tables:for row in table.rows:for cell in row.cells:# 查找单元格中的软回车(\n)if '\n' in cell.text:# 分割单元格文本,找到软回车的位置texts = cell.text.split('\n')# 清空原始单元格文本cell.text = texts[0]# 在软回车的位置插入新的段落for text in texts[1:]:new_paragraph = cell.add_paragraph(text)new_paragraph.style = cell.paragraphs[0].style # 保留原始样式# 删除原来的单元格文本中的软回车
for cell in cells_to_delete:cell.text = cell.text.replace('\n', '')# 遍历文档中的所有段落
for paragraph in list(doc.paragraphs): # 查找段落中的软回车(\n)if '\n' in paragraph.text:# 分割段落文本,找到软回车的位置texts = paragraph.text.split('\n')# 首先处理第一个文本块paragraph.text = texts[0]# 在软回车的位置插入新的段落for text in texts[0:]:new_paragraph = paragraph.insert_paragraph_before(text)new_paragraph.style = paragraph.style # 保留原始样式# 将原始段落添加到待删除列表中paragraphs_to_delete.append(paragraph)# 删除原来的段落
for paragraph in paragraphs_to_delete:paragraph._element.getparent().remove(paragraph._element)doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\234.docx')