使用pythondocx读取.docx,保留特殊字符、项目符号

2024-09-25 00:27:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在python中批量操作许多.docx格式的microsoftword文档。在

下面的代码实现了我所需要的,只是它丢失了我想保留的特殊字符,比如右箭头符号和项目符号。在

import docx

def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return fullText

getText('example.docx')

Tags: 项目代码文档doc格式符号批量箭头
1条回答
网友
1楼 · 发布于 2024-09-25 00:27:39

python-pptx中的Paragraph.text属性以字符串形式返回段落中的纯文本。这是一个非常普遍的要求。在

项目符号或一般的编号列表(项目符号是其中的一种类型)不会反映在段落的文本中,即使在屏幕上可能是这样。这类事情将是段落的附加属性。在

可以应用项目符号的一种方法是使用“列表项目符号”样式。段落样式在Paragraph.style上可用。在

这里的文档是您了解这些和其他详细信息的朋友,尤其是《用户指南》部分中的11个主题:
http://python-docx.readthedocs.io/en/latest/

相关问题 更多 >