Python使用mammoth将docx转换为html:html,缺少head和body标记

2024-06-26 04:27:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用mammoth包将一个简单的docx文件转换为HTML文件。但生成的html似乎只包含完整html文件的一部分:html、head和body标记在生成的html字符串中都丢失了

我想知道是否有参数使HTML成为有效的HTML代码


Tags: 文件字符串代码标记参数htmlbodyhead
1条回答
网友
1楼 · 发布于 2024-06-26 04:27:12

我阅读了文档,还没有找到生成完整HTML的选项。由于生成的HTML只是一个sting,因此很容易使其完全兼容HTML:

import mammoth

with open("test.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value  # The generated HTML
    messages = result.messages  # Any messages,

    full_html = (
        '<!DOCTYPE html><html><head><meta charset="utf-8"/></head><body>'
        + html
        + "</body></html>"
    )

    with open("test.html", "w", encoding="utf-8") as f:
        f.write(full_html)

在上面的代码中,我们只是在前面加上必要的开始和结束标记,使html字符串成为有效的HTML源代码

相关问题 更多 >