如何从docx文件Python中提取元数据

2024-10-02 22:29:12 发布

您现在位置:Python中文网/ 问答频道 /正文

如何从docx文件中提取元数据(例如,FileSize、FileModifyDate、FileAccessDate)


Tags: 文件数据docxfilesizefileaccessdatefilemodifydate
1条回答
网友
1楼 · 发布于 2024-10-02 22:29:12

您应该使用Python-Docx。pythondocx有一个方法core_properties,您可以使用它。此方法提供了15个元数据属性,如author、category等。请参阅下面的代码,将一些元数据提取到python字典中-

import docx

def getMetaData(doc):
    metadata = {}
    prop = doc.core_properties
    metadata["author"] = prop.author
    metadata["category"] = prop.category
    metadata["comments"] = prop.comments
    metadata["content_status"] = prop.content_status
    metadata["created"] = prop.created
    metadata["identifier"] = prop.identifier
    metadata["keywords"] = prop.keywords
    metadata["language"] = prop.language
    metadata["modified"] = prop.modified
    metadata["subject"] = prop.subject
    metadata["title"] = prop.title
    metadata["version"] = prop.version
    return metadata

doc = docx.Document(file_path)
metadata_dict = getMetaData(doc)

相关问题 更多 >