ApacheTika服务器:从office文档获取宏?

2024-10-04 07:36:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用Apache Tika作为服务来分析Python中的Office文档,如下所示:

url = 'http://{0}:{1}/rmeta/xml'
url = url.format(self._host, self._port)
res = requests.put(url, data=dat).json()

如果文档包含宏,我想从文档中提取宏的内容,但不知道如何执行。ApacheTika文档不是很好。我是否需要使用任何标题或其他东西来让Tika服务器返回宏内容以及文档内容


Tags: 文档selfformathttphosturl内容port
1条回答
网友
1楼 · 发布于 2024-10-04 07:36:34

据我所知,问题在于Tika默认情况下不会从Office文档中提取宏。为了做到这一点,我必须为Tika创建一个自定义配置文件,为在Tika中实现的两个Microsoft Office解析器启用extractMacros属性(我不知道它们是否使用POI或其他东西)。下面是一个如何执行此操作的示例:https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml

相关问题 更多 >