ApacheTika服务器：从office文档获取宏？

2024-10-04 07:36:34 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用Apache Tika作为服务来分析Python中的Office文档，如下所示：

url = 'http://{0}:{1}/rmeta/xml'
url = url.format(self._host, self._port)
res = requests.put(url, data=dat).json()

如果文档包含宏，我想从文档中提取宏的内容，但不知道如何执行。ApacheTika文档不是很好。我是否需要使用任何标题或其他东西来让Tika服务器返回宏内容以及文档内容

Tags：文档 self format http host url 内容 port

1条回答

网友

1楼 · 发布于 2024-10-04 07:36:34

据我所知，问题在于Tika默认情况下不会从Office文档中提取宏。为了做到这一点，我必须为Tika创建一个自定义配置文件，为在Tika中实现的两个Microsoft Office解析器启用extractMacros属性（我不知道它们是否使用POI或其他东西）。下面是一个如何执行此操作的示例：https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml