2024-10-04 07:36:34 发布
网友
我使用Apache Tika作为服务来分析Python中的Office文档,如下所示:
url = 'http://{0}:{1}/rmeta/xml' url = url.format(self._host, self._port) res = requests.put(url, data=dat).json()
如果文档包含宏,我想从文档中提取宏的内容,但不知道如何执行。ApacheTika文档不是很好。我是否需要使用任何标题或其他东西来让Tika服务器返回宏内容以及文档内容
据我所知,问题在于Tika默认情况下不会从Office文档中提取宏。为了做到这一点,我必须为Tika创建一个自定义配置文件,为在Tika中实现的两个Microsoft Office解析器启用extractMacros属性(我不知道它们是否使用POI或其他东西)。下面是一个如何执行此操作的示例:https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml
据我所知,问题在于Tika默认情况下不会从Office文档中提取宏。为了做到这一点,我必须为Tika创建一个自定义配置文件,为在Tika中实现的两个Microsoft Office解析器启用extractMacros属性(我不知道它们是否使用POI或其他东西)。下面是一个如何执行此操作的示例:https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml
相关问题 更多 >
编程相关推荐