位于https://github.com/chrismattmann/tika-python的文档中出色的lib tika python表明可以设置tika_服务器.jar文件,以避免每次使用算法下载。有人这样做,可以张贴配置吗?你知道吗
首次使用该算法时,tika_服务器.jar以便lib可以使用它。我想通过在本地设置文件来避免此下载。你知道吗
def extraiPDF(f):
resultado = []
tika.TikaClientOnly = True
raw = parser.from_file(f)
metadados = raw["metadata"]
conteudo = raw["content"]
conteudo = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
resultado.append(conteudo)
resultado.append(metadados)
return resultado
目前没有回答
相关问题 更多 >
编程相关推荐