如何从tikapython lib设置TIKA\u SERVER\u端点

2024-10-03 06:23:43 发布

您现在位置:Python中文网/ 问答频道 /正文

位于https://github.com/chrismattmann/tika-python的文档中出色的lib tika python表明可以设置tika_服务器.jar文件,以避免每次使用算法下载。有人这样做,可以张贴配置吗?你知道吗

首次使用该算法时,tika_服务器.jar以便lib可以使用它。我想通过在本地设置文件来避免此下载。你知道吗

从PDF提取文本

def extraiPDF(f):
    resultado = []
    tika.TikaClientOnly = True
    raw = parser.from_file(f)
    metadados = raw["metadata"]
    conteudo  = raw["content"] 
    conteudo  = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
    resultado.append(conteudo)
    resultado.append(metadados)
    return resultado

Tags: 文件httpsgithub服务器com算法rawlib