解析hdfs中的docx和pdf

2024-06-14 10:37:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我想解析/提取存储在hdfs中的pdf和docx文件中的内容。可用的python库(如docx2txt、pdfminer)在hdfs中不起作用。如果我尝试使用本机hdfs库读取,这些文件将给出二进制输出。有没有python库可以完成这样的任务?或者一种我们可以转换二进制文件来提取数据的方法。在


Tags: 文件数据方法内容pdf二进制hdfspdfminer