2024-06-14 10:37:38 发布
网友
我想解析/提取存储在hdfs中的pdf和docx文件中的内容。可用的python库(如docx2txt、pdfminer)在hdfs中不起作用。如果我尝试使用本机hdfs库读取,这些文件将给出二进制输出。有没有python库可以完成这样的任务?或者一种我们可以转换二进制文件来提取数据的方法。在
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐