如何访问org.apache.hadoop.fs.FileUtil文件来自Pypark?

2024-09-28 20:56:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从pyspark shell直接访问org.apache.hadoop.fs.FileUtil.unTar。在

我知道我可以访问底层虚拟机(通过py4j)sc._jvm来完成这项工作,但我很难真正连接到hdfs(尽管我的pyspark会话在其他方面完全正常,并且能够针对集群内的作业跨集群运行作业)。在

例如:

hdpUntar = sc._jvm.org.apache.hadoop.fs.FileUtil.unTar
hdpFile = sc._jvm.java.io.File

root    = hdpFile("hdfs://<url>/user/<file>")
target  = hdpFile("hdfs://<url>/user/myuser/untar")

hdpUntar(root, target)

不幸的是,这不起作用:

^{pr2}$

Tags: orghadoopapache作业集群roothdfsjvm