我试图从pyspark shell直接访问org.apache.hadoop.fs.FileUtil.unTar
。在
我知道我可以访问底层虚拟机(通过py4j)sc._jvm
来完成这项工作,但我很难真正连接到hdfs(尽管我的pyspark会话在其他方面完全正常,并且能够针对集群内的作业跨集群运行作业)。在
例如:
hdpUntar = sc._jvm.org.apache.hadoop.fs.FileUtil.unTar
hdpFile = sc._jvm.java.io.File
root = hdpFile("hdfs://<url>/user/<file>")
target = hdpFile("hdfs://<url>/user/myuser/untar")
hdpUntar(root, target)
不幸的是,这不起作用:
^{pr2}$
目前没有回答
相关问题 更多 >
编程相关推荐