在Jupyter笔记本电脑(Conda安装)中保存PySpark上的文件不起作用,但在scala shell中起作用

2024-05-08 22:34:31 发布

您现在位置:Python中文网/ 问答频道 /正文

这与这个问题直接相关:Spark & Scala: saveAsTextFile() exception

当我试图将数据帧保存到csv中时,我也会遇到同样的错误,但在使用PySpark时,Jupyter笔记本中出现了问题,而不是spark shell中的问题。我创建了一个非常简单的csv来加载并立即保存(我可以使用show完整地显示它),但是当我试图保存它时,我得到了UnverifiedLink错误

我遵循了上述问题中的所有建议,但没有一个有帮助。但是,当我尝试使用spark shell在CMD中加载相同的csv时,一切正常

我使用Anaconda(Py 3.8)安装的Jupyter中的PySpark似乎也无法识别HADOOP_HOME环境变量,我必须使用以下工具手动设置它:

import os
os.environ['HADOOP_HOME'] = "C:\\apps\\hadoop-2.7.3"

我已经尝试了在Stack上可以找到的所有建议,但我不明白为什么它可以在spark shell中工作,而不能在笔记本的PySpark中工作。我能够从powershell运行hadoop也没有问题