大数据集Jupyter PypSpark

2024-09-28 16:19:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个项目,我必须和Pyspark一起工作。我的输入文件大约是32GB,由于我是pyspark的新手,我在处理所有数据时遇到了一些问题。在jupyter上上传输入文件的正常过程不起作用。使用JupyterHub处理此类问题的常用方法是什么?我已经尝试将数据文件拆分为几个较小的数据文件,但最后当我想要执行代码时,它就像永远加载一样。HDFS能解决这样的问题吗?还是有人有想法

提前谢谢