2024-09-28 16:19:54 发布
网友
我正在做一个项目,我必须和Pyspark一起工作。我的输入文件大约是32GB,由于我是pyspark的新手,我在处理所有数据时遇到了一些问题。在jupyter上上传输入文件的正常过程不起作用。使用JupyterHub处理此类问题的常用方法是什么?我已经尝试将数据文件拆分为几个较小的数据文件,但最后当我想要执行代码时,它就像永远加载一样。HDFS能解决这样的问题吗?还是有人有想法
提前谢谢
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐