大数据集Jupyter PypSpark

2024-09-28 16:19:54 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在做一个项目，我必须和Pyspark一起工作。我的输入文件大约是32GB，由于我是pyspark的新手，我在处理所有数据时遇到了一些问题。在jupyter上上传输入文件的正常过程不起作用。使用JupyterHub处理此类问题的常用方法是什么？我已经尝试将数据文件拆分为几个较小的数据文件，但最后当我想要执行代码时，它就像永远加载一样。HDFS能解决这样的问题吗？还是有人有想法

提前谢谢

0条回答

目前没有回答

编程相关推荐

Spring、JPA和hibernate的java问题
如何将JMC（Java任务控制）连接到ubuntu中的远程JVM？
java如何将eventListener的结果存储为对象？
java在安卓中，点击一个按钮，我如何停止发送循环中发送的消息
java打开活动中的电子邮件
使用velocity模板打印JasperReports
java无法在自定义信息窗口上拨号
java如何在jsonb postgresql中查询并转换为谓词JPA
java更好地理解J2EE环境中的异常和日志记录
java打印多个文件

大数据集Jupyter PypSpark

相关问题更多 >

编程相关推荐

热门问题

热门文章

大数据集Jupyter PypSpark

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >