dask将数据帧导出到远程存储(S3)

2024-06-25 07:18:02 发布

您现在位置:Python中文网/ 问答频道 /正文

使用时

dask_df.to_csv('s3://mybucket/mycsv.csv')

我得到一个错误,我应该安装s3fs

我确实在workers中安装了它(使用client.run()),但仍然得到了错误

所以我在我的机器上本地安装了s3fs,然后它就可以工作了。
但这是否意味着数据首先发送到我的机器,然后才导出到S3?而不是只在集群中处理

我还得到了KilledWorker个错误。导出由dd.concat()生成的两个dask数据帧组成


Tags: csvto数据runclient机器dfs3
1条回答
网友
1楼 · 发布于 2024-06-25 07:18:02

But does it means that the data is first sent to my machine and only then exported to S3? Instead of being only processed in the cluster?

不,这只是意味着您的客户机进程还需要与S3对话,以便进行设置

一般来说,工作人员和客户端进程上的软件环境应该是相同的

相关问题 更多 >