如何使用Das将csv拆分为多个csv文件

2024-09-27 21:27:18 发布

您现在位置:Python中文网/ 问答频道 /正文

如何使用Dask将csv文件拆分为多个文件?在

下面的代码似乎只写入一个文件,这需要很长时间才能写出完整的内容。我相信写入多个文件会更快。在

import dask.dataframe as ddf
import dask
file_path = "file_name.csv"
df   = ddf.read_csv(file_path)
futs = df.to_csv(r"*.csv", compute=False)
_, l = dask.compute(futs, df.size)

Tags: 文件csvpath代码import内容dataframedf
1条回答
网友
1楼 · 发布于 2024-09-27 21:27:18

我怀疑当你读df时,你得到的df.npartitions只是1。在

import dask.dataframe as dd

file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")

但据我所知,这不是更快。在

相关问题 更多 >

    热门问题