2024-09-27 21:27:18 发布
网友
如何使用Dask将csv文件拆分为多个文件?在
下面的代码似乎只写入一个文件,这需要很长时间才能写出完整的内容。我相信写入多个文件会更快。在
import dask.dataframe as ddf import dask file_path = "file_name.csv" df = ddf.read_csv(file_path) futs = df.to_csv(r"*.csv", compute=False) _, l = dask.compute(futs, df.size)
我怀疑当你读df时,你得到的df.npartitions只是1。在
df
df.npartitions
1
import dask.dataframe as dd file_path = "file_name.csv" df = dd.read_csv(file_path) # set how many file you would like to have # in this case 10 df = df.repartition(npartitions=10) df.to_csv("file_*.csv")
但据我所知,这不是更快。在
我怀疑当你读
df
时,你得到的df.npartitions
只是1
。在但据我所知,这不是更快。在
相关问题 更多 >
编程相关推荐