从拼花地板加载数据帧并计算RAM中的最大爆炸次数

x = dd.read_parquet(path + 'ohlcv_TRX-PERP_978627_rowgrouped.prq') x # Note: The dataframe has almost 2000 columns, I clipped them for here Dask DataFrame Structure: open h npartitions=978 2019-07-21 23:55:00 float64 floa 2019-07-22 16:35:00 ... ... ... 2021-05-30 17:06:00 ... 2021-05-31 03:32:00 ... Dask Name: read-parquet, 978 tasks

if __name__ == '__main__': client = Client(processes=False, memory_limit='5GB') x = dd.read_parquet(path + 'ohlcv_TRX-PERP_978627_rowgrouped.prq') print(x) s = x.max().compute() print(s) distributed.worker - WARNING - Memory use is high but worker has no data to store to disk. Perhaps some other process is leaking memory? Process memory: 24.13 GB -- Worker memory limit: 5.00 GB

1条回答

网友

1楼 · 发布于 2024-09-29 19:18:24

如果可能的话，我会将拼花地板保存到多个文件中（大小取决于您的硬件，但在笔记本电脑上，每个分区大约100-200 MB就可以了）。如果这不是一个选项，请尝试以下操作：

x.open.max(split_every=2).compute()

这样做的目的是要求dask计算每个分区的最大值，然后比较每2个分区的最大值，这样可以减少内存占用，但代价是要运行更多的任务。您可以使用split_every数字来查看硬件上是否可以容忍更高的值，但希望2可以工作

另外，如果您打算使用单个文件，那么使用vaex可能会获得更好的性能，请参见this comparison

相关问题更多 >

编程相关推荐

热门问题

热门文章