为什么达斯克读取拼花板文件的速度比Pandas读取相同拼花板文件的速度慢得多？

import pandas as pd import numpy as np import dask.dataframe as dd col = [str(i) for i in list(np.arange(40))] df = pd.DataFrame(np.random.randint(0,100,size=(5000000, 4 * 10)), columns=col) df.to_parquet('large1.parquet', engine='pyarrow') # Wall time: 3.86 s df.to_parquet('large2.parquet', engine='fastparquet') # Wall time: 27.1 s df = dd.read_parquet('large2.parquet', engine='fastparquet').compute() # Wall time: 5.89 s df = dd.read_parquet('large1.parquet', engine='pyarrow').compute() # Wall time: 4.84 s df = pd.read_parquet('large1.parquet',engine='pyarrow') # Wall time: 503 ms df = pd.read_parquet('large2.parquet',engine='fastparquet') # Wall time: 4.12 s

df.to_parquet('large1.parquet', engine='pyarrow') # Wall time: 9.67 s df.to_parquet('large2.parquet', engine='fastparquet') # Wall time: 33.3 s # read with Dask df = dd.read_parquet('large1.parquet', engine='pyarrow').compute() # Wall time: 34.5 s df = dd.read_parquet('large2.parquet', engine='fastparquet').compute() # Wall time: 1min 22s # read with pandas df = pd.read_parquet('large1.parquet',engine='pyarrow') # Wall time: 8.67 s df = pd.read_parquet('large2.parquet',engine='fastparquet') # Wall time: 21.8 s

1条回答

网友

1楼 · 发布于 2024-09-29 23:28:03

我的第一个猜测是Pandas将Parquet数据集保存到一个行组中，这将不允许Dask这样的系统并行化。这不能解释为什么它慢，但它确实解释了为什么它不快。在

为了获得更多信息，我建议您进行分析。您可能对本文档感兴趣：

https://docs.dask.org/en/latest/understanding-performance.html

相关问题更多 >

编程相关推荐

热门问题

热门文章