为什么对于Dask数据帧，compute（）方法速度慢，而head（）方法速度快？

2条回答

网友

1楼 · 编辑于 2024-06-28 20:21:58

这将处理整个数据集

df.loc[1:5, 'enaging_user_following_count'].compute()

原因是，loc是一个基于标签的选择器，不知道在哪个分区中存在哪些标签（没有理由它们应该单调递增）。在索引格式良好的情况下，可能会有df.divisions的有用值，在这种情况下，Dask应该只能选择所需的数据分区

网友

2楼 · 编辑于 2024-06-28 20:21:58

半年前我就玩过这个了.head()不检查所有分区，只检查第一个分区。没有同步开销等，所以它相当快，但它没有考虑到整个数据集

你可以试试

df.loc[-251: , 'enaging_user_following_count'].head(250)

IIRC您应该获得第一个分区的最后250个条目，而不是实际的最后索引

如果你尝试类似的东西

df.loc[conditionThatIsOnlyFulfilledOnPartition3 , 'enaging_user_following_count'].head(250)

您得到的错误是head找不到250个样本

如果您实际上只想要前几个条目，那么它非常快：）