如何将dask数据帧的所有部分合并到一起

2024-10-05 10:21:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个sales DataFrame,它有2800万行,还有一些其他数据帧以及一个示例a ProductDataFrame。在

当我第一次将pandas数据帧转换为Dask数据帧时:

  sales_dd = dd.from_pandas(Sales, npartitions=3) #28M rows
  product_dd = dd.from_pandas(Product, npartitions=3) #600 rows

在转换Dask Dataframe之后,我可以使用

^{pr2}$

在我尝试合并这两个dask数据帧之后:

productsales = dd.merge(sales_dd, product_dd, on='ProductNo', how='left')

当我检查最后一个数据帧时

productsales.tail()



               Date    ProductNo    Total_Sales   x     y     z  ....
9440495     20171202       579        5.0         .     .     .
9440496     20171017       581        2.0         .     .     .
9440497     20160906       519        9.0
9440498     20160628       544        10.0        .     .     .
9440499     20170907       574        0.0         .     .     .

我们可以看到productsales表只有900k行。在

我的问题是如何将所有数据帧合并在一起?我不必分文吗?最快的方法是什么?在

提前谢谢


Tags: 数据from示例dataframepandasproductdddask
1条回答
网友
1楼 · 发布于 2024-10-05 10:21:24

左边的数字索引不一定给出行数,它是dataframe的索引值,它可以保存除简单递增索引之外的其他值。在

相反,我建议计算数据帧的长度

>>> len(df)

相关问题 更多 >

    热门问题