我有一个sales DataFrame,它有2800万行,还有一些其他数据帧以及一个示例a Product
DataFrame。在
当我第一次将pandas数据帧转换为Dask数据帧时:
sales_dd = dd.from_pandas(Sales, npartitions=3) #28M rows
product_dd = dd.from_pandas(Product, npartitions=3) #600 rows
在转换Dask Dataframe
之后,我可以使用
在我尝试合并这两个dask数据帧之后:
productsales = dd.merge(sales_dd, product_dd, on='ProductNo', how='left')
当我检查最后一个数据帧时
productsales.tail()
Date ProductNo Total_Sales x y z ....
9440495 20171202 579 5.0 . . .
9440496 20171017 581 2.0 . . .
9440497 20160906 519 9.0
9440498 20160628 544 10.0 . . .
9440499 20170907 574 0.0 . . .
我们可以看到productsales表只有900k行。在
我的问题是如何将所有数据帧合并在一起?我不必分文吗?最快的方法是什么?在
提前谢谢
左边的数字索引不一定给出行数,它是dataframe的索引值,它可以保存除简单递增索引之外的其他值。在
相反,我建议计算数据帧的长度
相关问题 更多 >
编程相关推荐