莫丁:通过改变一行代码,让你的熊猫代码运行得更快。
modin的Python项目详细描述
通过更改一行代码来缩放熊猫工作流
要使用modin,请替换熊猫导入:
# import pandas as pdimportmodin.pandasaspd
安装
modin可以从pypi安装:
pip install modin
完整文档
请访问有关阅读文档的完整文档:http://modin.readthedocs.io
通过更改一行代码来调整pandas的工作流程。
modin使用Ray提供一种轻松的方式 加速你的熊猫笔记本,脚本,和图书馆。不同于其他分布式 DATAFRAM库,MODIN提供无缝集成和兼容性与现有 熊猫代码。即使使用dataframe构造函数也是一样的。
importmodin.pandasaspdimportnumpyasnpframe_data=np.random.randint(0,100,size=(2**10,2**8))df=pd.DataFrame(frame_data)
要使用modin,您不需要知道系统有多少内核,也不需要知道 指定如何分发数据。实际上,您可以继续使用以前的 熊猫笔记本,即使在一个 机器。一旦更改了导入语句,就可以像 你会熊猫。
更快的熊猫,即使是在您的笔记本电脑上
数据帧是一个非常轻量级的并行数据帧。莫丁 透明地分发数据和计算,因此您只需 在安装modin之前继续使用pandas api。不像其他平行的 数据帧系统,modin是一个极其轻量级、健壮的数据帧。因为它是 因此,重量轻,modin在一台4个物理核的笔记本电脑上提供高达4倍的速度提升。
在pandas中,在计算
任何类型的。使用modin,您可以使用计算机上的所有cpu核心。即使在
read_csv
,我们看到通过有效地将工作分配到您的整个
机器。
importmodin.pandasaspddf=pd.read_csv("my_dataset.csv")
modin是为1kb到1tb+的数据集设计的数据帧
我们重点关注小数据的数据帧之间的桥接解决方案 (例如熊猫)和大数据。数据科学家通常需要不同的工具 在不同大小的数据上也是一样。1kb DO存在的数据文件解决方案 无法扩展到1TB+,而且1TB+解决方案的开销对于 1KB范围内的数据集。由于modin的重量轻、健壮和可扩展性 自然,你可以在小数据和大数据上得到一个快速的数据帧。有初步的cluster 和out of core 支持,modin是一个数据帧库,具有良好的单节点性能和较高的 集群中的可伸缩性。
modin.pandas
目前正在积极开发中。欢迎您的要求和贡献!
更多信息和参与
- Documentation
- 在我们的邮件列表上提问。
- 向我们的GitHub Issues Page提交错误报告。
- 欢迎投稿!打开pull request。