莫丁:通过改变一行代码,让你的熊猫代码运行得更快。

modin的Python项目详细描述


通过更改一行代码来缩放熊猫工作流

要使用modin,请替换熊猫导入:

# import pandas as pdimportmodin.pandasaspd

安装

modin可以从pypi安装:

pip install modin

完整文档

请访问有关阅读文档的完整文档:http://modin.readthedocs.io

通过更改一行代码来调整pandas的工作流程。

modin使用Ray提供一种轻松的方式 加速你的熊猫笔记本,脚本,和图书馆。不同于其他分布式 DATAFRAM库,MODIN提供无缝集成和兼容性与现有 熊猫代码。即使使用dataframe构造函数也是一样的。

importmodin.pandasaspdimportnumpyasnpframe_data=np.random.randint(0,100,size=(2**10,2**8))df=pd.DataFrame(frame_data)

要使用modin,您不需要知道系统有多少内核,也不需要知道 指定如何分发数据。实际上,您可以继续使用以前的 熊猫笔记本,即使在一个 机器。一旦更改了导入语句,就可以像 你会熊猫。

更快的熊猫,即使是在您的笔记本电脑上

数据帧是一个非常轻量级的并行数据帧。莫丁 透明地分发数据和计算,因此您只需 在安装modin之前继续使用pandas api。不像其他平行的 数据帧系统,modin是一个极其轻量级、健壮的数据帧。因为它是 因此,重量轻,modin在一台4个物理核的笔记本电脑上提供高达4倍的速度提升。

在pandas中,在计算 任何类型的。使用modin,您可以使用计算机上的所有cpu核心。即使在 read_csv,我们看到通过有效地将工作分配到您的整个 机器。

importmodin.pandasaspddf=pd.read_csv("my_dataset.csv")

modin是为1kb到1tb+的数据集设计的数据帧

我们重点关注小数据的数据帧之间的桥接解决方案 (例如熊猫)和大数据。数据科学家通常需要不同的工具 在不同大小的数据上也是一样。1kb DO存在的数据文件解决方案 无法扩展到1TB+,而且1TB+解决方案的开销对于 1KB范围内的数据集。由于modin的重量轻、健壮和可扩展性 自然,你可以在小数据和大数据上得到一个快速的数据帧。有初步的clusterout of core 支持,modin是一个数据帧库,具有良好的单节点性能和较高的 集群中的可伸缩性。

modin.pandas目前正在积极开发中。欢迎您的要求和贡献!

更多信息和参与

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java传递实现接口的内部类   java为什么managedbean方法在post请求中的过滤器调用之前调用   java Android应用程序在Android M,O上崩溃,登录A/libc时出错:tid 17938中的致命信号11(SIGSEGV),代码2,故障地址0x343a2944   java JPA存储库。findByAll()返回null,但数据库中存在所有内容   用于发送电子邮件的java Ant脚本   Java小程序HTML页面发生了奇怪的事情   在Postman的请求正文中传递多个JSON数据,并使用Jersy(JXRS)进入Java Rest API   无法强制转换java DAO类   10分钟后重新连接java   正则表达式如何在java中选择字符串直到某个字符   java我的输出有一些问题   Objective中的java时间段   java如何在新屏幕上基于按钮单击在webview中打开url   java哪个selenium版本与Firefox ESR 45.2.0兼容   java无法使用Apache Camel 3.1.0将XML转换为JSON