python端到端机器学习工具包(mltoolkit/mltk)

python-mltk的Python项目详细描述


mltoolkit

当前版本:pymltoolkit[v0.1.6]

mltoolkit(mltk)是一个python包,它提供一组用户友好的功能,帮助在数据科学研究、教学或生产项目中构建端到端的机器学习模型。

简介

mltoolkit支持机器学习应用程序开发过程的所有阶段。

安装

pip install pymltoolkit

如果安装因依赖性问题而失败,请在不依赖性的情况下执行上述命令

pip install pymltoolkit --no-dependencies

功能

  • 数据提取(SQL、平面文件等)
  • 探索性数据分析(统计汇总、单变量分析、可视化分布等)
  • 特征工程(支持数字、文本、日期/时间。图像数据支持将集成到v0.1的后续版本中)
  • 模型构建(当前仅支持二进制分类)
  • 超参数调整[正在开发v0.2版]
  • 交叉验证(将集成到v0.1的后续版本中)
  • 模型性能分析和模型之间的比较。
  • 用于执行建模和评分任务的JSON输入脚本。
  • 模型构建用户界面[正在为v0.2开发]
  • ML模型构建项目[正在为V0.2开发]
  • auto-ml(自动机器学习)[in development for v0.2]
  • 模型部署和服务[包括,将为v0.2导入]

支持的机器学习算法/软件包

  • 随机林分类器:scikit learn
  • logisticRegregation:statsmodels
  • 深前馈神经网络(dff):张量流
  • 转换神经网络(CNN):张量流
  • 渐变增强:catboost
  • 更多型号将在未来的版本中添加…

用法

importmltk

警告:python变量、函数或类名

python解释器有许多内置函数。在编写代码时,无需python编写器发出警告就可以覆盖这些定义。(https://docs.python.org/3/library/functions.html" rel="nofollow">https://docs.python.org/3/library/functions.html) 因此,请避免将这些名称用作变量、函数或类名。

<表>absallanyasciibinboolbytearray字节 可调用的chr类方法编译复杂delattrdict目录divmod枚举评估执行筛选器浮点格式冻结集getattr全局变量hasattr哈希帮助十六进制id输入intisinstanceissubClassiterlenlistlocalsmapmax内存视图min下一个对象十月打开 powprintpropertyrangereprreversedroundsetsetattr切片排序静态方法str和超级元组键入变量 <表>

如果继续覆盖任何内置函数(例如list),则执行以下操作可带来内置污染。

啊!

同样,避免在数据帧的列名中使用特殊字符和空格。 执行以下操作以删除列名中的特殊字符。

啊!

mltoolkit示例

数据加载和探索

啊!

数据预处理和特征工程

啊! AAAAAAAAA 8 啊!

变量操作

啊! YYY11 是啊。 啊!13! AAAAAAA H14

相关性

是啊。

分离列车,验证测试数据集

啊!

模型构建

啊!

损失回归

AAAAAAA 18

随机林

啊!

神经网络

AAAAAAA H20

catboost

AAAAAAAAA 21

构建模型

啊! AAAAAAAAA 23

评估模型

绘制模型性能曲线

啊!

曲线下面积(AUC)比较

AAAAAH25 啊!

测试模型

是啊。

比较模型和概率阈值

AAAAAAAAA 28

比较模型和阈值得分(1-10分制)

AAAAAAA 29

设置自定义分数边

AAAAAAA 30

保存模型

啊!

部署

简化的MLtoolkit ETL管道,用于评分和模型重建(需要根据项目进行定制)。

定义ETL函数

啊!

评分

是啊。 啊!

输出

啊!

用于评分的json输入

单个或更少记录数的记录格式

啊!

多条记录的拆分格式

AAAAAAA 37

许可证

AAAAAAAAA 38

mltoolkit项目时间表

  • 2018-07-02[v0.0.1]:向github发布了数据探索、模型构建和模型评估的初始功能集。(https://github.com/sptennak/machinelearning" rel="nofollow">https://github.com/sptennak/machinelearning)。
  • 2018-01-03[v0.0.2]:为IBM Coursera Data Science Capstone项目创建了更多用于数据探索的功能,包括Web抓取和地理空间数据分析,并发布到Github。(https://github.com/sptennak/coursera u capstone" rel="nofollow">https://github.com/sptennak/coursera u capstone)。
  • 2019-03-20[v0.1.0]:为IBM Coursera Advanced Data Science Professional Certificate Capstone项目开发并发布了模型构建和服务框架的初始版本。(https://github.com/sptennak/ibm-coursera-advanced-data-science-capstone)。
  • 2019-07-02[v0.1.2]:pymltoolkit python包的第一个版本,它是一个类和函数的集合,有助于端到端的机器学习模型的构建,并通过restful api提供服务。
  • 2019-07-04[v0.1.3]:小错误修复。
  • 2019-07-14[v0.1.4]:改进的文档、集成的tensorflow模型、增强功能和小错误修复。
  • 2019-07-28[v0.1.5]:集成的catboost模型,改进的模型构建和服务框架,文本分析功能,支持对ml模型构建和评分过程的json输入/输出,增强和错误修复。
  • 2019-08-12[v0.1.6]:改进的特性、错误修复、对ml模型构建和评分过程(json-mls)增强的json输入/输出以及错误修复。

未来发布计划

  • TBD[v0.1.7]:改进文档和输出格式,处理不平衡的示例,错误修复。
  • TBD[v0.1.8]:集成图像分类模型部署、集成交叉验证和超参数调整。
  • TBD[v0.1.9]:端置模型、UI预览、改进的功能选择、交叉验证和超参数调整功能、增强和错误修复。
  • TBD[v0.1.10]:ML模型构建项目、增强和错误修复。
  • 2019-12-31[v0.1.11]:全面的文档、实现后评估功能、增强的数据输入和输出功能、带有最终增强功能的初始版本的主要错误修复版本。
  • TBD[v0.2.0]:导入的模型构建和服务框架工作和用户界面,支持更多的机器学习算法,支持多类分类和增强的文本分析功能。
  • TBD[v0.3.0]:改进的可扩展性和性能,自动机器学习。
  • 待定[v0.4.0]:建立持续的学习模型。

引用为

importmltk
9

参考文献

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
jsoup有效文件路径抛出java。木卫一。FileNotFoundException   java如何在不删除和添加Mapbox中的层的情况下更改SymbolLayer的Z值?   java计算用户定义年数内四个季度的降雨量   如何在Java中轻松地将格式为“20 0F 01”的字符串更改为十六进制值?   java在JPA或Hibernate中“持久类”和“实体”之间有什么区别?   java Android:AlarmManager“缺少对unregisterReceiver()的调用?”当按下后退按钮时   logcat中的java错误“isDataSchedulerEnabled():false”   java i/p col特性必须是字符串或数字类型,但不能是org。阿帕奇。火花利纳格小姐。向量   java如何从Post请求url和浏览器转储中隐藏密码   多线程javamail中的java问题   java我的用户应该直接连接到数据库吗?如何将用户连接到数据库;   java如何获得Spring数据JPA存储库工厂?   windows java字节数组转换为字符串,但不同的操作系统会产生不同的结果   java代码在eclipse中编译,但不在命令行上编译