一个数据科学和机器学习技术库,帮助您自动化工作流程。
py-automl的Python项目详细描述
py automl
"为数据科学家和ML工程师提供的一系列工具,让他们更少关注如何进行分析,而是担心什么是最好的分析工具,有助于从数据中获得最深刻的见解。"
目录
简介
py automl是一个平台(web应用程序和api),它自动化了ml管道的任务,从数据清理到验证。py-automl旨在聚合机器学习技术和模型,以便从数据科学家和机器学习工程师到数据分析师和业务专业人员,每个人都可以使用这些技术和模型。它为用户提供了完全的可定制性和对正在使用的技术的可见性,并且还附带了一个automl特性(很快)。在适用的情况下,每种技术都有可自定义的参数,这些参数可以作为参数传入,以帮助自动化任务。auto-ml管道的每个部分都将是自动化的,用户可以在任何时候开始自动化(即,如果用户已经清理了他们的数据集,他们可以从特性工程/提取阶段开始自动化)。所有这一切的目的都是为了让工程师、科学家、分析师和专业人士花更少的时间在编码和担心如何进行分析上,而不是担心什么样的分析工具能最好地帮助他们从数据中获得洞察力。
py automl为在数据集上运行的每个技术提供了代码,以删除其他automl平台的"黑盒"。这允许用户根据自己的需要学习、自定义和调整代码。所提供的代码将可用于生产,因此您不必浪费时间编写代码,然后将其修改为生产标准。如果运行了任何模型,用户将收到经过培训的模型。当py automl通过ml管道时,它会记录它的操作和步骤,并提供一份详细的报告,说明它是如何完成的,在哪里完成的,等等,允许用户与同事、同事、朋友等共享他们的过程。
PY AutoMLS的目标是,数据科学家和机器学习工程师将贡献他们所使用的技术,研究人员将贡献他们的代码和论文,以便每个使用该平台的人都能将最新的A.I.技术和进步应用到他们的数据集上
功能
- python包,它简化并自动化了清理、预处理、功能工程和建模技术。
- 允许您通过图形用户界面使用相同软件包的Web应用程序
- 生成报告,详细说明转换数据集的具体步骤
- 如果通过gui自动化工作流,应用程序将生成在数据上运行的代码。
- 如果您正在进行poc或实验,代码将以a
.ipynb
和a.py
格式输出。 - 如果计划创建一个完整的管道,代码将输出一个
.py代码>包含完整的管道。
- 如果您正在进行poc或实验,代码将以a
- 模型评估
- 火花集成
- 数据可视化
- 预部署时
- 第三方应用程序集成(azure、aws、gc)
安装
用于软件包(无图形用户界面):
pip安装py automl
对于Web应用:
正在进行中
用法
文档可以在这里查看
即将提供正确的使用说明。
示例可以在这里查看
开发阶段
库
第1阶段
- [X]数据处理技术
- [X]数据清理v1
- [X]功能工程v1
- [X]报告v1
第2阶段
- []数据可视化
- []模型和评估
- []报告v2
第3阶段
- []并行化
第4阶段
- []火花
- []以社区为中心的优化(更容易与其他工程师共享技术和模型)。
第5阶段
- []云计算
- []深度学习整合
网络应用程序
第1阶段
- [X]基本框架
- []文件上传-IPR
- []检测列类型(分类(数字/字符串)、数字、字符串、文本等)
- []显示数据
- []通过技术选择修改和显示数据
- []导出最终结果
代码生成
这些可以更改。
反馈
如有任何反馈,我将不胜感激。如果您有任何功能要求或问题,请给我发一封电子邮件,地址是:ashton.sidhu1994@gmail.com
贡献者
本项目遵循所有贡献者规范,并由这些优秀贡献者带给您
赞助商
N/A
致谢
对于开发人员
安装软件包pip3 install-r requirements.txt
运行测试python3-m unittest discover pyautoml/