数据智能输出。

diego的Python项目详细描述


迭戈

迭戈:数据输入,情报输出。

简体中文

支持快速构建自动学习任务的快速框架。只需创建一个自动学习研究(Study)并生成相关试验(Trial)。然后运行代码,得到一个机器学习模型。使用scikit learn apiglossary,使用贝叶斯优化和遗传算法实现自动机器学习。

灵感来自Fast.aiMicroSoft nni

Build StatusPyPIGitHubGitHub code size in bytes

  • [X]通过研究训练的分类器。
  • [X]支持scikit学习api的automl分类器。支持导出模型并直接使用它们。
  • [X]使用贝叶斯优化和遗传算法的超参数优化
  • [X]支持预处理的bucketing/binning算法和lus采样方法
  • []支持scikit learn api分类器用于参数搜索和超级参数优化的自定义分类器

安装

<>你需要先安装SWIG,还有一些依赖C/C++接口编译。建议使用Conda安装

conda install --yes pip gcc swig libgcc=5.2.0
pip install diego

安装后,从6行代码开始解决机器学习分类问题。

用法

每个任务被认为是一个Study,每个研究由多个Trial组成。 建议先创建研究,然后从研究中生成试验:

fromdiego.studyimportcreate_studyimportsklearn.datasetsdigits=sklearn.datasets.load_digits()X_train,X_test,y_train,y_test=sklearn.model_selection.train_test_split(digits.data,digits.target,train_size=0.75,test_size=0.25)s=create_study(X_train,y_train)# can use default trials in Study# or generate one# s.generate_trials(mode='fast')s.optimize(X_test,y_test)# all_trials = s.get_all_trials()# for t in all_trials:#     print(t.__dict__)#     print(t.clf.score(X_test, y_test))

路线图

未来发布的想法

  • []回归。
  • []添加文档。
  • [美联储试验、TPE、Bayesopt、随机搜索
  • []使用自定义分类器(如sklearn、xgboost)进行的试验。
  • []模型持久性
  • []模型输出
  • []基本分类器
  • []修复优化管道中挂起的Mac OS
  • []添加预处理器
  • []为自动化功能工程添加功能工具

项目结构

研究、试验

学习:

试用版:

Linux操作系统挂起/崩溃/冻结

因为n_u jobs>;1在并行化过程中可能会卡住。在[scikit learn](https://scikit-learn.org/stable/faq.html#why-do-i-sometime-get-a-crash-freeze-with-n-jobs-1-under-osx-or-linux)中可能会出现类似的问题

在python 3.4+中,一种解决方案是直接配置multiprocessing来使用forkserverspawn来启动进程池管理(而不是默认的fork)。例如,直接在代码中全局启用forkserver模式。

importmultiprocessing# other imports, custom code, load data, define model...if__name__=='__main__':multiprocessing.set_start_method('forkserver')# call scikit-learn utils with n_jobs > 1 here

更多信息:multiprocessing document

核心

存储

对于每项研究,数据存储和参数以及模型都额外存储在Storage对象中,这样可以确保研究只控制试验,并且每次试验更新后都会更新存储中的结果,并更新最佳结果。

更新结果

创建Study时,需要指定优化方向maximizeminimize。在创建Trials时,还要指定优化的度量。默认值是maximize accuracy

汽车制造

overview

贝耶斯选择

  1. fmfn/bayes
  2. auto-sklearn

网格搜索

  1. 水.ai

树参数

  1. hyperopt
  2. mlbox

元启发式网格搜索

  1. 侏儒

生成

1.tpot

dl

  1. NNI女士

问题

更新

联合国安理会

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像