各种scikit学习扩展
scikit-ext的Python项目详细描述
关于
scikit_ext包包含各种scikit学习扩展, 完全建立在sklearn基类之上。包裹是 分为两个模块: estimators 和 scorers。 可以找到完整的文档 here
估计器
- MultiGridSearchCV:扩展到本机sklearnGridSearchCV 对于多个估计器和参数网格。接受 估计器和参数网格,迭代每个拟合 GridSearchCV每个估计器/参数网格的模型。选择 最适合的GridSearchCV型号。继承sklearn的 BaseSearchCV类,因此属性和方法都类似于 GridSearchCV。
- PrunedPipeline:要扩展到本机sklearnPipeline。 对于具有矢量化步骤和特征的文本学习管道 选择步骤而不是记住所有矢量器词汇表 元素并在预测时选择适当的特征, extension在将词汇量调整为只包含 最终在特征选择过滤器中生存的元素 稍后在管道中应用。这会减少内存并提高 预测延迟预测将与 一个训练有素的Pipeline模型继承sklearn的Pipeline类, 所以属性和方法都类似于Pipeline
- ZoomGridSearchCV:扩展到本机sklearnGridSearchCV。 适合多个GridSearchCV模型,更新param_grid 每次迭代后更新将查看成功的参数值 对于每个网格键。将创建一个新的值列表,该列表将展开 以最佳性能为中心的搜索值的分辨率 上次拟合的值。这允许标准的网格搜索 从每个值的少量距离值开始的过程 参数,并放大为 超参数搜索空间变得清晰。
- IterRandomEstimator:主要用于 拟合模型依赖性强的无监督估计 在任意随机初始化状态下。它是 最适合用于需要fit_predict方法的问题,因此 用于预测的唯一数据将是 模型已拟合。
- OptimizedEnsemble:优化的集成类。会找到 给定系综估计量的最优n_estimators参数, 根据指定的输入参数。
- OneVsRestAdjClassifier:一对多类策略。这个 调整版本是一个自定义扩展,它覆盖继承的 {TT23 } $方法,具有更灵活的方法允许自定义 预测概率的标准化任何规范论点 可以直接传递给sklearn.preprocessing.normalizeis 允许。此外,norm=none将跳过规范化步骤 所有人。要模仿继承的OneVsRestClassfier行为, 设置norm='l2'所有其他方法都继承自 OneVsRestClassifier。
记分员
- TimeScorer:使用估计的预测延迟评分 估计员
- MemoryScorer:使用pickled估计器的估计内存进行评分 反对
- CombinedScorer:通过平均数组合多个记分者的分数 他们的分数。
- cluster_distribution_score:对 生成跨类的群集分布更公平的 分布表明得分较高。
许可证
这个项目是根据麻省理工学院的许可证授权的-参见许可证文件 详细情况