硬投票分类器的特征选择
binsel的Python项目详细描述
桶
硬投票分类器的特征选择
目录
安装
binsel
git repo可用作PyPi package
pip install binsel
用法
检查笔记本的^{
算法
任务是从许多二进制特性池中选择例如n_select=3
二进制特性。
这些二值特征可能是对二值分类器的预测。
然后将所选的二进制特征组合成一个硬投票分类器
投票分类器应具有以下属性
- 每个投票者(二进制特性)都应该与目标变量高度相关
- 选定的二进制特征应不相关。
算法的工作原理如下
- 通过引导生成多个相关矩阵(请参见^{
} )。这包括corr(X_i, X_j)
以及corr(Y, X_i)
计算同时存储oob样本以供评估。 - 对于每个相关矩阵…
a.预先选择具有最高
abs(corr(Y, X_i))
估计值的i*
(例如,选择n_pre=?
最高绝对相关性) b.切片相关矩阵corr(X_i*, X_j*)
,找出n_select=?
特征的最小相关组合。(见^{} ) c.使用选定的n_select=?
二进制功能计算硬投票者的包外(oob)性能(请参见步骤1)。 - 选择具有最佳oob性能的二进制特征组合作为最终模型。
命令
- 检查语法:
flake8 --ignore=F401
- 运行单元测试:
python -W ignore -m unittest discover
- 删除
.pyc
文件:find . -type f -name "*.pyc" | xargs rm
- 删除
__pycache__
文件夹:find . -type d -name "__pycache__" | xargs rm -rf
- 用绳线上传到pypi:
python setup.py sdist && twine upload -r pypi dist/*
支架
请open an issue支持。
贡献
请使用Github Flow投稿。创建分支、添加提交和open a pull request