带有脏类别的机器学习。
dirty_cat的Python项目详细描述
dirty_cat是一个python模块,用于机器学习dirty分类变量。
网站:https://dirty-cat.github.io/
对于编码脏分类数据的问题的详细描述, 见Similarity encoding for learning with dirty categorical variables[1]。
安装
依赖性
脏猫需要:
- Python(>;=3.5)
- 纽比(>;=1.8.2)
- scipy(>;=1.0.1)
- 科学套件学习(>;=0.20.0)
可选依赖项:
- python levenshtein用于更快的编辑距离(不用于n-gram 距离)
用户安装
如果你已经安装了Numpy和Scipy, 安装脏猫最简单的方法是使用pip
pip install -U --user dirty_cat
参考文献
[1] | Patricio Cerda, Gaël Varoquaux, Balázs Kégl. Similarity encoding for learning with dirty categorical variables. 2018, Machine Learning journal, Springer. |