vtret是一个pandas.dataframe处理器/调节器,它以统计上合理的方式为预测建模准备真实的数据。
vtreat的Python项目详细描述
This是python版本的vtreat
数据准备系统
(也可用作^{
vtreat
是一个DataFrame
处理器/调节器,用于准备
用于有监督机器学习或预测建模的真实数据
以统计上合理的方式。
vtreat
接受输入DataFrame
具有名为“结果变量”(或“y”)的指定列的
这是要预测的数量(不能缺少
价值观)。其他输入列是可能的解释变量
(通常是数值或分类/string值,这些列可以
有缺失的值)用户稍后想要用来预测“y”。
在实践中,这样的输入DataFrame
可能并不立即适合
对于通常只需要数字的机器学习过程
解释性变量,并且不能容忍丢失的值。
为了解决这个问题,vtreat
构建了一个转换的DataFrame
,其中
解释性变量列已转换为
数值解释变量列,不缺少值。这个
vtreat
实现生成捕获
大多数与解释栏相关的信息
指定的“y”或依赖/结果列
转换(指标变量、影响代码、流行代码和
更多)。这种转化的DataFrame
适用于
从线性回归到梯度的有监督学习方法
提升了机器。
这个想法是:你可以获取一个DataFrame
混乱的真实世界数据,然后
轻松、忠实、可靠、可重复地为机器准备
使用vtreat
的文档化方法学习。合并
vtreat
进入机器学习工作流后,您可以快速工作
有非常多样的结构化数据。
可以找到工作示例here。
有关详细信息,请参见:arXiv:1611.09477
stat.AP(文档描述了R
版本,
然而,所有的例子都可以在Python
here中找到。
vtreat
可用
作为一个^{