基于树型和机器学习算法的智能插补
PyImpuyte的Python项目详细描述
脓杆菌
PyImpuyte
是一个Python3.7+包,它简化了在数据集中输入缺失值的任务。
^{1}$ 在
{
PyImpuyte
为用户提供了他们想要的——无需麻烦地部署机器学习算法。只需摄取数据,设定目标,输入特征矩阵并选择您选择的插补策略。现在,您可以将机器生成的插补值附加到数据帧中。
要了解有关如何使用PyImpuyte
,请查看我们的docs的分步指南。
目录
- Motivation
- Installation
- Quick Start
- Contribute
- Conferences and Meet-ups
- Citation
- Developers and Maintainers
- Acknowledgements
- Copyright
动机
不完全的统计推断是很常见的。因此,PyImpuyte
团队着手开发一个Python包,简化澳大利亚政府国家统计资产和其他微观数据集中缺失值的插补任务。在
开发PyImpuyte
的动机是帮助微数据从业者选择和实施高级插补方法。PyImpuyte
在从业者的工具箱中添加了一个额外的工具,以保护他们的数据,并防止由于丢失值而导致的信息丢失。在
主要功能
- 与
scikit-learn
接口,提供一种以客户为中心的高效方法,使用机器学习算法执行插补。在 - 支持多种插补策略和绩效指标,具体如下:
插补策略
Univariate | Generalised Linear Models | Bagging and Boosted Trees | Neural Nets |
---|---|---|---|
Mean | Linear Regressions | Bagging Regressor | Multi-layer Perceptron |
Median | Lasso | Extra Trees Regressor | |
Mode | Ridge | Extreme Gradient Boosting | |
Random Forest Regressor | |||
XGBoost, LightGBM, CatBoost |
性能指标
^{tb2}$版本和依赖项
- Python 3.7+
- 依赖项:
missingno
>;=0.4.1numpy
>;=1.15.4pandas
>;=0.20.3scikit-learn
>;=0.20.2xgboost
>;=0.83
安装
有两种方法可以安装PyImpuyte
包:
- 从PyPI安装
PyImpuyte
(推荐):
pip install PyImpuyte==1.3.5
- 从位桶源安装
PyImpuyte
:
快速入门
要开始用PyImpuyte
填充缺失值,必须传递config.json
文件。可以使用以下工作流:
{ "pyimpuyte": { "input": [ "data/synth_data_test.csv" ], "feature_list": ["TURNOVER", "WAGES", "SALES"], "target": "FTE", "skip_columns": null, "nrows": 1000, "drop_duplicates": true, "output": "out/synth_data_test.csv", "evaluation": "out/evaluation.csv" } }
有关如何配置PyImpuyte
的更多信息,请参阅我们建议的template。在
贡献
我们欢迎各种各样的贡献,以提高目前出版的包装性能。有关详细信息,请参阅Contribution Guide。在
会议和会面
- 在
这是我们的研究发展方向。在
在 - 在
我们将在2020年7月28日举行的堪培拉数据科学家会议上发表演讲。在
在
引文
如果有助于您的研究,请在您的出版物中引用我们的工作。在
- 会议文件-AI2019: Advances in Artificial Intelligence第18章。在
@inbook{inbook,author={Suresh, Marcus and Taib, Ronnie and Zhao, Yanchang and Jin, Warren},year={2019},month={11},pages={215-227},title={Sharpening the BLADE: Missing Data Imputation Using Supervised Machine Learning},isbn={978-3-030-35287-5},doi={10.1007/978-3-030-35288-2_18}}
- Python包-PyImpuyte。在
@misc{Suresh2020_PyImpuyte,title={PyImpuyte},author={Suresh, Marcus et al.},year={2020},howpublished={\url{https://bitbucket.csiro.au/projects/DDE/repos/pyimpuyte}},}
开发人员和维护人员
- 在
开发商于2019年10月开始将
PyImpuyte
投入生产。PyImpuyte
得到了积极的维护,并将定期进行增量改进。主要开发人员和维护人员包括:- 在
Marcus Suresh、比特桶:sur033和GitHub:marcus-suresh
在 - 在
Ronnie Taib,GitHub:rtaib
在
- 在
- 在
{{a26>与团队联系。
在
致谢
- 在
这项研究由澳大利亚政府通过Department of Industry, Science, Energy and Resources (DISER)和Data Integration Partnership for Australia (DIPA)资助。在
在 - 在
开发人员要感谢DISER的Abrie Swanepoel博士(分公司经理)和Tala Talgasawatta博士(主管),感谢他们在
在PyImpuyte
方面的持续支持。在
版权所有
{MIT是根据许可证分发的。有关详细信息,请参见LICENSE。在
- 项目
标签: