基于树型和机器学习算法的智能插补

PyImpuyte的Python项目详细描述


脓杆菌

forthebadge made-with-pythonGeneric badgeDocumentation StatusMIT licensePython 3.7+MaintenanceContributor Covenant

PyImpuyte是一个Python3.7+包,它简化了在数据集中输入缺失值的任务。

^{1}$ 在

{建立了以客户为中心的{cd1>。它汇集了各种插补策略,并利用机器学习算法来提高数据覆盖率。

PyImpuyte为用户提供了他们想要的——无需麻烦地部署机器学习算法。只需摄取数据,设定目标,输入特征矩阵并选择您选择的插补策略。现在,您可以将机器生成的插补值附加到数据帧中。

要了解有关如何使用PyImpuyte,请查看我们的docs的分步指南。

目录

动机

不完全的统计推断是很常见的。因此,PyImpuyte团队着手开发一个Python包,简化澳大利亚政府国家统计资产和其他微观数据集中缺失值的插补任务。在

开发PyImpuyte的动机是帮助微数据从业者选择和实施高级插补方法。PyImpuyte在从业者的工具箱中添加了一个额外的工具,以保护他们的数据,并防止由于丢失值而导致的信息丢失。在

主要功能

  • scikit-learn接口,提供一种以客户为中心的高效方法,使用机器学习算法执行插补。在
  • 支持多种插补策略和绩效指标,具体如下:

插补策略
UnivariateGeneralised Linear ModelsBagging and Boosted TreesNeural Nets
MeanLinear RegressionsBagging RegressorMulti-layer Perceptron
MedianLassoExtra Trees Regressor
ModeRidgeExtreme Gradient Boosting
Random Forest Regressor
XGBoost, LightGBM, CatBoost

性能指标

^{tb2}$

版本和依赖项

  • Python 3.7+
  • 依赖项:
    • missingno>;=0.4.1
    • numpy>;=1.15.4
    • pandas>;=0.20.3
    • scikit-learn>;=0.20.2
    • xgboost>;=0.83

安装

有两种方法可以安装PyImpuyte包:

  • 从PyPI安装PyImpuyte(推荐):
pip install PyImpuyte==1.3.5
  • 从位桶源安装PyImpuyte
^{pr2}$

快速入门

要开始用PyImpuyte填充缺失值,必须传递config.json文件。可以使用以下工作流:

{
    "pyimpuyte": {
        "input": [
            "data/synth_data_test.csv"
        ],
        "feature_list": ["TURNOVER", "WAGES", "SALES"],
        "target": "FTE",
        "skip_columns": null,
        "nrows": 1000,
        "drop_duplicates": true,
        "output": "out/synth_data_test.csv",
        "evaluation": "out/evaluation.csv"
    }
}

有关如何配置PyImpuyte的更多信息,请参阅我们建议的template。在

贡献

我们欢迎各种各样的贡献,以提高目前出版的包装性能。有关详细信息,请参阅Contribution Guide。在

会议和会面

  • 这是我们的研究发展方向。在

  • 我们将在2020年7月28日举行的堪培拉数据科学家会议上发表演讲。在

引文

如果有助于您的研究,请在您的出版物中引用我们的工作。在

@inbook{inbook,author={Suresh, Marcus and Taib, Ronnie and Zhao, Yanchang and Jin, Warren},year={2019},month={11},pages={215-227},title={Sharpening the BLADE: Missing Data Imputation Using Supervised Machine Learning},isbn={978-3-030-35287-5},doi={10.1007/978-3-030-35288-2_18}}
@misc{Suresh2020_PyImpuyte,title={PyImpuyte},author={Suresh, Marcus et al.},year={2020},howpublished={\url{https://bitbucket.csiro.au/projects/DDE/repos/pyimpuyte}},}

开发人员和维护人员

  • 开发商于2019年10月开始将PyImpuyte投入生产。PyImpuyte得到了积极的维护,并将定期进行增量改进。主要开发人员和维护人员包括:

  • {{a26>与团队联系。

致谢

版权所有

{MIT是根据许可证分发的。有关详细信息,请参见LICENSE。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
这个链表分区算法是如何工作的?   java最小化Spring启动时间   Java8不兼容类型   java优缺点:Jetbrains IntelliJ/Sublime Text   java在一个JTable单元格中包含两行或更多行?   使用Java将HTTP请求GET/POST发送到表单?   java如何在SpringMVC中使用重定向在jsp上显示验证消息   绑定动态列表时出现java问题   安卓在Java和使用obj之间的性能。getXY()和对象o=obj。getXY()   java如何获取Ehcache中的对象数?   java如何实现ArrayList以将“Room”对象添加到“House”对象列表中?   java IntelliJ无法解析符号“数组”   java为什么我不能按我需要的方式使用TypeToken?   java sql server数据插入错误   java解析代数表达式以查找变量   JavaSpring,如何使用WebSocket向连接的客户端广播消息?   java解析xml获取XmlPullParserException   java在安装Android应用程序时创建文件   在java中现有的PDF页面上添加条形码128