用于检测和删除正态分布数据集中的异常值的实用程序库

outlier_utils的Python项目详细描述


https://travis-ci.org/c-bata/outlier-utils.svg?branch=master

用于使用Smirnov-Grubbs测试从正态分布数据集中检测和删除异常值的实用程序库。

要求

概述

测试的双面和单面版本都受支持。前者允许从数据集的两端提取异常值,而后者只考虑最小/最大异常值运行测试时,将删除每个异常值,直到在数据集中找不到任何异常值为止测试的输出足够灵活,以匹配多个用例。默认情况下,将返回无离群值的数据,但测试也可以返回离群值本身或其在原始数据集中的索引。

示例

  • 用pandas系列输入进行双面grubbs测试
>>> from outliers import smirnov_grubbs as grubbs
>>> import pandas as pd
>>> data = pd.Series([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
1     8
2     9
3    10
4     9
dtype: int64
  • 带有numpy数组输入的双面grubbs测试
>>> import numpy as np
>>> data = np.array([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
array([ 8,  9, 10,  9])
  • 返回离群指数的单侧(最小)检验
>>> grubbs.min_test_indices([8, 9, 10, 1, 9], alpha=0.05)
[3]
  • 返回异常值的单侧(max)测试
>>> grubbs.max_test_outliers([8, 9, 10, 1, 9], alpha=0.05)
[]
>>> grubbs.max_test_outliers([8, 9, 10, 50, 9], alpha=0.05)
[50]

许可证

这个软件是根据麻省理工学院的许可证授权的。

变化

0.0.3(2016-04-25)

多亏了@lukius

  • 支持单侧(最小/最大)测试。
  • 测试输出现在更加灵活:用户可以运行测试,以找到离群值本身或异常值的索引,而不仅仅是离群数据。
  • 测试套件得到了增强。
  • 自述文件得到了扩展和改进。
  • 日文评论被翻译成英文,以便吸引更多的读者。

0.0.2(2015-12-02)

更新setup.py

0.0.1(2015-12-01)

发布到pypi

0.0.0(2015-07-28)

创建此项目。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
找不到足够的连续内存会导致OOM吗?   java如何计算一个矩形可以放入另一个矩形的次数?   谷歌地图api java   java Autowired批注在AuthenticationSuccessHandler中返回null   Java电话号码格式正则表达式   eclipse我希望能够同时选择多个复选框?Java SWT   java j2objc可以用于生成不适用于iOS的目标C代码吗?   使用cUrl将PHP post数组转换为java servlet   java playpac4j和Play 2.5:@requireAuthentication注释导致stacktrace   java为什么在Javamail中连接超时?   java使用SwingUtilities。main方法中的invokeLater()   如何在名为from Unity的Java插件中创建Android处理程序