当数据集包含Python中的数值和分类变量时，如何清除异常值？

import numpy as np def outliers(x): return np.abs(x- x.median()) > 1.5*(x.quantile(.75)-x.quantile(0.25)) ath2.Age[outliers(ath2.Age)] ath2.Height[outliers(ath2.Height)] ath2.Weight[outliers(ath2.Weight)]

1条回答

网友

1楼 · 发布于 2024-10-06 06:43:51

如果您希望代码是动态的，您可以首先通过下面的代码检查不属于类别的列：

cols = df.columns
num_cols = df._get_numeric_data().columns 
##num_cols will contains list of column names which are numeric
## In your case, it should come Age,Height etc.

或者，也可以根据您的数据帧使用include或{}参数

在此运行之后，下面的代码来自上面的列：

^{pr2}$

或

如果您只想用数字列创建一个新的df，并一次性找出异常值，代码如下：

df[df.apply(lambda x: np.abs(x - x.mean()) / x.std() < 3).all(axis=1)]

编程相关推荐

Java，我如何在方法中放置一个开关盒？
Java将数组添加到数组特殊模式
java的类常量和文件导入
如何在java中使用正则表达式更改匹配子字符串的前缀和后缀
Java Hashmap实现中的字符串哈希问题
java如何计算数组中的连续数字组
处理异常后如何在java中重新启动thrift服务器？
java嵌套列表迭代器。程序不会终止
如何在maven目标目录下的JAR文件中运行java类？
mysql Java JPA/Hibernate级联删除

相关问题更多 >

编程相关推荐

热门问题

热门文章

当数据集包含Python中的数值和分类变量时，如何清除异常值？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >