Python：在scikitlearn中如何正确处理pandas数据框中的NaN

1条回答

网友

1楼 · 发布于 2024-10-02 00:41:31

如果我理解正确的话，您希望在不显著改变NaN的统计属性的情况下从NaN中清除您的数据，这样您就可以在后面运行一些分析。在

我最近也遇到过类似的情况，你可能会感兴趣的一个简单方法是使用sklearn的“Imputer”。正如EdChum之前提到的，一个想法是用轴上的平均值代替。其他选项包括替换为中值。在

比如：

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
cleaned_data = imp.fit_transform(original_data)

在本例中，这将用每个轴上的平均值替换NaN（例如，让我们通过事件进行插补，因此轴=1）。然后，可以对清理后的数据进行四舍五入，以确保得到0和1

我将按事件为数据绘制一些直方图，以检查这种预处理是否会显著地改变您的分布-因为我们可能会引入太多的偏差，因为沿每个轴将如此多的值交换为平均值/模式/中值。在

参考链接：http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html

再进一步（假设以上还不够），您可以交替执行以下操作：

取数据中的每个事件列，在去掉所有nan数字后，计算参加（“p”）与不参加（“1-p”）的概率。[即p=出席/（出席+不出席）]
然后，使用伯努利分布生成的随机数替换每个事件列中的NaN数，我们将其与您估计的“p”相符，大致如下：
import numpy as np
n = 1 # number of trials
p = 0.25 # estimated probability of each trial (i.e. replace with what you get for attended / total)
s = np.random.binomial(n, p, 1000)
# s now contains random a bunch of 1's and 0's you can replace your NaN values on each column with

再说一遍，这本身并不是完美的，如果你最终还是会稍微偏向你的数据（例如，一个更准确的方法是考虑每个用户的事件之间的数据依赖性），但是通过从大致匹配的分布中抽样，这至少比用平均值替换更可靠

希望这有帮助！在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：在scikitlearn中如何正确处理pandas数据框中的NaN

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >