Pandas实现分类特征的省去编码

def categ2numeric(data, train=True): def f(series): indexes = series.index.values pomseries = pd.Series() for i, index in enumerate(indexes): pom = np.delete(indexes, i) pomseries.loc[index] = series[pom].mean() series = pomseries return series if train: categ = data.groupby(by=['Cliente_ID'])['Demanda_uni_equil'].apply(f)

3条回答

网友

1楼 · 编辑于 2024-10-01 11:35:03

在@root的帮助下，我发现解决这个问题最快的方法是：

cs = train.groupby(by=['Cliente_ID'])['Demanda_uni_equil'].sum()
cc = train['Cliente_ID'].value_counts()
boolean = (cc == 1)
index = boolean[boolean == True].index.values
cc.loc[boolean] += 1
cs.loc[index] *= 2
train = train.join(cs.rename('sum'), on=['Cliente_ID'])
train = train.join(cc.rename('count'), on=['Cliente_ID'])
train['Cliente_IDloo'] = (train['sum'] - train['Demanda_uni_equil'])/(train['count'] - 1)
del train['sum'], train['count']

我发现，如果使用apply方法和可调用函数作为输入，则需要2分钟，而这种方法只需1秒，但有点麻烦。在

网友

2楼 · 编辑于 2024-10-01 11:35:03

有一个库：category_encoders具有与sikit-learn相似的代码语法。在

因此，您可以使用类似于：

from category_encoders import LeaveOneOutEncoder

LeaveOneOutEncoder.fit(X, y)

网友

3楼 · 编辑于 2024-10-01 11:35:03

用级数和元素之和的差替换级数中的每个元素，然后除以级数的长度减去1。假设s是您的系列：

s = (s.sum() - s)/(len(s) - 1)

结果输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章