面向特征工程的数据分组与分块

2024-10-01 15:31:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我很难将我的数据划分为特征工程的垃圾箱。数据是我想按分类数据(邻里)分组的销售价格

我做错了什么-我得到了所有行的NaN值?谢谢

    pricy_location = train['SalePrice'].groupby(train['Neighborhood']).mean()
    label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
    train['Pricy_Loc'] = pd.qcut(pricy_location, 5, labels=label, precision=2)
    train['Pricy_Loc'].head()

Tags: 数据邻里分类trainlocation特征工程nan
1条回答
网友
1楼 · 发布于 2024-10-01 15:31:40

我认为出现这个问题是因为您正在创建一个按邻域分组的数据帧(只有25行长),然后尝试使用为该数据帧创建的类别,并将其应用到一个长得多的1460行的数据帧。您只需在train dataframe的新列中获取汇总数据,然后返回结果:

train['Pricy_loc'] = train.groupby('Neighborhood')['SalePrice'].transform('mean')
label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
train['Price_loc_cat'] = pd.qcut(train['Pricy_loc'], 5, labels=label, precision=2)

相关问题 更多 >

    热门问题