如何只对数据集的特定列进行标记？

2条回答

网友

1楼 · 编辑于 2024-10-05 10:44:21

在不提供（或不知道）列名的情况下，您可以使用以下更通用的方法：

# seperate categoricals from numericals
df_numeric = dataset.select_dtypes(exclude=['object'])
df_obj = dataset.select_dtypes(include=['object']).copy()

# now factorize categoricals
for c in df_obj:
    df_obj[c] = pd.factorize(df_obj[c])[0]

# merge back into one dataframe
df_final = pd.concat([df_numeric, df_obj], axis=1)
df_final.reset_index(inplace=True, drop=True)

网友

2楼 · 编辑于 2024-10-05 10:44:21

考虑如下所示的示例数据帧

sample = pd.DataFrame()

sample['A'] = ['a', 'b', 'c', 'a']
sample['B'] = ['x', 'y', 'x', 'z']
sample['C'] = [1, 2, 3, 4]
sample['D'] = ['m', 'n', 'm', 'o']


# sample dataframe

    A   B   C   D
0   a   x   1   m
1   b   y   2   n
2   c   x   3   m
3   a   z   4   o

这里A、B和D列包含字符串，C列是数值。所以你想编码A，B和D，而不是C。要做到这一点，你可以制作一个特定于一列的编码器，并根据需要对该列进行enocde。请参见下面的代码。在

^{pr2}$

您可以轻松地将此代码扩展到您的特定问题。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何只对数据集的特定列进行标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >