假设我有一个这样的数据集,我只想对一个有字符串值的特定列进行编码。就像在下面提到的数组中,我只想标记一个[0][0],一个[0][1],一个[0][3],一个[0][4]。在
a = [[Andaman and Nicobar Islands, NICOBARS, 2000, Kharif, Arecanut, 1254.0, 2000.0]]
我尝试的是:
dataset = pd.read_csv('crop_production.csv')
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
dataset = dataset.apply(le.fit_transform)
但它甚至可以编码数值。在
你知道如何只对csv的特定列进行编码吗?在
数据集示例:
^{pr2}$
在不提供(或不知道)列名的情况下,您可以使用以下更通用的方法:
考虑如下所示的示例数据帧
这里A、B和D列包含字符串,C列是数值。所以你想编码A,B和D,而不是C。要做到这一点,你可以制作一个特定于一列的编码器,并根据需要对该列进行enocde。请参见下面的代码。在
^{pr2}$您可以轻松地将此代码扩展到您的特定问题。在
相关问题 更多 >
编程相关推荐