我想将数据帧中的一列值更改为伪数据
以下是原始的表格示例:
df = {'Name':['David', 'David', 'David', 'Kevin', 'Kevin', 'Ann', 'Joan']
'Age':[10,10,10,12,12,15,13]}
df = pd.DataFrame(df)
df
现在我要做的是将名称列值更改为伪值,如下所示:
df = {'Name':[A, A, A, B, B, C, D]
'Age':[10,10,10,12,12,15,13]}
df = pd.DataFrame(df)
df
注意我是如何将名称更改为不同的字母组合的。这是示例数据,但在实际数据中,有很多名称,所以我从a、B、C、D开始,然后当它到达Z时,下一个新名称应该是AA,然后是AB,等等
这是否可行
使用
factorize
并将假名称设置为易于存储的int如果需要混合型
这是我的建议。下面的列表“fake”有23000多个项目,如果您的df有更多的唯一值,只需增加循环的末尾(当前为5),那么fake列表将以指数形式增加:
仿冒品样本:
输出:
相关问题 更多 >
编程相关推荐