Pandas Dataframe：如何将一列拆分为多个onehotcoded列

网友

1楼 · 编辑于 2024-05-17 23:43:59

记住@Dan对您的问题的评论，即您将以50k*3列结尾，您可以通过这样做获得您想要的输出：

string ="444537110 3 11112111022002200022022111121222002"
df = pd.DataFrame([string.split(" ")],columns=['id','chip','genos'])
max_number_of_genes = int(df.genos.apply(lambda x : len([y for y in x])).max())

#Create columns 
for gene in range(1,max_number_of_genes+1):
    for y in range(4):
        df['g{}_{}'.format(gene, y)] = 0

#Iterating over genos values 
for row_number, row in df.iterrows():
    genos = [int(x) for x in df.iloc[row_number, 2]]
    for gene_number, gene in enumerate(genos):     
        df.loc[row_number, 'g{}_{}'.format(gene_number+1, gene)] = 1 

print(df)

输出

^{pr2}$

网友

2楼 · 编辑于 2024-05-17 23:43:59

首先用convert string to list创建DataFrame，然后调用^{}：

df1 = pd.DataFrame([list(x) for x in df['genos']], index=df.index).add_prefix('g')
df2 = pd.get_dummies(df1)

如果需要将新列添加到原始列（如果可能缺少某些组合），请使用^{}，方法是使用_拆分列，并使用{a3}创建的所有组合：

^{pr2}$

网友

3楼 · 编辑于 2024-05-17 23:43:59

如果只拆分50k个字符，可以使用原始Python（为了可读性）：

>>> a,b,c = zip(*[{0:(1,0,0),1:(0,1,0),2:(0,0,1)}[int(c)] for c in df['genos'][0]])
>>> a,b,c
((0, 0, 0, 0, 0, 0, ...), (1, 1, 1, 1, 0, 1, ...), (0, 0, 0, 0, 1, 0, ...))

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas Dataframe：如何将一列拆分为多个onehotcoded列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >