将dataframe列字符串值转换为虚拟变量列问题的回答

将dataframe列字符串值转换为虚拟变量列

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有以下数据帧（不包括其余列）： <pre><code>| customer_id | department | | ----------- | ----------------------------- | | 11 | ['nail', 'men_skincare'] | | 23 | ['nail', 'fragrance'] | | 25 | [] | | 45 | ['skincare', 'men_fragrance'] | </code></pre> 我正在对数据进行预处理，以使其适合模型。我想将department变量转换为每个惟一department类别的虚拟变量（不管有多少惟一的department，而不仅仅限于这里） 要获得此结果： <pre><code>| customer_id | department | nail | men_skincare | fragrance | skincare | men_fragrance | | ----------- | ---------- | ---- | ------------ | --------- | -------- | ------------- | | 11 | ['nail', 'men_skincare'] | 1 | 1 | 0 | 0 | 0 | | 23 | ['nail', 'fragrance'] | 1 | 0 | 1 | 0 | 0 | | 25 | [] | 0 | 0 | 0 | 0 | 0 | | 45 | ['skincare', 'men_fragrance'] | 0 | 0 | 0 | 1 | 1 | </code></pre> 我尝试过这个<a href="https://stackoverflow.com/questions/49547692/extract-values-from-a-column-of-lists">link</a>，但是当我拼接它时，它将它视为一个字符串，并且只为字符串中的每个字符创建一列；我用的是： <pre><code>df['1st'] = df['department'].str[0] df['2nd'] = df['department'].str[1] df['3rd'] = df['department'].str[2] df['4th'] = df['department'].str[3] df['5th'] = df['department'].str[4] df['6th'] = df['department'].str[5] df['7th'] = df['department'].str[6] df['8th'] = df['department'].str[7] df['9th'] = df['department'].str[8] df['10th'] = df['department'].str[9] </code></pre> 然后，我尝试拆分字符串并使用以下命令将其转换为列表： <pre><code>df['new_column'] = df['department'].apply(lambda x: x.split(",")) </code></pre> 然后再试一次，仍然只为每个角色创建列 有什么建议吗 编辑：我使用anky发送过来的链接找到了答案，特别是我使用了这个链接：<a href="https://stackoverflow.com/a/29036042">https://stackoverflow.com/a/29036042</a> 对我有用的是： <pre><code>df['department'] = df['department'].str.replace("'",'').str.replace("]",'').str.replace("[",'').str.replace(' ','') df['department'] = df['department'].apply(lambda x: x.split(",")) s = df['department'] df1 = pd.get_dummies(s.apply(pd.Series).stack()).sum(level=0) df = pd.merge(df, df1, right_index=True, left_index=True, how = 'left') </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

将dataframe列字符串值转换为虚拟变量列

1 个回答

相关Python问题