基于类别列表的Dummify变量问题的回答

基于类别列表的Dummify变量

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

例如，我有如下的dataframe。你知道吗 <pre><code>>>> df CATX CATY CATZ 0 A G AAA 1 B H BBB 2 C I AAA 3 B J CCC 4 A G BBB 5 B H DDD 6 D K EEE 7 E L FFF </code></pre> 我想根据列表中提供的值在df上添加新列。例如，对于CATZ，我需要考虑一个列表<code>['AAA', 'BBB']</code>，以指示obervation为1或0 <pre><code>>>> df CATX CATY CATZ AAA BBB 0 A G AAA 1 0 1 B H BBB 0 1 2 A I AAA 1 0 3 B J CCC 0 0 4 A H BBB 0 1 5 B H DDD 0 0 6 D K EEE 0 0 7 E L FFF 0 0 </code></pre> 这与<code>pd.get_dummies</code>有些不同，因为get\u dummies考虑了整个数据帧/列上所有可能的值（或k-1值）。目前，我所做的是在列表中循环并对每一行执行apply。你知道吗 <pre><code>for catz_item in catz_list: df[catz_item] = df.apply(lambda x: 1 if x.CATZ == catz_item else 0, axis=1) </code></pre> 除了遍历列表（因为这个循环有点慢）之外，还有其他方法可以做到这一点吗。为了使它更复杂，我还使用了基于特定列表的CATX和CATY的组合，例如['a'，'G']，['a'，'H']，['B'，'H']]。你知道吗 ---编辑--- CATX/CATY组合输出 <pre><code>>>> df CATX CATY CATZ AAA BBB AG AH BH 0 A G AAA 1 0 1 0 0 1 B H BBB 0 1 0 0 1 2 C I AAA 1 0 0 0 0 3 B J CCC 0 0 0 0 0 4 A G BBB 0 1 1 0 0 5 B H DDD 0 0 0 0 1 6 D K EEE 0 0 0 0 0 7 E L FFF 0 0 0 0 0 </code></pre> 我现在使用的代码如下 <pre><code>catxy_list = [['A', 'G'], ['A', 'H'], ['B', 'H']] for catxy_item in catxy_list: df[catxy_item[0] + catxy_item[1]] = df.apply(lambda x: 1 if x.CATX == catxy_item[0] and x.CATY == catxy_item[1] else 0, axis=1) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

基于类别列表的Dummify变量

1 个回答

相关Python问题