擅长:python、mysql、java
<p>我认为这就是分类变量的二进制编码:</p>
<pre><code>def binary_encode(df, field)
df[df['Transportation'] == field][field] = 1
df[df['Transportation'] != field][field] = 0
</code></pre>
<p>例如,如果用field='Car'调用它,它将执行以下操作:</p>
^{pr2}$
<p><code>df[df['Transportation'] == 'Car']</code>只选择dataframe中<code>Transportation</code>列的值为“Car”的所有行。然后,它的其余部分将值1赋给这些行的<code>Car</code>列。在</p>
<p>此时,包含<code>Transportation</code>列的其他值的行将具有nan,我们不希望这样。因此,我们使用类似的技术将值0赋给其余的值。在</p>