如何在Python中为顺序数据编码伪变量，以便始终保持相同的顺序？

In[1]: import pandas as pd splice1 = pd.Series(list('bdcccb')) Out[1]: 0 b 1 d 2 c 3 c 4 c 5 b dtype: object In[2]: splice2 = pd.Series(list('accd')) Out[2]: 0 a 1 c 2 c 3 d dtype: object In[3]: splice1_dummy = pd.get_dummies(splice1) Out[3]: b c d 0 1 0 0 1 0 0 1 2 0 1 0 3 0 1 0 4 0 1 0 5 1 0 0 In[4]: splice2_dummy = pd.get_dummies(splice2) Out[4]: a c d 0 1 0 0 1 0 1 0 2 0 1 0 3 0 0 1

1条回答

网友

1楼 · 发布于 2024-09-29 23:32:54

因此，如果你按照你想要的顺序传递类别，那么get\u dummies会保持它。代码显示了它是如何完成的

In[1]: from pandas.api.types import CategoricalDtype

       splice1 = pd.Series(list('bdcccb'))
       splice1 = splice1.astype(CategoricalDtype(categories=['a','c','b','d']))

       splice2 = pd.Series(list('accd'))
       splice2 = splice2.astype(CategoricalDtype(categories=['a','c','b','d']))

In[2]: splice1_dummy = pd.get_dummies(splice1)
Out[2]:     a   c   b   d
        0   0   0   1   0
        1   0   0   0   1
        2   0   1   0   0
        3   0   1   0   0
        4   0   1   0   0
        5   0   0   1   0

In[3]:  splice2_dummy = pd.get_dummies(splice2)
Out[3]:     a   c   b   d
        0   1   0   0   0
        1   0   1   0   0
        2   0   1   0   0
        3   0   0   0   1

尽管如此，我仍然没有解决要删除哪个变量的问题

相关问题更多 >

编程相关推荐

热门问题

热门文章