如何将pandas数据帧中的值离散化并转换为二进制矩阵？

'a' 'b' 'c' one two three [0.0,0.2) [0.2,0.4) [0.4,0.6) [0.6,0.8) [0.8,1.0] 0 1 2 3 4 5 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1

3条回答

网友

1楼 · 编辑于 2024-06-20 12:28:26

对于示例中的标记列，如a和c列，可以使用pandas内置方法get_dummies()。

例如：

import pandas as pd
s1 = ['a', 'b', np.nan]
pd.get_dummies(s1)
       a  b
    0  1  0
    1  0  1
    2  0  0

网友

2楼 · 编辑于 2024-06-20 12:28:26

你可以使用某种广播：

    In [58]: df
    Out[58]:
           a    b  c
    0    one  0.2  0
    1    two  0.4  1
    2    two  0.9  0
    3  three  0.1  2
    4    one  0.0  4
    5    two  0.2  5

    In [41]: (df.a.values[:,numpy.newaxis] == df.a.unique()).astype(int)
    Out[41]:
    array([[1, 0, 0],
           [0, 1, 0],
           [0, 1, 0],
           [0, 0, 1],
           [1, 0, 0],
           [0, 1, 0]])

    In [54]: ((0 <= df.b.values[:,numpy.newaxis]) & (df.b.values[:,numpy.newaxis] < 0.2)).astype(int)
    Out[54]:
    array([[0],
           [0],
           [0],
           [1],
           [1],
           [0]])

    In [59]: (df.c.values[:,numpy.newaxis] == df.c.unique()).astype(int)
    Out[59]:
    array([[1, 0, 0, 0, 0],
           [0, 1, 0, 0, 0],
           [1, 0, 0, 0, 0],
           [0, 0, 1, 0, 0],
           [0, 0, 0, 1, 0],
           [0, 0, 0, 0, 1]])

然后用pandas.concat或类似的方法将所有部分连接在一起。

网友

3楼 · 编辑于 2024-06-20 12:28:26

注意，我已经实现了新的cut和qcut函数来离散连续数据：

http://pandas-docs.github.io/pandas-docs-travis/basics.html#discretization-and-quantiling

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将pandas数据帧中的值离散化并转换为二进制矩阵？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >