将数据转换为分位数箱

2024-05-15 18:14:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个带数字列的数据框。对于每一列,我想计算分位数信息并将每一行分配给其中一个。我试图使用^{} method返回一个容器列表,但最终却单独计算了容器。我想可能存在,但找不到像df.to_quintile(num of quantiles)这样的方法。这就是我的想法,但我想知道是否有一种更简洁/熊猫的方式来做这件事。

import pandas as pd

#create a dataframe
df = pd.DataFrame(randn(10, 4), columns=['A', 'B', 'C', 'D'])

def quintile(df, column):
    """
    calculate quintiles and assign each sample/column to a quintile 
    """
    #calculate the quintiles using pandas .quantile() here
    quintiles = [df[column].quantile(value) for value in [0.0,0.2,0.4,0.6,0.8]]
    quintiles.reverse() #reversing makes the next loop simpler

    #function to check membership in quintile to be used with pandas apply
    def check_quintile(x, quintiles=quintiles):
        for num,level in enumerate(quintiles):
            #print number, level, level[1]
            if  x >= level:
                print x, num
                return num+1

    df[column] = df[column].apply(check_quintile)

quintile(df,'A')

谢谢, 扎克cp

编辑:在看到DSMs应答后,可以编写更简单的函数(如下)。伙计,真是太好了。

def quantile(column, quantile=5):
    q = qcut(column, quantile)
    return len(q.levels)- q.labels
df.apply(quantile)
#or
df['A'].apply(quantile)

Tags: toinpandasdfdefcheckcolumnlevel
1条回答
网友
1楼 · 发布于 2024-05-15 18:14:38

我认为使用存储在由qcut返回的Categorical对象中的labels可以使这个过程简单得多。例如:

>>> import pandas as pd
>>> import numpy as np
>>> np.random.seed(1001)
>>> df = pd.DataFrame(np.random.randn(10, 2), columns=['A', 'B'])
>>> df
          A         B
0 -1.086446 -0.896065
1 -0.306299 -1.339934
2 -1.206586 -0.641727
3  1.307946  1.845460
4  0.829115 -0.023299
5 -0.208564 -0.916620
6 -1.074743 -0.086143
7  1.175839 -1.635092
8  1.228194  1.076386
9  0.394773 -0.387701
>>> q = pd.qcut(df["A"], 5)
>>> q
Categorical: A
array([[-1.207, -1.0771], (-1.0771, -0.248], [-1.207, -1.0771],
       (1.186, 1.308], (0.569, 1.186], (-0.248, 0.569], (-1.0771, -0.248],
       (0.569, 1.186], (1.186, 1.308], (-0.248, 0.569]], dtype=object)
Levels (5): Index([[-1.207, -1.0771], (-1.0771, -0.248],
                   (-0.248, 0.569], (0.569, 1.186], (1.186, 1.308]], dtype=object)
>>> q.labels
array([0, 1, 0, 4, 3, 2, 1, 3, 4, 2])

或匹配您的代码:

>>> len(q.levels) - q.labels
array([5, 4, 5, 1, 2, 3, 4, 2, 1, 3])
>>> quintile(df, "A")
>>> np.array(df["A"])
array([5, 4, 5, 1, 2, 3, 4, 2, 1, 3])

相关问题 更多 >