Pandas：如何使用大于和小于指定新的分位数DF值？

import pandas as pd import numpy as np df_mcred_pf = pd.DataFrame([[2, 12, "F", 1, 1, 12.55, 437], [2, 12, "F", 1, 1, 17.81, 437], [2, 12, "F", 1, 1, 18.14, 437], [2, 12, "F", 1, 1, 20.43, 437], [2, 12, "F", 1, 1, 21.19, 437], [2, 12, "F", 1, 1, 22.73, 437], [2, 12, "F", 1, 1, 23.73, 437], [2, 12, "F", 1, 1, 25.26, 437], [2, 12, "F", 1, 1, 25.34, 437], [2, 12, "F", 1, 1, 26.02, 437], [2, 12, "F", 1, 1, 26.78, 437], [2, 12, "F", 1, 1, 26.79, 437], [2, 12, "F", 1, 1, 26.83, 437], [2, 12, "F", 1, 1, 27.59, 437], [2, 12, "F", 1, 1, 27.83, 437], [2, 12, "F", 1, 1, 28.32, 437], [2, 12, "F", 1, 1, 28.32, 437], [2, 12, "F", 1, 1, 28.83, 437], [2, 12, "F", 1, 1, 29.08, 437], [2, 12, "F", 1, 1, 29.13, 437], [2, 12, "F", 1, 1, 29.33, 437], [2, 12, "F", 1, 1, 29.84, 437], [2, 12, "F", 1, 1, 29.85, 437], [2, 12, "F", 1, 1, 30.36, 437], [2, 12, "F", 1, 1, 30.62, 437], [2, 12, "F", 1, 1, 30.87, 437], [2, 12, "F", 1, 1, 31.38, 437], [2, 12, "F", 1, 1, 31.39, 437], [2, 12, "F", 1, 1, 31.89, 437], [2, 12, "F", 1, 1, 32.92, 437]], columns=['cd_mod_pri', 'cd_mod_sec', 'id_tp_pes', 'cd_idx_pri', 'cd_idx_sec', 'vr_tx_jrs', 'quantidade']) MAX_mcred = df_mcred_pf['vr_tx_jrs'].max() MIN_mcred = df_mcred_pf['vr_tx_jrs'].min() vQ1_mcred_pf = df_mcred_pf['vr_tx_jrs'].quantile(0.25) vQ2_mcred_pf = df_mcred_pf['vr_tx_jrs'].quantile(0.50) vQ3_mcred_pf = df_mcred_pf['vr_tx_jrs'].quantile(0.75) vQ4_mcred_pf = df_mcred_pf['vr_tx_jrs'].quantile(1.00) df_mcred_pf_Q1 = df_mcred_pf[df_mcred_pf['vr_tx_jrs']<=np.quantile(df_mcred_pf['vr_tx_jrs'], vQ1_mcred_pf/100)] df_mcred_pf_Q1.head(30) MEDIAN_mcred = df_mcred_pf_Q1["vr_tx_jrs"].median() df_mcred_pf_Q2 = df_mcred_pf[df_mcred_pf['vr_tx_jrs']>np.quantile(df_mcred_pf['vr_tx_jrs'], vQ1_mcred_pf/100) & df_mcred_pf['vr_tx_jrs']<=np.quantile(df_mcred_pf['vr_tx_jrs'], vQ2_mcred_pf/100)]

1条回答

网友

1楼 · 发布于 2024-06-25 05:21:41

我将以不同的方式解决此问题，并使用分位数描述符创建列：

import pandas as pd
import numpy as np
    
#your dataframe here
    
quant = [0, .25, .5, .75, 1]
s = df_mcred_pf["vr_tx_jrs"].quantile(quant)

df_mcred_pf["Quartil"] = pd.cut(df_mcred_pf["vr_tx_jrs"], s, include_lowest=True, labels=["Q1", "Q2", "Q3", "Q4"])

这将返回以下输出：

    cd_mod_pri  cd_mod_sec id_tp_pes  ...  vr_tx_jrs  quantidade  Quartil
0            2          12         F  ...      12.55         437     Q1
1            2          12         F  ...      17.81         437     Q1
2            2          12         F  ...      18.14         437     Q1
3            2          12         F  ...      20.43         437     Q1
4            2          12         F  ...      21.19         437     Q1
5            2          12         F  ...      22.73         437     Q1
6            2          12         F  ...      23.73         437     Q1
7            2          12         F  ...      25.26         437     Q1
8            2          12         F  ...      25.34         437     Q2
9            2          12         F  ...      26.02         437     Q2
10           2          12         F  ...      26.78         437     Q2
...
28           2          12         F  ...      31.89         437     Q4
29           2          12         F  ...      32.92         437     Q4

[30 rows x 8 columns]

现在，您可以按四分位筛选数据帧：

print(df_mcred_pf[df_mcred_pf["Quartil"]=="Q2"])

您也可以选择将四分位数编码为数字，例如

labels=range(len(quant)-1)

然后，你可以得到四分位数，最大为0.75

print(df_mcred_pf[df_mcred_pf["Quartil"]<3])

也许有更简单的方法来实现这一点，让我们看看其他人会想出什么

相关问题更多 >

编程相关推荐

热门问题

热门文章