使用describe（）和加权数据平均值、标准差、中位数、分位数

1条回答

网友

1楼 · 发布于 2024-10-01 15:47:00

统计和计量经济学图书馆（statsmodels）似乎可以处理这个问题。下面是一个扩展@MSeifert对类似问题的答案here的示例。在

df=pd.DataFrame({ 'x':range(1,101), 'wt':range(1,101) })

from statsmodels.stats.weightstats import DescrStatsW
wdf = DescrStatsW(df.x, weights=df.wt, ddof=1) 

print( wdf.mean )
print( wdf.std )
print( wdf.quantile([0.25,0.50,0.75]) )

^{pr2}$

我不使用SAS，但这与stata命令给出的答案相同：

sum x [fw=wt], detail

Stata实际上有一些权重选项，在本例中，如果指定aw（分析权重）而不是fw（频率权重），则给出了稍微不同的答案。另外，stata要求fw为整数，而{}允许非整数权重。重量比你想象的要复杂。。。这是开始进入杂草，但有一个伟大的讨论加权问题，以计算标准差here。在

还请注意，DescrStatsW似乎不包括min和max的函数，但只要权重不为零，这应该不是问题，因为权重不会影响最小值和最大值。但是，如果您确实有一些零权重，则最好使用加权最小值和最大值，但在pandas中也很容易计算：

df.x[ df.wt > 0 ].min()
df.x[ df.wt > 0 ].max()

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用describe（）和加权数据平均值、标准差、中位数、分位数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >