Python中复杂样本的误差容限

2024-04-20 12:23:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我有全国调查的加权统计数据集(n=6342)。数据已经加权,即每个受访者平均代表4000名受访者。在

我正在用pandas.read_stata函数读取数据集。基本上,我需要实现的是从每一个问题中提取数据,这些问题的频率都是受尊重的(%)以及每个频率的误差范围。在

我已经编写了Python代码来实现这一点,它可以很好地处理频率本身,即计算每个频率的加权值之和并除以总加权值和。在

伪代码如下所示:

   q_5 = dataset['q5'].unique()`
    frequencies = {}
    for value in q_5:
        variable = dataset[dataset['q5'] == value]
        freq = ((variable['indwt'].sum()/weights_sum)*100)
        freq = round(freq,0)
        frequencies.update({value : freq}) 

然而,由于这是一个复杂的样本,我无法得到正确的置信区间或误差范围。 有人建议我改用R,但考虑到语法学习曲线,我宁愿使用Python。在

有没有Python的统计包可以计算复杂样本的ME?在


Tags: 数据代码valuevariabledataset统计数据误差频率