我有全国调查的加权统计数据集(n=6342)。数据已经加权,即每个受访者平均代表4000名受访者。在
我正在用pandas.read_stata
函数读取数据集。基本上,我需要实现的是从每一个问题中提取数据,这些问题的频率都是受尊重的(%)以及每个频率的误差范围。在
我已经编写了Python代码来实现这一点,它可以很好地处理频率本身,即计算每个频率的加权值之和并除以总加权值和。在
伪代码如下所示:
q_5 = dataset['q5'].unique()`
frequencies = {}
for value in q_5:
variable = dataset[dataset['q5'] == value]
freq = ((variable['indwt'].sum()/weights_sum)*100)
freq = round(freq,0)
frequencies.update({value : freq})
然而,由于这是一个复杂的样本,我无法得到正确的置信区间或误差范围。 有人建议我改用R,但考虑到语法学习曲线,我宁愿使用Python。在
有没有Python的统计包可以计算复杂样本的ME?在
目前没有回答
相关问题 更多 >
编程相关推荐