我有一个Tukey的测试表来自python statsmodels.stats.multicomp
的{
group1 group2 meandiff lower upper reject
0 101 102 0.2917 -0.0425 0.6259 False
1 101 103 0.1571 -0.1649 0.4792 False
2 101 104 -0.1333 -0.4675 0.2009 False
3 101 105 0.0833 -0.2509 0.4175 False
4 101 106 -0.0500 -0.3626 0.2626 False
5 102 103 -0.1345 -0.4566 0.1875 False
6 102 104 -0.4250 -0.7592 -0.0908 True
7 102 105 -0.2083 -0.5425 0.1259 False
8 102 106 -0.3417 -0.6543 -0.0290 True
9 103 104 -0.2905 -0.6125 0.0316 False
10 103 105 -0.0738 -0.3959 0.2482 False
11 103 106 -0.2071 -0.5067 0.0924 False
12 104 105 0.2167 -0.1175 0.5509 False
13 104 106 0.0833 -0.2293 0.3960 False
14 105 106 -0.1333 -0.4460 0.1793 False
我把这个表命名为pandas
df
。我想(用字母)标记表示统计关系的组(101-106)。对于这个特定的例子,期望的结果是:(我不介意结果是df、一个列表、一个字典)
如您所见,共享相似字母的所有组都具有相同的平均值(reject column=False),具有不同字母(reject column=True)的组具有不同的平均值。例如,第101组的平均值等于所有其他组的平均值,因为第101组的字母为ab,而所有其他组的字母都是a或b或ab。另一方面,106组只有字母b,这表明它与所有组相似,除了组102只有字母a。在
我找不到一个自动的python解决方案。我sawR有一个名为multcompLetters
的包,在python中有类似的东西吗?在
所以,经过几天的研究,没有其他用户的建议答案/评论,我想我已经明白了。假设我问题中的表名为
df
。下面的脚本是为我的需要,但我希望它可以帮助其他人。我添加了一些评论以便于理解。在相关问题 更多 >
编程相关推荐