使用熊猫作为一个大的数据集,我已经减少到我需要的信息。基本上,我想把来自两个不同国家的用户的好友数量分布绘制成并排的boxplots(我称之为分组boxplots),按他们在帖子中使用的标签数量(范围为1-6,我将其视为一个分类变量)。这将导致在同一帧中总共有2*6=12个框线图,以便于比较。在
我做了一些研究我知道数据框线图(by='x'),但这并不能解释比较这两个国家的额外水平。在
这个数据集包含hashtags(int)、country(string)和number of friends(int)的列。在
值得注意的是,我对Python绘图还相当陌生,包括轴和子图,所以如果可能,请在您的答案中包含一些额外的信息。在
编辑:数据集的小样本
#followers #friends #mentions #hashtags country lang_user place
450 53 71 1 0 ja es NaN
489 54 34 1 1 ja es NaN
867 1569 1999 0 0 en es NaN
1021 224 242 0 3 ja ja NaN
1022 377 506 1 5 ja ja NaN
1023 315 305 0 2 ja ja NaN
我喜欢用seaborn来实现这种视觉化。 我猜你说的“额外级别”被称为“色调”。
结果是:![enter image description here](https://i.stack.imgur.com/KDQHN.png)
查看此文档: https://seaborn.pydata.org/generated/seaborn.boxplot.html
相关问题 更多 >
编程相关推荐