按分类变量分组的箱线图

2024-06-28 19:35:42 发布

您现在位置:Python中文网/ 问答频道 /正文

使用熊猫作为一个大的数据集,我已经减少到我需要的信息。基本上,我想把来自两个不同国家的用户的好友数量分布绘制成并排的boxplots(我称之为分组boxplots),按他们在帖子中使用的标签数量(范围为1-6,我将其视为一个分类变量)。这将导致在同一帧中总共有2*6=12个框线图,以便于比较。在

我做了一些研究我知道数据框线图(by='x'),但这并不能解释比较这两个国家的额外水平。在

这个数据集包含hashtags(int)、country(string)和number of friends(int)的列。在

值得注意的是,我对Python绘图还相当陌生,包括轴和子图,所以如果可能,请在您的答案中包含一些额外的信息。在

编辑:数据集的小样本

       #followers  #friends  #mentions  #hashtags  country  lang_user place  
450            53        71          1          0       ja         es   NaN  
489            54        34          1          1       ja         es   NaN  
867          1569      1999          0          0       en         es   NaN  
1021          224       242          0          3       ja         ja   NaN  
1022          377       506          1          5       ja         ja   NaN  
1023          315       305          0          2       ja         ja   NaN

Tags: 数据用户信息数量es国家nancountry
1条回答
网友
1楼 · 发布于 2024-06-28 19:35:42

我喜欢用seaborn来实现这种视觉化。 我猜你说的“额外级别”被称为“色调”。

import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",              
data=tips, palette="Set3")

结果是: enter image description here

查看此文档: https://seaborn.pydata.org/generated/seaborn.boxplot.html

相关问题 更多 >