我有一个从2014年到2018年的样本数据,需要绘制一个直方图来找出异常值。但首先,我需要弄清楚2014年、2015年……2018年的162个唯一ID中有多少个,然后再画出来。I first store data_2014=数据['日期']。日期年==2014表示2014年,但如何查找162个唯一ID中的哪一个发生在2014年?非常感谢!你知道吗
| ID | DATE | VIOLATIONS |
| 0 CHI065 | 2014-07-08 | 65 |
| 1 CHI010 | 2014-07-16 | 56 |
| 2 CHI069 | 2014-07-08 | 10 |
| 3 CHI010 | 2014-07-26 | 101 |
| 4 CHI010 | 2014-07-27 | 92 |
| 5 CHI068 | 2014-08-03 | 20 |
| 17049 CHI040 | 2018-12-22 | 15 |
| 170496 CHI168 | 2018-12-23 | 16 |
| 170497 CHI103 | 2018-12-23 | 8 |
每年以字典或数据框的形式返回唯一的ID,以便于查找
下一行每年创建一个具有唯一id的df。如果你只想知道哪些ID是2014的一部分,这是很好的。你知道吗
例如,现在可以根据年份进行子集划分,以仅获取2014年的行
如果只想计算2014年的唯一ID,可以按年份分组并使用nunique()
下一行创建一个帧,其中包含每年的ID计数
希望这有帮助
编辑1:包含聚合以处理评论
这将生成一个表,其中包含每个ID的计数+其今年的违规总数。你知道吗
如果您喜欢每年唯一ID的数量,可以调整聚合和分组
你可以做这样的散点图。确保在调色板中为每年添加一种颜色。你知道吗
您可以使用此answer中的示例在新列中获取年份
或者
然后使用groupby和agg获得每年的计数:
所以每年
相关问题 更多 >
编程相关推荐