我有一个像
ID address used_at active_seconds pageviews
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2014-03-17 00:24:47 148 3
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2014-03-17 01:08:29 34 4
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2014-05-02 17:47:39 22 1
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2015-01-03 01:37:05 224 5
bcb0cc3d7f01dc6297f1331362a0fc09 e1.ru 2015-01-11 03:49:50 54 1
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2015-03-10 22:11:01 26 7
bcb0cc3d7f01dc6297f1331362a0fc09 avito.ru 2015-03-25 03:02:07 22 4
690ef4613fd977f9c29e1124b9d5814c avito.ru 2014-02-05 09:25:56 6 3
690ef4613fd977f9c29e1124b9d5814c avito.ru 2014-03-18 11:27:49 244 14
所有文件都在那里file_with_data 我需要打印出2014年和2015年用户的优先权相对于网站的变化情况。也就是说,有必要统计一下他们先坐在什么网站上,然后坐在哪里。你知道吗
我想我需要一个循环
infile = pd.read_csv("avito_trend.csv", parse_dates=[2])
for id in infile['ID'].nunique():
但它不起作用。 我如何才能绕过所有的唯一id,并获得有关访问的信息?你知道吗
你可以这样做:
注意:请注意
pd.Timedelta('10min')
-您可能需要调整时间增量更新:将
year
添加到groupby()
更新2:
如果要将两列合并为一列:
相关问题 更多 >
编程相关推荐