我有一个数据框,连续几天从网站上刮下数百万行广告ID,格式如下:
ad-id Date scraped
SSE-AD-3469148 15-Apr
OAG-AD-12583686 15-Apr
OAG-AD-10476872 15-Apr
SSE-AD-3037758 15-Apr
OAG-AD-12583686 16-Apr
OAG-AD-10476872 16-Apr
SSE-AD-3037758 16-Apr
OAG-AD-10476872 17-Apr
SSE-AD-3037758 17-Apr
我只想输出唯一的广告id,但是我需要知道每个广告id的开始和结束日期,如下所示:
ad-id First scrape Last Scrape
SSE-AD-3469148 15-Apr 15-Apr
OAG-AD-12583686 15-Apr 16-Apr
OAG-AD-10476872 15-Apr 17-Apr
SSE-AD-3037758 15-Apr 17-Apr
用熊猫生产这种食物最省时的方法是什么?我只能想到一些涉及循环的方法,对于几百万行来说,这种方法会非常慢。你知道吗
我只能希望你有真正的日期,而不是“4月17日”作为文本值。你知道吗
首先按日期排序,然后在
ad-id
上执行groupby
,取第一个和最后一个值,可能是最有效的方法。你知道吗通过选择不对groupby结果排序,可以稍微提高速度,例如
df.groupby('ad-id', sort=False)...
有100万条记录的计时
相关问题 更多 >
编程相关推荐