<p>我有一个航班数据集,其中包含“唯一的航空公司名称”、“月份年份”、“航线”和其他属性,如乘客数量等,这些属性在本例中与我无关。以下是一个示例(还有许多其他运营商,日期范围到2017年):</p>
<pre><code> UNIQUE_CARRIER_NAME MONTH_YEAR ROUTE
2512 ATA Airlines d/b/a ATA 2-1990 OGG-HNL
2648 ATA Airlines d/b/a ATA 2-1990 IND-RSW
2649 ATA Airlines d/b/a ATA 2-1990 IND-RSW
2650 ATA Airlines d/b/a ATA 2-1990 IND-RSW
3104 ATA Airlines d/b/a ATA 2-1990 HNL-SFO
3470 ATA Airlines d/b/a ATA 2-1990 SFO-HNL
3482 ATA Airlines d/b/a ATA 2-1990 SFO-OGG
4522 ATA Airlines d/b/a ATA 3-1990 OGG-HNL
5076 ATA Airlines d/b/a ATA 2-1990 RSW-IND
5077 ATA Airlines d/b/a ATA 2-1990 RSW-IND
5078 ATA Airlines d/b/a ATA 2-1990 RSW-IND
5296 ATA Airlines d/b/a ATA 3-1990 RSW-IND
5297 ATA Airlines d/b/a ATA 3-1990 RSW-IND
5371 ATA Airlines d/b/a ATA 3-1990 SFO-HNL
5389 ATA Airlines d/b/a ATA 3-1990 SFO-OGG
....
</code></pre>
<p>我希望能够在Python中按这个序列按“UNIQUE_CARRIER_NAME”、“MONTH_YEAR”、“ROUTE”分组。我写了这个:</p>
^{pr2}$
<p>这将返回一个DataFrameGroupBy对象,我可以使用它来迭代对路由数据执行一些计算——有没有任何方法可以选择不聚合数据(对于其余列)而只选择groupby函数中的唯一路由?这3行只能选为1。在</p>
<pre><code>2648 ATA Airlines d/b/a ATA 2-1990 IND-RSW
2649 ATA Airlines d/b/a ATA 2-1990 IND-RSW
2650 ATA Airlines d/b/a ATA 2-1990 IND-RSW
</code></pre>
<p>我想迭代这组按“唯一的”承运人“名称”,“月份”“年份”分组的数据帧,这样我就可以:</p>
<pre><code>for each group of DataFrame:
I have a subset of df which I can run a function on ROUTE to get some results
</code></pre>