使用variab函数的Pandas

iata airport city state country lat \ 0 00M Thigpen Bay Springs MS USA 31.953765 1 00R Livingston Municipal Livingston TX USA 30.685861 2 00V Meadow Lake Colorado Springs CO USA 38.945749 3 01G Perry-Warsaw Perry NY USA 42.741347 4 01J Hilliard Airpark Hilliard FL USA 30.688012

3条回答

网友

1楼 · 编辑于 2024-10-06 08:46:35

假设每个记录在整个过程中都是一个机场，您只需计算每个州/国家组合的记录：

df.groupby(['country','state']).size()

网友

2楼 · 编辑于 2024-10-06 08:46:35

可以将其重写为显式groupby apply：

In [11]: df.groupby("state")["airport"].apply(lambda x: x.value_counts() / len(x))
Out[11]:
state
CO     Meadow Lake             1.0
FL     Hilliard Airpark        1.0
MS     Thigpen                 1.0
NY     Perry-Warsaw            1.0
TX     Livingston Municipal    1.0
Name: airport, dtype: float64

或者存储groupby并重用它（这可能更快）：

^{pr2}$

网友

3楼 · 编辑于 2024-10-06 08:46:35

我会用Pandas的nunique来得到每个州的机场数量。代码更易于阅读和记忆。在

为了说明我的观点，我对数据集进行了如下修改，使佛罗里达州多了三个虚构的机场：

iata airport city state country lat 0 00M Thigpen Bay Springs MS USA 31.953765 1 00R Livingston Municipal Livingston TX USA 30.685861 2 00V Meadow Lake Springs CO USA 38.945749 3 01G Perry-Warsaw Perry NY USA 42.741347 4 01J Hilliard Airpark Hilliard FL USA 30.688012 5 f234 Weirdviller Chilliard FL USA 30.788012 6 23r2 Johnson Billiard FL USA 30.888012

然后，我们写下：

df.groupby('state').iata.nunique() 要获得以下结果：

state CO 1 MS 1 TX 1 FL 3 NY 1 Name: iata, dtype: int64

希望这有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章