在Pandas中，如何计算一列给定另一列值的相对概率？

import pandas as pd vehicles = pd.DataFrame({'Accident_Index': [1, 1, 2, 3, 3, 4, 4], 'Vehicle_Type': ['car', 'car', 'motorcyle', 'car', 'car', 'car', 'car'], 'Sex_Driver': ['male', 'female', 'male', 'female', 'female', 'male', 'male']}) casualties = pd.DataFrame({'Accident_Index': [1, 1, 2, 3, 4], 'Casualty_Severity': ['fatal', 'serious', 'fatal', 'light', 'fatal']})

Accident_Index Casualty_Severity 0 1 fatal 1 1 serious 2 2 fatal 3 3 light 4 4 fatal

dfm = casualties.merge(vehicles, on='Accident_Index') dfm_cars = dfm.loc[dfm.Vehicle_Type == 'car'] dfm_cars_fatal_male = dfm_cars.isin({'Casualty_Severity': ['fatal'], 'Sex_Driver': ['male']}) male_driver_involved_in_fatal_car_accident = (dfm_cars_fatal_male['Casualty_Severity'] & dfm_cars_fatal_male['Sex_Driver']).sum() dfm_cars_fatal_female = dfm_cars.isin({'Casualty_Severity': ['fatal'], 'Sex_Driver': ['female']}) female_driver_involved_in_fatal_car_accident = (dfm_cars_fatal_female['Casualty_Severity'] & dfm_cars_fatal_female['Sex_Driver']).sum() print(male_driver_involved_in_fatal_car_accident / female_driver_involved_in_fatal_car_accident)

1条回答

网友

1楼 · 发布于 2024-09-26 21:52:36

IIUC，您可以使用merge+query+groupby：

g = casualties.merge(vehicles, on='Accident_Index')\
        .query("Vehicle_Type == 'car' and Casualty_Severity == 'fatal'")\
        .groupby('Sex_Driver').Sex_Driver.count()

g / g.sum()

Sex_Driver
female    0.25
male      0.75
Name: Sex_Driver, dtype: float64

为了简化这一点，可以使用变量进行查询：

^{pr2}$

然后可以重写query步骤：

query("Vehicle_Type == @vehicle and Casualty_Severity == @severity")

这使得重用代码变得更容易，如果你想，比如说，把它放在一个函数中，并针对各种输入组合进行测试。在

相关问题更多 >

编程相关推荐

热门问题

热门文章