Python：基于条件匹配列

policy1 PolicyNumber,Status,ExpirationDate p0928999,Expired,01-02-2020 p092902,Cancelled,11-11-2020 p092902,Active, 10-02-2020 p089399, Active, 09-08-2020 p189128, Active, 12-20-2020 p77718, Active , 12-11-2020 policy2 PolicyNumber, Status, ExpirationDate p0928999,Non-Renewal, 01-02-2020 p092902, Active , 10-02-2020 p089399,Non-Renewal, 09-08-2020 p889129, Cancelled, 02-01-2016 p77718, Renewed , 12-11-2020 p02902, Cancelled, 11-11-2020 p8383, Cancel Notice, 12-22-2020 p189128, Cancelled, 12-20-2020

import pandas as pd cancel = pd.read_csv('policy1.csv') policy = pd.read_csv('policy2.csv') if (policy1["PolicyNumber"]==policy2["PolicyNumber"]): if (policy2["Status"]=="Non-Renewed"): if (pd.to_datetime(cancel["ExpirationDate"])>today()): cancel["Status"]="Active" else: cancel["Status"]="Expired" elif(policy2["Status"]=="Cancel Notice"): policy2["Status"]="Active" elif(policy2["Status"]=="Renewed"): policy2["Status"]="Active" elif(policy2["Status"]=="Renewal"): policy2["Status"]="Active" elif(policy2["Status"]=="Non-Renew Requested"): policy2["Status"]="Active" elif(policy2["Status"]=="Active"): policy2["Status"]="Active" elif(policy2["Status"]=="Cancelled"): policy2["Status"]="Cancelled" for i in policy2: if policy2["Status"] != policy1["Status"]: print(policy2["PolicyNumber"]) else: pass else: pass

conditions =[(policy2['Status'] == 'Active'), (policy2['Status']=='Cancel Notice'), (policy2['Status'])=='Cancelled'), (policy2['Status'])=='Renewed'), (policy2['Status'])=='Non-Renewed')& (policy2['ExpirationDate'])>today()), (policy2['Status'])=='Non-Renewed')& (policy2['ExpirationDate'])<today()), (policy2['Status'])=='Renewal'), (policy2['Status'])=='Non-Renew Requested')] choices = ['Active','Cancelled','Cancelled','Active','Active','Expired','Active','Active'] policy2['Status'] = np.select(conditions,choice,default='Active') for index, row in policy2.iterrows(): np.where(policy2['PolicyNumber']==policy1['PolicyNumber'], np.where(policy2['Status']==policy1['Status'],pass,print(policy2["PolicyNumber"]) pass)

1条回答

网友
1楼 · 发布于 2024-06-26 14:32:41

您需要使用SQL之类的工具—将数据集连接在一起，然后从连接的表中计算出结果
import numpy as np import pandas as pd cancel = pd.DataFrame([[1234,None], [1235, "Cancelled"], [1255, None],[1278,"Cancelled"],[1539,'Cancelled']], columns=['policyid', 'status'])
这是df吗
policyid status 0 1234 None 1 1235 Cancelled 2 1255 None 3 1278 Cancelled 4 1539 Cancelled
这是什么政策
policy = pd.DataFrame([[1234, "non-renewed"], [22335, "active"], [1255, "non-renewed"]], columns=['policyid', 'status']) policyid status 0 1234 non-renewed 1 22335 active 2 1255 non-renewed
将每个数据帧的索引设置为policyid并将它们连接在一起。使用左联接保留cancel数据框中的所有行
cancel.set_index('policyid', inplace=True) policy.set_index('policyid', inplace=True) cancel = cancel.join(policy, rsuffix='_new', how='left')
然后用status_new（从策略数据框复制）中的新状态值填充cancel中的空值
cancel['status'] = cancel['status'].fillna(cancel['status_new']) cancel status status_new policyid 1234 non-renewed non-renewed 1235 Cancelled NaN 1255 non-renewed non-renewed 1278 Cancelled NaN 1539 Cancelled NaN
现在删除status_新列
cancel.drop(columns=['status_new'], inplace=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章