使用Pandas中的字典从两列创建新列

df_in -> unique_id myvalue identif 0 CTA15 19.0 TOP 1 CTA15 22.0 TOP 2 CTA15 28.0 TOP 3 CTA15 18.0 TOP 4 CTA15 22.4 TOP 5 AC007 2.0 TOP 6 AC007 2.3 SDME 7 AC007 2.0 SDME 8 AC007 5.0 SDME 9 AC007 3.0 SDME 10 AC007 31.4 SDME 11 AC007 4.4 SDME 12 CGT6 9.7 BTME 13 CGT6 44.5 BTME 14 TVF5 6.7 BTME 15 TVF5 9.1 BTME 16 TVF5 10.0 BTME 17 BGD1 1.0 BTME 18 BGD1 1.6 NON 19 GHB 51.0 NON 20 GHB 54.0 NON 21 GHB 4.7 NON

def myfilter(df, idCol, valCol, mydict): for index,row in df.iterrows(): for key, value in mydict.items(): if row[idCol] == key and row[valCol] >= value: df['chk'] = 1 elif row[idCol] == key and row[valCol] < value: df['chk'] = 0 return df

df_out -> unique_id myvalue identif chk 0 CTA15 19.0 TOP 0 1 CTA15 22.0 TOP 1 2 CTA15 28.0 TOP 1 3 CTA15 18.0 TOP 0 4 CTA15 22.4 TOP 1 5 AC007 2.0 TOP 0 6 AC007 2.3 SDME 0 7 AC007 2.0 SDME 0 8 AC007 5.0 SDME 0 9 AC007 3.0 SDME 0 10 AC007 31.4 SDME 1 11 AC007 4.4 SDME 0 12 CGT6 9.7 BTME 0 13 CGT6 44.5 BTME 1 14 TVF5 6.7 BTME 0 15 TVF5 9.1 BTME 0 16 TVF5 10.0 BTME 0 17 BGD1 1.0 BTME 0 18 BGD1 1.6 NON 0 19 GHB 51.0 NON 1 20 GHB 54.0 NON 1 21 GHB 4.7 NON 0

2条回答

网友

1楼 · 编辑于 2024-09-30 18:27:13

这应该更快：

def func(identif, value):
    if identif in md:
        if value >= md[identif]:
            return 1.0
        else:
            return 0.0
    else:
        return np.NaN

df['chk'] = df.apply(lambda row: func(row['identif'], row['myvalue']), axis=1)

这个小例子的时间安排：

^{pr2}$

您的版本计时：

CPU times: user 8.6 ms, sys: 1.92 ms, total: 10.5 ms
Wall time: 8.79 ms

虽然就这么一个小例子来说还不是决定性的。在

网友

2楼 · 编辑于 2024-09-30 18:27:13

首先，遍历数据集总共四次，对于数据帧中的每一行，遍历字典中的每个元素。您可以更改函数来遍历它一次。这将加快你原来的功能。尝试类似于：

def myfilter(df, idCol, valCol, mydict):

    for index,row in df.iterrows():
        value = mydict.get(row[idCol])
        if row[valCol] >= value:
            df['chk'] = 1
        else:
            df['chk'] = 0

    return df

相关问题更多 >

编程相关推荐

热门问题

热门文章