如何对照数据帧的列本身检查数据帧的列？

2条回答

网友

1楼 · 编辑于 2024-10-03 02:36:28

这里的某些部分最好用pandas来完成，而有些部分（例如，应用于笛卡尔积的函数）可以不用pandas来完成。你知道吗

总的来说，您可以通过以下方法来实现：

import itertools
import numpy as np

alias = {l : r for l, r in itertools.product(df.a, df.a) if l < r and 
fuzz.ratio(l, r) > 70}
>>> df.b.groupby(df.a.replace(alias)).sum()
apple      4
banana     5
orange    14
Name: b, dtype: int64

线路

alias = {l : r for l, r in itertools.product(df.a, df.a) if l < r and 
fuzz.ratio(l, r) > 70}

创建映射alias，将单词从a映射到它们的别名。你知道吗

线路

df.b.groupby(df.a.replace(alias)).sum()

通过使用alias的翻译对b进行分组，然后求和。你知道吗

网友

2楼 · 编辑于 2024-10-03 02:36:28

我会映射和分组：

def get_similarity(df, ind, col):
    mapped = list(map(lambda x: fuzz.ratio(x, df[col].loc[ind]), df[col]))
    cond = (np.array(mapped) >= 70)
    label = df[col][cond].iloc[0]

    return label

使用如下：

df.groupby(lambda x: get_similarity(df, x, 'a'))['b'].sum()

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何对照数据帧的列本身检查数据帧的列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >