如何检查dataframe列是否包含来自另一个dataframe列的字符串并返回python中的相邻单元格？

**RepairName** **Category** A/C is not cold A/C flat tyre is c Tyre the tyre needs a repair on left side Tyre the aircon is not cold A/C

data['Category'] = [ next((c for c, k in categories.values if k in s), None) for s in data['RepairName']] d = dict(zip(categories['SearchTerm'], categories['Category'])) data['CategoryCheck'] = [next((d[y] for y in x.split() if y in d), None) for x in data['RepairName']]

2条回答

网友

1楼 · 编辑于 2024-09-28 23:37:14

我们做str.findall然后map

s=df.RepairName.str.findall('|'.join(cat.SearchTerm.tolist())).str[0].\
    map(cat.set_index('SearchTerm').Category)
0     A/C
1    Tyre
2    Tyre
3     A/C
Name: RepairName, dtype: object
df['Category']=s

网友

2楼 · 编辑于 2024-09-28 23:37:14

在我确保所有列都是小写的情况下（为了更好地度量，我还删除了连字符和括号），这种方法就奏效了：

print("All lowercase")
data = data.apply(lambda x: x.astype(str).str.lower())
categories = categories.apply(lambda x: x.astype(str).str.lower())

print("Remove double spacing")
data = data.replace('\s+', ' ', regex=True)

print('Remove hyphens')
data["RepairName"] = data["RepairName"].str.replace('-', '')

print('Remove brackets')
data["RepairName"] = data["RepairName"].str.replace('(', '')
data["RepairName"] = data["RepairName"].str.replace(')', '')

data['Category'] = [
    next((c for c, k in categories.values if k in s), None) for s in data['RepairName']]

相关问题更多 >

编程相关推荐

热门问题

热门文章