用lis搜索数据帧的最佳方法

listOfRepetitionBase_SNPS = [] for i in range(len(more)): temp = baza[baza['Sample'].str.contains(more[i])] if len(temp) > 0: listOfRepetitionBase_SNPS.append(temp) else: print("no that record in base,", more[i])

3条回答

网友

1楼 · 编辑于 2024-05-19 12:35:57

使用正则表达式

例如：

baza = pd.DataFrame({"Sample":['POLSD233123', 'POLRR419910', 'POLAG002144', 'DEUOD002139', 'MEDOW203919']})
more = [419910, 983129,9128412,5353463,203919]
c = "|".join(map(str, more))
common_list =  baza[baza['Sample'].str.contains(c, regex=True)].values.tolist()
uncommon =  baza[~baza['Sample'].str.contains(c, regex=True)].values.tolist()

import re

print([re.search(r"(\d+)", i[0]).group(1) for i in common_list])
print([re.search(r"(\d+)", i[0]).group(1) for i in uncommon])

输出：

['419910', '203919']
['233123', '002144', '002139']

网友

2楼 · 编辑于 2024-05-19 12:35:57

您可以将more转换为set，并检查数据帧中所有字符串的^{}成员身份：

s = set(map(str, more))
common = [i for i in s if any(i in row for row in df.Sample.values)]
# ['419910', '203919']
uncommon  = list(s.difference(common))
#['9128412', '5353463', '983129']

网友

3楼 · 编辑于 2024-05-19 12:35:57

我喜欢这里。你知道吗

data

    0
0  POLSD233123
1  POLRR419910
2  POLAG002144
3  DEUOD002139
4  MEDOW203919

使用np.setdiff1d

a = np.setdiff1d(df[0].str.extract(r'(\d+)')[0], more)
##print(a)
array(['002139', '002144', '233123'], dtype=object)

使用np.intersect1d

a = np.intersect1d(df[0].str.extract(r'(\d+)')[0], more)
##print(a) 
array(['203919', '419910'], dtype=object)

相关问题更多 >

编程相关推荐

热门问题

热门文章

用lis搜索数据帧的最佳方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >