高效快速地实现在数据帧中查找和匹配唯一值

idx = pd.MultiIndex.from_product([['A001', 'B001','C001'], ['0', '1', '2']], names=['ID', 'Entries']) col = ['A', 'B'] df = pd.DataFrame('-', idx, col) df.loc['A001', 'A'] = [10,10,10] df.loc['A001', 'B'] = [90,84,70] df.loc['B001', 'A'] = [10,20,30] df.loc['B001', 'B'] = [70,86,67] df.loc['C001', 'A'] = [20,20,20] df.loc['C001', 'B'] = [98,81,72] df.loc['D001', 'A'] = [20,20,10] df.loc['D001', 'B'] = [68,71,92] #df is a dataframe df

2条回答

网友

1楼 · 编辑于 2024-09-27 04:23:15

可以使用set.intersection进行计算，使用pd.Index.get_level_values提取索引的第一级：

search = {10, 20}

idx = (set(df[df['A'] == i].index.get_level_values(0)) for i in search)

res = set.intersection(*idx)

网友

2楼 · 编辑于 2024-09-27 04:23:15

基本上-

search_list = {10,20}
op = df.groupby(level=0)['A'].apply(lambda x: search_list.issubset(set(x))).reset_index()
print(op[op['A']]['ID'])

感谢@Ben.T删除了不必要的unique()

输出

1    B001
Name: ID, dtype: object

解释

df.groupby(level=0)['A']按level 0分组并给出列表-

ID
A001            [10]
B001    [10, 20, 30]
C001            [20]

接下来，对于每个列表，我们将其转换为一个集合，并检查search_list是否是一个子集。你知道吗

ID
A001    False
B001     True
C001    False

它返回一个Series布尔值，然后可以用作掩码-

print(op[op['A']]['ID'])

最终输出-

1    B001

相关问题更多 >

编程相关推荐

热门问题

热门文章