如何比较数据帧相邻行中列表中的任何项是否匹配

DIAG_CODE 0 [ "M9901", "M9902", "M9903", "M5412"] 1 [ "M9901"] 2 [ "M9901", "M9902", "M9903", "M5412"] 3 [ "M9901", "M9902", "M9903", "M542"] ... 20 [ "M542", "M9902", "M9903", "M25519", ... 21 [ "M542", "M9902", "M9903", "M25519", ...

df = pd.read_parquet("samplefile.parquet", engine='pyarrow') print(df.head(20)) #remove newline characters df.replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=True) df['intersection'] = [list(set(a).intersection(set(b))) for a, b in zip(df['DIAG_CD'], df['DIAG_CD'].shift(1))]

1条回答

网友
                    
                    

                    

                    1楼 ·

                    
                        发布于 2024-09-30 05:32:10

由于您似乎在每一行中存储列表，有许多方法可以实现这一点，但一种有效的方法是将列表转换为集合，并使用not set(a).isdisjoint(b)测试它们是否有任何共享元素。因此，您可以执行以下操作：
for i in range(df.DIAG_CD.shape[0]-1):
    mutual_elements_exist = not set([df.DIAG_CD.iloc[i]]).isdisjoint([df.DIAG_CD.iloc[i+1]])
    print(f'Shared elements between row_{i}_and_row_{i+1} is {mutual_elements_exist}')

如果共享了任何值，则返回True；如果没有共享值，则返回False。我添加了打印功能，因为现在还不清楚你到底想用它实现什么。对结果进行分组的方法也有很多种，但由于缺乏信息，我就到此为止了
编辑：我已经修改了该问题，并对其进行了更改，以便您可以直接运行它

`相关问题更多 >`

`编程相关推荐`

`热门问题`

`热门文章`