panda获取一个数据帧中列出的所有行，而不是另一个无序的行

DF1 col_a col_b 1325 foo 1397 foo #<---matching value, but not matching index in DF2 1645 foo ... ... DF2 col_1 col_2 1397 foo #<---matching value, but not matching index in DF1 1500 foo 1621 foo ... ...

def getUniqueEntries(df1, df2): """takes two dataframes, returns a dataframe that is comprized of all the rows unique to the first dataframe.""" d1columns = df1.columns d2columns = df2.columns df3 = pd.merge(df1, df2, left_on=d1columns[0], right_on=d2columns[0]) print(df3) return df1[(~df1[d1columns[0]].isin(df3[d1columns[0]]))] def main(fileread1, fileread2, writeprefix): df1 = pd.read_csv(fileread1) df2 = pd.read_csv(fileread2) df3 = getUniqueEntries(df1, df2) df4 = getUniqueEntries(df2, df1) print(df3) print(df4) df3.to_csv(writeprefix+fileread1, index=False) df4.to_csv(writeprefix+fileread2, index=False) if __name__ == '__main__': main(sys.argv[1], sys.argv[2], sys.argv[3])

3条回答

网友

1楼 · 编辑于 2024-10-03 00:23:05

这使用布尔索引来定位df1中的所有行，其中col_a中的值不在df2的col_a中（~）。它使用^{}来定位匹配的行，并使用反运算符（~）来查找与这些行相反的行（即不匹配的行）。在

df1[~df1.col_a.isin(df2.col_a)]

您提到了一个索引，但是您的示例数据没有索引。因此，根据您的示例，匹配只在col_a中的值上进行。在

网友

2楼 · 编辑于 2024-10-03 00:23:05

下面是一个与SQL（Oracle）减号操作等效的pandas：

select col1, col2 from tab1
minus
select col1, col2 from tab2

熊猫：

^{pr2}$

说明：

In [60]: pd.DataFrame(df2.values, columns=df1.columns)
Out[60]:
  col_a col_b
0  1397   foo
1  1500   foo
2  1621   foo

In [61]: pd.DataFrame(df2.values, columns=df1.columns).to_dict('l')
Out[61]: {'col_a': [1397, 1500, 1621], 'col_b': ['foo', 'foo', 'foo']}

In [62]: df1.isin(pd.DataFrame(df2.values, columns=df1.columns).to_dict('l'))
Out[62]:
   col_a col_b
0  False  True
1   True  True
2  False  True

In [63]: df1.isin(pd.DataFrame(df2.values, columns=df1.columns).to_dict('l')).all(1)
Out[63]:
0    False
1     True
2    False
dtype: bool

网友

3楼 · 编辑于 2024-10-03 00:23:05

是的，您可以将merge与indicator参数一起使用：

我重命名了列以避免重复的列，您还可以传递left_on和{}

merged = DF1.merge(DF2.rename(columns={'col_1': 'col_a', 'col_2': 'col_b'}), how='left', indicator=True)
merged
Out: 
   col_a col_b     _merge
0   1325   foo  left_only
1   1397   foo       both
2   1645   foo  left_only

现在，您可以使用指示符列过滤merged：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章