我正在比较两个大的CSV和熊猫都包含联系信息。我想从一个CSV中删除包含另一个CSV中任何电子邮件地址的行。在
所以如果我有
DF1型
name phone email
1 1 hi@hi.com
2 2 bye@bye.com
3 3 yes@yes.com
DF2型
^{pr2}$我会留下
DF3型
name phone email
1 1 hi@hi.com
我不关心任何列,除了电子邮件地址。这看起来很容易,但我真的很难对付这个。在
以下是我所拥有的,但我认为这还不够接近:
def remove_warm_list_duplicates(dataframe):
'''Remove rows that have emails from the warmlist'''
warm_list = pd.read_csv(r'warmlist/' + 'warmlist.csv'
, encoding="ISO-8859-1"
, error_bad_lines=False)
warm_list_emails = warm_list['Email Address'].tolist()
dataframe = dataframe[dataframe['Email Address'].isin(warm_list_emails) == False]
你可以使用pandas isin()
结果df
^{pr2}$您可以使用
unique()
和集合简化一点:试试这个:
相关问题 更多 >
编程相关推荐