使用pysp删除python列表中存在的重复记录

2024-06-25 23:22:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图找到并删除当前存储在YAML文件中的重复值。你知道吗

到目前为止我试过这个: df_input_file.drop_duplicates(self.duplicate_column_list)

duplicate_column_list = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'

上面的列表是我从YAML文件加载的。你知道吗

在尝试这个过程中,我无法识别重复的记录。你知道吗

有没有其他方法可以达到这个目的?你知道吗


Tags: 文件noidyamldfinputcodecolumn
1条回答
网友
1楼 · 发布于 2024-06-25 23:22:17

基本上,您的duplicate_column_list实际上不是一个列表,而是一个以逗号分隔的列字符串。您需要使用split函数来创建此列表。drop_duplicates将整个列视为一个单独的列,因此无法得到正确的结果。你知道吗

以下是原始数据:-

duplicate_column_list  = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'

使用拆分函数将其列为列表:-

duplicate_column_list  = 'active_proposal_no,active_proposal_revision_no,agency_id,adv_id,network_code,mkt_type,budget_seq_nbr,mkt_year_code'.split(",")

拆分将列为列表:-

duplicate_column_list  = ['active_proposal_no','active_proposal_revision_no','agency_id','adv_id','network_code','mkt_type','budget_seq_nbr','mkt_year_code']

现在传递此列表以删除重复项:-

df_input_file.drop_duplicates(duplicate_column_list)

相关问题 更多 >