如何在Python中正确地从txt文件中捕获两个重复值的列？

entries = [] duplicate_entries = [] with open('in.txt', 'r') as my_file: for line in my_file: columns = line.strip().split(',') if columns[2] not in entries: entries.append(columns[2]) else: duplicate_entries.append(columns[2]) if len(duplicate_entries) > 0: with open('out.txt', 'w') as out_file: with open('in.txt', 'r') as my_file: for line in my_file: columns = line.strip().split(',') if columns[2] in duplicate_entries: print line.strip() out_file.write(line) else: print "No repetitions"

entries = [] duplicate_entries = [] with open('/home/usr/python-programming/ip-infos', 'r') as arq: for line in arq: columns = line.strip().split(',') if columns[3] and columns[4] not in entries: entries.append(columns[3]) entries.append(columns[4]) else: duplicate_entries.append(columns[3]) duplicate_entries.append(columns[4]) arq.close() if len(duplicate_entries) > 0: with open('/home/usr/python-programming/suspects', 'w') as out_file: with open('/home/usr/python-programming/ip-infos', 'r') as arq: for line in arq: columns = line.strip().split(',') if columns[3] and columns[4] in duplicate_entries: print line.strip() out_file.write(line) out_file.close() arq.close() else: print "No repetitions"

179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951 177.xxx.xxx.xxx,Brazil,Maceió,-9.5934,-35.7568 >output: "No repetitions" and nothing is writed to the out_file(correct) 179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951 177.xxx.xxx.xxx,Brazil,Maceió,-23.3939,-46.4951 >output: 179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951 177.xxx.xxx.xxx,Brazil,Maceió,-23.3939,-46.4951 (and this two lines appear in the out_file (correct))

179.xxx.xxx.xxx,Brazil,São Paulo,-23.3938,-46.4951 177.xxx.xxx.xxx,Brazil,Maceió,-23.3939,-46.4951 >output: 179.xxx.xxx.xxx,Brazil,São Paulo,-23.3938,-46.4951 177.xxx.xxx.xxx,Brazil,Maceió,-23.3939,-46.4951 (and this two lines appear in the out_file (incorrect))

2条回答

网友

1楼 · 编辑于 2024-07-01 08:16:47

您还可以将文件中的输入放入字典。这样你就可以一次得到副本

elements = ['179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951',
'177.xxx.xxx.xxx,Brazil,Maceió,-9.5934,-35.7568',
'179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951',
'177.xxx.xxx.xxx,Brazil,Maceió,-9.5934,-35.7568',
'179.xxx.xxx.xxx,Brazil,São Paulo,-23.3939,-46.4951']

uniques = {}
for line in elements:
    ip, country, city, lat, long = line.strip().split(',')
    uniques.setdefault((lat, long), []).append(line)




uniques = {('-23.3939', '-46.4951'): ['179.xxx.xxx.xxx,Brazil,São 
Paulo,-23.3939,-46.4951', '179.xxx.xxx.xxx,Brazil,São 
Paulo,-23.3939,-46.4951', '179.xxx.xxx.xxx,Brazil,São 
Paulo,-23.3939,-46.4951'],
('-9.5934', '-35.7568'): 
['177.xxx.xxx.xxx,Brazil,Maceió,-9.5934,-35.7568',
'177.xxx.xxx.xxx,Brazil,Maceió,-9.5934,-35.7568']}

此时，您将有键（lat，long），值是一个列表，其中所有行的坐标相同

with open('duplicate.txt', 'w') as duplicate:
    for coord, cities in uniques.items():
        if len(cities) == 1:
            continue
        duplicate.write('\n'.join(cities))

集合中的defaultdict可以用来代替setdefault（k，[]）

网友

2楼 · 编辑于 2024-07-01 08:16:47

这条线是你的问题：

if columns[3] and columns[4] not in entries:

应该是这样的：

if (columns[3] in entries) and (columns[4] in entries):

您还需要使用duplicate_entries对if条件进行相同的更改。你知道吗

希望有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章