提高python比较两个列表的性能问题的回答

提高python比较两个列表的性能

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有两个电子邮件地址列表：新的_电子邮件.tsv而且很老_电子邮件.tsv你知道吗 老城区大约有1000万排_电子邮件.tsv纽约大约有150万排_电子邮件.tsv. 我想创建一个新的.tsv文件，其中包含旧版本中的电子邮件地址_电子邮件.tsv但不是在纽约_电子邮件.tsv. 这是因为在后面的步骤中，我需要从MySQL数据库中删除这组电子邮件。你知道吗 这两个文件有不同的头，即： <pre><code>new_emails.tsv has ['ACCTNUM', 'CUST_ID', 'EMAIL', 'CODE'] old_emails.tsv has ['ACCTNUM', 'EMAIL', 'OPTION'] </code></pre> 为了解决这个问题，我将两个文件中的email字段拉到它们自己的列表中，然后比较列表，转换为集合，并找到差异（重载的“-”运算符）。由于电子邮件列表现在在排除电子邮件列表中，我需要使用此列表从旧列表中提取行_电子邮件.tsv并将这些行放入名为exclusion的新文件中_电子邮件.tsv. 然而，将我的电子邮件列表转换为从旧邮件中提取的行列表_电子邮件.tsv是一个极其乏味的过程。有没有办法提高这个性能？我的完整代码如下： <pre><code>import csv def csv_to_list(file): output_list = [] with open(file, 'rb') as f_new_emails: reader = csv.reader(f_new_emails, delimiter='\t') for line in reader: output_list.append(line) return output_list new_emails_list = csv_to_list('new_emails.tsv') old_emails_list = csv_to_list('old_emails.tsv') # Get the index for the email field def get_email_index(alist): if 'EMAIL' in alist: return alist.index('EMAIL') elif 'email' in alist: return alist.index('email') s_new_emails = set([row[get_email_index(new_emails_list[0])] for row in new_emails_list]) s_old_emails = set([row[get_email_index(old_emails_list[0])] for row in old_emails_list]) exclusion_emails = [email for email in (s_old_emails - s_new_emails)] # print("%s emails in the new list" % len(new_emails_list)) # print("%s emails in the old list" % len(old_emails_list)) # print("%s emails in the old list but not in the new list" % len(exclusion_emails)) # Creating the new file exclusion_rows = [] operations = 0 with open('exclusions.tsv', 'wb') as tsvfile: writer = csv.writer(tsvfile, delimiter='\t') for email in exclusion_emails: for row in old_emails_list: operations += 1 if email in row: writer.writerow(row) break print(len(exclusion_rows)) </code></pre> 任何帮助都将不胜感激！你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

提高python比较两个列表的性能

1 个回答

相关Python问题