从CSV fi中提取没有重复项的列表

网友

1楼 · 编辑于 2024-05-08 20:40:18

改变

writer.writerow(row[2])

到

^{pr2}$

另外，检查列表中的成员关系在计算上是非常昂贵的[O（n）]。如果您要检查大量项集合中的成员资格，并且经常这样做，请使用set[O（1）]：

L = set()
reader.next() # Skip the header
for row in reader:
    if row[2] not in L:
        L.add(row[2])
        writer.writerow([row[2]])

或者

如果您可以使用几兆字节的内存，请执行以下操作：

with open("sample.csv", "rb") as infile:
    reader = csv.reader(infile)
    reader.next()
    no_duplicates = set(tuple(row) for row in reader)

    with open("users.csv", "wb") as outfile:
        csv.writer(outfile).writerows(no_duplicates)

如果顺序很重要，请使用OrderedDict而不是集合：

from collections import OrderedDict
with open("sample.csv", "rb") as infile:
    reader = csv.reader(infile)
    reader.next()
    no_duplicates = OrderedDict.fromkeys(tuple(row) for row in reader)

    with open("users.csv", "wb") as outfile:
        csv.writer(outfile).writerows(no_duplicates.keys())

网友

2楼 · 编辑于 2024-05-08 20:40:18

简单又简短！

for line in reader:
    string = str(line)
    split = string.split("," , 2)
    username = split[2][2:-2]

网友

3楼 · 编辑于 2024-05-08 20:40:18

您可以在这里使用set，它提供O(1)项查找，与列表的O(N)相比。在

seen = set()
add_  = seen.add
next(reader) #skip header
writer.writerows([row[-1]] for row in reader if row[-1] not in seen
                                                        and not add_(row[-1]))

并且始终使用with语句来处理文件，它会自动为您关闭文件：

^{pr2}$

或者

相关问题更多 >

编程相关推荐

热门问题

热门文章

从CSV fi中提取没有重复项的列表

或者

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >