根据每个子列表中的第三项删除列表中的重复项

d = [] #list that will contain condensed c d.append(c[0]) #append first element, so I can compare lists for bact in c: #c is my list of lists with 30,000 interior list for items in d: if bact[3] != items[3]: d.append(bact)

3条回答

网友

1楼 · 编辑于 2024-09-30 18:12:43

使用熊猫。我想你也有更好的列名。在

c = [['470', '4189.0', 'asdfgw', 'fds'],
     ['470', '4189.0', 'qwer', 'fds'],
     ['470', '4189.0', 'qwer', 'dsfs fdv']]
import pandas as pd
df = pd.DataFrame(c, columns=['col_1', 'col_2', 'col_3', 'col_4'])
df.drop_duplicates('col_4', inplace=True)
print df

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 18:12:43

我会这样做的：

seen = set()
cond = [x for x in c if x[3] not in seen and not seen.add(x[3])]

说明：

seen是一个集合，它跟踪每个子列表中已经遇到的第四个元素。 cond是压缩列表。如果x[3]（其中x是c中的子列表）不在seen中，x将被添加到{}中，x[3]将被添加到{}。在

seen.add(x[3])将返回None，因此not seen.add(x[3])将始终是{}，但是只有当{}是{}时，才会计算该部分，因为Python使用短路求值。如果对第二个条件求值，它将始终返回True，并产生将x[3]添加到seen的副作用。下面是另一个正在发生的事情的示例（print返回{}并具有打印某些内容的“副作用”）：

^{pr2}$

网友

3楼 · 编辑于 2024-09-30 18:12:43

当前代码中存在一个重大的逻辑缺陷：

for items in d:
    if bact[3] != items[3]:
        d.append(bact)

这将为d中与不匹配的每个项将bact添加到d。对于最小的修复，您需要切换到：

^{pr2}$

如果d中的所有项不匹配，则添加一次bact。我怀疑这将意味着你的代码在更合理的时间内运行。在

除此之外，一个明显的性能改进（速度提升，尽管是以内存使用为代价）是保留到目前为止看到的第四个元素。对集合的查找使用散列，因此成员资格测试（突出显示）将更快。在

d = []
seen = set()
for bact in c:
    if bact[3] not in seen: # membership test
        seen.add(bact[3])
        d.append(bact)

相关问题更多 >

编程相关推荐

热门问题

热门文章