如何使用Python使用sqlite3查找元组中的重复项？

[[u'b23e5d453643f66b68634d0204884cdf'], [u'/Volumes/Backup/images_to_test/File_one_copy.png']] [[u'b23e5d453643f66b68634d0204884cdf'], [u'/Volumes/Backup/images_to_test/File_one.png']] [[u'f0b4108172c50f243d9e0132df4703a0'], [u'/Volumes/Backup/images_to_test/File_with_no_duplicate.png']]

3条回答

网友

1楼 · 编辑于 2024-09-30 01:24:16

如果我没听错，你想要这样的东西：

{u'b23e5d453643f66b68634d0204884cdf':
     [u'/Volumes/Backup/images_to_test/File_one_copy.png', u'/Volumes/Backup/images_to_test/File_one.png'],
 u'f0b4108172c50f243d9e0132df4703a0':
     [u'/Volumes/Backup/images_to_test/File_with_no_duplicate.png']
}

这非常适合defaultdict（从Python2.5开始提供）

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 01:24:16

如果要按MD5组合，则首先要按MD5对列表进行排序。在您的例子中，这最好留给sqlite，因此您应该在查询中添加orderby（参见https://mariadb.com/kb/en/order-by-clause/）。之后，您应该遍历所有行并按照以下行执行操作：

if currentMD5 != previousMD5:
  dictionary[currentMD5] = [currentFilePath]
else:
  dictionary[currentMD5].append(currentFilePath]
currentMD5 = previousMD5

网友

3楼 · 编辑于 2024-09-30 01:24:16

您可以将cur放入一个循环中，只检索实际使用的列，并在循环中使用元组解包，如下所示：

db = sqlite3.connect('imges.db')
with db:
    cur = db.cursor()    
    cur.execute("SELECT row1, row3 FROM IMAGES")

    for row1, row3 in cur:
        print [[row3],[row1]]

另外，为什么不使用DISTINCT？在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章