有没有办法更快地运行OpenCV的SIFT？问题的回答

有没有办法更快地运行OpenCV的SIFT？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个图像目录，其中包含许多未识别的副本。我的目标是识别重复项。由于重复项已被裁剪、调整大小或转换为不同的图像格式，因此无法通过比较其哈希来检测它们 我编写了一个脚本，可以成功地检测重复项，但有一个主要缺点：脚本速度慢。在一个包含60个项目的文件夹的试驾上，运行了五个小时（这也可能反映了我的电脑越来越有问题，速度越来越慢）。由于我的目录中有大约66000个图像，我估计脚本需要229天才能完成 有人能提出解决方案吗？我的<a href="https://answers.opencv.org/question/14285/how-to-free-memory-through-cvmat/" rel="nofollow noreferrer">research</a>揭示了在循环完成时，可以通过“释放”存储在变量中的图像来释放内存，但是所有关于如何做到这一点的信息似乎都是用C编写的，而不是用python编写的。我也在考虑尝试使用<a href="https://docs.opencv.org/3.4/d1/d89/tutorial_py_orb.html" rel="nofollow noreferrer">orb</a>而不是sift，但担心它的准确性。有人对这两种选择中的哪一种更适合提出建议吗？还是重写脚本以减少内存占用的方法？非常感谢 <pre><code>from __future__ import division import cv2 import numpy as np import glob import pandas as pd listOfTitles1 = [] listOfTitles2 = [] listOfSimilarities = [] # Sift and Flann sift = cv2.xfeatures2d.SIFT_create() index_params = dict(algorithm=0, trees=5) search_params = dict() flann = cv2.FlannBasedMatcher(index_params, search_params) # Load all the images1 countInner = 0 countOuter = 1 folder = r"/Downloads/images/**/*" for a in glob.iglob(folder,recursive=True): for b in glob.iglob(folder,recursive=True): if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue if not b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue if b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countInner += 1 print(countInner, "", countOuter) if countInner <= countOuter: continue image1 = cv2.imread(a) kp_1, desc_1 = sift.detectAndCompute(image1, None) image2 = cv2.imread(b) kp_2, desc_2 = sift.detectAndCompute(image2, None) matches = flann.knnMatch(desc_1, desc_2, k=2) good_points = [] if good_points == 0: continue for m, n in matches: if m.distance < 0.6*n.distance: good_points.append(m) number_keypoints = 0 if len(kp_1) >= len(kp_2): number_keypoints = len(kp_1) else: number_keypoints = len(kp_2) percentage_similarity = float(len(good_points)) / number_keypoints * 100 listOfSimilarities.append(str(int(percentage_similarity))) listOfTitles2.append(b) listOfTitles1.append(a) countInner = 0 if a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countOuter += 1 zippedList = list(zip(listOfTitles1,listOfTitles2, listOfSimilarities)) print(zippedList) dfObj = pd.DataFrame(zippedList, columns = ['Original', 'Title' , 'Similarity']) dfObj.to_csv(r"/Downloads/images/DuplicateImages3.csv") </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我在我的计算机上运行了现有的实现，在100个图像上运行。这段代码运行了6小时31分钟。然后，我改变了我在评论中建议的实现，只为每个图像计算sift.detectAndCompute一次，缓存结果并在比较中使用缓存的结果。这将我的计算机在同一个100映像上的执行时间从6小时31分钟减少到6分29秒。我不知道这对你所有的图片来说是否足够快，但这是一个显著的减少 请参阅下面我修改的实现 <pre><code>from __future__ import division import cv2 import numpy as np import glob import pandas as pd listOfTitles1 = [] listOfTitles2 = [] listOfSimilarities = [] # Sift and Flann sift = cv2.xfeatures2d.SIFT_create() index_params = dict(algorithm=0, trees=5) search_params = dict() flann = cv2.FlannBasedMatcher(index_params, search_params) # Load all the images1 countInner = 0 countOuter = 1 folder = r"/Downloads/images/**/*" folder = "SiftImages/*" siftOut = {} for a in glob.iglob(folder,recursive=True): if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue image1 = cv2.imread(a) kp_1, desc_1 = sift.detectAndCompute(image1, None) siftOut[a]=(kp_1,desc_1) for a in glob.iglob(folder,recursive=True): if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue (kp_1,desc_1) = siftOut[a] for b in glob.iglob(folder,recursive=True): if not b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue if b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countInner += 1 print(countInner, "", countOuter) if countInner <= countOuter: continue #### image1 = cv2.imread(a) #### kp_1, desc_1 = sift.detectAndCompute(image1, None) #### #### image2 = cv2.imread(b) #### kp_2, desc_2 = sift.detectAndCompute(image2, None) (kp_2,desc_2) = siftOut[b] matches = flann.knnMatch(desc_1, desc_2, k=2) good_points = [] if good_points == 0: continue for m, n in matches: if m.distance < 0.6*n.distance: good_points.append(m) number_keypoints = 0 if len(kp_1) >= len(kp_2): number_keypoints = len(kp_1) else: number_keypoints = len(kp_2) percentage_similarity = float(len(good_points)) / number_keypoints * 100 listOfSimilarities.append(str(int(percentage_similarity))) listOfTitles2.append(b) listOfTitles1.append(a) countInner = 0 if a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countOuter += 1 zippedList = list(zip(listOfTitles1,listOfTitles2, listOfSimilarities)) print(zippedList) dfObj = pd.DataFrame(zippedList, columns = ['Original', 'Title' , 'Similarity']) ### dfObj.to_csv(r"/Downloads/images/DuplicateImages3.csv") dfObj.to_csv(r"DuplicateImages3.2.csv") </code></pre>

有没有办法更快地运行OpenCV的SIFT？

1 个回答

相关Python问题