有没有办法更快地运行OpenCV的SIFT？

from __future__ import division import cv2 import numpy as np import glob import pandas as pd listOfTitles1 = [] listOfTitles2 = [] listOfSimilarities = [] # Sift and Flann sift = cv2.xfeatures2d.SIFT_create() index_params = dict(algorithm=0, trees=5) search_params = dict() flann = cv2.FlannBasedMatcher(index_params, search_params) # Load all the images1 countInner = 0 countOuter = 1 folder = r"/Downloads/images/**/*" for a in glob.iglob(folder,recursive=True): for b in glob.iglob(folder,recursive=True): if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue if not b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): continue if b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countInner += 1 print(countInner, "", countOuter) if countInner <= countOuter: continue image1 = cv2.imread(a) kp_1, desc_1 = sift.detectAndCompute(image1, None) image2 = cv2.imread(b) kp_2, desc_2 = sift.detectAndCompute(image2, None) matches = flann.knnMatch(desc_1, desc_2, k=2) good_points = [] if good_points == 0: continue for m, n in matches: if m.distance < 0.6*n.distance: good_points.append(m) number_keypoints = 0 if len(kp_1) >= len(kp_2): number_keypoints = len(kp_1) else: number_keypoints = len(kp_2) percentage_similarity = float(len(good_points)) / number_keypoints * 100 listOfSimilarities.append(str(int(percentage_similarity))) listOfTitles2.append(b) listOfTitles1.append(a) countInner = 0 if a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')): countOuter += 1 zippedList = list(zip(listOfTitles1,listOfTitles2, listOfSimilarities)) print(zippedList) dfObj = pd.DataFrame(zippedList, columns = ['Original', 'Title' , 'Similarity']) dfObj.to_csv(r"/Downloads/images/DuplicateImages3.csv")

2条回答

网友

1楼 · 编辑于 2024-10-01 02:21:57

我在我的计算机上运行了现有的实现，在100个图像上运行。这段代码运行了6小时31分钟。然后，我改变了我在评论中建议的实现，只为每个图像计算sift.detectAndCompute一次，缓存结果并在比较中使用缓存的结果。这将我的计算机在同一个100映像上的执行时间从6小时31分钟减少到6分29秒。我不知道这对你所有的图片来说是否足够快，但这是一个显著的减少

请参阅下面我修改的实现

from __future__ import division

import cv2
import numpy as np
import glob
import pandas as pd


listOfTitles1 = []
listOfTitles2 = []
listOfSimilarities = []

    # Sift and Flann
sift = cv2.xfeatures2d.SIFT_create()


index_params = dict(algorithm=0, trees=5)
search_params = dict()
flann = cv2.FlannBasedMatcher(index_params, search_params)

# Load all the images1

countInner = 0
countOuter = 1

folder = r"/Downloads/images/**/*"
folder = "SiftImages/*"


siftOut = {}
for a in glob.iglob(folder,recursive=True):
    if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')):
        continue
    image1 = cv2.imread(a)
    kp_1, desc_1 = sift.detectAndCompute(image1, None)
    siftOut[a]=(kp_1,desc_1)



for a in glob.iglob(folder,recursive=True):
    if not a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')):
        continue

    (kp_1,desc_1) = siftOut[a]

    for b in glob.iglob(folder,recursive=True):


        if not b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')):

            continue

        if b.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')):

            countInner += 1


        print(countInner, "", countOuter)

        if countInner <= countOuter:

            continue

        #### image1 = cv2.imread(a)
        #### kp_1, desc_1 = sift.detectAndCompute(image1, None)
        ####
        #### image2 = cv2.imread(b)
        #### kp_2, desc_2 = sift.detectAndCompute(image2, None)

        (kp_2,desc_2) = siftOut[b]

        matches = flann.knnMatch(desc_1, desc_2, k=2)

        good_points = []

        if good_points == 0:

            continue

        for m, n in matches:
            if m.distance < 0.6*n.distance:
                good_points.append(m)

        number_keypoints = 0
        if len(kp_1) >= len(kp_2):
            number_keypoints = len(kp_1)
        else:
            number_keypoints = len(kp_2)

        percentage_similarity = float(len(good_points)) / number_keypoints * 100

        listOfSimilarities.append(str(int(percentage_similarity)))
        listOfTitles2.append(b)

        listOfTitles1.append(a)

    countInner = 0
    if a.lower().endswith(('.jpg','.png','.tif','.tiff','.gif')):
        countOuter += 1

zippedList =  list(zip(listOfTitles1,listOfTitles2, listOfSimilarities))

print(zippedList)

dfObj = pd.DataFrame(zippedList, columns = ['Original', 'Title' , 'Similarity'])

### dfObj.to_csv(r"/Downloads/images/DuplicateImages3.csv")
dfObj.to_csv(r"DuplicateImages3.2.csv")

网友

2楼 · 编辑于 2024-10-01 02:21:57

我认为通过简单的更改，可以获得显著的性能改进：

首先，由于您对比较图像对感兴趣，因此您的循环可以如下所示：

files = ... # preload all file names with glob

for a_idx in range(len(files)):
  for b_idx in range(a_idx, len(files)): # notice loop here
    image_1 = cv2.imread(files[a_idx])
    image_2 = cv2.imread(files[b_idx])

这将考虑所有对而不重复，例如（a，b）&&；（b，a）

其次，在比较每个b时，不需要重新计算a的特性

for a_idx in range(len(files)):
  image_1 = cv2.imread(files[a_idx])
  kp_1, desc_1 = sift.detectAndCompute(image1, None) # never recoompute SIFT!

  for b_idx in range(a_idx, len(files)):
    image_2 = cv2.imread(files[b_idx])
    kp_2, desc_2 = sift.detectAndCompute(image2, None)

我还会检查图像大小。我的猜测是，有一些非常大的，正在减慢你的内部循环。即使所有的60*60==3600对也不需要那么长的时间。如果一个图像真的很大，你可以降低它的采样效率

相关问题更多 >

编程相关推荐

热门问题

热门文章