Python中具有大稀疏矩阵的kNN

In [3]: trainX Out[3]: <6034195x755258 sparse matrix of type '<type 'numpy.float64'>' with 286674296 stored elements in Compressed Sparse Row format> In [4]: testX Out[4]: <2013337x755258 sparse matrix of type '<type 'numpy.float64'>' with 95423596 stored elements in Compressed Sparse Row format>

3条回答

网友

1楼 · 编辑于 2024-05-21 05:18:40

Even predicting for 1 item of testX takes a while (i.e. something like 30-60 secs, but if you multiply by 2 million, it becomes pretty much impossible).

这正是所有scikit学习估计器在其predict方法中抽取样本的原因。如果您在一次调用中传递多个样本，那么输入验证和Python的慢循环的成本会变小，因此每个样本的时间会比一个样本的成本乘以样本数少得多。

>>> from sklearn.datasets import fetch_20newsgroups_vectorized
>>> from sklearn.decomposition import TruncatedSVD
>>> from sklearn.neighbors import KNeighborsClassifier
>>> data = fetch_20newsgroups_vectorized()
>>> X, y = data['data'], data['target']
>>> X = TruncatedSVD(n_components=100).fit_transform(X)
>>> clf = KNeighborsClassifier(n_neighbors=1).fit(X, y)
>>> %timeit clf.predict(X[0])
1000 loops, best of 3: 766 us per loop
>>> %timeit clf.predict(X[0:10])
100 loops, best of 3: 2.44 ms per loop
>>> %timeit clf.predict(X[0:100])
100 loops, best of 3: 14.2 ms per loop
>>> %timeit clf.predict(X[0:1000])
10 loops, best of 3: 117 ms per loop

Maybe I can somehow make use of the sparsity to speed up the calculation?

你可以从训练集中抽取样本，而不是全部使用。k-NN的性能取决于训练集的大小，这就是为什么香草k-NN算法不是一个很好的文本分类选择。

（文本处理字段中最喜欢的技巧是使用磁盘索引构建k-NN分类器，例如Lucene：使用整个文档作为查询，检索顶部的k文档，从中确定标签。）

网友

2楼 · 编辑于 2024-05-21 05:18:40

据我所知，弗兰恩和安都不能很好地处理稀疏数据。我刚刚发布了一个新的C++库，用于KNN搜索，用于通用数据类型和通用相似性度量在www. kgCop.Org。你所要做的就是插入计算对象i和对象j之间相似性的函数，库将完成其余的魔术。缺点是，使用python可能无法获得太多好处。由于相似度计算代码将被频繁调用，因此为用户提供的度量添加python API没有多大意义。

网友

3楼 · 编辑于 2024-05-21 05:18:40

经典的kNN数据结构，如用于sklearn的KD树，随着数据维数的增加而变得非常慢。对于非常高维的问题，最好切换算法类并使用近似近邻（ANN）方法，不幸的是，这种方法似乎缺乏。有关算法和理论的论文，请参见下面的链接，在这些情况下，为什么近似近邻速度更快。

^{}

另一个流行的替代方案是带有Python包装器的^{}库，尽管较新的FLANN目前似乎更流行。
另请参见this answer（但有些链接已失效）。

一个警告：你的数据似乎是高维的，我不知道这些库是如何为你工作的。他们仍然应该打败sklearn。

相关问题更多 >

编程相关推荐

热门问题

热门文章