2024-09-26 18:00:46 发布
网友
本质上,我的问题与SciKit One-class SVM classifier training time increases exponentially with size of training data相同,但没有人解决这个问题。在
它似乎运行良好的某个地方的10万,但100万需要很长的时间。我想用上千万,但我不想等上一天半(也许更久)就一无所获。有没有更快的方法,或者我应该用别的方法?在
我是这个领域的小个子,所以你要谨慎对待这个问题。在
隔离林似乎是一种有效的离群点检测解决方案。与其他流行算法相比,这些算法表现良好[Liu,2008]。此外,根据scikit-learn,一类支持向量机对异常有一定的敏感性。类1中的异常可能与类2重叠,并导致数据被错误标记。。。也许获取样本的子集并使用它们来创建一个支持向量机的集合可以避免这种情况(并且仍然可以节省时间,这取决于子集的大小),但是隔离林自然会做到这一点。在
为了进一步阅读,这似乎是一份很好的关于这个主题的参考文件 http://www.robots.ox.ac.uk/~davidc/pubs/NDreview2014.pdf
它提到了可能适用于您的案例的聚类和距离方法。为了让你了解不同算法的优点和缺点,我一定要好好考虑。尤其是因为我正在做这件事,即使我知道你问题的具体细节,我也不能给出可靠的建议。在
注:基于距离的算法。我知道有些是优化的,但我认为总的抱怨是它们的计算复杂度很高。许多基于聚类/距离/概率的算法在处理高维数据时也存在弱点。在
我是这个领域的小个子,所以你要谨慎对待这个问题。在
隔离林似乎是一种有效的离群点检测解决方案。与其他流行算法相比,这些算法表现良好[Liu,2008]。此外,根据scikit-learn,一类支持向量机对异常有一定的敏感性。类1中的异常可能与类2重叠,并导致数据被错误标记。。。也许获取样本的子集并使用它们来创建一个支持向量机的集合可以避免这种情况(并且仍然可以节省时间,这取决于子集的大小),但是隔离林自然会做到这一点。在
为了进一步阅读,这似乎是一份很好的关于这个主题的参考文件 http://www.robots.ox.ac.uk/~davidc/pubs/NDreview2014.pdf
它提到了可能适用于您的案例的聚类和距离方法。为了让你了解不同算法的优点和缺点,我一定要好好考虑。尤其是因为我正在做这件事,即使我知道你问题的具体细节,我也不能给出可靠的建议。在
注:基于距离的算法。我知道有些是优化的,但我认为总的抱怨是它们的计算复杂度很高。许多基于聚类/距离/概率的算法在处理高维数据时也存在弱点。在
相关问题 更多 >
编程相关推荐