擅长:python、mysql、java
<p>K-K并不意味着距离最小化。在</p>
<p>它使<strong>平方误差最小化,这与<em>完全不同。
差别大致是中值和一维数据的平均值。错误可能是巨大的。在</p>
<p>下面是一个反例,假设我们有坐标:</p>
<pre><code>-1 0
+1 0
0 -1
0 101
</code></pre>
<p>k均值选择的中心为0,25。最佳位置为0,0。
k均值法的距离之和大于152,最佳位置距离为104。所以在这里,质心几乎比最佳值差50%!但是质心(=多元平均值)是k-均值使用的!在</p>
<h2>k-均值不最小化欧几里德距离!在</h2>
<p>这是“k均值对异常值敏感”的一个变体。在</p>
<p>如果你试图限制它只把“中心”放在海岸上,它不会变得更好。。。在</p>
<p>另外,你可能需要至少使用哈弗斯距离,因为在加州,1度北!=1度东,因为它不在赤道。在</p>
<p>此外,您可能应该假设每个位置都需要自己的管道,而是像树一样连接起来。这大大降低了成本。在</p>
<p>我强烈建议将此问题视为一个通用优化问题,而不是k-均值。K-means也是一个优化,但它可能会针对您的问题优化错误的函数。。。在</p>