Отображение двух k-средних функций затрат равны

Таким образом, я изучаю алгоритм k-средних для кластеризации и видел несколько различных функций стоимости, которые могут быть использованы, в частности, $$J_{avg} = sum_{i=0}^ksum_{xin C_i}d (x,m_j)^2$$$$J_{IC}=sum_{i=0}^kfrac{1}{|C_j/}sum_{xin C_i}sum_{x ‘in C_i}d (x,x’)^2.$$ Теперь я пытаюсь показать, что если $m_j=frac{1}{C_j}sum_{xin C_j}x$, то $J_{IC}=2J_{avg}.$ Это имеет интуитивный смысл для меня, поскольку кажется, что разница между средним расстоянием до центриода и средним расстоянием между двумя точками (которое должно быть вдвое больше, чем до центра). Буду признателен за любую помощь, спасибо!

1 ответ

  1. Для того, чтобы функции затрат были эквивалентны, они не должны быть точно равными, просто монотонно связаны, так что оптимизация одной означает оптимизацию другой.

    SUM_ij (Xi — Xj)^2 = SUM_ij (Xi — x + x — Xj)^2 = SUM_ij (Xi — x)^2 + (Xj — x)^2 + 2 (Xi — x).(x — Xj)

    Если x-среднее значение Xi, то SUM_j (x — Xj) = 0, поэтому термин точечного произведения уходит, и вы получаете своего рода связь между суммой квадратов расстояний от среднего и суммой квадратов расстояний между любыми двумя точками, которые, по моему мнению, вам нужны.