K-means

1. K-means 简介
- 1.1. K-means 算法与 K-NN 算法
2. K-means 算法描述
3. K-means 算法实例
4. K-means 算法的不足
5. 参考

1. K-means 简介

K-means 是一种简单的聚类算法，属于无监督学习算法（Unsupervised learning）。

给定样本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$ ，K-means 的目标是：把 $m$ 个样本点划分到 $k$ （由用户提供 $k$ 值）个类簇中，使得簇划分 $C = {C_{1}, C_{2}, \dots, C_{k}}$ 使下面的平方误差最小：
$E = \sum_{i = 1}^{k} \sum_{x \in C_{i}} ‖ x - μ_{i} ‖^{2}$
其中 $μ_{i} = \frac{1}{| C_{i} |} \sum_{x \in C_{i}} x$ 是簇 $C_{i}$ 的均值向量。上式中，距离度量采用的是欧氏距离，不过，你也可以采用其它距离。从上式看， $E$ 值越小意味着簇内样本的相似度越高。
不过，最小化 $E$ 并不容易，找到它的最优解需要考察样本集 $D$ 所有可能的簇划分，这是一个 NP 难问题。 K-means 算法采用了贪心策略，通过迭代优化来近似求解最小化 $E$ 对应的簇划分。

1.1. K-means 算法与 K-NN 算法

K-means 算法与 K-NN（K 近邻）算法没太多关系，K-means 是一种聚类算法（无监督学习），而 K-NN 是一种分类算法（有监督学习）。

两种算法中“K”含义是不同的：
在 K-means 算法中“K”是含义是样本可以分为 K 个类簇；在 K-NN 算法中“K”的含义是给定一个待分类样本 $x$ , 要给它分类，就从样本数据集中，在 $x$ 附近找离它最近的 K 个数据点，这 K 个数据点，类别 $c$ 占的个数最多，就把 $x$ 分到 $c$ 类中。

K-means 算法与 K-NN 算法的相同点：它们都包含计算样本点之间距离的过程，都可以采用多种距离计算公式。

2. K-means 算法描述

K-means 算法如图 1 所示。

Figure 1: K-means 算法

其中，第 1 行对均值向量进行初始化，在第 4-8 行与第 9-16 行依次对当前簇划分及均值向量迭代更新，若迭代更新后聚类结果保持不变，则将当前簇划分结果返回。

3. K-means 算法实例

下面以图 2 所示的西瓜相关数据集为例来演示 K-means 算法的学习过程。

Figure 2: 西瓜数据集

为方便叙述，我们将编号为 $i$ 的样本称为 $x_{i}$ ，这是一个包含“密度”与“含糖率”两个属性值的二维向量。

假定聚类簇数 $k = 3$ ，算法开始时随机选取三个样本 $x_{6}, x_{12}, x_{27}$ 作为初始均值向量，即：
$\begin{aligned} μ_{1} & = (0.403, 0.237) \\ μ_{2} & = (0.343, 0.099) \\ μ_{3} & = (0.532, 0.472) \end{aligned}$
考察样本 $x_{1} = (0.697, 0.460)$ ，它与当前均值向量 $μ_{1}, μ_{2}, μ_{3}$ 的距离分别为 0.369，0.506，0.166，因此 $x_{1}$ 将被划入簇 $C_{3}$ 中。类似地，对数据集中的所有样本考察一遍后，可得当前簇划分为：
$\begin{aligned} C_{1} & = {x_{5}, x_{6}, x_{7}, x_{8}, x_{9}, x_{10}, x_{13}, x_{14}, x_{15}, x_{17}, x_{18}, x_{19}, x_{20}, x_{23}} \\ C_{2} & = {x_{11}, x_{12}, x_{16}} \\ C_{3} & = {x_{1}, x_{2}, x_{3}, x_{4}, x_{21}, x_{22}, x_{24}, x_{25}, x_{26}, x_{27}, x_{28}, x_{29}, x_{30}} \end{aligned}$
于是，可从 $C_{1}, C_{2}, C_{3}$ 分别求出新的均值向量：
$\begin{aligned} μ_{1}^{'} & = (0.473, 0.214) \\ μ_{2}^{'} & = (0.394, 0.066) \\ μ_{3}^{'} & = (0.623, 0.388) \end{aligned}$
更新当前均值向量后，不断重复上述过程，如图 3 所示，第五轮迭代产生的结果与第四轮迭代相同，于是算法停止，得到最终的簇划分。

Figure 3: 西瓜数据集上 K-means 算法在各轮迭代后的结果。样本点和均值向量分别用“•”和“+”表示，红色虚线显示出簇划分

4. K-means 算法的不足

K-means 算法有下面的不足：
1、类簇个数 $k$ 需要事先给定，但很多时候，事先不知道给定数据集分成多少个类别才合适。
2、需要人为地确定初始聚类中心（前面算法描述中是随机地选择初始聚类中心），不同的初始聚类中心可能导致完全不同的聚类结果。

关于第 2 点不足可以使用 K-means++ 算法来解决，这里不介绍 K-means++算法。

5. 参考

本文主要摘自：《机器学习，周志华，2016》，9.4.1 k均值算法