13.1 无监督学习基本原理
无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计。
假设训练数据集由$N$个样本组成,每个样本是一个$M$维向量。训练数据可以由一个矩阵表示,每一行对应一个特征,每一列对应一个样本。
无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压缩”,从而找到数据的潜在结构。
- 可以考虑发掘数据的纵向结构,把相似的样本聚到同类,即对数据进行聚类。
- 还可以考虑发掘数据的横向结构,把高维空间的向量转换为低维空间的向量,即对数据进行降维。
- 也可以同时考虑发掘数据的纵向与横向结构,假设数据由含有隐式结构的概率模型生成得到,从数据中学习该概率模型。
13.2 基本问题
- 聚类
聚类(clustering)是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。聚类时,样本通常是欧式空间中的向量,类别不是事先给定,而是从数据中自动发现,但类别的个数通常是事先给定。样本之间的相似度或距离由应用决定。
- 如果一个样本只能属于一个类,则称为硬聚类(hard clustering);
- 如果一个样本可以属于多个类,则称为软聚类(soft clustering)。
假设输入空间是欧式空间$X \subseteq R^d$,输出空间是类别集合$Z = \{1,2,…,k\}$。聚类的模型是函数$z = g_\theta(x)$或者条件概率分布$P_\theta(z|x)$,其中$x \in X$是样本的向量,$z \in Z$是样本的类别,$\theta$是参数。前者的函数是硬聚类模型,后者的条件概率分布是软聚类模型。
聚类的过程就是学习聚类模型的过程:
- 硬聚类时,每一个样本属于某一类$z_i = g_\theta(x_i),i=1,2,…,N$;
- 软聚类时,每一个样本依概率属于每一个类$P_\theta(z_i|x_i),i=1,2,…,N$。
- 降维
降维(dimensionality reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间。
假设样本原本存在于低维空间,或者近似地存在于低维空间,通过降维则可以更好地表示样本数据的结构,即更好地表示样本之间的关系。
高维空间通常是高维的欧式空间,而低维空间是低维的欧式空间或者流形(manifold)。
低维空间不是事先给定,而是从数据中自动发现,其维数通常是事先给定的。
从高维到低维的降维中,要保证样本中的信息损失最小。
降维有线性的降维和非线性的降维。
降维的过程就是学习降维模型的过程。降维时,每一个样本从高维向量转换为低维向量$z_i = g_\theta(x_i),i=1,2,…,N$。
- 概率模型估计
概率模型估计(probability model estimation),简称概率估计,假设训练数据由一个概率模型生成,由训练数据学习概率模型的结构和参数。
概率模型的结构类型,或者说概率模型的集合事先给定,而模型的具体结构与参数从数据中自动学习。
学习的目标是找到最有可能生成数据的结构和参数。
概率模型包括混合模型、概率图模型等。概率图模型又包括有向图模型和无向图模型。
概率模型表示为条件概率分布$P_\theta(x|z)$,其中随机变量$x$表示观测数据,可以是连续变量也可以是离散变量;随机变量$z$表示隐式结构,是离散变量;随机变量$\theta$表示参数。
模型是混合模型时,$z$表示成分的个数;
模型是概率图模型时,$z$表示图的结构。
概率模型的一种特殊情况是隐式结构不存在,即满足$P_\theta(x|z) = P_\theta(x)$。这时条件概率分布估计变成概率分布估计,只要估计分布$P_\theta(x)$的参数即可。
13.3 机器学习三要素
同监督学习一样,无监督学习也有三要素:模型、策略、算法。
模型就是函数$z=g_\theta(x)$,条件概率分布$P_\theta(x|z)$,或条件概率分布$P_\theta(z|x)$,在聚类、降维、概率模型估计中拥有不同的形式。
策略在不同的问题中有不同的形式,但都可以表示为目标函数的优化。
- 算法通常是迭代算法,通过迭代达到目标函数的最优化,比如,梯度下降法。
13.4 无监督学习方法
- 聚类
聚类主要用于数据分析,也可以用于监督学习的前处理。
- 降维
降维主要用于数据分析,也可以用于监督学习的前处理。降维可以帮助发现高维数据中的统计规律。数据是连续变量表示的。
- 话题分析
略。
- 图分析
图分析(graph analytics)的目的是发掘隐藏在图中的统计规律或潜在结构。
链接分析(link analysis)是图分析的一种,包括PageRank算法,主要是发现有向图中的重要节点。