主成分分析(principal component analysis,PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。
主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。
16.1 总体主成分分析
16.1.1 基本想法
统计分析中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息。
主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1。之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量依次称为第一主成分、第二主成分等。
对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换,将数据投影到新坐标系的坐标轴上;新坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的。
等价地,主成分分析在旋转变换中选取离样本点的距离平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已选坐标轴正交的条件下,类似地进行。
在数据总体(population)上进行的主成分分析称为总体主成分分析,在有限样本上进行的主成分分析称为样本主成分分析,前者是后者的基础。
16.1.2 定义和导出
假设
协方差矩阵是
考虑由
其中
由随机变量的性质可知,
定义 16.1(总体主成分) 给定一个如式
(1)系数向量
(2)变量
(3)变量
定义中的条件
条件
中,在
中,在
中,在
16.1.3 主要性质
定理 16.1 设
即协方差矩阵
推论 16.1
(1)
(2)
其中
下面叙述总体主成分的性质:
(1)总体主成分
(2)总体主成分
其中
(3)第
(4)第
16.1.4 主成分的个数
主成分分析的主要目的是降维,所以一般选择
定理 16.2 对任意正整数
其中
则
定理16.2表明,当
定理16.3 考虑正交变换
这里
以上两个定理可以作为选择
定义 16.2 第
通常取
定义 16.3
计算公式如下:
16.1.5 规范化变量的总体主成分
在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果。为了消除这个影响,常常对各个随机变量实施规范化,使其均值为
设
其中
显然,规范化随机变量的协方差矩阵就是相关矩阵
对照总体主成分的性质可知,规范化随机变量的总体主成分有如下性质:
(1)规范化变量主成分的协方差矩阵是
其中$\lambda_1^\geq \lambda_2^\geq…\geq\lambda_m^*\geq0
(2)协方差矩阵的特征值之和为
(3)规范化随机变量$x_i^
其中$e_k^ = (e_{1k}^,e_{2k}^,…,e_{mk}^)^T
(4)所有规范化随机变量$x_i^
(5)规范化随机变量$x_i^
16.2 样本主成分分析
在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具有相同的性质。
16.2.1 样本主成分的定义和性质
定义 16.4(样本主成分) 给定样本矩阵
样本主成分与总体主成分具有同样的性质。只要以样本协方差矩阵
在使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵作如下变换:
其中
样本协方差矩阵
样本协方差矩阵
16.2.2 相关矩阵的特征值分解算法
给定样本矩阵
(1)对观测数据按式
(2)依据规范化数据矩阵,计算样本相关矩阵
其中
(3)求样本相关矩阵
求解
得
求方差贡献率
求前
(4)求
以
(5)计算
(6)计算
将规范化样本数据代入
主成分分析得到的结果可以用于其他机器学习方法的输入。
16.2.3 数据矩阵的奇异值分解算法
给定样本矩阵
算法 16.1(主成分分析算法)
输入:
输出:
参数:主成分个数
(1)构造新的
(2)对矩阵
有
(3)求
v1.5.2