实对称矩阵的特征值_实对称矩阵的特征值相等
PCA的本质:其核心在于通过寻找若干个线性组合,将样本参数进行综合,从而更有效地区分各个样本个体。
以学生的学业成绩为例进行简单类比:各科成绩的参差不齐,仅凭单一科目的成绩难以准确区分学生水平。若以总成绩作为综合评价指标,区分度则大为提高。这便如同PCA的初步体现,虽然只有一道主成分,但其线性组合即为算数平均值。
如果我们将理科成绩的重要性加重以求取总成绩(线性组合),那么在总成绩相近的情况下,偏重于理科的学生排名便会靠前。这样的类比可以进一步引出第二主成分的概念。
在此类比中,横轴代表总成绩,纵轴则表示加强理科权重后的总成绩。如此一来,学生便可以被划分为以下四类:总成绩与理科成绩均佳、总成绩好但理科差、总成绩差但理科好以及总成绩与理科成绩均差。这样的分类方式使得主成分分析更加易于理解。
主成分分析致力于寻找几个(通常为两个)不相关的线性组合,这些组合对样本参数进行综合,以便最大程度地区分样本个体。原先需要关注多门科目的成绩以进行排序和区分,现在只需关注综合后的总成绩即可。
将六科成绩简化为单一的排序依据,即实现了降维的目标,使得排序和区分变得更为简单。这种降维的过程不仅没有损失信息,反而通过算术平均的方式保留了原始数据的全部方差,即保留了数据的全部信息。
我们希望的不只是总方差不发生变化,更要求这些线性组合之间相互独立(即对角线元素和等于总方差且降序排列,非对角线元素尽可能接近零)。这样的线性组合才是我们追求的目标。
协方差矩阵是一个实对称矩阵。
由于实对称矩阵可以通过线性变换(即特征向量)转化为对角矩阵,其中对角线元素即为特征值。这些特征值和其对应的特征向量是解决协方差矩阵问题的关键。
寻找最大的特征值(其值应至少占原方差的80%)及其对应的特征向量,即找到了我们需要的线性变换。其中,最大的特征值对应的特征向量便是第一主成分。
虽然Excel也可以求解特征对,但效率较低。采用编程语言如Python,利用numpy库的np.linalg.eig(arr)函数可以更高效地求解出特征值和特征向量。
在PCA分析中,无论是使用协方差矩阵还是相关系数矩阵,其特征对的求解思路是相同的。只是协方差矩阵着重于数据之间的相关性,而相关系数矩阵则更加突出数据间的绝对关系。
通过观察特征值的大小,我们可以发现其中最大的两个特征值——3.389和1.390,它们的和占整体方差的79.65%,接近80%。这意味着前两个特征向量所构成的线性组合是我们需要关注的重点。
为了进一步验证结果的准确性,我们可以使用统计软件R进行复核。
第一个特征向量所对应的权重较为均衡且方向一致,这使我们能够理解其在总成绩中的意义。而第二个特征向量则有正有负,可以理解为反映了学生偏科情况的信息。
通过这两个线性变换对参数进行综合,不仅能够赋予其实际意义,还能使样本之间的区分更加直观明了。