牛顿法的迭代思想和原理


经过重新整理,文章的内容如下:

在上一篇文章中,我们详细探讨了EM算法的收敛性。在得到收敛的结果后,我们需要对收敛的速度进行解释。考虑该方法的收敛阶数,可以看出EM算法本质上是定义了一个映射。

当EM算法开始收敛时,如果收敛到映射的一个不动点,那么可以认为算法已经找到了一个解。我们设函数的一阶导数为Jacobi矩阵,其(i,j)元素表示某种特性。通过公式可以得到一个式子,对其进行Taylor展开,根据收敛特性知道,如果p=1,那么EM算法是线性收敛的;当p>1且观测结果信息为正定时,收敛仍然被认为是线性的。

EM算法的收敛率可以定义为迭代算法的收敛率p等于矩阵导数的最大特征根。Jacobi矩阵表示的是信息缺失的比例,所以p是一个可以有效表示缺失信息比例的标量。缺失信息的比例其实就是单位矩阵I减去已经观测到的信息占完全信息的比例。

EM算法的收敛速度与缺失信息比例这个量是紧密相关的。缺失信息比率其实就是EM算法中的映射的斜率,由这个斜率来控制EM的收敛速度。缺失信息比率的最大特征值称为全局收敛率。但是p越大,收敛速度其实是越慢的。为了加速,我们定义了一个矩阵S=I-缺失信息比率,称为加速矩阵,s=1-p称为全局加速。当缺失信息比例较大时,EM算经历较慢的收敛速度。

接下来,我们将探讨EM算法的改进方法。在介绍EM算法的历史时,我们就知道EM算法之所以被广泛应用,是因为它能够通过稳定的上升算法得到似然函数的最优解或局部最优解。EM算法仍然存在三个主要问题。接下来我们将介绍为了将EM算法应用得更广泛,人们采取了哪些方法。一部分是改进E步算法,另一部分是改进M步的部分。

改进E步:在之前的介绍中,我们可以理解M步基本与完全数据处理相似,情况一般比较简单,但是E步的计算是在观测数据的条件下求"缺失数据"的条件期望,然后再去求完全数据下的期望对数似然。在这个过程中,计算是最难的问题。在某些情况下获得期望的显式表示是非常困难的,这样就限制了算法的使用。MCEM算法的产生,它是利用近似实现的方法来进行求解的。

改进M步:针对EM算法的E步进行改进之后就会想到改进M步的计算。为了避免出现迭代的M步,可以选择在每次M步计算中使得Q函数增大,而不是极大化它。ECM算法就是基于这个原理的。ECM算法为了避免出现迭代的M步,用一系列计算较简单的条件极大化(CM)步来代替M步。Meng和Rubin在1993年提出的ECM算法是GEM算法的子类,但是有更广泛的应用。ECME算法是Lin和Rubin在1994年为了替换ECM算法的某些CM步而提出来的。ECME算法的特点就是在CM步极大化的基础上,针对受约束的完全数据对数似然函数的期望Q(0|0(k))进行极大似然估计。PX-EM算法作为EM算法的扩展模型极大地加快了EM算法的收敛速度。PX-EM算法通过引进附加参数口对参数空间进行了扩展。使用时应当满足两个条件:一是存在某个已知的变换R;二是在扩展模型中参数是可识别的。PX-EM算法的每一步都增大了有关的似然函数,而且其收敛性质与EM算法是平行的。在适当的变换下,PX-EM算法的收敛速度是比EM更快的。因为拓展参数空间增加参数a的作用是将完全信息量进行改变相应的缺失信息也会减少这样对减少的缺失信息所占比例起到作用从而使EM算法加速。

经过改进和扩展的EM算法在处理不完全数据参数估计问题上表现出更好的性能和效率。在接下来的文章中我们将探讨EM算法的实际应用。

参考文献: