樊菊蘭
摘 要 有限混合模型是用于分析復雜問題的一個有效的建模工具。在諸多的混合模型中,混合高斯模型的應用更為廣泛,尤其是在圖像處理、人臉識別、通信和信號處理等。理論及數值試驗充分證明:混合高斯分布模型能夠逼近任何一個光滑分布,而對該模型參數的有效估計是準確分析、模擬復雜問題的必要前提。EM算法自從提出,就已成為一種非常流行地處理不完全數據的極大似然估計的方法。恰好我們經常處理的樣本數據集通常可看作是不完全數據,進而EM算法就為混合高斯模型的參數估計提供了一種標準框架。
關鍵詞 EM算法 R軟件 混合模型 高斯混合 參數估計
中圖分類號:O212 文獻標識碼:A
0引言
EM 算法就是一種一般的從“不完全數據”中求解模型參數的極大似然估計的方法,它是在觀察數據的基礎上添加一些“潛在數據”,從而簡化計算并完成一系列簡單的極大化或模擬。EM 算法的每一步迭代中包括一個 E 步――期望步(Expectation Step)和一個M 步——極大似然步(Maximum Likelihood Step)。算法的優勢在于它在一定意義下可靠地收斂到局部極大,也就是說在一般條件下每次迭代都增加似然函數值,當似然函數值是有界的時候,迭代序列收斂到一個穩定值的上確界。缺點是當缺失數據比例較大時候,它的收斂比率比較緩慢。混合分布是有限個分布的組合,它綜合了各個分支的性質和特點,它具有許多優勢:
(1)可以用來模擬復雜的數據或問題。由于混合模型擁有許多不同類型的混合形式,有相同總體的混合,也有各種不同總體的混合。……