北方工業大學信息學院 童立靖 楊帆
隨著互聯網、多媒體技術的不斷發展以及圖像數據的迅速增長,如何對大量的圖像數據進行有效的圖像分類已經成為目前圖像處理技術研究的熱點問題。對提取的圖像信息特征結合概率模型求解圖像分類的問題,能夠有效提高圖像分類的效率與精度。本文主要介紹了極大似然估計、最大期望算法和變分推斷三種求解方法,并總結歸納了基于這幾種概率模型的圖像分類方法的研究現狀,以及這些方法的優缺點,最后總結了有待深入研究的難點問題,并對基于隨機變分推理的圖像分類方法進行了展望。
在數據規模不斷增大、數據類型不斷增多的情況下,能夠快速、高效的處理信息是計算機急需具備的能力,這也是我們技術研究的主要方向。目前在圖像處理領域主要面臨的問題是由兩方面矛盾所產生的。一方面是圖像信息數據大量涌現,其中包括含有圖像、音頻等多種數據;另一方面是計算機缺乏對快速增長的數據進行處理的能力。圖像分類技術正是解決這一問題的有效途徑,它可以自動構建與人類認知相一致的圖像語義信息,從而對圖像信息進行自動、高效的處理。圖像分類已經成為圖像識別的關鍵技術之一,因此在海量數據的背景下研究圖像分類方法具有極其重要的研究意義和應用價值。其中,由于結合概率模型創建的分類器具有效率高、時間短等優勢,所以該方法得到了廣泛的應用。同時將概率模型結合深度學習的知識進行數據處理,效果更加突出。然而求解概率模型參數的方法在不斷發展,貝葉斯理論的主要目的是求解概率混合模型的后驗分布,并通過求解后驗分布估計出模型的參數。目前應用較為廣泛的是通過概率模型求解圖像分類領域中的問題。同時概率模型的靈活性使得其在處理圖像分類中具有很大優勢,所以值得我們去研究和討論。
進行參數估計的方法主要分為兩個派別,分別是頻率派和貝葉斯派。頻率派主要包括最大期望算法(Expectation-Maximization Algorithm,EM)和極大似然估計法(Maximum Likelihood Estimate,MLE);貝葉斯派主要包括馬爾科夫蒙特卡洛(Markov Chain Monte Carlo,MCMC)、變分推斷(Variational Inference,VI)和隨機變分推斷(SVI),以上方法在計算機視覺、圖像處理、語音識別、生物特征提取與識別、文本分類等很多領域都有應用。
近年來不少學者在采用概率論的知識建立模型進而完成圖像分類的目標,文章從四大部分進行介紹:(1)介紹極大似然估計法、最大期望算法和變分推斷;(2)對于近些年采用概率知識進行圖像分類的文獻進行綜述;(3)根據上述綜述介紹各方法的優點和弊端;(4)展望和總結。
θ
。極大似然的思想是通過最大化似然函數求解參數。極大似然估計法認為模型中的參數都是固定的未知參數,通過最大化似然函數求解參數。假設取一組總數為N的樣本,其中他們的觀測值分別為X
=(x
,x
,……,x
),θ
為參數,所以N個樣本的概率如式(1)所示:

EM算法是由美國數學家Arth ur Dempster等在1977年提出來的,并給出了計算步驟和總結。EM算法是把迭代的思想和極大似然估計方法進行結合的一種改進算法,適用于含有隱變量的概率模型的求解。在求解過程中運用到了Jensen不等式。
Jensen不等式的建立過程是:
存在一個變量X,假設h
(x
)是一個凸函數,那要滿足如式(2)所示:
q
(z
),可以將(1)式改寫為如式(3)所示:
q
(z
)=p
(z
|x
)。EM算法的過程是:
(1)初始化參數θ
;(2)E-Step:根據參數θ
,計算得到q
(z
)=p
(z
|x
,θ
);M-Step:根據q
(z
)=p
(z
|x
,θ
),得到它的似然函數L
(θ
)并最大化,得到新的參數θ
';其中Z
為隱變量Z
=(z
,z
,……,z
)。當數據屬于該模型分量時Z
=1;反之,如果Z
=0,重復迭代第2步,直到收斂。變分推斷的核心思想是通過固定其中一項,不斷進行迭代,直到收斂來求解參數。
貝葉斯派是求解真正的后驗分布,貝葉斯求解后驗分布的公式如式(4)所示:

q
(z
)來近似真正的后驗分布,使得KL
達到最小,滿足如式(5)所示:
KL
(q
||p
)=E
[lnq
(z
)]-E
[lnp
(z
|x
)],是關于q
(z
)和后驗概率兩者期望的差值。由于存在后驗分布,KL
散度難以直接求出,如圖1所示中描述有關KL散度和證據下界ELBO的關系,可以將問題轉變為求解證據下界ELBO,整理得到ELBO如式(6)所示:
圖1 變分原理關系圖Fig.1 Variational principle diagram

變分推理的目標函數如式(7)所示:

lnp
(x
)是固定的,其中L
(q
)為證據下界ELBO
,這樣就將最小化KL
散度轉化為最大化證據下界。采用平均場理論(Mean-field Theory)可以得到如式(8)所示:
將(8)代入(6),兩式相結合化簡后可以得到變分推斷的通式如式(9)所示:

q
(z
),不斷更新方程(9),直到ELBO
收斂,達到最優值。極大似然估計法作為一種傳統的估計方法,具有廣泛的適用性。2000年Lina Zhuang等人中使用極大似然分類器,在全球熱帶雨林監測到的圖像數據中驗證方法的有效性。2016年Muhammad Ali等采用不同于其他多元分布方法的極大似然估計法進行分類,展示了一種新的參數化分類建模方法。2019年Jiangtao Peng等介紹了建立一個基于最大似然估計法的JSR模型來提高聯合稀疏表示方法的魯棒性,并且能夠在大噪音的情況下展現出很好的效果。
2007年張春燕等采用t-混合模型的EM迭代算法估計模型中的未知參數,計算形狀類別的后驗分布,實驗結果表明按照后驗概率分類的準確性較高,并在MEPG-7,SETB標準庫中選取蝙蝠和花瓣的圖像,有很好的實驗效果。2013年Lina Zhuang等中提出一種改進的EM,能夠得到比傳統EM在少量訓練樣本下更好的分類結果,更高的準確性,并在圖像數據集上得以驗證。2015年Martín Hurtado等人提出一種基于期望最大化(EM)算法的極化SAR圖像分類方法,該方法能夠將類的數量識別為初始信息,提高結果的準確性。
2018年Yuping Lai提出一種IDMM的變分推理框架和傳統的期望最大化算法相比,該方法能夠較好的防止過擬合的現象,可以實現混合組分數量的自動確定和參數估計。2019年Z. Ma等中采用一種新的變分方法結合逆狄利克雷模型進行解析推導,避免貝葉斯估計法中容易出現的過擬合和欠擬合的問題,通過采用合成數據集驗證在圖像分類中能夠有很好的表現效果。2021年Yuping Lai等采用可擴展的VI結合伽馬模型構建分類器,在圖像中應用后發現相比變分推斷結合貝塔模型、狄利克雷模型及高斯混合模型在準確率方面都有所提升。
極大似然估計法是一種較早的估計方法,能夠廣泛的應用到圖像分類等各個領域,不足是似然估計方法對于初始值的設定比較敏感,易導致求解參數不是最優解,且在數據量較少的情況下不易收斂。另外使用極大似然方法求解混合模型時是不能簡單求出的,這樣就發展出了EM算法。
然而EM算法存在的一個缺陷是在收斂的過程中能夠出現最優解,但是我們不視為局部最優解。此外,該方法也不適合應用到大規模的數據處理模型,由于處理數據過少,容易出現過擬合的問題。EM算法尚不能妥善解決模型選擇的問題,因此產生了基于變分推斷的圖像分類方法。
變分推斷方法和前兩種頻率派的方法相比有很大優勢。一方面體現在對初始值的設定不敏感,不會影響概率模型求解的準確性和有效性;另一方面體現在將不能求解的散度問題轉為求解證據下界ELBO的問題,有效避免了歸一化常數不可求的困難。但該方法是基于平均場理論進行的變分推斷,由于假設隱變量之間是相互獨立的,所以不能夠適用于一些特定模型的參數求解,而且變分推斷的迭代思想使該方法在處理大規模數據時,時間效率上會有所減弱,不能夠充分展現自己的優勢。
通過第一節對各種算法的講解以及第三節對各個方法優缺點的總結,可以看出頻率派中最大期望算法和極大似然估計法有較大的局限性,所以在解決問題時這兩種方法的使用相對較少。然而目前變分推斷在圖像領域的應用是比較廣泛的,并且它能夠較好的近似求解出后驗概率。
變分推斷的不斷迭代思想使得它在數據規模巨大的情況下應用有所阻礙。因此急需繼續研究一種新的方法來解決這一問題,隨機變分方法是一種潛在的理想解決方案,但是目前對于隨機變分推斷的研究還較少,相關參考文獻也比較匱乏,針對不同模型采用貝葉斯中的隨機變分推斷方法進行求解的結果還需要進一步研究。尚需盡早推算出使用隨機變分方法結合不同模型求解后驗分布的過程,并進行在圖像分類領域的廣泛實踐,以盡快解決大量數據處理時的處理時間以及概率模型估計準確率問題。