趙澤賓,孫 卓
(中國礦業大學(北京)機電與信息工程學院,北京 100083)
煤巖圖像識別作為世界難題一直引起眾多學者的關注,雖然現已提出多種煤巖圖像識別方法,例如在計算機視覺技術方面,煤巖圖像的紋理特征提取有小波變換法[1],字典學習[2],最大池化稀疏編碼[3]等,但是這些方法都比較成熟而且已經發展到瓶頸。
目前煤巖識別技術主要分為物理探測技術和基于圖像識別的多信息融合技術。近年來,最初作為機器學習算法的稀疏貝葉斯學習不僅繼承了貝葉斯模型完善的理論基礎,而且克服了其計算復雜度較高的不足,成為了眾多學者的研究對象。由于稀疏貝葉斯學習能夠充分的挖掘和利用數據的先驗信息,并且可以得到信號和圖像的稀疏表示,成功的被引用到信號處理和壓縮感知領域[4,5]。為了將稀疏貝葉斯學習算法運用到煤巖圖像識別領域,筆者采用該算法提取煤巖圖像的紋理特征,通過迭代更新并趨于收斂的相關參數和最優權重對測試樣本進行分類識別,來解決煤巖圖像識別問題。
稀疏貝葉斯學習是稀疏信號重構的方法之一,其性能相當于重加權的范數恢復方法,并且不需要設置正則化參數[6]。稀疏貝葉斯學習的主要思想可以分為三步,首先獲得先驗概率和條件概率密度參數表達式,然后結合總體和樣本,利用貝葉斯公式求得后驗概率表達式,最后通過后驗概率的大小進行統計決策。
首先通過壓縮感知的基本模型觀測一個向量:

其中:為N×M的感知矩陣,它的列向量對應M個基向量;為N×1維壓縮信號;為M×1維解向量,為未知的噪聲向量。因為對于概率模型的訓練過程實際上就是參數估計的過程,故:


式(3)反映了從先驗分布到后驗分布的轉化。其中p(x)為先驗分布,表示觀測之前的概率;p(y)表示“證據”因子;是解向量x相對于其壓縮信號的似然分布,在求最大似然估計的時候就是用該概率形式;被稱為后驗密度函數。然而在現實應用中,后驗分布很難直接算出,但是通過貝葉斯定理可以將估計后驗分布的問題轉換為基于數據集來估計先驗分布和似然。
通常在SBL算法中,把噪聲v假設為高斯白噪聲向量來處理,即v服從均值為0,σ2I方差為的高斯分布:

大部分情況下,σ2參數需要通過數據訓練而得出。SBL要解決的問題是根據已知的A和y估算出未知解向量x,其實就是稀疏信號重構的過程。
SBL算法在先驗參數的結構下,采用了神經網絡中常用的自動相關決策理論移除不相關的點來獲取稀疏解。假設解向量的先驗分布服從參數化的均值為0方差為α的高斯分布:

其中,解向量 x 的參數向量 α=(α1,α2,…αM) 是由超參數組成的向量。根據ARD可進一步表示,x的每個元素xi都服從一個參數化的且均值為0方差為αi-1的高斯分布[7]。因為假設噪聲向量V符合均值為0,方差為σ2I的高斯分布,故可以得出壓縮信號y符合均值為Ax,方差為σ2I的高斯分布,即似然分布為:

在貝葉斯框架下對參數加以先驗分布,起到很好的約束作用,從而避免了模型中參數的數量和樣本的數量一樣多所造成的嚴重過匹配的問題,故假設模型中參數向量α和噪聲參數σ2服從Gamma先驗概率分布:

其中β=σ-2,再一次的說明稀疏貝葉斯學習對數據有著優秀的數據挖掘能力。
利用全概率公式對權值進行積分即可得出第二類似然函數表達式:

將式(5)和(6)代入到(9)可得:

其中,Γ=diag(α)。通過進一步計算可以得出:

其中:C是一個常數。此式我們可以得出p(x,α)是一個均值為0,協方差矩陣為Σv=σ2I+AΓ-1AT的高斯分布。
根據貝葉斯定理可以得出解向量的后驗分布為:

上式分子部分是兩個高斯函數的乘積,根據高斯函數的相關性質可知,其乘積結果當然也是高斯函數,再結合分母部分也是服從高斯分布的,所以解向量的后驗分布服從高斯分布,故將公式(5)、(6)和(9)代入(12)可得出:

其中 μ=A(ATA+σ2Γ)-1ATy,Σ=(σ-2ATA+Γ)-1。μ 表示此高斯分布的均值,通過指數部分對x的一階導數零點求得,協方差矩陣Σ為指數部分對x的二階導數的逆。故解向量x的最大后0驗估計由這個高斯分布的均值μ給出。而筆者要做的事情就是通過該模型尋找煤巖圖像識別的新方法,提高煤巖識別率從而應用于實際的生產過程中。
貝葉斯線性回歸是經典的線性回歸方法之一,對數據有自適應能力,可以重復的利用一定數量的實驗數據,并防止過擬合。對于本模型對應的似然函數可表示為:

回歸的目的就是根據上式對x和σ2作出最大似然估計,從而找到解向量x=(x1,x2,…xM)中少量的非零元素。對式(12)中第二類最大似然函數求關于參數α和σ2的偏導并令其等于0進行求解,可以得出本模型的參數更新公式為:

其中:γi=1-αiΣii。在該算法的學習過程中,每次運算都會更新統計量μ和Σ,并代入式(16)和式(17),通過不斷重復的計算使超參數α和σ2達到最大的迭代次數或者滿足收斂條件[8-10]。
實驗選擇110張頁巖和砂巖圖片作為巖石樣本圖片,再選擇110張煙煤和無煙煤圖片作為煤層樣本圖片,每類各55張,共計220張。每張圖片的大小為48×48,格式為jpg,灰度級為256。
從四類圖片中各隨機選出42張圖片,共計168張作為訓練樣本,剩下的52張作為測試樣本。并且各類圖片均來自礦井下不同時段不同光照強度的現場圖片,window環境下在MATLAB R2013b軟件上進行實驗。
煤巖圖像的特征提取過程,其實就是該模型解向量的求解過程,說到底還是參數和迭代更新的過程。首先對樣本圖片進行預處理,其目的就是為了減少訓練樣本中的冗余信息,達到降維效果;然后利用稀疏貝葉斯學習算法進行模型的參數訓練;最后根據稀疏貝葉斯分類模型對測試樣本的分類識別。表1展示了使用和不使用SBL算法的識別率對比。

表1 稀疏貝葉斯學習對識別率的影響Table1 Impact of sparse Bayesian learning on recognition rate
1)基于稀疏貝葉斯學習的煤巖圖像識別方法大大增加了煤巖圖像的可區分性,錯誤樣本數從19個降低到2個;
2)該SBL算法將噪聲干擾考慮在內,可以很好的解決礦塵等對煤巖圖像的干擾;
3)該SBL算法可以為煤巖自動識別技術提供新的解決思路;