基于限制性玻爾茲曼機的葉片識別算法研究

2017-05-10 13:23:41毛旭東

電子技術與軟件工程 2017年8期

毛旭東

摘要

葉片識別是最簡單和直接的植物識別方法，采用機器學習算法是解決葉片識別的重要途徑。為更有效的識別葉片，提出基于限制性玻爾茲曼機的葉片識別算法，并通過實驗論證算法的可行性。

【關鍵詞】機器學習葉片識別限制性玻爾茲曼機

在植物的分類或者檢索研究中，通常都選取植物的局部形態特征，如植物中長出現的花、葉、枝條等植物器官。雖然這些植物特征都有各自的分類價值，但與植物其它器官相比，葉片顯然具有易于提取，容易轉化為計算處理圖像等優勢，所以常在植物識別中作為主要的參照器官，同時葉片的生長形狀和顏色特征又是研究植物異化的一個重要的指標，因此在傳統的植物葉片識別系統中，通常都將葉片識別作為最簡單和直接的植物識別方法。

近年來，越來越多的機器學習方法在現實中被廣泛的應用，機器學習方法正在傳統行業中發揮著重要的作用，研究基于機器學習算法的葉片識別系統具有一定應用價值。

1 玻爾茲曼機

玻爾茲曼機（Boltzmann machine， BM）作為Hopfield網絡的一種概率形式，具有良好的概率建模和計算能力。該模型最早脫胎于物理學中的能量模型，用于描述各種高階變量間的相互作用機制，這種模型的計算方法相對復雜，但其理論框架相對來說較為完善，在BM中每個神經元以一定的概率處于0和1兩種狀態之下，BM的網絡拓撲如圖1所示。

其中單個圓表示隱藏節點，雙圓代表可見節點，可見節點用于接收觀察向量，作為一種概率性的Hopefield網絡，BM的能量函數定義如下：

（1）

其中，wij代表節點i和節點j的連接權重， si，si表示節點i和節點j狀態，θi表示節點i的輸出閾值。在BM中每個節點都以一定的概率輸出為零，同時也以一定的概率輸出為一，概率的輸出計算如下：

（2）

（3）

當上述概率大于閾值θi時，當前節點取值為1，否則取值為零。作為一種典型的反饋形神經網絡，該算法的學習過程相對比較困難，傳統而言，該模型采用采樣的方法估計模型的權重參數，總所周知，采樣方法的缺陷在于難以估計采樣收斂時間，且采樣過程相對緩慢，因此這種模型雖然建模能力強大，但是其若將其應用于DBN模型中，則模型的估計時間顯然過長。

2 限制性玻爾茲曼機

如上所述，玻爾茲曼機由于其內部復雜的工作方式，權值的估算通常依賴采樣等方式進行，這種方法耗時耗力，為進一步簡化BM的拓撲結構使得網絡的計算快速有效，限制性玻爾茲曼機將BM的隱藏層節點間的相互連接取消，同時取消可見層間的相互連接，限制性玻爾茲曼機的拓撲結構如圖2所示。

相較于BM的結構，RBM結構簡單，因此訓練和學習的效率也更加有效。在標準的RBM網絡中，可見層用v表示，隱藏層用h表示，且其取值一般取0和1，對于給定了權值的RBM網絡，隱藏層計算算法如下：

算法1：

（1）使用公式1和2計算每個隱藏層節點的輸出概率。

（2）隨機從均分布U（0，1）中抽取元素u，若該元素大于隱藏概率的輸出概率則隱藏層取0，否則隱藏層取1。

當RBM中節點的取值是0和1的二值時，RBM的能量函數定義如下：

（4）

其中wij表示節點i和節點j間的權值，bi表示隱藏層節點i的偏執，ai表示可見層節點j的偏執，無論是在RBM網絡還是在BM網絡，都是一種特殊的概率圖網絡，概率圖中將可見節點的邊緣概率最大化即是求解網絡參數的最簡單方式，可以證明最大化可視節點的邊緣概率等價于最小化網絡的能量函數。

下面考慮節點的輸入不是二值函數時，網絡的能量函數定義，一般而言，為應對這種情況，通常在獨立網絡單元中加入高斯噪聲，因此可以定義能量函數如下：

3 RBM參數學習

從上述的討論中可知，模型的訓練可以通過最小化能量函數實現，現假設訓練樣本共有T個，與前述神經網絡中相類似，求能量函數的導數，然后使用梯度下降方法得到網絡的最終權重。由文獻可得，與能量函數等同的似然函數的導數為：

上式中第一項表示求數據的期望，第二項表示求模型的期望，數據的期望相對來說求解較為容易，模型的求解設計到v，h的所有情況，計算量較大，為處理這類方法，在現代概率估計方法中通常使用GIBBS等采樣算法，這種方法基于馬爾科夫采樣原理，當狀態沿著馬爾科夫鏈進行轉移的時候，最后系統中的每個狀態出現的概率將處于一個穩定的收斂狀態，若此時再沿馬爾科夫鏈進行轉移，系統中的每種狀態出現的概率將不會改變，這種收斂性與最初的初始狀態無關，只與狀態的轉移概率有關，GIBBS采樣是一種估算每一步轉移概率的方法，經過該方法得到的轉移概率最終的收斂概率等于目標概率，轉移的狀態被作為采樣本，這種方法推算簡單，收斂速度快，因此被廣泛的用于估算各種聯合分布、邊緣分布。

對于Gibbs 采樣，從條件概率采樣往往比從邊緣概率采樣容易。設需要抽樣的分布為p（X）=p（x1，x2，x3，...，xN），GIBBS采樣對此概率的采樣過程如下，給定X任意的初始值。

（1）從條件分布p（x1|xi-12，xi-13，...，xi-1N）中抽取樣本xi1；

（2）從條件分布p（x2|xi1，xi-13，...，xi-1N）中抽取樣本xi2；

（3）從條件分布p（x3|xi1，xi2，...，xi-1N）中抽取樣本xi3；

（4）從條件分布p（xN|xi1，xi3，...，xiN-1）中抽取樣本xiN。

在RBM中可以通過上述的采樣過程得到模型的聯合分布樣本從而估計模型的總體期望，這種方法存在的缺點是，當使用梯度下降迭代求解模型參數時，每一步的模型更新都需要進行Gibbs采樣，這樣大大降低了模型訓練的速度，這種不足在RBM應用于高維數據時尤為明顯。針對這種不足Hinton等人提出一種對比離差算法（Contrastive Divergence，CD），該算法不同Gibbs采樣算法估計模型的聯合分布概率，CD算法可以快速求解模型本身的期望，在CD算法中，Hinton指出當使用訓練數據初始化可視層時，k步的Gibbs采樣就可以使聯合概率得到很好的近似。

對比散度算法（CD）的目的在于使用簡單的采樣步驟代替GIBBS采樣中復雜的采樣過程，在該算法中模型梯度中的重構期望被簡單的一步采樣代替，從而大大降低系統的采樣復雜度。對比散度的算法過程如下：

算法2：對比散度算法

（1）對訓練訓練數據中的每一條記錄將其賦值給可視層，計算其輸出概率。

（2）從上述概率中抽樣隱藏層狀態h，然后通過該隱藏概率計算可視層輸出概率，同樣，從該概率中抽樣出一個可視層狀態。

（3）再次從上述抽取的可視狀態出發計算隱藏層輸出概率。最后得到參數的更新公式

。

4 基于深度網絡的葉片識別實驗

為了研究深層網絡中，植物葉片的識別效果，這里采用中科院的ICL數據集，在本數據集中，共包含200多種葉片，每類葉片包括至少30片葉片樣本，為后續討論的方便，共設計了兩組數據，一組是紋理特征不明顯的葉片樣本，這類葉片樣本的葉片表面光滑，不容易分辨，另一組則是紋理特征相對明顯，葉片相對容易分辨。

在訓練時采用三層DBN模型，第一層隱層使用1000個隱藏節點，第二層與第一層相同，第三層則使用2000個隱層節點，訓練前先對數據進行歸一化，使其成為80*40的葉片圖像，同時為擴大訓練樣本數量，每類樣本進行復制處理，樣本標簽數量取十類和二十類兩類樣本數據庫，原始樣本中每類樣本數量為50，復制以后每類為150，每類中使用10片樣本用于分類測試，下面給出RBM迭代次數不同時，各自的識別率，如表1所示。

進一步使用紋理特征較明顯的樣本，圖3可以看出，相對圖4中的葉片樣本，本次實驗使用的樣本在紋理方面相對更突出，該樣本同樣來源于ICL數據庫，與上述處理類似，首先將樣本進行歸一化，然后觀察樣本識別率在RBM迭代次數變化時的平均識別率，如表2所示。

比較上述兩類實驗，可以發現，當實驗樣本形狀等差異度更大時，DBN的分類性能更好，這與我們的常識是相符合的，對于相似的葉片，若網絡只是使用單純的RBM網絡對葉片圖像進行重建操作，則相類似的葉片在網絡中的重建特征應該是類似的，此時若標記樣本不足，則很難通過調整權值的方式使得網絡具有優秀的分辨能力。同時從RBM的迭代次數可以發現，隨著迭代次數的增多，葉片的識別精度隨之提高，上述的RBM推導中可以知道，RBM的訓練會隨著迭代次數的增加愈加收斂于能量最低點，從而得到最優的重建性能。

參考文獻

[1]李超，李昂，朱耿良.基于限制性玻爾茲曼機的微博主題分類[J].電信網技術，2014（07）：008.

[2]秦勝君，盧志平.基于限制玻爾茲曼機的無極性標注情感分類研究[J].科學技術與工程，2013（35）：10703-10707.

[3]劉建偉，劉媛，羅雄麟.玻爾茲曼機研究進展[J].計算機研究與發展，2014，51（01）：1-16.

[4]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural computation，2002，14（08）：1771-1800.

[5]Itti L，Koch C，Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence，1998（11）：1254-1259.

[6]Liu T，Yuan Z，Sun J，et al.Learning to detect a salient object[J].Pattern Analysis and Machine Intelligence，IEEE Transactions on， 2011，33（02）：353-367.

[7]Zhai Y，Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th annual ACM international conference on Multimedia.ACM，2006：815-824.

[8]Cheng M，Mitra N J，Huang X，et al.Global contrast based salient region detection[J].Pattern Analysis and Machine Intelligence，IEEE Transactions on，2015，37（03）：569-582.