

摘要:本文深入探討了基于堆疊降噪自動編碼機(Stacked Denoising Autoencoder, SDAE)的圖像識別技術,并介紹了其關鍵原理和實現方法。在圖像識別任務中,SDAE首先接收帶有噪聲的圖像作為輸入,通過編碼器逐層提取圖像的高層次特征,并利用解碼器重建原始圖像,以此實現降噪和特征提取的雙重目標。實驗結果表明,基于SDAE的圖像識別技術能夠準確捕捉圖像中的關鍵特征,為圖像識別、圖像降噪和特征提取領域提供了一種新的思路和方法,在人臉識別、掌紋提取、物品分類及標記等現實應用場景中具有研究價值。
關鍵字:圖像識別;降噪自動編碼機;人工智能;深度學習;神經網絡
一、引言
圖像分類、圖像降噪、特征提取等圖像識別技術在農業自動化、醫療輔助、交通運輸、生物信息學等眾多領域具有廣泛的應用[1]。然而,在實際應用中,從自然界直接獲取的圖像因獲取時間、方式的不同,受到不同程度和種類的噪聲影響,會干擾后續圖像識別結果的精度。為了提高圖像識別模型的魯棒性和識別結果的精度,各國學者提出了許多方法,如特征提取、模式識別等[2]。本文提出了一種基于堆疊降噪自動編碼機的圖像識別技術,旨在通過降噪處理提高圖像識別的準確率。
二、堆疊降噪自動編碼機深度網絡
(一)降噪自動編碼機
在信號處理領域,Hinton及其同事提出了自動編碼器(Autoencoder, AE)模型,其實驗效果超越了傳統特征降維技術[3]。自動編碼器在訓練過程中無需對輸入信號樣本進行標,即可以直接對數據集進行特征學習,省略了添加標簽這一預處理步驟[4]。該模型的無監督學習特性使其能夠從未標記的大量數據中提取高質量的特征表示。通過神經網絡,自動編碼器能夠將高維數據壓縮至低維特征,并通過學習過程使輸出信號盡可能地與輸入信號保持一致。
單個自動編碼器單元依次包含輸入層、隱藏層和輸出層,可以將其視作一個簡單的三層神經網絡[5]。自動編碼器的核心原理在于將輸入層的信息復制至輸出層。實踐表明,自動編碼器具備重構輸入信息的能力。然而,只有當測試樣本與訓練樣本源自同一數據分布時,自動編碼器才能獲得較佳的重構效果。若測試樣本與訓練樣本數據分布不一致或存在部分變化,自動編碼器則難以達到預期的重構性能。
降噪自動編碼機(Denoising Autoencoder, DAE)在AE的基礎上進行了升級改造,彌補了AE在面對測試樣本與訓練樣本數據分布不同時,運行結果不穩定的缺點。DAE是AE的一種優化形式,其隱藏層可以屏蔽部分噪聲對輸入信號的干擾。當輸入信號中存在噪聲干擾時,神經網絡模型在訓練學習過程中,一邊提取信號特征,一邊去噪。這就要求神經網絡模型在訓練的過程中能夠從全部數據集中抽離出特征信息,丟棄噪聲信號。通過這種方式訓練出來的網絡具有較強的魯棒性,在圖像識別應用中,可以抵抗來自各個環節的噪聲干擾,從而提高識別準確率。
在實際應用中,很難做到測試數據集與訓練數據集的數據分布完全一致。DAE神經網絡模型仍舊能夠從復雜信息中提取主要數據特征,并利用特征信息重構干凈的原始信號。這種特性使得DAE能夠有效應對原始圖像受到各種類型噪聲干擾的復雜情況。
(二)構建堆疊降噪自動編碼機模型
單個降噪自動編碼機結構簡單,網絡層數少,在面對復雜問題時,實驗結果不夠理想,不具有現實應用價值。因此,將單獨的降噪自動編碼機網絡單元連接起來,形成能夠面對復雜情況的深度神經網絡模型[5],結構如圖1所示。
如圖1所示,通過連接多個降噪自動編碼機單元可以組成更加復雜的神經網絡模型,該網絡將輸入信號轉換為更抽象的特征表示。深度神經網絡的優勢在于,較于單層次神經網絡,其多層次的特征表示具有更強的區分能力。當輸入信號進入網絡后,經過網絡模型的訓練學習得到第一個特征向量作為下一層的輸入,同理得到第二個特征向量。在此過程中,第二層網絡工作時,并不會改變第一層的網絡參數。按照這一方法,可以繼續疊加更多層次,直至形成具有多個隱藏層的深層神經網絡,并得到最終的特征向量。
堆疊降噪自動編碼機神經網絡的工作流程可以劃分為兩個主要階段:網絡模型預訓練與網絡模型微調[6]。首先,在第一階段,未標記的輸入信號被引入網絡,并依次通過各層降噪自動編碼機進行無監督學習,從而確定每個降噪自動編碼機單元的權重和偏置向量,這些參數隨后被用作深度神經網絡的初始設置,這一過程被稱為“無監督預訓練”階段。接著,在第二階段,引入帶有標記的數據,依據網絡的優化目標函數,利用反向傳播算法對網絡參數進行精細調整,這一過程被稱為“有監督微調”階段[7]。
三、基于降噪自動編碼機構建深度神經網絡實現圖像識別
本文實驗從MNIST手寫數據集中選出一部分數據組成訓練集,用來調整網絡參數。
(一)網絡模型設計
1.輸入層和輸出層神經元個數
本文算法使用MNIST數據集中的數據。對數據進行預處理操作后,傳入神經網絡,結合數據特性,將輸入層和輸出層神經元個數設定為256。
2.網絡層數
在構建深層神經網絡模型的過程中,網絡的層數決定網絡模型的計算能力。層數越多,表示網絡能處理的數據可以更加復雜,但會消耗更多網絡資源、增加運行時間。為了尋找最貼合本文實驗數據的最佳網絡模型參數,本文分別使用由3層隱藏層、4層隱藏層、5層隱藏層組成的神經網絡模型進行訓練實驗,并通過對比實驗結果來評估不同深度神經網絡的性能[7]。通過實驗可得,當隱藏層數量為3時,可以得到理想結果。隨著隱藏層數量的增加,對其進行網絡訓練時會消耗更多資源。通過平衡網絡資源與網絡性能,最終決定神經網絡模型的隱藏層為3層。
3.隱藏神經元個數
隱藏層神經元數量決定神經網絡的學習能力。當每一層隱藏層中神經元數量不足時,網絡不能充分學習輸入信號的特征,數量過多則會增加計算復雜度。根據經驗,宜將隱藏層神經元數量設為30至100之間。實驗表明,將隱藏層神經元設置為60時性能最佳,進一步增加神經元數量并不會提升訓練效果,反而會延長訓練時間。
4.加入噪聲比例
向網絡中加入噪聲的大小直接影響降噪自動編碼機的圖像識別結果精度[7]。本文采用隨機遮擋噪聲的方法,即隨機將輸入信號置零,并測試不同噪聲水平。噪聲水平表示輸入數據被置零的比例,通常控制在60%以下。當噪聲為0時,網絡退化為自動編碼機,性能較差。實驗表明,在20%的噪聲水平下網絡性能最佳,繼續增加噪聲比例會導致性能下降。
5.訓練迭代次數
神經網絡模型其他的參數已經確定。當網絡迭代次數達到100次以上時,實驗結果達到預期效果。當訓練迭代次數增加時,訓練所需時間亦會相應增長。在權衡誤差減少與網絡運行時間之后,將模型的訓練迭代次數定為100次,既能保障結果精度,又能節約網絡運行時間。
(二)網絡模型訓練
取MNIST數據集中的數據,制作成無標簽圖像特征數據集和有標簽原始圖像兩組數據作為訓練數據集[8]。深度神經網絡模型訓練包括預訓練和微調兩個過程。
第一階段:預訓練階段。將訓練數據輸入網絡模型后,根據降噪自動編碼機運行規則,輸出第一個特征向量,同時優化一個DAE單元參數。網絡模型經過學習后,第一層網絡參數得到優化。隨后,由第一個隱藏層得到的特征向量作為輸入數據,進入第二個DAE單元,得到第二個特征向量和優化后的網絡參數。這一過程重復進行,逐步優化每個降噪自動編碼器的參數,通過層層迭代的方式,得到的網絡模型能夠更加貼合輸入數據集中有效信息的分布。這樣的預訓練顯著提升了模型提取特征的能力,使得深度網絡結構的訓練更加穩定可靠,為接下來的有監督微調階段奠定了堅實的基礎。
第二階段:有監督微調。這是一個自上向下的訓練過程。將輸入層、輸出層,以及位于它們之間的所有隱藏層視為一個統一的整體,形成一個深度神經網絡。在這個網絡中,初始參數都是經過預訓練得到。網絡通過訓練學習含有標簽的數據,對深度神經網絡中的所有參數進行細致的調整和優化。
四、算法驗證和結果分析
本文在MNIST手寫數據集上進行算法的驗證。選取數據集中70000幅圖像作為實驗數據,其中包含60000幅訓練集圖像和10000幅測試集圖像[9-10]。
為了驗證基于堆疊降噪自動編碼機圖像識別算法,本文將數據集分為6組分別進行實驗。分別與基于ABS圖像識別算法、基于ICA圖像識別算法進行對比,實驗結果如表1所示。
由實驗結果可知,使用ABS算法進行實驗,實驗結果信噪比只能達到90%左右,不夠理想。因此,其只能適用于對準確率要求不高的圖像識別場景。使用ICA算法已經可以獲得良好且穩定的實驗結果,但是實驗信噪比始終不能達到98%,且實驗結果受訓練集數據分布影響,不同實驗組之間的實驗結果差距較大,對于從自然界獲得的原始圖片不具有普適性。采用本文算法的實驗結果均可達到98%以上。
實驗結果顯示,基于堆疊降噪自動編碼機的圖像識別算法在面對不同分布的數據集時,均具有良好的性能,同時,在保障識別精確度的基礎上,能夠減少網絡運行時間、節約網絡資源。實驗結果說明,基于堆疊降噪自動編碼機的神經網絡具有良好的魯棒性和較高的識別精度,能夠適用于不同場景的圖像識別,具有廣泛的應用價值。
作者單位:楊林 河北軟件職業技術學院
參考文獻
[1]高海濤.基于MPSO-BP神經網絡的煤矸圖像識別方法研究[J].能源與環保,2024,46(08):254-259+267.
[2]廖一星,徐亮,楊政,等.基于CNN網絡的圖像多目標特征識別技術研究[J].工業控制計算機,2024,37(08):112-113+116.
[3]陳群賢. TensorFlow下基于CNN卷積神經網絡的手寫數字識別研究[J]. 信息記錄材料,2022,23(09):159-161.
[4]毛雅棋. 基于深度學習的低分辨率圖像人臉識別技術研究[D].長春理工大學,2021.
[5]梅嘉祥, 劉展寧, 張志佳,等. 圖像模糊度評價及其應用綜述[J].軟件工程,2018,21(04):27-30.
[6]董丙冰.基于背景信息和自動編碼機的個性化推薦算法研究[D].合肥工業大學,2021.
[7]楊林.基于堆疊降噪自動編碼機的房顫信號提取算法[D].河北大學,2020.
[8]王慧玲,宋威.基于雅克比稀疏自動編碼機的手寫數字識別算法[J].計算機應用研究,2018,35(12):3816-3819+3823.
[9]徐傲,彭程.基于棧式自動編碼機的選票手寫字符識別算法[J].計算機應用,2017,37(S2):183-185+197.
[10]楊康.基于圖像自相似性及卷積神經網絡的混合噪聲去除算法研究[D].南京信息工程大學,2021.