王 顥
隨著信息技術的快速發展,圖像的數量呈指數型增長,圖像識別技術可以智能、高效地完成海量圖像的分類與識別,因此,圖像識別一直是計算機視覺領域的研究熱點。近年來,深度學習技術的應用范圍日益擴大,將深度學習應用到圖像識別領域已成為新的研究方向。
隨著網絡信息技術的發展,各類社交軟件正逐漸成為人們獲取信息、保持與他人聯絡的必備手段。在這些社交軟件中,圖片由于不會受到語言和文字等地域文化的約束,正在逐漸取代傳統的文字信息表達方式。
圖像識別技術能夠智能的提取圖像特征、完成圖像分類,現已應用到醫療、交通、安防等各類生活場景中。圖像識別一般包括圖像預處理、圖像特征提取和圖像分類三個步驟。圖像預處理是通過去除圖像中的噪聲和干擾,增強有用信息,來提高圖像識別的準確率。圖像的特征提取是將圖像轉化為“非圖像”的描述,比如數值表示或向量描述等,其基本思想是將高維空間中的原始圖像映射或變換為低維特征描述。圖像識別是以提取到的圖像特征為基礎,根據分類決策,得到待識別圖像所屬的類別。
深度學習是機器學習的一種,其概念源自人工神經網絡(ANN),人工神經網絡從信息處理角度模擬了人腦的神經元之間傳遞和處理信息的模式。2006年,Hinton[1]等人提出深度學習的概念,它是一種包含多隱藏層的神經網絡結構,能夠更加抽象、更深層次地描述目標對象的特征。
深度學習一般可以分成有監督學習和無監督學習,分類的依據是數據是否含有標記。有監督學習過程中會找出訓練數據的特征與標記之間的映射關系,并且通過標記不斷糾正學習過程中的偏差,不斷提高學習的預測率。有監督學習主要有卷積神經網絡(CNN)、循環神經網絡(RNN)和深度堆疊網絡(DSN)。無監督學習的訓練數據沒有標記,常用的算法有受限玻爾茲曼機(RBM)、深度置信網絡(DBN)等。
卷積神經網絡(Convolutional Neural Network,CNN)是深度學習的重要組成部分,也是圖像識別領域中應用較為廣泛的模型之一,CNN模型的優點主要在于避免了對圖像處理前期過程中大量的特征提取工作,簡化了圖像預處理的步驟。CNN模型是以圖像的局部關聯性和特征重復性為假設條件,即假設圖像某一點的像素一般與其相鄰像素的關聯性較大,與其他像素的關聯性較小,避免了全連接所必需的大量參數,這就是CNN的局部連接特性。
循環神經網絡(Recurrent Neural Network,RNN)是針對序列數據問題而設計的,RNN在網絡模型中引入了定性循環的概念,信號在兩個神經元之間傳遞之后并不會立刻消失。與卷積神經網絡不同的是,循環神經網絡中隱藏層神經元的輸入不僅包含了上一層神經元的輸出,也包含了前一時刻該隱藏層神經元的輸出。RNN是具有記憶功能的網絡模型,適合處理序列數據,因為序列數據具有很強的關聯性,前面的數據對后面的數據有很大的影響[3]。
生成式對抗網絡(Generative Adversarial Network,GAN)是由Ian Goodfellow等人于2014年提出的一種無監督模型,GAN在對抗過程中估計并生成模型[4]。GAN打破了傳統生成算法的模式,采用博弈方式來優化兩個模型,即生成模型G和判別模型D。生成模型G捕捉真實樣本數據的分布,并生成新的數據樣本。判別模型D是一個二分類器,估計一個輸入樣本來自訓練樣本的概率。與傳統的生成算法相比,GAN只用到反向傳播,與之前的馬爾可夫鏈模式相比效率更高。而且,GAN的損失函數與傳統的均方誤差相比更加嚴謹,因此GAN在圖像處理和計算機視覺領域取得了廣泛的應用。
深度學習具有特征提取能力強、實時性快、識別精度高的優點。目前,深度學習已經廣泛應用于圖像識別領域的各個方面。
人臉識別技術是根據人臉的特征信息完成身份識別的一種生物智能識別技術。隨著深度學習技術的快速發展,基于深度學習的人臉識別技術已成為學者們研究的熱點[5]。基于深度學習的人臉識別技術是由多層非線性感知器構成的學習模型,通過大規模的樣本圖像訓練得到識別模型,不需要進行人工特征提取,在樣本的訓練過程中自主的逐層學習多層信息,識別準確率極高。
隨著人臉識別技術的日益成熟,人臉表情識別成為近年來人臉識別領域研究的熱點。表情是人類內心世界的外在流露,也是人機交互過程中的關鍵信息。人臉表情識別可以廣泛應用于智能駕駛、醫療護理、客戶分析等領域,不僅在學術研究領域具有重要的學術價值,在工業界也具有至關重要的應用價值。
醫學圖像識別的主要目標是從海量的醫學圖像中高效、準確的提取出有用的病理信息,為醫學研究、臨床診斷以及疾病治療提供堅實的基礎。目前,卷積神經網絡已成為醫學圖像識別的首選算法,卷積神經網絡以卷積算法、池化算法為基礎,逐步提取目標圖像中的病理信息,將提取到的圖像特征集合成高階特征,從而完成醫學圖像的識別與診斷[6]。
在學習大量的樣本圖像后,深度學習算法獲取的特征信息完全有可能超過醫生的實踐經驗,可以站在專家的高度做出高效的判斷,既減輕了醫生的負擔,又提高了診療的效率與準確性,對現代醫學的發展具有重要的意義。
隨著遙感圖像分辨率的日益增大,傳統的識別算法已無法滿足遙感圖像的識別要求,因為傳統算法對人工特征提取的依賴性較高。深度學習技術具有強大的學習能力,可以自動組合低級特征、自動的提取高級特征,還可以采用深層結構的模型完成高分辨率遙感圖像的識別與分類,而且能夠充分利用遙感圖像的空間結構信息。遙感圖像與深度學習技術相結合能夠有效地提取遙感圖像的有用特征,在數據降維方面的表現尤其突出[7]。許多學者把深度學習應用于遙感圖像識別領域中,在識別建筑、道路、植被、林地、水利等地物時取得了較好的效果。
近年來,深度學習技術的應用范圍日益廣泛,已成為圖像識別領域的主流應用技術之一。但是,深度學習模型仍具有待完善的問題,比如訓練數據的優化問題,這是因為深度學習對訓練數據具有很強的依賴性。因此在以后的研究中要考慮如何優化訓練數據,進一步提高識別準確率。