夏長林
摘要:隨著我國高新技術的快速發展,人工智能領域也得到推動,而圖像識別是人工智能領域的一個重要課題,其主要包括分類識別和特征提取兩大模塊;同時深度學習作為人工智能的重要研究方向,近年來取得了突飛猛進的發展,它廣泛應用在圖像識別、語音識別等眾多領域并獲得了巨大成功。該文就深度學習在圖像識別中的應用進行深入分析,主要從人臉識別、遙感圖像分類等諸多方面進行闡述,其目的是為相關從業人員提供幫助,以此來推動人工智能發展大潮中圖像識別領域的發展。
關鍵詞:深度學習;圖像識別;應用
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2019)33-0185-02
所謂深度學習主要是指通過構建深層級別的神經網絡來模擬人腦進行分析,或者是模擬人腦進行學習以及解釋相關數據信息。而圖像識別是指通過對圖像進行處理、分析及理解,進而實現識別各種不同模式的目標和對象的目的。如今深度學習已經被廣泛應用于圖像識別領域中,同時也獲得了令人矚目的成績和效果。為此筆者在本文中就深度學習的概念以及結構優勢進行探討,同時也對深度學習在圖像識別中的應用做出研究,希望可以為某些從業人員提供借鑒和參考依據。
1深度學習的概述
深度學習實質上是一種機器學習的過程,也是人工智能領域中一個新的研究方向。深度學習的最終目的是學習樣本的內在規律和表示層次,通過對所獲得的文字、聲音、圖像等數據信息進行解釋,可以實現機器能夠像人一樣具有分析學習能力,從而使機器可以對文字、聲音、圖像等數據信息進行識別。同時深度學習還是一個相對復雜的機器學習算法,其已經超過了先前的相關技術,尤其是在語音和圖像識別等領域已經取得了不錯的效果。將深度學習應用于圖像識別領域,可以有效解決很多復雜模式識別的難題,可以說深度學習有力推動了圖像識別技術的快速發展和進步。
2深度學習的深層結構優勢
深度學習的概念其實是來源于人工智能神經網絡方面的研究,它在圖像識別系統中的應用十分廣泛,它屬于一種包含多層感知器的結構,這也是它最大的優勢。相關研究表明,如果針對特定任務的模型深度不夠,就會增加所需要的計算單元,因而也就需要更多的參數和訓練樣本。此外,深度學習是基于大數據的自主學習過程,并不是通過手工設計來獲得相關數據,即是通過組合低層來獲得更加直觀的表示方式,從而實現機器能夠代替人類學習,其最終的目的是實現模擬人腦來進行一系列的學習活動,相當于機器模仿人類的一切學習活動。由于深度學習從大數據自主學習可以獲得良好的特征,因而可以起到提高圖像識別系統性能的作用。
3聯合深度學習
早些年,一些計算機視覺研究人員將深度學習模型視為黑盒子,顯然這是不全面的觀點和看法。為此,相關研究人員提出了聯合深度學習的概念。首先,傳統的計算機視覺系統和深度學習模型之間往往存在關聯性,因此相關研究者利用二者的關聯性可以進一步構建出新的深度模型。其次,深度學習模型中的各個層與視覺系統中的若干模塊之間也是可以建立對應關系的,倘若現有的深度學習模型與視覺系統之間存在這種對應的缺失,則相關研究者可以在此啟發下構建新的深度模型。
4深度學習在圖像識別中的應用
(1)人臉識別
深度學習在圖像識別中應用最多的就是人臉識別,而人臉識別最大的挑戰是如何將諸多因素引發的變化區分開來。能夠引發圖像識別變化的因素有很多,比如,光線、表情、身份等諸多因素,由這些因素產生的變化在分布的性質上往往屬于非線性,同時這些變化也存在著極為復雜且多變的特征,所以很多時候借助傳統線性模型難以將其區分開來。而深度學習之所以被廣泛應用于人臉識別,其最終目的就是為了實現多層非線性的變換,因為通過多層的非線性變換就能獲取新的特征,進而有效區分由諸多因素引起的相關變化。
(2)遙感圖像分類
遙感圖像中包含著大量的數據信息,這些具有價值意義的數據被廣泛應用于各行各業。遙感圖像數據具有兩大特征,一是由過于龐大的圖像數據所導致的信息冗余,二是由較低的圖像分辨率所導致的不同信息間的相互融合。因此,對遙感圖像分類較為困難,傳統的遙感圖像分類方法難以將有價值的信息準確分離出來。如果將深度學習技術應用于遙感圖像分類中,通過建立合適的深度學習模型,同時結合使用特定的優化算法,則可以取得很好的分類效果,這已成為當前遙感圖像分類技術的發展趨勢。
(3)ImageNet分類
深度學習在ImageNet分類中的應用也十分廣泛,很多時候傳統的計算機視覺方法所獲得的數據往往存在較大誤差,在測試集上錯誤率也是比較高的,而利用深度學習可以有效解決這些問題。如今ImageNet分類在深度學習中也變得越發重要,對于這種網絡結構我們還可以稱之為AlexNet,相比傳統意義上的卷積網絡,該網絡結構具有以下優勢:第一,AlexNet主要是采取了Dropout的訓練模式來進行分類,將一些神經元歸置到零以此來實現模仿人類神經元的目的,雖然這一訓練的過程變得緩慢,但是可以得到更加魯棒的網絡模型L6);第二,AlexNet在一定程度上可以實現降低計算復雜度的目的,還可以得到具有稀疏性質的神經元輸出。
(4)交通圖像識別
隨著經濟社會的快速發展,圖像識別技術在交通領域中的應用也變得越來越廣。交通圖像識別技術通常被應用于汽車的車牌識別、車道偏離預警以及交通標識等諸多方面,為人們的日常出行提供了許多便利。同時交通圖像識別技術還被大量應用于智能停車、收費管理、交通控制等方面。近年來,相關研究人員嘗試將深度學習技術運用到更深層次的交通圖像識別領域中,比如,將深度卷積神經網絡應用于交通標志檢測領域,可以得到具有較強時效性和較高精確度的交通標志檢測算法。基于深度學習的交通圖像識別技術,為交通圖像識別領域的探索與創新提供了新的方法。
(5)字符圖像識別
字符圖像識別在郵政信件、電子簽名和支票等諸多領域被廣泛使用,也取得了較好的效果。但是早些年的字符圖像識別技術弊端在于,嚴重依賴人工對字符的預處理,顯然這樣的識別可靠性和識別效率較低。深度學習技術興起以后,一些研究人員開始利用深度學習技術來研究字符圖像識別,并在MNIST數據集上獲得了不錯的成績和效果,將字符圖像識別的錯誤率明顯降低,使得機器與人類觀察者之間的差距越來越小。
(6)視頻圖像分析
雖然深度學習在視頻圖像分析領域中也得到一些應用,但是就目前應用的情況來看依然處于起步階段。利用深度學習來描述視頻的靜態圖像特征是相對容易的,相應的深度學習模型可以通過在ImageNet上學習獲得。而在深度學習中如何描述視頻的動態特征則是一個難點。因為在傳統的視覺研究方法中,往往是通過光流估計、動態紋理等進行動態特征的描述,然而深度模型卻難以體現出這些動態特征的描述信息。解決此問題有三個方向:第一個方向是將視頻圖像視為三維圖像,并直接將其應用于卷積網絡中,但是該方向的問題在于沒有考慮到空間維和時間維的差異性;第二個方向是進行預處理,計算光流場或其他動態特征的空間場分布,并以之作為卷積網絡的一個輸入通道;第三個方向是通過長短時記憶網絡捕捉長期依賴性,從而實現對視頻圖像中復雜動態的有效建模。
5結束語
綜上所述,深度學習如今已經被廣泛應用于各行各業,也取得了令人矚目的成績和效果,尤其是在圖像識別領域中的應用更是效果顯著。深度學習主要是指學習樣本的內在規律以及表示層次,而它最終的目標主要是為了讓機器能夠像人一樣具有分析和學習的能力,能夠精準地對文字、圖像和聲音等數據進行識別,同時深度學習還是一個相對復雜的機器學習算法。因此本文就深度學習在圖像識別中的應用進行研究,主要分析了它的深層結構優勢以及應用范圍,最終的目的是為了推動圖像識別領域快速發展。