武煜博
摘 要 圖像識別技術(shù)是人工智能研究的一個重要分支,也是人們?nèi)粘I钪惺褂米顝V泛的人工智能技術(shù)之一。近年來,隨著深度學習技術(shù)的發(fā)展,圖像識別準確率顯著提高。本論文研究了圖像識別的傳統(tǒng)技術(shù)和深度學習技術(shù),分析了深度學習技術(shù)的幾點不足,并給出未來可行的解決方案。
【關(guān)鍵詞】人工智能 圖像識別 深度學習
1 概述
圖像識別技術(shù)是人工智能研究的一個重要分支,其是以圖像為基礎,利用計算機對圖像進行處理、分析和理解,以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應用十分廣泛,在安全領域,有人臉識別,指紋識別等;在軍事領域,有地形勘察,飛行物識別等;在交通領域,有交通標志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機器人、無人駕駛等技術(shù)的重要基礎。
傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設計等步驟構(gòu)成。通過專家設計、提取出圖像特征,對圖像進行識別、分類。近年來深度學習的發(fā)展,大大提高了圖像識別的準確率。深度學習從大量數(shù)據(jù)中學習知識(特征),自動完成特征提取與分類任務。但是目前的深度學習技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標記訓練樣本的情況下才能夠取得較好的識別效果。本文認為研究如何在標記數(shù)據(jù)有限的情況下繼續(xù)利用深度學習完成物體識別任務具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識別技術(shù)
傳統(tǒng)的圖像識別技術(shù)包括:圖像獲取、預處理、特征提取、分類。在圖像輸入后,需要先對圖像進行預處理。一幅標準灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細化處理(如指紋細化,字符細化等),以便獲取主要信息,減少無關(guān)信息。細化操作,可以得到由單像素點組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結(jié)合相應的閾值得到這些關(guān)鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預處理和特征提取之后,我們便能夠?qū)D像進行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(SVM),人工神經(jīng)網(wǎng)絡(ANN)等等。K-近鄰算法原理是,當一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應當屬于同一類別。支持向量機是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡模仿生物大腦中的神經(jīng)網(wǎng)絡結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學習的圖像識別技術(shù)
一般認為深度學習技術(shù)是由Hinton及其學生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡分支。深度神經(jīng)網(wǎng)絡模仿人腦的神經(jīng)機制來分析樣本,并盡可能地對樣本的特征進行更深度的學習。以圖片為例,利用深度學習技術(shù)對樣本的特征進行學習時,由低層特征到高層特征越來越抽象,越來越能表達語義概念。當樣本輸入后,首先對圖像進行卷積與下采樣操作,卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入,深度學習技術(shù)可以自動學習得到較好的特征提取器(卷積參數(shù))。深度學習的訓練過程,首先將當前層的輸出作為下一層的輸入,進行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡往往網(wǎng)絡中的節(jié)點數(shù)太過龐大,難以訓練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡,以權(quán)值共享的方式減少了節(jié)點數(shù)量,從而能夠加深學習的深度,使系統(tǒng)能學習到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學習網(wǎng)絡結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識別技術(shù)相比,深度學習技術(shù)具有以下優(yōu)勢:
(1)無需人工設計特征,系統(tǒng)可以自行學習歸納出特征。
(2)識別準確度高,深度學習在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預見的將來,計算機將大量代替人力進行與圖像識別技術(shù)有關(guān)的活動。
(3)使用簡單,易于工業(yè)化,深度學習由于不需要領域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學習創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學習具備諸多優(yōu)點,但目前來看深度學習仍有許多不足之處。首先,由于深度學習模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進行調(diào)整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學習過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學習,往往需要數(shù)百個甚至更多有標記的樣本。當遇到有標記的樣本難以獲取或者代價太大時,深度學習就無法取得好的學習效果。并且深度學習需要十分昂貴的高性能GPU,這使得深度學習難以平民化。目前深度學習訓練速度較慢,往往需要幾天甚至一個月。其模型擴展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學習屬于靜態(tài)過程,與環(huán)境缺乏交互。
對其的解決方案目前主要有兩點:
(1)針對于模型擴展性差的問題,通過引入遷移學習,研究不同任務或數(shù)據(jù)之間的知識遷移,提高模型的擴展能力、學習速度,同時降低學習成本,便于冷啟動。
(2)與強化學習結(jié)合,研究在動態(tài)環(huán)境下進行深度學習,提高深度學習與環(huán)境交互的能力。
參考文獻
[1]蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學,2016.
[4]孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學習研究進展[J].軟件學報,2015:26-39.
[6]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004:86-100.
作者單位
山西省榆次第一中學校 山西省晉中市 030600