徐 暢
(重慶郵電大學(xué) 重慶南岸 400065)
國內(nèi)對圖像識別的研究最早是在20世紀(jì)60年代,跟國外的圖像識別開始時間幾乎一樣。但是,圖像識別在研究初期,基本上沒有什么太大的進(jìn)展,而且只是在數(shù)字、字母識別上進(jìn)行了初步的研究,連雛形都不具備。
在80年代,國內(nèi)的識別技術(shù)才第一次登上國際舞臺,建立了屬于自己的模式識別重點(diǎn)國家實(shí)驗(yàn)室。當(dāng)然,模式識別就是圖像識別的父類了。這一段時間大大提高了國人自己的圖像識別研究能力。我們查閱資料發(fā)現(xiàn),當(dāng)時的例子有民德程圖像識別、鄭南寧計算機(jī)視覺等等。到了90年代,我們國人自己已經(jīng)在高維數(shù)據(jù)判別分析方面取得了顯著進(jìn)展,包括線性判別分析、立體視覺攝像機(jī)標(biāo)定、立體匹配問題等等。我國以其為基礎(chǔ)開發(fā)出了屬于自己的識別系統(tǒng)。
邁進(jìn)21世紀(jì)之后,我國才是真正地打開了圖像識別飛躍發(fā)展的大門。國內(nèi)迅猛發(fā)展之勢體現(xiàn)在中國團(tuán)隊(duì)ImageNet競賽上的經(jīng)歷。ImageNet提供了一個超過1億5千萬張圖片的數(shù)據(jù)集,讓全球的團(tuán)隊(duì)針對這一個數(shù)據(jù)集進(jìn)行識別和分類。中國團(tuán)隊(duì)在2015年之后以巨大的優(yōu)勢奪冠。由孫劍,何愷明,張?jiān)斢暌约叭紊偾浣M成的團(tuán)隊(duì),不僅在神經(jīng)網(wǎng)絡(luò)的深度和精度上刷新了世界紀(jì)錄,而且在ImageNet的三個組別中均奪冠。他們提出的ResNet,深度殘差網(wǎng)絡(luò)達(dá)到了驚人的152層,以一個全新的殘差規(guī)則來指導(dǎo)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)設(shè)計,重構(gòu)了學(xué)習(xí)的過程。它不再簡單地按照反向傳播進(jìn)行學(xué)習(xí),而是在其中改變了信息流的傳導(dǎo),解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題。在2017年的比賽中,南京信息工程大學(xué)所在的BDAT團(tuán)隊(duì)、奇虎360所在的團(tuán)隊(duì)拿下了冠軍。其中,奇虎360提出的DPN也一舉成為了2016年后的經(jīng)典神經(jīng)網(wǎng)絡(luò)之一。[1]盡管在2015年之后,沒有出現(xiàn)像深度殘差網(wǎng)絡(luò)這樣的突破性的網(wǎng)絡(luò)結(jié)構(gòu),但依舊可以看出,國內(nèi)與國際領(lǐng)先機(jī)構(gòu)的距離越來越近,未來甚至?xí)袌D像行業(yè)領(lǐng)頭羊的出現(xiàn)。除了在競賽上的算法突破以外,國內(nèi)計算機(jī)視覺公司,如礦視、百度、商湯、在圖像識別上也已經(jīng)走到了世界前列。
國外對于圖像識別的研究基本上也可以追溯到20世紀(jì)60年代。人工智能的先驅(qū)者M(jìn)insky給學(xué)生布置了一個作業(yè),讓計算機(jī)明白一幅圖像是什么。[2]起初,科學(xué)家們認(rèn)為這不是很難。但50年過去了,這個問題還是沒有很好地得到解決。不過,完成這份作業(yè)的方法卻在人們的研究下不斷完善和進(jìn)步。
而到了上世紀(jì)90年代,圖像處理有了硬件的支持。有了更快速的匹配和計算的硬件,科學(xué)家們也開始嘗試用更多的特征來識別。他們在之前“先驗(yàn)知識庫”的基礎(chǔ)上,增加了更多的特征,其中就包括了多維局部特征。局部特征的加入也使得識別的精度更加準(zhǔn)確,不單單可以識別一個物體“是”或“不是”,更可以分類出兩個相似的物體“像”或“不像”。[3]這個時期開始使用一些傳統(tǒng)的機(jī)器學(xué)習(xí)方法。比如,KNN,BP感知器,SVM等等。
在人工智能蓬勃發(fā)展的21世紀(jì),卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)了。第一個用于圖像識別的卷積神網(wǎng)絡(luò)是LeNet-5。像幾乎所有其他神經(jīng)網(wǎng)絡(luò)一樣,它們使用反向傳播算法的版本進(jìn)行訓(xùn)練。LeNet-5是由Yann LeCun于1998年提出的,他的網(wǎng)絡(luò)結(jié)構(gòu)是早期卷積神經(jīng)網(wǎng)絡(luò)中最經(jīng)典的一種。LeNet-5在手寫數(shù)字識別上可以得到相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法更精準(zhǔn)的結(jié)果。[4]到了2012年,Alex Krizhevsky實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)里程碑式的突破,提出了名為AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),以15.4%的錯誤率一舉奪得ImageNet當(dāng)年的冠軍。至此,深度神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域上完全超越機(jī)器學(xué)習(xí)。轉(zhuǎn)眼來到2014年,Google-Net橫空出世,此時的深度學(xué)習(xí)已經(jīng)學(xué)會在增大網(wǎng)絡(luò)深度的基礎(chǔ)上來獲得更好的訓(xùn)練效果,如VGG-NET。但是,Google-net是一種全新的網(wǎng)絡(luò)結(jié)構(gòu),其中的inception模塊從另外一種角度提升了訓(xùn)練結(jié)果,在同樣計算量下能夠獲取更多特征,獲得了2014年ImageNet競賽的冠軍。在此之后的ImageNet競賽一直被國內(nèi)的優(yōu)秀團(tuán)隊(duì)登頂。[5]
深度學(xué)習(xí)顛覆性的算法,將圖像特征的提取、篩選和分類三個步驟融合為一個大模型,取代了傳統(tǒng)圖像識別的三大步驟。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)更是目前圖像領(lǐng)域提取特征最好的方式,也因此提升了數(shù)據(jù)的分類精度。[6]神經(jīng)網(wǎng)絡(luò)可以在大規(guī)模數(shù)據(jù)中學(xué)習(xí)特征,并把結(jié)果泛化到同類數(shù)據(jù)中。筆者認(rèn)為,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)最偉大之處,就是受仿生物學(xué)的啟發(fā),由特征去解釋圖片。深度越深的網(wǎng)絡(luò)之所以識別的精確度更高,是因?yàn)檫@一網(wǎng)絡(luò)不僅僅可以提取出簡單的曲線、邊緣特征,還可以提取出更高級的特征,如多邊形,凸起凹陷,爪子,人臉等等。
總的來說,從傳統(tǒng)圖像識別方法,到機(jī)器學(xué)習(xí)的崛起,再到如今深度學(xué)習(xí)的方興未艾,圖像識別技術(shù)之所以能夠如雨后春筍般地更新,正是因?yàn)槔碚摵拖敕ǖ暮穹e薄發(fā)。這些理論和想法早已提出數(shù)年,但由于客觀硬件的限制,一直沒能付諸實(shí)踐。在大規(guī)模數(shù)據(jù)和高速運(yùn)算的基礎(chǔ)上,這些理論和想法終于有了他們施展拳腳的平臺,進(jìn)而使得圖像識別在近幾年飛速發(fā)展,甚至使得深度學(xué)習(xí)在計算機(jī)視覺方面有了絕對的主導(dǎo)地位。其結(jié)果也是令人難以置信的,有許多神經(jīng)網(wǎng)絡(luò)的表現(xiàn)已經(jīng)超過了人類平均水平表現(xiàn)。但是,我認(rèn)為,即使目前的這些進(jìn)展令人鼓舞,計算機(jī)視覺與深度學(xué)習(xí)的搭配依然還處于其萌芽期,深度學(xué)習(xí)模型仍具有許多未解決的挑戰(zhàn)。比如,限制于硬件的發(fā)展,對抗樣本的研究,學(xué)習(xí)模式的改變等等。我深信,克服這些挑戰(zhàn)后,我們的世界將會真正進(jìn)化為一個智能化的世界。