楊 曦,閆 杰,王 文,李少毅,林 健
1.西北工業(yè)大學(xué) 航天學(xué)院,西安7 10072
2.空軍軍醫(yī)大學(xué) 放射科 陜西省功能與分子影像重點(diǎn)實(shí)驗(yàn)室,西安 710038
3.西北工業(yè)大學(xué) 無(wú)人系統(tǒng)技術(shù)研究院,西安 710072
人類(lèi)通過(guò)視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)和嗅覺(jué)等感覺(jué)器官獲取外部信息,從而實(shí)現(xiàn)與外部世界的交互,其中視覺(jué)在人類(lèi)的感覺(jué)世界中擔(dān)負(fù)著重要任務(wù)。研究表明人類(lèi)視覺(jué)系統(tǒng)具備并行計(jì)算與處理模擬信息的能力,同時(shí)對(duì)外界信息的處理具有很強(qiáng)的篩選能力。人類(lèi)與靈長(zhǎng)類(lèi)動(dòng)物的大腦視覺(jué)皮層具有多級(jí)互連結(jié)構(gòu),同一層中的神經(jīng)細(xì)胞在獲取信息后高速、并行地進(jìn)行特定的信息處理,并逐層簡(jiǎn)化數(shù)據(jù)規(guī)模,實(shí)現(xiàn)圖像特征信息的提取,最終完成對(duì)物體的認(rèn)知理解。
盡管神經(jīng)科學(xué)取得了重大進(jìn)展,但仍然對(duì)大腦視覺(jué)通路如何組織、產(chǎn)生物體識(shí)別和學(xué)習(xí)的行為知之甚少。在缺乏明確的構(gòu)建指令的情況下,神經(jīng)科學(xué)和受腦啟發(fā)的目標(biāo)識(shí)別之間的互動(dòng)一直是一種共同進(jìn)化。腦啟發(fā)的目標(biāo)識(shí)別模型是一個(gè)開(kāi)放而有吸引力的研究領(lǐng)域(如圖1所示),具有廣泛的類(lèi)別和應(yīng)用范圍。很多研究者在設(shè)計(jì)目標(biāo)識(shí)別算法時(shí)嘗試模擬視覺(jué)皮層的信息處理機(jī)制。類(lèi)腦視覺(jué)是以生物大腦為研究參考的人工智能技術(shù)在機(jī)器視覺(jué)領(lǐng)域的應(yīng)用,通過(guò)研究和理解大腦皮層中的神經(jīng)回路如何實(shí)現(xiàn)準(zhǔn)確快速的目標(biāo)識(shí)別機(jī)制,嘗試將神經(jīng)科學(xué)轉(zhuǎn)化為目標(biāo)識(shí)別算法,促進(jìn)計(jì)算機(jī)視覺(jué)與模式識(shí)別的發(fā)展。經(jīng)過(guò)幾十年的開(kāi)發(fā),研究人員構(gòu)建出的深度神經(jīng)網(wǎng)絡(luò),在目標(biāo)識(shí)別任務(wù)達(dá)到甚至超過(guò)人類(lèi)的表現(xiàn)。但是,用于深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)是否類(lèi)似于人們大腦中的生物神經(jīng)網(wǎng)絡(luò)??jī)烧咴诤芏喾矫婵梢赃M(jìn)行對(duì)比研究。

圖1 視覺(jué)物體識(shí)別的腦啟發(fā)模型綜述Fig.1 Review of brain-inspired model for object recognition
在泛化推理方面,人類(lèi)可以從視覺(jué)環(huán)境中提取信息,通過(guò)復(fù)雜的操作使人類(lèi)擁有遷移學(xué)習(xí)的能力。理解和因果關(guān)系仍然是人類(lèi)大腦的獨(dú)特優(yōu)勢(shì)。人工神經(jīng)網(wǎng)絡(luò)具有一定的決策推理能力,但常常被認(rèn)為是無(wú)法解釋的熏盒子,因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)檢查數(shù)百萬(wàn)張圖像及其相關(guān)標(biāo)簽,然后無(wú)意識(shí)地將數(shù)百萬(wàn)個(gè)參數(shù)調(diào)整到從圖像中提取的模式,并沒(méi)有理解更高層次的語(yǔ)義概念和知識(shí)。研究人員試圖在訓(xùn)練過(guò)程中添加更多樣本提高深度學(xué)習(xí)模型的魯棒性,但這通常不能解決問(wèn)題。在網(wǎng)絡(luò)輸入方面,與人工神經(jīng)網(wǎng)絡(luò)相比,人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò)輸入機(jī)制非常差,不具備攝取和處理大量數(shù)據(jù)的能力,這使得人類(lèi)的大腦不可避免地學(xué)習(xí)新的任務(wù)而不是學(xué)習(xí)潛在的規(guī)則。但是人們經(jīng)常低估了大腦處理的數(shù)據(jù)量,可能接觸到成千上萬(wàn)個(gè)樣本被取樣很多次,所以視覺(jué)系統(tǒng)輸入的數(shù)據(jù)量也是相當(dāng)驚人的。
此外,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)時(shí)代的到來(lái),擁有海量數(shù)據(jù)和尖端儀器探索靈長(zhǎng)類(lèi)大腦視覺(jué)信息處理的奧秘。一些組織或團(tuán)隊(duì)已經(jīng)開(kāi)始發(fā)起了大型的、跨國(guó)的努力,使用深度神經(jīng)網(wǎng)絡(luò)模擬部分大腦視覺(jué)通路的生理功能或神經(jīng)機(jī)制。與此同時(shí),一些研究團(tuán)隊(duì)正在研制突觸結(jié)構(gòu),其基本構(gòu)件的工作原理更像神經(jīng)元突觸。除非在神經(jīng)元功能的基本本質(zhì)上有大的意外,可能會(huì)在不久的將來(lái)完成模擬整個(gè)視覺(jué)通路的工作。
在這里,本文研究工作回顧了近二十年在視覺(jué)目標(biāo)識(shí)別的研究方向,重點(diǎn)關(guān)注視覺(jué)神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)之間在目標(biāo)識(shí)別任務(wù)的聯(lián)系。在許多方面,視覺(jué)處于神經(jīng)科學(xué)和機(jī)器感知的前沿;可以說(shuō),人們對(duì)大腦視覺(jué)系統(tǒng)的了解比人們對(duì)幾乎任何其他大腦子系統(tǒng)的了解都要多,而且計(jì)算機(jī)視覺(jué)在機(jī)器學(xué)習(xí)、機(jī)器感知和腦啟發(fā)的計(jì)算[1]的發(fā)展中發(fā)揮了主導(dǎo)作用。物體識(shí)別為神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)的交叉提供了一個(gè)經(jīng)典的案例。
本文第一部分主要描述了從神經(jīng)科學(xué)理論試圖分析大腦視覺(jué)系統(tǒng)在目標(biāo)識(shí)別任務(wù)中可能使用的計(jì)算原理,以準(zhǔn)確有效地將神經(jīng)活動(dòng)和識(shí)別行為整合到生物啟發(fā)的計(jì)算模型中。具體地,通過(guò)實(shí)驗(yàn)獲得的大腦活動(dòng)數(shù)據(jù),旨在表征大腦激活的皮層動(dòng)力學(xué),將視覺(jué)神經(jīng)活動(dòng)與目標(biāo)識(shí)別任務(wù)中的行為聯(lián)系起來(lái),總結(jié)出視覺(jué)目標(biāo)表征的內(nèi)容和信號(hào)流向形式,揭示目標(biāo)識(shí)別任務(wù)背后的計(jì)算機(jī)制。第二部分主要探索了基于大腦啟發(fā)的目標(biāo)識(shí)別模型的發(fā)展,建立了從神經(jīng)科學(xué)到計(jì)算機(jī)視覺(jué)的橋梁。回顧了最近的一些類(lèi)腦目標(biāo)識(shí)別模型的研究工作,使用大腦或識(shí)別行為數(shù)據(jù)訓(xùn)練和測(cè)試執(zhí)行識(shí)別任務(wù)的計(jì)算模型。其中的深度卷積神經(jīng)網(wǎng)絡(luò)模型整合并抽象了神經(jīng)生物學(xué)的部分特征,被證明與靈長(zhǎng)類(lèi)視覺(jué)神經(jīng)通路具有很強(qiáng)的相似性。這些模型通過(guò)神經(jīng)科學(xué)提供的功能機(jī)理執(zhí)行目標(biāo)識(shí)別任務(wù),其計(jì)算機(jī)制同時(shí)可以反向解釋神經(jīng)活動(dòng)和識(shí)別行為。本文主要的貢獻(xiàn)總結(jié)如下。
(1)類(lèi)腦模型的全面、深入探索:針對(duì)目前最先進(jìn)的基于大腦啟發(fā)的目標(biāo)識(shí)別方法,根據(jù)模型架構(gòu)(CNN、SNN、HMAX)、模型開(kāi)發(fā)(神經(jīng)激活預(yù)測(cè)和神經(jīng)功能機(jī)制模擬)進(jìn)行詳細(xì)分類(lèi)的研究,涵蓋了這些所有方面,在之前是沒(méi)有的。
(2)網(wǎng)絡(luò)對(duì)比分析:總結(jié)了基于CNN的目標(biāo)識(shí)別模型與靈長(zhǎng)類(lèi)動(dòng)物視覺(jué)神經(jīng)系統(tǒng)的相似性研究(神經(jīng)活動(dòng)預(yù)測(cè)、識(shí)別行為匹配和功能相似性比較)。據(jù)大家所知,這種在人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)的比較分析方面從未被提出過(guò),這種分類(lèi)為設(shè)計(jì)在生物學(xué)上可信的視覺(jué)目標(biāo)識(shí)別模型提供了適當(dāng)?shù)闹笇?dǎo)方向和參考標(biāo)準(zhǔn)。
(3)實(shí)驗(yàn)設(shè)計(jì)總結(jié):視覺(jué)目標(biāo)識(shí)別實(shí)驗(yàn)設(shè)計(jì)一個(gè)基礎(chǔ)而關(guān)鍵的任務(wù)。本文從視覺(jué)數(shù)據(jù)集、腦視覺(jué)信號(hào)獲取、數(shù)據(jù)分析三個(gè)方面回顧了實(shí)驗(yàn)條件及方法,對(duì)視覺(jué)神經(jīng)活動(dòng)和識(shí)別行為表現(xiàn)的實(shí)驗(yàn)設(shè)計(jì)進(jìn)行了總結(jié)。
本文首先對(duì)近年來(lái)提出的幾類(lèi)基于腦啟發(fā)的視覺(jué)物體識(shí)別模型進(jìn)行詳細(xì)介紹,并根據(jù)模型的發(fā)展階段和模型構(gòu)建方式進(jìn)行分類(lèi);接著介紹基于DNN的目標(biāo)識(shí)別模型于視覺(jué)系統(tǒng)的相似性分析;然后介紹腦啟發(fā)模型的實(shí)驗(yàn)條件和評(píng)價(jià)方法;最后是本文的總結(jié)。
基于腦啟發(fā)的目標(biāo)識(shí)別模型的主要?jiǎng)訖C(jī)是通過(guò)模擬視覺(jué)功能機(jī)理、神經(jīng)活動(dòng)預(yù)測(cè)的方式提取、抽離大腦中視覺(jué)目標(biāo)表征和識(shí)別過(guò)程的生物網(wǎng)絡(luò)模型,進(jìn)而構(gòu)建生物學(xué)上可信的類(lèi)腦目標(biāo)識(shí)別模型。它們一般通過(guò)心理物理學(xué)實(shí)驗(yàn)或腦信號(hào)采集實(shí)驗(yàn)發(fā)現(xiàn)大腦目標(biāo)識(shí)別的一般規(guī)律,進(jìn)而采用人工神經(jīng)網(wǎng)絡(luò)模型映射到人類(lèi)視覺(jué)皮層,揭示出大腦目標(biāo)識(shí)別的大規(guī)模動(dòng)力學(xué)。隨著認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)不斷發(fā)展,腦電圖(EEG)、fMRI以及腦磁圖(MEG)等腦信號(hào)獲取技術(shù)先后問(wèn)世,使得采用科學(xué)手段對(duì)大腦活動(dòng)進(jìn)行解讀成為可能。研究人員通過(guò)采集不同時(shí)空尺度的大腦活動(dòng)信號(hào),利用數(shù)學(xué)模型建立這些信號(hào)與大腦視覺(jué)感知與認(rèn)知狀態(tài)間的映射關(guān)系,實(shí)現(xiàn)對(duì)人類(lèi)的視覺(jué)認(rèn)知進(jìn)行辨識(shí)或重構(gòu)的目的,將大腦中的想法轉(zhuǎn)化成自動(dòng)化設(shè)備的驅(qū)動(dòng)力。
然而,目前利用先進(jìn)的成像設(shè)備已經(jīng)探索出大腦視覺(jué)系統(tǒng)的部分神經(jīng)機(jī)制和功能特性,如何將其映射到人類(lèi)可以修改和控制的計(jì)算機(jī)軟件或設(shè)備上,模擬腦視覺(jué)功能實(shí)現(xiàn)機(jī)器視覺(jué)智能。因此類(lèi)腦視覺(jué)成為計(jì)算機(jī)視覺(jué)領(lǐng)域最新的熱點(diǎn)方向。視覺(jué)信息編解碼技術(shù)為類(lèi)腦視覺(jué)領(lǐng)域發(fā)展提供了可能。如圖2所示,視覺(jué)信息編解碼以視覺(jué)認(rèn)知理論為基礎(chǔ),通過(guò)采集人眼接受不同圖像刺激時(shí)大腦響應(yīng)的時(shí)空數(shù)據(jù)建立并訓(xùn)練數(shù)學(xué)模型,可以預(yù)測(cè)人眼看到新的圖像時(shí)的大腦響應(yīng),或者根據(jù)采集到的大腦響應(yīng)進(jìn)而識(shí)別、重構(gòu)人眼所看到的圖像。通過(guò)視覺(jué)信息編解碼技術(shù),探究大腦的認(rèn)知機(jī)理,模擬人類(lèi)視覺(jué)處理信息的過(guò)程。

圖2 受腦啟發(fā)的目標(biāo)識(shí)別模型的邏輯關(guān)系Fig.2 Logical relationship of brain-inspired object recognition model
許多受生物啟發(fā)的目標(biāo)識(shí)別模型試圖通過(guò)視覺(jué)信息編解碼的方式復(fù)制靈長(zhǎng)類(lèi)動(dòng)物腹側(cè)流中觀(guān)察到的現(xiàn)象,并應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。盡管最近重新發(fā)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)已導(dǎo)致機(jī)器視覺(jué)分類(lèi)性能的顯著改進(jìn),但是在目標(biāo)識(shí)別、解釋視覺(jué)場(chǎng)景方面,機(jī)器仍然無(wú)法達(dá)到人類(lèi)表現(xiàn)出的出色性能。在這里,回顧神經(jīng)科學(xué)與計(jì)算機(jī)視覺(jué)之間在視覺(jué)目標(biāo)識(shí)別任務(wù)中的相互作用,并對(duì)未來(lái)的交叉授粉提出可能的途徑。
在梳理和查閱大量文獻(xiàn)的基礎(chǔ)上,根據(jù)發(fā)展階段,腦啟發(fā)模型的構(gòu)建大致分為宏觀(guān)模型和微觀(guān)模型,宏觀(guān)模型側(cè)重于整體結(jié)構(gòu)層面,微觀(guān)模型更側(cè)重于微觀(guān)神經(jīng)元的模擬。此外,根據(jù)第2章中所述的視覺(jué)物體識(shí)別的神經(jīng)機(jī)制,構(gòu)建大腦激發(fā)的物體識(shí)別模型主要需要以下特征:視覺(jué)神經(jīng)結(jié)構(gòu)、視覺(jué)特征、視覺(jué)皮層的神經(jīng)功能和信息表達(dá)。因此,將從模型架構(gòu)和模型發(fā)展兩個(gè)角度對(duì)腦源性物體識(shí)別模型進(jìn)行綜合分類(lèi)。從模型構(gòu)建所采用的基本框架來(lái)劃分模型架構(gòu),包括模擬視覺(jué)通路結(jié)構(gòu)和神經(jīng)功能兩個(gè)特點(diǎn),分為基于CNN、基于SNN和仿生突觸。從模型建立的方法來(lái)看,模型發(fā)展分類(lèi)包括兩個(gè)特征:模擬視覺(jué)特征和視覺(jué)皮層信息表達(dá)。該模型分為視覺(jué)神經(jīng)功能模擬模型和神經(jīng)激活預(yù)測(cè)模型。所提出的基于腦啟發(fā)的視覺(jué)目標(biāo)識(shí)別模型分類(lèi)如圖3所示。在本章中,不僅對(duì)最先進(jìn)的基于腦啟發(fā)的目標(biāo)識(shí)別方法進(jìn)行分類(lèi),還對(duì)這些方法的主要?jiǎng)訖C(jī)和貢獻(xiàn)進(jìn)行分類(lèi),為確定未來(lái)的方向提供了有益的視角。

圖3 腦啟發(fā)目標(biāo)識(shí)別的研究分類(lèi)Fig.3 Research classification of brain-inspired object recognition
1.1.1 宏觀(guān)層次模型
如圖4所示,表示腦啟發(fā)的視覺(jué)目標(biāo)是被模型的時(shí)間軸,其中的里程碑分別為Hubel和Wiesel[2-3]、HMAX模型[4-5]、AlexNet[6]、Look and Think Twice[7]、Spaminato[8]。生物視覺(jué)系統(tǒng)模型的研究起始于Hubel和Wiesel[2-3]獲得諾貝爾獎(jiǎng)的工作。

圖4 腦啟發(fā)的視覺(jué)目標(biāo)識(shí)別模型的時(shí)間軸Fig.4 Timeline of brain-inspired object recognition model
他們的關(guān)鍵發(fā)現(xiàn)是:視覺(jué)皮層中的神經(jīng)元形成一種包含局部濾波器的結(jié)構(gòu),濾波器以空間頻率和方向性的成欄排列與組織。他們指出形狀、顏色、運(yùn)動(dòng)和深度等視覺(jué)信息,是采取了既平行又分級(jí)的串行信息處理方式,從視網(wǎng)膜、外側(cè)膝狀體、V1區(qū)、V2區(qū)到V4區(qū)的視覺(jué)通路流動(dòng)。基于視覺(jué)感知機(jī)理的分層結(jié)構(gòu)模型則是根據(jù)上述生理結(jié)構(gòu)以及視覺(jué)感受野理論提出的。
Mel[9]在1997年結(jié)合視覺(jué)系統(tǒng)的并行處理機(jī)制提出了一種前饋等級(jí)結(jié)構(gòu)的SEEMORE模型。該模型兼顧了顏色、形狀、紋理等102種特征,提高了識(shí)別的準(zhǔn)確性和健壯性。但是每個(gè)特征通道對(duì)圖像單獨(dú)進(jìn)行一次運(yùn)算,導(dǎo)致運(yùn)算量過(guò)大。Rybak等人[10]首先于1998年提出了著名的Rybak模型,該模型主要用于場(chǎng)景感知和物體識(shí)別。其包括三個(gè)子系統(tǒng),低層子系統(tǒng)模擬視網(wǎng)膜中央凹的特性,將原始圖像進(jìn)行初級(jí)變換并檢測(cè)對(duì)應(yīng)的初級(jí)特征;中層子系統(tǒng)主要對(duì)初級(jí)特征集進(jìn)行變換以獲得具有一定不變性的二級(jí)特征;最后高級(jí)子系統(tǒng)通過(guò)分離的“what”結(jié)構(gòu)(感覺(jué)記憶)和“where”結(jié)構(gòu)(動(dòng)作記憶)實(shí)現(xiàn)目標(biāo)識(shí)別。模型存在的缺陷是它是基于符號(hào)表示的,并注重復(fù)雜的視覺(jué)搜索語(yǔ)義問(wèn)題。
HMAX模型最先由Riesenhuber和Poggio[4]在1999年提出。該模型總結(jié)了靈長(zhǎng)類(lèi)動(dòng)物的視覺(jué)皮層腹側(cè)視覺(jué)流的要點(diǎn),嘗試通過(guò)研究大腦區(qū)域的層次特征模擬視覺(jué)皮層的目標(biāo)識(shí)別過(guò)程。HMAX模型總結(jié)了靈長(zhǎng)類(lèi)動(dòng)物的視覺(jué)皮層的腹側(cè)視覺(jué)流的要點(diǎn),通過(guò)研究大腦區(qū)域的層次特征模擬視覺(jué)皮層的目標(biāo)識(shí)別過(guò)程。HMAX的體系結(jié)構(gòu)由四個(gè)層次的計(jì)算層組成,命名為S1、C1、S2和C2,其中簡(jiǎn)單的S單元與復(fù)雜的C單元[11]交替使用。S單元和C單元的設(shè)計(jì)靈感分別來(lái)自于簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞的特性,同時(shí),該模型的輸出特征不受比例、位置和方向的影響。自引入HMAX模型以來(lái),基于視覺(jué)顯著性的注意機(jī)制和HMAX模擬哺乳動(dòng)物視覺(jué)系統(tǒng)功能[12],被應(yīng)用到圖像目標(biāo)識(shí)別任務(wù)當(dāng)中。同時(shí),人們提出了許多方法來(lái)開(kāi)發(fā)和提高該模型的識(shí)別性能。其中一些方法專(zhuān)注于特定應(yīng)用[13]的模型增強(qiáng),還有一些方法提高了所有應(yīng)用模型的一般性能[14]:基于視覺(jué)注意計(jì)算模型的啟發(fā),提出了用于物體識(shí)別的patch選擇方法。還有一些研究工作基于主旨的場(chǎng)景識(shí)別、基于顯著性的注意和基于HMAX設(shè)計(jì)物體識(shí)別模型,并將模型移植到硬件加速系統(tǒng)中實(shí)現(xiàn)[12]。該模型基于對(duì)哺乳動(dòng)物大腦視覺(jué)皮層中視覺(jué)系統(tǒng)的理解。在這些前人的基礎(chǔ)上,一些科研人員以靈長(zhǎng)類(lèi)為實(shí)驗(yàn)?zāi)繕?biāo),研究其視覺(jué)皮層的工作過(guò)程,并提出了新的分層結(jié)構(gòu)模型[15-16]、感受野模型[17]和注意機(jī)制模型[18]。
早期模型主要停留在模擬腹側(cè)通路的初級(jí)視覺(jué)區(qū)域(V1和V2),忽略了更高層次視覺(jué)皮層神經(jīng)機(jī)制對(duì)目標(biāo)表達(dá)的重要作用[19]。2013年,Azzopardi等人[20-22]從形狀選擇性V4神經(jīng)元的功能中獲得靈感,設(shè)計(jì)了可訓(xùn)練的視覺(jué)模式識(shí)別濾波器COSFIRE,可以檢測(cè)線(xiàn)、頂點(diǎn)和更復(fù)雜的輪廓特征。通過(guò)選擇一組定向選擇性濾波器的給定信道,并通過(guò)加權(quán)幾何平均值組合響應(yīng)配置COSFIRE,使其對(duì)形成給定原型模式的線(xiàn)條和邊緣的空間安排具有選擇性。同時(shí),COSFIRE濾波器實(shí)現(xiàn)了旋轉(zhuǎn)、尺度和反射不變性。
1.1.2 神經(jīng)元微觀(guān)模型
以上的模型研究致力于視覺(jué)功能模擬的類(lèi)腦計(jì)算,但是與人類(lèi)視覺(jué)依舊存在較大的差距。2004年,Deco等人[23]提出了一種神經(jīng)元處理意義上的模型,該模型通過(guò)模擬來(lái)自后頂葉或顳葉皮層(IT)的自上而下的注意力反饋,以及V1和V2區(qū)中兩視覺(jué)通路的相互作用,實(shí)現(xiàn)基于空間和基于目標(biāo)的視覺(jué)搜索。研究發(fā)現(xiàn)了神經(jīng)元群體的交錯(cuò)連接構(gòu)成神經(jīng)網(wǎng)絡(luò),并受此啟發(fā)構(gòu)建了具有自適應(yīng)性單神經(jīng)元組成的逐級(jí)并行互聯(lián)的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[24]。進(jìn)一步發(fā)展的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量樣本的內(nèi)在規(guī)律和層次表征,其在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)使用的計(jì)算概念可以追溯到Hubel和Wiesel[3]的靈長(zhǎng)類(lèi)動(dòng)物視覺(jué)系統(tǒng)的早期模型,他們假設(shè)在初級(jí)視覺(jué)皮層中存在更復(fù)雜的功能反應(yīng)(“復(fù)雜”細(xì)胞)是由更簡(jiǎn)單的響應(yīng)(“簡(jiǎn)單”單元格)構(gòu)建。深度神經(jīng)網(wǎng)絡(luò)的層次化結(jié)構(gòu)借鑒了人腦中前饋視覺(jué)表征的層次化結(jié)構(gòu)。主要思想是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)各層的呈現(xiàn)形式,在進(jìn)行參數(shù)優(yōu)化時(shí)使用監(jiān)督或非監(jiān)督學(xué)習(xí)。層次卷積網(wǎng)絡(luò)的關(guān)鍵在于學(xué)習(xí)一系列具有層級(jí)體系的濾波器組,這些模型的深度導(dǎo)致了有相當(dāng)數(shù)量的參數(shù)需要學(xué)習(xí),以及需要解決復(fù)雜的非凸優(yōu)化問(wèn)題。然而,目前的神經(jīng)網(wǎng)絡(luò)(CNN、SNN)已逐漸遠(yuǎn)離生物學(xué)主題,這主要是由于過(guò)去幾年的工程突破已經(jīng)改變了計(jì)算機(jī)視覺(jué)領(lǐng)域。神經(jīng)網(wǎng)絡(luò)的進(jìn)一步工程設(shè)計(jì)已達(dá)到飽和點(diǎn)、層數(shù)、激活函數(shù)、參數(shù)調(diào)整、梯度函數(shù)等方面的新穎性帶來(lái)的準(zhǔn)確性提高幅度較小。盡管有證據(jù)表明在某些狹義的任務(wù)上目標(biāo)分類(lèi)已經(jīng)達(dá)到了人類(lèi)的水平[25],但對(duì)于一般應(yīng)用而言,生物視覺(jué)系統(tǒng)要遠(yuǎn)遠(yuǎn)優(yōu)于任何計(jì)算機(jī)。
盡管CNN已經(jīng)廣泛應(yīng)用于基于深度學(xué)習(xí)的目標(biāo)識(shí)別方法,近年來(lái),其他結(jié)構(gòu)也用于模擬大腦視覺(jué)目標(biāo)識(shí)別機(jī)制,提高識(shí)別準(zhǔn)確率和魯棒性。根據(jù)模型框架的不同,分為基于CNN、基于SNN和基于仿生突觸的模型。
CNN-based模型是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(lèi),卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺(jué)機(jī)制構(gòu)建,由S層(simple-layer)和C層(complex-layer)交替構(gòu)成網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)。但是其神經(jīng)元結(jié)構(gòu)進(jìn)行了簡(jiǎn)化和抽象,與視皮層的神經(jīng)元特性相去甚遠(yuǎn)。SNN-based模型精確地建立基于脈沖產(chǎn)生時(shí)間神經(jīng)網(wǎng)絡(luò)模型,這種新型的神經(jīng)網(wǎng)絡(luò)采用脈沖編碼,通過(guò)獲得脈沖發(fā)生的精確時(shí)間,獲得更多的信息和更強(qiáng)的計(jì)算能力。同時(shí),脈沖網(wǎng)絡(luò)的神經(jīng)元在膜電位達(dá)到閥值才被激活,相較于CNN-based模型,其模擬神經(jīng)元的特性更加接近實(shí)際。其中,每個(gè)類(lèi)別中按照開(kāi)發(fā)模型的不同方式進(jìn)行分類(lèi),包括神經(jīng)激活預(yù)測(cè)和神經(jīng)功能機(jī)理模擬兩個(gè)方面。
1.2.1 基于CNN的模型
最近的基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別模型都在試圖復(fù)制靈長(zhǎng)類(lèi)動(dòng)物視覺(jué)系統(tǒng)中觀(guān)察到的神經(jīng)機(jī)制和功能特性。這些模型中使用的計(jì)算概念可以追溯到Hubel和Wiesel[3]的靈長(zhǎng)類(lèi)動(dòng)物視覺(jué)系統(tǒng)的早期模型。生物視覺(jué)模型通過(guò)暗示更高的視覺(jué)區(qū)域概括了這種機(jī)制并形成了等級(jí)結(jié)構(gòu),從而擴(kuò)展了這一假設(shè)[4,9,26-29]。在過(guò)去的幾年中,已經(jīng)產(chǎn)生了一系列利用深度神經(jīng)網(wǎng)絡(luò)的視覺(jué)目標(biāo)識(shí)別系統(tǒng),并在計(jì)算機(jī)視覺(jué)基準(zhǔn)上取得了最先進(jìn)的性能[24,30-31]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)框架最近的成功很大程度上歸功于其大腦啟發(fā)性的體系結(jié)構(gòu),類(lèi)似于Hubel和Wiesel[3]描述的簡(jiǎn)單和復(fù)雜的細(xì)胞層次結(jié)構(gòu)。因此,大量的研究人員通過(guò)獲取靈長(zhǎng)類(lèi)動(dòng)物大腦信號(hào),指導(dǎo)和設(shè)計(jì)DNN模型模擬腦視覺(jué)神經(jīng)機(jī)制,實(shí)現(xiàn)類(lèi)腦目標(biāo)識(shí)別。因此,基于CNN的類(lèi)腦目標(biāo)識(shí)別模型根據(jù)以下方式分類(lèi)。
視覺(jué)神經(jīng)功能機(jī)理模擬:視覺(jué)系統(tǒng)的信息處理過(guò)程被認(rèn)為是復(fù)雜的行為目標(biāo)識(shí)別能力的基礎(chǔ),模型也必須在性能指標(biāo)上與其相匹配,在目標(biāo)識(shí)別任務(wù)上等于或超過(guò)視覺(jué)皮層的性能。在這里,為了實(shí)現(xiàn)模擬視覺(jué)信息處理和神經(jīng)機(jī)制并構(gòu)建類(lèi)腦目標(biāo)識(shí)別模型的目標(biāo),研究人員通過(guò)觀(guān)察和聯(lián)想信息處理的過(guò)程設(shè)計(jì)視覺(jué)認(rèn)知水平上的目標(biāo)識(shí)別模型,而不必同時(shí)處理其執(zhí)行在神經(jīng)活動(dòng)上可信的成分,如表1中的方法所示[32-39]。這一類(lèi)模型抽象、簡(jiǎn)化了部分視覺(jué)功能機(jī)理,即使是一種連接機(jī)制也可以用神經(jīng)網(wǎng)絡(luò)模型捕獲。

表1 模擬視覺(jué)系統(tǒng)功能機(jī)理的CNN類(lèi)腦目標(biāo)識(shí)別模型Table 1 CNN-based brain-inspired object recognition models based on functional mechanism simulation of visual system
(1)模擬視覺(jué)皮層目標(biāo)感知能力從而提供穩(wěn)定的目標(biāo)表征:結(jié)合初級(jí)視覺(jué)皮層自上而下的影響在輪廓整合和視覺(jué)顯著性過(guò)程中發(fā)揮的重要作用[40]。反饋連接機(jī)制也參與視覺(jué)目標(biāo)特征提取過(guò)程,Karimi-Rouzbahani等人[41]建立網(wǎng)絡(luò)模型整合這一研究成果。還有部分研究[42-43]在建立腦啟發(fā)的深度網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練視覺(jué)目標(biāo)識(shí)別的過(guò)程中,自發(fā)的產(chǎn)生了數(shù)字選擇神經(jīng)元,解釋了基于視覺(jué)系統(tǒng)固有機(jī)制的數(shù)字感的自發(fā)出現(xiàn)。
(2)模擬神經(jīng)反饋連接機(jī)制:反饋機(jī)制作為最先引入基于CNN模型進(jìn)行改進(jìn)的方法,模擬視覺(jué)皮層自上而下的影響,顯著提高了傳統(tǒng)的前饋架構(gòu)的識(shí)別性能。Cao等人[7]受到人類(lèi)視覺(jué)皮層中的反饋機(jī)制的啟發(fā),最先提出一種反饋卷積神經(jīng)網(wǎng)絡(luò)體系架構(gòu),保持前饋階段不變,通過(guò)共同推理類(lèi)節(jié)點(diǎn)的輸出以及在反饋循環(huán)期間激活隱藏層神經(jīng)元實(shí)現(xiàn)分類(lèi)。后續(xù)的研究者[32-33,36,41]普遍都采取了自上而下的反饋機(jī)制增強(qiáng)標(biāo)準(zhǔn)的前饋深度模型,即便還添加了其他的連接機(jī)制。
(3)模擬神經(jīng)元橫向連接機(jī)制:視覺(jué)皮層中豐富的循環(huán)(橫向)連接在環(huán)境調(diào)節(jié)中起著重要作用[44]。鑒于CNN模型是典型的前饋結(jié)構(gòu),Liang等人[45]根據(jù)視覺(jué)系統(tǒng)中具有豐富的循環(huán)連接,提出一種循環(huán)CNN(RCNN)框架(神經(jīng)科學(xué)領(lǐng)域常用橫向連接),通過(guò)將循環(huán)連接合并到每個(gè)卷積層中進(jìn)行目標(biāo)識(shí)別。這一特性增強(qiáng)了模型整合上下文信息的能力,這對(duì)目標(biāo)識(shí)別非常重要。之后很多研究人員考慮到了缺乏橫向連接的CNN結(jié)構(gòu)與生物目標(biāo)處理嚴(yán)格地區(qū)分開(kāi)來(lái),在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中引入遞歸連接結(jié)構(gòu)修改經(jīng)典的CNN結(jié)構(gòu)。Zweig等人[32]從視覺(jué)皮層的填充過(guò)程受到啟發(fā),將神經(jīng)元之間的橫向依賴(lài)性和多層監(jiān)督引入網(wǎng)絡(luò)學(xué)習(xí)過(guò)程,顯著提高性能。其后有更多的研究者通過(guò)引入橫向抑制[33]、橫向連接[36]的方式修改經(jīng)典的CNN架構(gòu),在網(wǎng)絡(luò)中引入自底向上和自頂向下計(jì)算的遞歸循環(huán),更新其內(nèi)部表示,減少每層自底向上輸入和自頂向下預(yù)測(cè)的差異。Park等人[39]發(fā)現(xiàn)并模擬了視覺(jué)皮層中的遠(yuǎn)程水平連接(LRCs)機(jī)制并添加到淺層前饋網(wǎng)絡(luò)中,實(shí)現(xiàn)在淺層層次深度的物理約束下的目標(biāo)識(shí)別,進(jìn)一步挖掘了橫向連接機(jī)制的在目標(biāo)識(shí)別任務(wù)中的性能。
(4)注意力控制:物體檢測(cè)是由注意力控制機(jī)制介導(dǎo)的,認(rèn)為物體檢測(cè)是由注意力控制機(jī)制介導(dǎo)的,計(jì)算機(jī)視覺(jué)和生物視覺(jué)在本質(zhì)上具有相似性。利用這種共性,Adeli等人[34]將基于CNN的網(wǎng)絡(luò)結(jié)構(gòu)與靈長(zhǎng)類(lèi)注意力控制系統(tǒng)的注意偏見(jiàn)競(jìng)爭(zhēng)(BC)理論融合,使用注意力啟發(fā)的深度網(wǎng)絡(luò)(DNN)預(yù)測(cè)人類(lèi)的目標(biāo)定向行為。還有研究使用類(lèi)別一致特征(CCFs)表示目標(biāo)類(lèi)別設(shè)計(jì)的基于靈長(zhǎng)類(lèi)腹側(cè)流的卷積神經(jīng)網(wǎng)絡(luò)(VsNet)可以通過(guò)提取和使用類(lèi)別一致的特征預(yù)測(cè)目標(biāo)導(dǎo)向的注意力控制[35]。
神經(jīng)激活預(yù)測(cè):另一種可能的解決方案是采用逆向工程的方式,即通過(guò)神經(jīng)生理學(xué)或神經(jīng)成像技術(shù)記錄大腦神經(jīng)激活數(shù)據(jù),進(jìn)而識(shí)別大腦用于視覺(jué)分類(lèi)的特征空間。與此相關(guān)的是,較高的視覺(jué)神經(jīng)通路也被認(rèn)為是復(fù)雜的行為目標(biāo)識(shí)別能力的基礎(chǔ)[46-47]。很多研究人員通過(guò)建模的方式在性能指標(biāo)上匹配視覺(jué)皮層,一個(gè)在視覺(jué)皮層中具有完美神經(jīng)預(yù)測(cè)能力的模型必然會(huì)表現(xiàn)出高性能。因此,結(jié)合fMRI和EEG等技術(shù),大量研究工作探索了多種生物學(xué)上可信的層次神經(jīng)網(wǎng)絡(luò)模型,根據(jù)測(cè)量的視覺(jué)神經(jīng)反應(yīng)數(shù)據(jù)對(duì)它們進(jìn)行評(píng)估。如表2的最新研究結(jié)果表明[8,48-55],在一個(gè)具有挑戰(zhàn)性的視覺(jué)目標(biāo)識(shí)別任務(wù)上,基于CNN架構(gòu)的目標(biāo)識(shí)別模型的表現(xiàn)與其預(yù)測(cè)視覺(jué)神經(jīng)單元反應(yīng)的能力之間有很強(qiáng)的相關(guān)性。盡管這些模型沒(méi)有明確地限制在匹配神經(jīng)數(shù)據(jù)上,但輸出層能夠高度預(yù)測(cè)視覺(jué)皮層的神經(jīng)反應(yīng)。下面從神經(jīng)激活信號(hào)獲取途徑的角度對(duì)類(lèi)腦目標(biāo)識(shí)別模型進(jìn)行分類(lèi)。

表2 基于神經(jīng)激活預(yù)測(cè)的CNN類(lèi)腦目標(biāo)識(shí)別模型Table 2 CNN-based brain-inspired object recognition models based on visual neural activation prediction
(1)基于BOLD fMRI技術(shù):功能磁共振成像(functional MRI)是一種非常有效的研究腦功能的非介入技術(shù),已經(jīng)成為最廣泛使用的腦功能研究手段。通過(guò)顯示大腦各個(gè)區(qū)域內(nèi)靜脈毛細(xì)血管中血液氧合狀態(tài)發(fā)現(xiàn)腦區(qū)激活部位,實(shí)現(xiàn)大腦活動(dòng)的功能定位。同時(shí),由于CNN模型的表現(xiàn)與其預(yù)測(cè)視覺(jué)神經(jīng)單元反應(yīng)的能力之間的相關(guān)性,因此,大量的科研團(tuán)隊(duì)借助fMRI技術(shù)生成的大腦活動(dòng)信號(hào)映射到基于CNN架構(gòu)的預(yù)測(cè)編碼模型,使用圖像識(shí)別驅(qū)動(dòng)的人工網(wǎng)絡(luò)模型模擬視覺(jué)皮層的目標(biāo)識(shí)別性能。Eickenberg等人[49]利用卷積網(wǎng)絡(luò)的層次組織識(shí)別目標(biāo),通過(guò)構(gòu)建基于不同層次和BOLD fMRI激活的預(yù)測(cè)模型模擬人類(lèi)大腦活動(dòng)。為了解決大腦分布式視覺(jué)表示如何實(shí)現(xiàn)目標(biāo)分類(lèi)的問(wèn)題,Wen等人[50]建立了基于深度殘差網(wǎng)絡(luò)的預(yù)測(cè)編碼模型,其以高通量和準(zhǔn)確性將皮層映射到的視覺(jué)目標(biāo)涵蓋了腹側(cè)和背側(cè)通路,反映了目標(biāo)特征的多個(gè)級(jí)別,同時(shí)還保留了類(lèi)別之間的語(yǔ)義關(guān)系,以預(yù)測(cè)對(duì)自然動(dòng)作的皮層反應(yīng)。針對(duì)較少的研究目標(biāo)得到的實(shí)驗(yàn)結(jié)果在整個(gè)人群中推廣的困難,還提出一種針對(duì)受試者和人群的高維和層次視覺(jué)特征的皮層表征預(yù)測(cè)DNN模型,使用圖像識(shí)別驅(qū)動(dòng)的深度殘差神經(jīng)網(wǎng)絡(luò)模擬視覺(jué)皮層處理[51]。Seeliger等人[52]基于BOLD fMRI的大腦活動(dòng)信號(hào)預(yù)測(cè)生成模型的潛在空間,探索了使用深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN)[56]重建任意自然圖像的能力。以上的模型開(kāi)發(fā)雖然解決的問(wèn)題略有差異,但是都具有共同的特征:基于fMRI視覺(jué)功能數(shù)據(jù)的CNN模型關(guān)注于視覺(jué)皮層表征預(yù)測(cè),通過(guò)被試在自然圖像刺激下采集到的fMRI視覺(jué)功能數(shù)據(jù),利用fMRI數(shù)據(jù)以及刺激圖像構(gòu)造、優(yōu)化和訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,提高基于CNN模型的目標(biāo)識(shí)別準(zhǔn)確性。
(2)基于腦電信號(hào)采集技術(shù):腦電圖是腦神經(jīng)細(xì)胞群的電生理活動(dòng)在大腦皮層或頭皮表面的總體反映。視覺(jué)皮層的腦電波中包含了大量視覺(jué)信息處理過(guò)程的表征,通過(guò)對(duì)腦電圖信號(hào)進(jìn)行分類(lèi)探索直接的人類(lèi)參與形式,學(xué)習(xí)一種視覺(jué)類(lèi)別的大腦信號(hào)鑒別流形,用于自動(dòng)視覺(jué)分類(lèi)。通過(guò)對(duì)腦電波的采集和處理,可以為類(lèi)腦目標(biāo)識(shí)別模型的構(gòu)建提供依據(jù)。最新的一些研究[48]結(jié)合高通量計(jì)算和電生理技術(shù),提出了一種可以生成定量的下顳葉(IT)皮層(最高腹側(cè)皮層區(qū)域)層次神經(jīng)網(wǎng)絡(luò)模型,該模型在視覺(jué)目標(biāo)識(shí)別任務(wù)上的性能與其預(yù)測(cè)單個(gè)IT神經(jīng)單元響應(yīng)數(shù)據(jù)的能力之間存在很強(qiáng)的相關(guān)性。Federer等人[53]使用多電極陣列采集神經(jīng)活動(dòng)的統(tǒng)計(jì)屬性作為訓(xùn)練DNNs的指導(dǎo)信號(hào),模擬大腦對(duì)物體識(shí)別任務(wù)的表征,觀(guān)察到所有的訓(xùn)練網(wǎng)絡(luò)都得到了性能提升,包括較小的(CORNet-Z)架構(gòu)與較大的(VGG-16)架構(gòu),證明了這種方法的潛在效用。Spampinato等人[8]開(kāi)發(fā)了由人腦信號(hào)驅(qū)動(dòng)的視覺(jué)目標(biāo)分類(lèi)器,利用由視覺(jué)目標(biāo)刺激誘發(fā)的腦電圖數(shù)據(jù)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)進(jìn)行視覺(jué)類(lèi)別的判別性大腦活動(dòng)流形,并基于此,發(fā)布了用于視覺(jué)目標(biāo)分析的最大的EEG數(shù)據(jù)集。借助腦電信號(hào)技術(shù)具有較好的時(shí)間分辨率的特性,利用由視覺(jué)目標(biāo)誘發(fā)的腦電圖數(shù)據(jù)“指導(dǎo)”深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建與學(xué)習(xí),開(kāi)發(fā)由人腦信號(hào)驅(qū)動(dòng)的視覺(jué)目標(biāo)分類(lèi)器,一方面可能為人類(lèi)視覺(jué)感知系統(tǒng)提供有意義的見(jiàn)解;另一方面,這一新的生物啟發(fā)方式對(duì)計(jì)算機(jī)視覺(jué)方法的影響是巨大的,可能從根本上改變目標(biāo)分類(lèi)器的發(fā)展方式。
綜上所述,雖然現(xiàn)有的基于CNN架構(gòu)的類(lèi)腦目標(biāo)識(shí)別模型在視覺(jué)功能模擬和神經(jīng)激活預(yù)測(cè)方面都具有優(yōu)異的表現(xiàn),但仍然有一些主要的局限性:一個(gè)受監(jiān)督的框架必須使用大型手動(dòng)標(biāo)記的訓(xùn)練集對(duì)其訓(xùn)練。同時(shí),缺乏一個(gè)正式的框架引入更高層次的抽象——用于對(duì)不同目標(biāo)和概念一起出現(xiàn)的場(chǎng)景進(jìn)行上下文理解,這是發(fā)展一個(gè)強(qiáng)健的視覺(jué)框架所必需的。另一方面,生物視覺(jué)系統(tǒng)基本上是無(wú)監(jiān)督的學(xué)習(xí)系統(tǒng),可以基于熟悉程度和在不同環(huán)境中反復(fù)的視覺(jué)刺激學(xué)習(xí)高度靈活的目標(biāo)模型。其次可以在各種規(guī)模下檢測(cè)學(xué)習(xí)到的目標(biāo),并且保持很高的分辨率和計(jì)算效率。因此,探索生物系統(tǒng)和深度卷積神經(jīng)網(wǎng)絡(luò)之間的潛在協(xié)同作用仍然是一個(gè)令人關(guān)注的話(huà)題。
1.2.2 基于SNN的模型
通過(guò)生物可解釋的方式建立人工神經(jīng)系統(tǒng),科學(xué)家希望可以通過(guò)神經(jīng)科學(xué)和行為實(shí)驗(yàn)達(dá)到預(yù)期目的。大腦中的學(xué)習(xí)可以理解為突觸連接強(qiáng)度隨時(shí)間的變化過(guò)程,這種能力稱(chēng)為突觸可塑性。為了設(shè)計(jì)更具有生物學(xué)合理性的計(jì)算模型,神經(jīng)可塑性在自組織中的作用及其對(duì)神經(jīng)網(wǎng)絡(luò)完成分類(lèi)任務(wù)學(xué)習(xí)性能的影響越來(lái)越受到關(guān)注。SNN作為第三代神經(jīng)網(wǎng)絡(luò),正是這種基于脈沖時(shí)間層次的學(xué)習(xí)方法研究,其模擬神經(jīng)元更加實(shí)際,同時(shí)考慮了時(shí)間信息的影響,這對(duì)于通過(guò)理論模型驗(yàn)證生物神經(jīng)系統(tǒng)的信息處理和學(xué)習(xí)機(jī)制是必須的。
與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相似,脈沖神經(jīng)網(wǎng)絡(luò)同樣分為功能機(jī)理模擬和神經(jīng)激活預(yù)測(cè),如表3所示[57-62]。在功能機(jī)理模擬方面,引入突觸神經(jīng)機(jī)制模擬神經(jīng)元的學(xué)習(xí)規(guī)則。由于視覺(jué)皮層通過(guò)不同的神經(jīng)連接結(jié)構(gòu)和接受野實(shí)現(xiàn)快速的物體識(shí)別,這種不均勻性是通過(guò)神經(jīng)可塑性過(guò)程的自組織進(jìn)化而來(lái)的。并基于此,Liu等人[57]提出了一種層次自組織尖刺神經(jīng)網(wǎng)絡(luò)(SOSNN),該網(wǎng)絡(luò)模擬人體腹側(cè)通路的結(jié)構(gòu)和功能組織,應(yīng)用了突觸可塑性、穩(wěn)態(tài)可塑性和側(cè)抑制等多種神經(jīng)機(jī)制。同樣,Liang等人[63]動(dòng)態(tài)調(diào)節(jié)脈沖的時(shí)間依賴(lài)可塑性學(xué)習(xí)規(guī)則構(gòu)成模擬區(qū)域的神經(jīng)元之間的興奮性和抑制性連接。同時(shí),受腦皮層-紋狀體環(huán)機(jī)制的啟發(fā),構(gòu)建了時(shí)序信息編碼的依賴(lài)時(shí)序模塊。Kheradpisheh等人[59]提出一種生物啟發(fā)的異步前饋SNN,較高層的神經(jīng)元具有脈沖時(shí)間依賴(lài)可塑性,這些神經(jīng)元逐漸成為選擇中等復(fù)雜性的視覺(jué)特征適合目標(biāo)分類(lèi)。Liu等人[61]提出了一種分層尖峰神經(jīng)網(wǎng)絡(luò)(HSNN)模擬人腦腹側(cè)通路的視覺(jué)信息處理,同時(shí)該模型引入了側(cè)抑制、內(nèi)穩(wěn)態(tài)(適應(yīng)閥值)和不應(yīng)期等生物機(jī)制,證明了生物啟發(fā)的網(wǎng)絡(luò)結(jié)構(gòu)和生物機(jī)制的結(jié)合可以顯著提高模型的性能。Song等人[62]整合高級(jí)突觸學(xué)習(xí),提出基于腦啟發(fā)的無(wú)監(jiān)督匹配追蹤編碼方法,設(shè)計(jì)了一個(gè)用于圖像識(shí)別的統(tǒng)一SNN框架。該方法使用較少的神經(jīng)元和峰值,實(shí)現(xiàn)了當(dāng)時(shí)最佳的基于時(shí)間的精度性能。此外,還有一些研究基于反饋機(jī)制的學(xué)習(xí)規(guī)則開(kāi)發(fā)的小樣本學(xué)習(xí)SNN[15]。在神經(jīng)激活預(yù)測(cè)方面,Doborjeh等人[64]提出一種基于脈沖神經(jīng)網(wǎng)絡(luò)(SNN)模型學(xué)習(xí)腦電/ERP數(shù)據(jù)的深度時(shí)空模式。該模型表現(xiàn)出熟悉的刺激具有更強(qiáng)的連通性和更廣泛的動(dòng)態(tài)時(shí)空模式,支持了SNN模型可以作為探索腦感知機(jī)制的新工具。還有研究[58]通過(guò)修改的脈沖神經(jīng)網(wǎng)絡(luò)證明了該時(shí)間模型更好地反映了人類(lèi)在物體識(shí)別任務(wù)中的準(zhǔn)確性,并預(yù)測(cè)了人類(lèi)在物體識(shí)別上的反應(yīng)時(shí)間。

表3 基于SNN的類(lèi)腦目標(biāo)識(shí)別模型Table 3 SNN-based brain-inspired models for object recognition
然而,當(dāng)前深度學(xué)習(xí)的成功浪潮并不包括任何峰值的概念,而是通過(guò)網(wǎng)絡(luò)以離散時(shí)間步長(zhǎng)傳播標(biāo)量值的“激活”。即使在神經(jīng)科學(xué)領(lǐng)域,雖然沒(méi)有人懷疑神經(jīng)元中存在許多時(shí)間依賴(lài)的現(xiàn)象(如尖峰時(shí)間依賴(lài)的可塑性[65]),但關(guān)于了解詳細(xì)的脈沖神經(jīng)網(wǎng)絡(luò)對(duì)理解感覺(jué)編碼是否至關(guān)重要,仍存在大量爭(zhēng)論[66]。而理論神經(jīng)科學(xué)的一個(gè)日益增長(zhǎng)的分支領(lǐng)域正在使用生物神經(jīng)動(dòng)力系統(tǒng)和統(tǒng)計(jì)力學(xué)的工具描述和理解相互關(guān)聯(lián)的峰值神經(jīng)元群體的行為[67]。雖然可以肯定地說(shuō),脈沖神經(jīng)網(wǎng)絡(luò)迄今為止從未作為機(jī)器視覺(jué)領(lǐng)域的佼佼者參與進(jìn)來(lái),但隨著理論和可用計(jì)算能力的發(fā)展,這種情況可能很容易改變。
1.2.3 仿生突觸
通過(guò)引入能夠識(shí)別視覺(jué)目標(biāo),并以一種認(rèn)知的、類(lèi)似人類(lèi)的方式與外部世界互動(dòng)的機(jī)器,大腦啟發(fā)的視覺(jué)計(jì)算可以徹底改變信息技術(shù)。要實(shí)現(xiàn)這一目標(biāo),除了需要對(duì)大腦的神經(jīng)計(jì)算模式有一個(gè)詳細(xì)的了解,其次需要確定一種可擴(kuò)展的微電子技術(shù),能夠復(fù)制一些人類(lèi)大腦固有的功能,如高突觸連通性(104)和特殊的依賴(lài)時(shí)間的突觸可塑性。在詳細(xì)研究大腦視覺(jué)系統(tǒng)的功能特性的同時(shí),一種可編程邏輯器件的構(gòu)造思路——基于憶阻器交叉陣列的突觸設(shè)計(jì)。這種計(jì)算裝置就是試圖通過(guò)盡可能微型的元器件模擬神經(jīng)元,進(jìn)而實(shí)現(xiàn)與大腦神經(jīng)元相似的連接模式進(jìn)行類(lèi)腦計(jì)算。這種能夠復(fù)制大腦神經(jīng)突觸的固有功能的類(lèi)腦計(jì)算機(jī),結(jié)合類(lèi)腦視覺(jué)目標(biāo)識(shí)別模型的開(kāi)發(fā),為未來(lái)達(dá)到甚至超越人類(lèi)視覺(jué)系統(tǒng)性能的硬件實(shí)現(xiàn)帶來(lái)可能。目前已經(jīng)有研究團(tuán)隊(duì)在Pedretti等人[68]通過(guò)一個(gè)具有記憶性突觸的無(wú)監(jiān)督學(xué)習(xí)和跟蹤神經(jīng)網(wǎng)絡(luò)復(fù)制部分人類(lèi)大腦固有的功能,其中突觸權(quán)重通過(guò)大腦激發(fā)的放電時(shí)序依賴(lài)可塑性(spike timing dependent,STDP)更新。在一個(gè)混合單晶體管/單電阻(1T1R)記憶性突觸內(nèi),突觸電導(dǎo)通過(guò)突觸前和突觸后的局部時(shí)域疊加而更新,突觸的高低阻狀態(tài)可以滿(mǎn)足學(xué)習(xí)和識(shí)別模型。基于成熟的短期突觸可塑性(STP)模型,Berberian等人[69]開(kāi)發(fā)了一個(gè)由尖突神經(jīng)元組成的微電路基序,誘發(fā)大量單位表現(xiàn)出初級(jí)視覺(jué)皮層(V1)所觀(guān)察到的典型皮層方向選擇特性。然后將該模型的視覺(jué)反應(yīng)與V1多電極記錄進(jìn)行比較,驗(yàn)證了STP可以作為解釋來(lái)自V1的方向選擇性的補(bǔ)充機(jī)制。
以上,主要考慮了三種技術(shù)架構(gòu)的類(lèi)腦目標(biāo)識(shí)別模型,可以幫助人們從大腦活動(dòng)數(shù)據(jù)中提取、模仿視覺(jué)目標(biāo)識(shí)別能力。可以分析總結(jié)出,基于CNN的模型和基于SNN的模型共同點(diǎn)在于模擬視覺(jué)皮層的層次結(jié)構(gòu)特性,同時(shí)抽象和模擬了神經(jīng)元的功能特性,在視覺(jué)特性和識(shí)別能力上都具有一定的生物可信度。差別在于SNN-based模型更加細(xì)化神經(jīng)元模型,采用膜電位的累積效果激活神經(jīng)元。CNN-based模型具有易訓(xùn)練和結(jié)構(gòu)靈活多變的特性,導(dǎo)致CNN的發(fā)展已經(jīng)逐漸脫離生物學(xué)的主題,其改進(jìn)模型更契合于實(shí)際工程應(yīng)用。此外,文獻(xiàn)中介紹的目標(biāo)識(shí)別模型可以駐留在不同的描述層次,在認(rèn)知水平和神經(jīng)激活水平之間進(jìn)行權(quán)衡。僅捕捉神經(jīng)元成分和動(dòng)態(tài)的模型往往無(wú)法解釋視覺(jué)認(rèn)知功能。相反,只捕捉視覺(jué)認(rèn)知行為的模型很難與大腦聯(lián)系起來(lái)。為了將思維和大腦聯(lián)系起來(lái),模型必須試圖捕捉行為和神經(jīng)元?jiǎng)恿W(xué)方面內(nèi)容。
人類(lèi)的視覺(jué)物體識(shí)別是由復(fù)雜的多階段視覺(jué)信息處理過(guò)程實(shí)現(xiàn)的,這些視覺(jué)信息是在一個(gè)分布的皮層區(qū)域網(wǎng)絡(luò)中快速出現(xiàn)的。因此,理解皮層中的視覺(jué)目標(biāo)識(shí)別需要一個(gè)預(yù)測(cè)和定量的模型,該模型能夠捕獲潛在時(shí)空動(dòng)力學(xué)的復(fù)雜性。最主要的挑戰(zhàn)是執(zhí)行目標(biāo)識(shí)別任務(wù)的計(jì)算模型與目標(biāo)識(shí)別過(guò)程的大腦神經(jīng)激活或行為表現(xiàn)數(shù)據(jù)之間建立堅(jiān)實(shí)的橋梁。這樣一個(gè)模型與視覺(jué)皮層的相似性判斷關(guān)鍵在于中、高級(jí)視覺(jué)區(qū)域神經(jīng)調(diào)諧特性的高度非線(xiàn)性和稀疏性質(zhì)[70-72],這很難在實(shí)驗(yàn)中捕捉。
一種新興的文獻(xiàn)開(kāi)始用大腦活動(dòng)數(shù)據(jù)測(cè)試目標(biāo)識(shí)別模型,特別是深度神經(jīng)網(wǎng)絡(luò)模型。最近的一些研究多項(xiàng)功能性磁共振成像(fMRI)研究表明,卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)信息處理方面預(yù)測(cè)了靈長(zhǎng)類(lèi)動(dòng)物腹側(cè)視覺(jué)流中圖像信息的表征[3,73]。然而,深度學(xué)習(xí)方法是否達(dá)到或者超過(guò)了大腦視覺(jué)性能,目前并沒(méi)有統(tǒng)一的結(jié)論。本文這一部分描述了從實(shí)驗(yàn)數(shù)據(jù)向計(jì)算模型建立聯(lián)系的自下而上的發(fā)展,將重點(diǎn)關(guān)注最近在目標(biāo)識(shí)別任務(wù)上成功的模型,這些模型分別從神經(jīng)激活、功能機(jī)理和行為表現(xiàn)三個(gè)角度解釋了視覺(jué)目標(biāo)認(rèn)知功能。為了保證視覺(jué)皮層預(yù)測(cè)的準(zhǔn)確性,在實(shí)驗(yàn)過(guò)程中被試的刺激集與模型的測(cè)試集均保持一致(如果模型需要訓(xùn)練的話(huà))。值得說(shuō)明的一點(diǎn)是,與1.2.1小節(jié)中基于CNN的目標(biāo)識(shí)別模型的本質(zhì)區(qū)別在于,本節(jié)所總結(jié)的研究成果是將在目標(biāo)識(shí)別任務(wù)中表現(xiàn)優(yōu)異的已有模型或架構(gòu)(例如基于CNN的模型、基于HMAX的模型)與腦視覺(jué)系統(tǒng)的神經(jīng)活動(dòng)或行為表現(xiàn)進(jìn)行對(duì)比分析,目的是探索人工網(wǎng)絡(luò)與人類(lèi)視覺(jué)皮層的神經(jīng)激活表征相似性,驗(yàn)證與人類(lèi)視覺(jué)系統(tǒng)的目標(biāo)識(shí)別性能一致性,而不是構(gòu)造了一個(gè)全新的模型。
從詳細(xì)的腦信號(hào)測(cè)量到腦視覺(jué)信息處理的理解,一直是突出的。人們通過(guò)測(cè)量和建模視覺(jué)神經(jīng)動(dòng)力學(xué)實(shí)現(xiàn)對(duì)大腦視覺(jué)目標(biāo)識(shí)別的理解,從細(xì)胞層次的信息描述到更大規(guī)模的識(shí)別行為表現(xiàn)。為了與人工神經(jīng)網(wǎng)絡(luò)相比較,與類(lèi)腦目標(biāo)識(shí)別建模相同,通過(guò)神經(jīng)激活信號(hào)采集的方式表達(dá)人類(lèi)大腦中物體表征過(guò)程與DNN的處理階段之間的有序關(guān)系。
CNN是目前計(jì)算機(jī)視覺(jué)目標(biāo)識(shí)別基準(zhǔn)上表現(xiàn)最好的模型,并在目標(biāo)分類(lèi)方面達(dá)到人類(lèi)的表現(xiàn)水平。
由表4所示[48,74-82],最近的神經(jīng)影像學(xué)研究比較了CNN輸出和視覺(jué)腹側(cè)通路的相似性分析。有研究[51]發(fā)現(xiàn)早期視覺(jué)皮層(V1)和CNN的早期層編碼形狀信息,顳前腹側(cè)皮層和CNN的最后一層對(duì)類(lèi)別信息進(jìn)行編碼,人類(lèi)視覺(jué)的腹通路與多個(gè)深度網(wǎng)絡(luò)均發(fā)現(xiàn)了形狀和類(lèi)別之間的相互作用。同時(shí),具有中央選擇性和圖像背景選擇性的模型單元分別對(duì)具有中央偏向和外周偏向的大腦視覺(jué)區(qū)域表現(xiàn)出強(qiáng)烈的表征相似性[75],這些層次對(duì)應(yīng)關(guān)系說(shuō)明目標(biāo)分類(lèi)的DCNN模型是生物神經(jīng)網(wǎng)絡(luò)產(chǎn)生感知表征的良好近似。Agrawal等人[79]探索了基于Fisher向量(FV)和CNN的模型都能準(zhǔn)確地預(yù)測(cè)高級(jí)別視覺(jué)區(qū)域的大腦活動(dòng),直接從像素出發(fā),而不需要任何語(yǔ)義標(biāo)簽或圖像的手動(dòng)注釋。還有一些研究是將基于CNN的編碼模型與腦磁圖(MEG)結(jié)合的方式探索CNN模型與大腦信號(hào)之間的對(duì)應(yīng)關(guān)系,同樣發(fā)現(xiàn)了層次網(wǎng)絡(luò)模型中的刺激表征與視覺(jué)腹側(cè)流不同部位的空間對(duì)應(yīng)關(guān)系[76],以及模型中處理過(guò)程的各個(gè)階段與目標(biāo)在人腦中呈現(xiàn)的時(shí)間進(jìn)程之間的時(shí)間有序關(guān)系[77]。

表4 測(cè)量CNN模型對(duì)視覺(jué)神經(jīng)激活的預(yù)測(cè)精度研究Table 4 Research on measuring prediction accuracy of CNN-based models for neural activation
此外,部分研究工作利用多級(jí)陣列電生理系統(tǒng),將模型表示性能與同一任務(wù)和視覺(jué)圖像上的神經(jīng)反應(yīng)進(jìn)行比較,重點(diǎn)關(guān)注了最新的CNN模型在視覺(jué)目標(biāo)識(shí)別任務(wù)上的性能與其預(yù)測(cè)IT皮層響應(yīng)數(shù)據(jù)的能力之間的相關(guān)性[48,78,82]。有研究[78]觀(guān)察到性能相關(guān)性,并給出了生物學(xué)科新的實(shí)際IT神經(jīng)響應(yīng)模型。而前饋深度CNN激活對(duì)后期IT響應(yīng)模式的預(yù)測(cè),論證了循環(huán)回路對(duì)快速物體識(shí)別的重要性[82]。Dong等人[80]分析了圖像刺激對(duì)AIT神經(jīng)元的響應(yīng)統(tǒng)計(jì)和DNN神經(jīng)元在單神經(jīng)元選擇性和種群稀疏性上的響應(yīng)統(tǒng)計(jì)量存在的差異。特別的是,有研究[81]使用DCNN研究沿腹側(cè)視覺(jué)通路的復(fù)雜特征轉(zhuǎn)換與頻域信號(hào)的相關(guān)性,證明深度神經(jīng)網(wǎng)絡(luò)的活動(dòng)在頻域上也具有生物目標(biāo)識(shí)別的本質(zhì)特征。
一個(gè)綜合的視覺(jué)目標(biāo)識(shí)別模型不僅要產(chǎn)生感知結(jié)果,而且要捕捉適應(yīng)的神經(jīng)生理動(dòng)態(tài)。廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)的CNN模型通過(guò)一些固定的結(jié)構(gòu)保證一些視覺(jué)功能特性,它們?cè)诤艽蟪潭壬弦蕾?lài)于通過(guò)大量數(shù)據(jù)或數(shù)據(jù)增強(qiáng)學(xué)習(xí)其他變換的屬性。然而,還不清楚編碼這些內(nèi)在屬性的人工模型是否與人類(lèi)視覺(jué)系統(tǒng)相一致。
表5展示了最近的研究通過(guò)關(guān)鍵的神經(jīng)生理和心理物理實(shí)驗(yàn)評(píng)估所提出的實(shí)現(xiàn)類(lèi)腦目標(biāo)識(shí)別的計(jì)算模型是否具有人類(lèi)視覺(jué)系統(tǒng)的功能特性[42-43,82-87]。Georgin等人[83]通過(guò)距離比較重新塑造了眾所周知的知覺(jué)和神經(jīng)現(xiàn)象,并且分析了為物體識(shí)別而訓(xùn)練的前饋深度神經(jīng)網(wǎng)絡(luò)對(duì)這些現(xiàn)象的存在情況。部分現(xiàn)象在訓(xùn)練網(wǎng)絡(luò)中是缺乏的,如三維形狀處理,表面不變性,遮擋,自然部分和全局優(yōu)勢(shì)。這些對(duì)比發(fā)現(xiàn)為改進(jìn)深層網(wǎng)絡(luò)的特性提供了線(xiàn)索。Vinken等人[84]通過(guò)視覺(jué)處理的前饋深度神經(jīng)網(wǎng)絡(luò)模型捕獲自適應(yīng)現(xiàn)象的內(nèi)在抑制機(jī)制,結(jié)果表明了內(nèi)在抑制的前饋傳播改變了網(wǎng)絡(luò)的功能形態(tài),復(fù)制了適應(yīng)的關(guān)鍵神經(jīng)生理和知覺(jué)特性。由于目標(biāo)識(shí)別行為被由密集循環(huán)的下顳葉皮層(IT)支持,Kar等人[82]通過(guò)前饋深度CNN激活對(duì)后期IT響應(yīng)模式的預(yù)測(cè),淺層的循環(huán)CNN能更好地預(yù)測(cè)這些晚期IT反應(yīng),論證了循環(huán)回路對(duì)快速物體識(shí)別至關(guān)重要。Han等人[86]通過(guò)實(shí)驗(yàn)測(cè)試結(jié)果指導(dǎo)神經(jīng)網(wǎng)絡(luò)建模應(yīng)該通過(guò)神經(jīng)元的感受野大小和采樣密度捕捉到的偏心相關(guān)表示,以及編碼不同的尺度通道,內(nèi)置尺度不變性功能。Hong等人[87]系統(tǒng)地探索了多個(gè)腹側(cè)視覺(jué)區(qū)域支持各種“類(lèi)別正交”物體屬性的能力,發(fā)現(xiàn)下顳種群編碼所有測(cè)量的類(lèi)別正交目標(biāo)屬性,比早期的腹流區(qū)域更明確。同時(shí),他們基于簡(jiǎn)單計(jì)算原理的層次神經(jīng)網(wǎng)絡(luò)模型解釋了這種跨區(qū)域?qū)哟谓Y(jié)構(gòu)。可以發(fā)現(xiàn),盡管目前的卷積神經(jīng)網(wǎng)絡(luò)在許多方面與生物視覺(jué)不同[88]但它們構(gòu)成了一個(gè)合理的一階近似建模腹側(cè)流處理,使得沿著腹側(cè)視覺(jué)流顯示與神經(jīng)元表征相似的內(nèi)部特征表征[48,78]。并為建立一般和全面的適應(yīng)模型提供了一個(gè)合適的契機(jī)。

表5 測(cè)量CNN模型反映視覺(jué)功能特性研究Table 5 Research on verifying visual neural mechanism of CNN-based models
同樣,人腦的目標(biāo)識(shí)別行為表現(xiàn)是否與模型的行為模式相一致,最近的心理物理研究對(duì)這一方面進(jìn)行了多方面的探索,如表6所示[41,89-93]。為了尋求計(jì)算機(jī)系統(tǒng)和人腦使用的計(jì)算模式是相似的還是不同,Ullman等人[90]通過(guò)結(jié)合一種最小可識(shí)別圖像的新方法和仿真表明,人類(lèi)識(shí)別系統(tǒng)的特征提取和學(xué)習(xí)過(guò)程。并且展示了在非最小圖像中,圖像的微小變化會(huì)對(duì)其識(shí)別產(chǎn)生巨大影響。為了驗(yàn)證深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在視點(diǎn)不變的物體識(shí)別任務(wù)中是否與人類(lèi)的表現(xiàn)相匹配,Kheradpisheh等人[91]對(duì)8個(gè)當(dāng)時(shí)最先進(jìn)的DNN、HMAX模型和基線(xiàn)淺模型進(jìn)行了基準(zhǔn)測(cè)試和比較,發(fā)現(xiàn)視點(diǎn)變化的幅度決定了DNN的網(wǎng)絡(luò)深度,以匹配人類(lèi)的性能和錯(cuò)誤分布。因此,基于CNN的模型的行為模式與靈長(zhǎng)類(lèi)動(dòng)物的行為模式相似[89,91],可以為靈長(zhǎng)類(lèi)核心物體識(shí)別的行為表現(xiàn)提供定量解釋。Rajalingham等人[89]使用靈長(zhǎng)類(lèi)視覺(jué)的主要機(jī)制模型(DCNNIC)與靈長(zhǎng)類(lèi)的行為特征進(jìn)行比較,發(fā)現(xiàn)現(xiàn)有的DCNNIC模型不能解釋靈長(zhǎng)類(lèi)動(dòng)物的圖像級(jí)行為模式,而且不是由簡(jiǎn)單地模型修改所解釋?zhuān)枰_的網(wǎng)絡(luò)模型捕捉靈長(zhǎng)類(lèi)動(dòng)物目標(biāo)視覺(jué)的神經(jīng)機(jī)制。為了證明人類(lèi)和機(jī)器的性能差距是否是由于目標(biāo)表示的系統(tǒng)差異造成的,部分研究的實(shí)驗(yàn)結(jié)果展示出所有的計(jì)算模型都顯示出了感知的系統(tǒng)性偏差,揭示了計(jì)算機(jī)視覺(jué)算法中缺失的關(guān)鍵元素,并指出了大腦高級(jí)視覺(jué)區(qū)域?qū)@些屬性的明確編碼[92]。

表6 評(píng)估CNN模型匹配靈長(zhǎng)類(lèi)識(shí)別行為表現(xiàn)Table 6 CNN models for achieving primate recognition behavioral performance
綜上所述,基于CNN的目標(biāo)識(shí)別模型與人類(lèi)視覺(jué)系統(tǒng)在神經(jīng)預(yù)測(cè)、神經(jīng)機(jī)理特性和識(shí)別行為表現(xiàn)等方面都具有一定的相似性表現(xiàn),深度神經(jīng)網(wǎng)絡(luò)模型單元編碼的特征是由一組豐富的、為目標(biāo)識(shí)別優(yōu)化的、日益復(fù)雜的特征組成,這與靈長(zhǎng)類(lèi)動(dòng)物腹側(cè)流[48,78]的神經(jīng)元編碼的特征相當(dāng)吻合。其次,在層次網(wǎng)絡(luò)中,被訓(xùn)練識(shí)別目標(biāo)的早期深度神經(jīng)網(wǎng)絡(luò)層包含了類(lèi)似于早期視覺(jué)皮層的表征。當(dāng)沿著腹側(cè)視覺(jué)流移動(dòng)時(shí),神經(jīng)網(wǎng)絡(luò)需要復(fù)雜的多層模型捕捉層疊的適應(yīng)[94]。但是人類(lèi)與當(dāng)前深度神經(jīng)網(wǎng)絡(luò)的一個(gè)重要的區(qū)別在于所需訓(xùn)練集的規(guī)模大小。人類(lèi)可以通過(guò)短暫的視覺(jué)信息中準(zhǔn)確地學(xué)習(xí)到復(fù)雜的視覺(jué)目標(biāo)類(lèi)別[95]。相比之下,目前基于CNN的模型需要大量數(shù)據(jù)才能工作。
無(wú)論是開(kāi)展人腦目標(biāo)識(shí)別神經(jīng)機(jī)理研究,或是構(gòu)建大腦啟發(fā)的目標(biāo)識(shí)別網(wǎng)絡(luò)或模型,需要引入靈長(zhǎng)類(lèi)動(dòng)物腦實(shí)驗(yàn)設(shè)計(jì)方法,對(duì)視覺(jué)系統(tǒng)的功能機(jī)理或神經(jīng)激活進(jìn)行提取,定量描述視覺(jué)通路的神經(jīng)機(jī)制。實(shí)驗(yàn)開(kāi)展首先對(duì)刺激集選取有一定的要求,其主要?jiǎng)訖C(jī)是選擇統(tǒng)一、多樣的視覺(jué)目標(biāo)圖像激發(fā)靈長(zhǎng)類(lèi)動(dòng)物識(shí)別行為表現(xiàn)或視覺(jué)皮層的神經(jīng)反應(yīng)。接著,腦信號(hào)獲取途徑旨在有效的測(cè)量用于被試。他們的一般動(dòng)機(jī)分為定量測(cè)量被試的行為表現(xiàn)或神經(jīng)反應(yīng)(例如,fMRI、EEG、心理物理學(xué)實(shí)驗(yàn))。最后,對(duì)獲得的腦視覺(jué)目標(biāo)識(shí)別反應(yīng)的測(cè)量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,其主要分為表征相似性分析、統(tǒng)計(jì)分析、分類(lèi)準(zhǔn)確性、相關(guān)性。下面從圖像數(shù)據(jù)集選取、腦信號(hào)獲取途徑以及數(shù)據(jù)分析方法三個(gè)方面對(duì)目標(biāo)識(shí)別神經(jīng)機(jī)理研究方法和類(lèi)腦目標(biāo)識(shí)別建模方法進(jìn)行綜合分類(lèi)。
根據(jù)第2章分析可知,視覺(jué)通路上的各個(gè)腦區(qū)在視覺(jué)目標(biāo)識(shí)別過(guò)程中產(chǎn)生的神經(jīng)活動(dòng)和功能機(jī)理各不相同,因此,圖像數(shù)據(jù)集的選取與需要探究的視覺(jué)神經(jīng)機(jī)制具有較強(qiáng)的相關(guān)性,這些腦視覺(jué)目標(biāo)識(shí)別的神經(jīng)機(jī)制研究方法所采用的刺激集依據(jù)實(shí)驗(yàn)?zāi)康亩ā0凑斋@取的途徑進(jìn)行分類(lèi)如下所示。
視覺(jué)刺激集:大多數(shù)研究靈長(zhǎng)類(lèi)動(dòng)物的視覺(jué)目標(biāo)識(shí)別的神經(jīng)機(jī)制,通過(guò)視覺(jué)刺激輸入分析腦神經(jīng)激活狀態(tài)或識(shí)別行為表現(xiàn)。其中,根據(jù)實(shí)際研究的神經(jīng)機(jī)制和方法,采用公開(kāi)的彩色圖像數(shù)據(jù)集或互聯(lián)網(wǎng)收集的方式建立視覺(jué)圖像刺激集,有針對(duì)性地誘發(fā)出可識(shí)別的、具有特征性的神經(jīng)活動(dòng)或識(shí)別行為表現(xiàn)。
(1)根據(jù)實(shí)際研究的視覺(jué)神經(jīng)功能機(jī)理自建數(shù)據(jù)集:文獻(xiàn)[49],[51],[74],[75],[81],[86],[89],[91],[92],[96],[97],[98],[99],[100],[101],[102],[103],[104]。
(2)基于已有的計(jì)算機(jī)建模軟件生成(如表7所示):文獻(xiàn)[1],[41],[78],[82],[93],[105],[106],[107],[108]。

表7 基于計(jì)算機(jī)模型軟件生成視覺(jué)刺激集Table 7 Generate visual stimulus sets based on computer modeling software
(3)采用公開(kāi)數(shù)據(jù)集:文獻(xiàn)[85],[109],[110](hemera photo objects);文獻(xiàn)[111](Radboud[112]);文獻(xiàn)[41](3D car mesh models);文獻(xiàn)[113],[114](LabelMe[115]);文獻(xiàn)[116](super formula[117]);文獻(xiàn)[118](PICS);文獻(xiàn)[119],[120](Snodgrass and Vanderwart normed set);文獻(xiàn)[121],[122](a standardized set of 260 pictures[123]);文獻(xiàn)[124](Kriegeskorte[125]);文獻(xiàn)[102](PrimFace);文獻(xiàn)[82],[108](COCO[126]);文獻(xiàn)[127](Caltech-256[128]);文獻(xiàn)[48](neural representation benchmark[129]);文獻(xiàn)[7](ImageNet[130]);文獻(xiàn)[52](GRAINS、vim-1、generic object decoding[131]);文 獻(xiàn)[58](Caltech 101[132]);文 獻(xiàn)[53](CIFAR100[133]);文獻(xiàn)[84](quick,draw!);文獻(xiàn)[83](IISc Indian face dataset[134]);文獻(xiàn)[76](BOSS[135]、ALOI[136]);文獻(xiàn)[90](PASCAL[137]、ILSVRC2015);文獻(xiàn)[79](ImageNet、PASCAL、SUN[138])。
根據(jù)腦視覺(jué)神經(jīng)功能機(jī)理模擬方式設(shè)計(jì)數(shù)據(jù)集:一部分模擬神經(jīng)連接機(jī)制設(shè)計(jì)人工網(wǎng)絡(luò)模型,與一般網(wǎng)絡(luò)設(shè)計(jì)采用的數(shù)據(jù)集相同;另一部分方法為了最大限度地模擬在生物學(xué)上可信的目標(biāo)識(shí)別模型,使用了同一個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)被試的刺激集和網(wǎng)絡(luò)模型的測(cè)試集,驗(yàn)證人工網(wǎng)絡(luò)模型的神經(jīng)激活預(yù)測(cè)能力和目標(biāo)識(shí)別性能,如表8所示。

表8 設(shè)計(jì)圖像數(shù)據(jù)集模擬腦視覺(jué)神經(jīng)功能機(jī)理Table 8 Datasets used to construct and validate brain-inspired visual object recognition models
比較人工模型與大腦視覺(jué)通路的功能特性采用的數(shù)據(jù)集:為了最大限度地模擬在生物學(xué)上可信的目標(biāo)識(shí)別模型,表9所示的方法使用了同一個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)被試的刺激集和網(wǎng)絡(luò)模型的訓(xùn)練集。視覺(jué)神經(jīng)系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)共享同一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,主要是通過(guò)保證相同的刺激輸入比較表現(xiàn)輸出或神經(jīng)激活的狀態(tài)。基于DNN的目標(biāo)識(shí)別模型在腹側(cè)流的神經(jīng)激活預(yù)測(cè)和目標(biāo)識(shí)別表現(xiàn)都具有一致性。由表可以發(fā)現(xiàn),所有參與比較的模型均采用大型ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,目的是對(duì)模型通過(guò)大型數(shù)據(jù)集的訓(xùn)練以盡可能逼近人類(lèi)的目標(biāo)識(shí)別和分類(lèi)能力,進(jìn)而預(yù)測(cè)其中可能存在的神經(jīng)機(jī)制和行為表現(xiàn)。

表9 比較人工、生物神經(jīng)系統(tǒng)功能特性選取的數(shù)據(jù)集Table 9 Datasets selected for comparing functional characteristics of artificial and biological neural systems
用于視覺(jué)目標(biāo)分類(lèi)或識(shí)別數(shù)據(jù)集之一,MNIST[142]是機(jī)器學(xué)習(xí)領(lǐng)域中非常經(jīng)典的數(shù)據(jù)集,包括60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本,其中的訓(xùn)練集由來(lái)自250個(gè)不同人手寫(xiě)的數(shù)字構(gòu)成,測(cè)試集(test set)也是同樣比例的手寫(xiě)數(shù)字?jǐn)?shù)據(jù)。PASCALVOC(pattern analysis,statistical modelling and computational learning,visual object classes)為圖像識(shí)別和分類(lèi)提供了一整套標(biāo)準(zhǔn)化的優(yōu)秀的數(shù)據(jù)集,它包括20類(lèi)物體,從2005年到2012年每年會(huì)舉行一場(chǎng)圖像識(shí)別競(jìng)賽。在目標(biāo)分類(lèi)、圖像分割網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)與模型效果評(píng)估中被頻頻使用。SVHN[147]是一個(gè)真實(shí)世界的圖像數(shù)據(jù)集,來(lái)源于谷歌街景門(mén)牌號(hào)碼,常用于開(kāi)發(fā)機(jī)器學(xué)習(xí)和目標(biāo)識(shí)別算法。與MNIST具有相似的風(fēng)格,但包含更多的標(biāo)簽數(shù)據(jù)(超過(guò)60萬(wàn)數(shù)字圖像),并來(lái)自一個(gè)明顯更難、未解決的真實(shí)世界問(wèn)題(識(shí)別自然場(chǎng)景圖像中的數(shù)字)。CIFAR10/100數(shù)據(jù)集(2009)[133]是包括8 000萬(wàn)張微型自然圖像數(shù)據(jù)集,其中CIFAR數(shù)據(jù)集又根據(jù)所涉及分為
CIFAR-10和CIFAR-100,這些類(lèi)間是完全互斥的。該數(shù)據(jù)集主要用于深度學(xué)習(xí)的圖像分類(lèi),目前已被廣泛應(yīng)用。Caltech 101數(shù)據(jù)集[132]是加利福尼亞理工學(xué)院收集整理的圖像物體識(shí)別數(shù)據(jù)集,包含有101類(lèi)視覺(jué)物體,每個(gè)類(lèi)別中最小包含31張圖片。Caltech 256數(shù)據(jù)集[128]是Caltech-101的改進(jìn)版,圖片被分為256類(lèi),每個(gè)類(lèi)別的圖片超過(guò)80張,其中的部分類(lèi)別包含了Caltech-101的圖像。在Caltech-101的基礎(chǔ)上,Caltech 256增加了類(lèi)別數(shù)量,避免因圖像旋轉(zhuǎn)造成的偽影,并且引入了一個(gè)新的更大的雜波類(lèi)別測(cè)試背景。
這些小的、飽和的視覺(jué)目標(biāo)分類(lèi)數(shù)據(jù)集大多用于視覺(jué)目標(biāo)分類(lèi)任務(wù)。2009年,李飛飛教授提出了用于視覺(jué)目標(biāo)識(shí)別軟件研究的大型可視化數(shù)據(jù)庫(kù)ImageNet,旨在為世界各地的研究人員提供易于訪(fǎng)問(wèn)的圖像數(shù)據(jù)。目前ImageNet共有14 197 122幅圖像,總共分為21 841個(gè)類(lèi)別。ILSVRC(ImageNet large scale visual recognition challenge)是ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽,其中使用到的數(shù)據(jù)是ImageNet的子集。視覺(jué)神經(jīng)科學(xué)家主要關(guān)注于大量的可視化的彩色自然圖像,對(duì)于視覺(jué)目標(biāo)分類(lèi)研究和構(gòu)建人工分類(lèi)模型具有較好的普適度和自由度。最近的類(lèi)腦目標(biāo)識(shí)別模型研究中絕大多數(shù)都在使用ImageNet作為預(yù)訓(xùn)練數(shù)據(jù)集,并采用ILSVRC作為刺激集和測(cè)試集,得到的網(wǎng)絡(luò)模型與大腦視覺(jué)神經(jīng)反應(yīng)具有較強(qiáng)的一致性,體現(xiàn)出了數(shù)據(jù)集在視覺(jué)目標(biāo)識(shí)別研究中的地位。
人們的視覺(jué)目標(biāo)識(shí)別過(guò)程隱藏在復(fù)雜的大腦信號(hào)中,視覺(jué)神經(jīng)活動(dòng)的獲取是視覺(jué)目標(biāo)識(shí)別的神經(jīng)機(jī)理研究和類(lèi)腦目標(biāo)識(shí)別建模的重要的階段。借助成像等生理記錄設(shè)備和視覺(jué)心理物理學(xué)的快速發(fā)展,對(duì)腦視覺(jué)目標(biāo)識(shí)別的神經(jīng)機(jī)制研究逐漸深入,甚至可以將大腦中的想法轉(zhuǎn)化成自動(dòng)目標(biāo)識(shí)別設(shè)備的驅(qū)動(dòng)力。根據(jù)獲取方式,將視覺(jué)目標(biāo)識(shí)別的神經(jīng)機(jī)制和模型構(gòu)建研究方法分類(lèi)如下所示。
(1)心理物理學(xué)實(shí)驗(yàn)(生成視覺(jué)目標(biāo)識(shí)別行為數(shù)據(jù)):文獻(xiàn)[1],[82],[85],[89],[90],[96],[109],[111],[157](Amazon Mechanical Turk(MTurk));文 獻(xiàn)[41],[86],[91],[92],[113],[158](MATLAB心理物理學(xué)工具箱);文獻(xiàn)[93](Visual Basic(Microsoft))。
(2)BOLD fMRI信號(hào)獲取實(shí)驗(yàn):文獻(xiàn)[49],[50],[51],[52],[54],[74],[75],[76],[77],[79],[97],[98],[99],[100],[101],[102],[107],[114],[116],[120],[121],[122],[158],[159],[160],[161],[162],[163]。
(3)腦電信號(hào)獲取實(shí)驗(yàn):EEG,文獻(xiàn)[7],[64],[113],[119],[127];ERP,文獻(xiàn)[64],[122];MEG,文獻(xiàn)[76],[77],[101],[118],[124];ECOG,文獻(xiàn)[120];multi-electrode array,文 獻(xiàn)[48],[53],[78],[80],[81],[82],[87],[101],[105],[106],[108],[110],[164],[165],[166]。
為了在大規(guī)模數(shù)據(jù)集上對(duì)目標(biāo)識(shí)別過(guò)程中的神經(jīng)活動(dòng)數(shù)據(jù)進(jìn)行分析,并且與人工模型的神經(jīng)元激活狀態(tài)進(jìn)行實(shí)驗(yàn)比較,本文根據(jù)數(shù)據(jù)采集方法總結(jié)了常用于數(shù)據(jù)分析和模型性能評(píng)價(jià)的方法如下。
3.3.1 神經(jīng)數(shù)據(jù)分析
為了研究神經(jīng)活動(dòng)數(shù)據(jù)蘊(yùn)含的內(nèi)在神經(jīng)機(jī)理,人們提出了各種數(shù)據(jù)分析的軟件和方法,試圖直觀(guān)、準(zhǔn)確地提取大腦目標(biāo)識(shí)別的內(nèi)在神經(jīng)機(jī)制和功能特性。下面對(duì)這些方法進(jìn)行簡(jiǎn)要介紹。
用于人腦結(jié)構(gòu)和腦成像數(shù)據(jù)分析和可視化的交互式軟件:統(tǒng)計(jì)參數(shù)圖(statistical parametric mapping,SPM)[101,121,163]、VoxBo[100]、AFNI[102,107,114]、Brain Voyager軟件包[99,122,158]。
多體素模式分析(multivoxel pattern analysis,MVPA):是用分類(lèi)的機(jī)器學(xué)習(xí)算法(例如SVM分類(lèi)器)進(jìn)行多體素分析,從大量體素的BOLD信號(hào)中解碼大腦的視覺(jué)信息表示,探索大腦視覺(jué)目標(biāo)識(shí)別的編碼機(jī)制:文獻(xiàn)[52],[111],[116]。
皮爾遜相關(guān)系數(shù)(Pearson’s correlation coefficient):又稱(chēng)“皮爾遜積矩相關(guān)系數(shù)“,是一種線(xiàn)性相關(guān)系數(shù)如式所示,用來(lái)反映兩個(gè)變量線(xiàn)性相關(guān)程度的統(tǒng)計(jì)量。該方法可用于顯著性檢驗(yàn),視覺(jué)神經(jīng)科學(xué)實(shí)驗(yàn)中常用來(lái)測(cè)量?jī)蓚€(gè)目標(biāo)表示之間的相似度:文獻(xiàn)[41],[54],[55],[79],[89],[116],[120]。
方差分析(analysis of variance,ANOVA):用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。神經(jīng)科學(xué)實(shí)驗(yàn)通過(guò)方差分析方法確定各因素的互作用效應(yīng)以及對(duì)對(duì)比效應(yīng)百分比的影響,通常采用兩種方差分析方法:?jiǎn)我蛩胤讲罘治觯╫ne-way ANOVA)用來(lái)研究單個(gè)控制變量的不同水平對(duì)觀(guān)測(cè)變量產(chǎn)生的顯著影響。而重復(fù)量測(cè)變異數(shù)分析(repeated-measures ANOVA)進(jìn)一步確定了控制變量的不同水平對(duì)觀(guān)測(cè)變量的影響程度:文獻(xiàn)[64],[82],[85],[86],[87],[96],[100],[102],[105],[106],[107],[116],[118],[119],[121],[122],[157],[167]。
滑動(dòng)t檢驗(yàn)(student t-test):統(tǒng)計(jì)推斷中非常常見(jiàn)的一種檢驗(yàn)方法,使用t分布理論推論差異發(fā)生的概率,從而比較兩個(gè)目標(biāo)表示的差異是否顯著。與方差分析相同,通過(guò)對(duì)神經(jīng)數(shù)據(jù)或人類(lèi)行為表現(xiàn)進(jìn)行定量的統(tǒng)計(jì)分析:文獻(xiàn)[82],[87],[100],[105],[116],[118],[157],[168]。
3.3.2 模型性能評(píng)價(jià)
為了反映視覺(jué)分類(lèi)模型的性能,在大型數(shù)據(jù)集中測(cè)量模型對(duì)視覺(jué)圖像或場(chǎng)景的分類(lèi)精度。同時(shí),利用相似性度量方法,試圖比較視覺(jué)神經(jīng)活動(dòng)或行為表現(xiàn)與目標(biāo)識(shí)別模型之間在不同因素的預(yù)測(cè)程度。
在不同的大型數(shù)據(jù)集中評(píng)價(jià)模型的分類(lèi)精度或誤差:文獻(xiàn)[6],[7],[20],[32],[35],[36],[37],[38],[45],[50],[53],[57],[58],[59],[60],[61],[62],[90],[91],[93],[103]。
表征相似性分析(RSA):提供了一個(gè)有用的和說(shuō)明性的工具,給定一組實(shí)驗(yàn)條件下的一組活動(dòng)模式(生物的、行為的或人工的),模式之間的相似性計(jì)算為1減去組成模式的單元之間的相關(guān)性。通過(guò)將每層CNN的表現(xiàn)與行為表現(xiàn)或神經(jīng)活動(dòng)數(shù)據(jù)進(jìn)行比較,研究不同的視覺(jué)刺激產(chǎn)生的表征幾何響應(yīng),并檢查是否相同類(lèi)別的圖像產(chǎn)生相似的響應(yīng)在表征空間。RSA比較的相似性表征矩陣(representational dissimilarity matrix,RDM)描述了大腦或模型的代表性信息:文獻(xiàn)[51],[54],[59],[60],[74],[75],[77],[78],[81],[91],[101],[116]。
針對(duì)視覺(jué)目標(biāo)識(shí)別任務(wù),大腦神經(jīng)機(jī)理研究和類(lèi)腦模型構(gòu)建可以根據(jù)模型架構(gòu)和開(kāi)發(fā)途徑進(jìn)行分類(lèi)。此外,對(duì)腦視覺(jué)通路與人工模型的一致性表現(xiàn)進(jìn)行了分析和研究,對(duì)這些方法從比較對(duì)比方法方面進(jìn)行了分類(lèi)。同時(shí),簡(jiǎn)要介紹了這些研究中設(shè)計(jì)的實(shí)驗(yàn)條件和數(shù)據(jù)分析方法。
人工神經(jīng)網(wǎng)絡(luò)整體都受到了20世紀(jì)中期開(kāi)始發(fā)展的神經(jīng)生物學(xué)的啟發(fā)。設(shè)計(jì)人工神經(jīng)元模擬神經(jīng)元接收和轉(zhuǎn)換信息的基本特性,卷積網(wǎng)絡(luò)模擬人腦層次化信息處理機(jī)制,所執(zhí)行的主要功能和計(jì)算受到了某些關(guān)于視覺(jué)系統(tǒng)的早期發(fā)現(xiàn)的啟發(fā)[8]。隨著越來(lái)越多的研究人員對(duì)大腦視覺(jué)神經(jīng)機(jī)理開(kāi)展研究,淺層的神經(jīng)連接機(jī)制和激活狀態(tài)被開(kāi)發(fā)出來(lái),最近的人工神經(jīng)網(wǎng)絡(luò)的很多設(shè)計(jì)都源于神經(jīng)科學(xué)的啟發(fā),例如:反饋、遞歸、注意力機(jī)制。另一方面,最近的很多神經(jīng)科學(xué)領(lǐng)域的研究將CNN模型與視覺(jué)系統(tǒng)相關(guān)聯(lián),通過(guò)神經(jīng)激活預(yù)測(cè)或信息表征方式評(píng)估兩者在目標(biāo)識(shí)別任務(wù)上的一致性表現(xiàn)。不同的實(shí)驗(yàn)證明了同一個(gè)結(jié)果,CNN模型的層級(jí)結(jié)構(gòu)與視覺(jué)通路之間存在對(duì)應(yīng)關(guān)系,可以更好地預(yù)測(cè)視覺(jué)皮層的神經(jīng)活動(dòng),超越了其他方法。人工神經(jīng)網(wǎng)絡(luò)是在視覺(jué)神經(jīng)科學(xué)與計(jì)算機(jī)視覺(jué)之間的相互作用下逐漸發(fā)展的。
反觀(guān)基于CNN的目標(biāo)識(shí)別模型對(duì)視覺(jué)皮層具有較強(qiáng)的預(yù)測(cè)能力,可以借助CNN這一工具嘗試反推出視覺(jué)神經(jīng)的工作原理,了解有關(guān)視覺(jué)系統(tǒng)的信息處理機(jī)制。這些研究的方法見(jiàn)解和發(fā)展都需要通過(guò)與實(shí)驗(yàn)數(shù)據(jù)的交互而進(jìn)行驗(yàn)證和分析。CNN對(duì)理解視覺(jué)系統(tǒng)的方式主要有以下三點(diǎn):首先,CNN模型在目標(biāo)識(shí)別任務(wù)上的成功,證明了從整體、直觀(guān)的角度對(duì)視覺(jué)系統(tǒng)的理解基本上是正確的,只是缺少訓(xùn)練數(shù)據(jù)和計(jì)算能力。其次,基于已有的數(shù)據(jù)建立所感興趣的內(nèi)容的合理模型是允許的。最后,將關(guān)于視覺(jué)系統(tǒng)的工作方式整合成具體的數(shù)學(xué)計(jì)算模型,盡管在建模時(shí)通常需要進(jìn)一步假設(shè)和簡(jiǎn)化,但這仍然能為模型行為的一般趨勢(shì)和局限性提供有幫助的見(jiàn)解。
深度神經(jīng)網(wǎng)絡(luò)模型提供了一個(gè)生物學(xué)上可信的快速識(shí)別視覺(jué)目標(biāo)的技術(shù)元素,可以解釋高效計(jì)算的模式識(shí)別成分。然而,他們無(wú)法解釋人類(lèi)是如何理解元素之間的語(yǔ)義關(guān)系以及物體之間的物理相互作用。貝葉斯非參數(shù)模型解釋了從單一經(jīng)驗(yàn)形成深刻的推論和概念。該模型可以解釋大腦驚人的統(tǒng)計(jì)效率,通過(guò)建立生成式模型,提供抽象的先驗(yàn)知識(shí),從小樣本數(shù)據(jù)中推斷出很多能力[169]。因此,根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)來(lái)源和突出表現(xiàn)可以整理出一些未來(lái)的發(fā)展方向。要理解大腦的視覺(jué)目標(biāo)識(shí)別機(jī)制,需要先從需要解釋的視覺(jué)行為功能開(kāi)始發(fā)展理論框架,設(shè)計(jì)的類(lèi)腦視覺(jué)計(jì)算模型需要能夠執(zhí)行有助于靈長(zhǎng)類(lèi)動(dòng)物視覺(jué)目標(biāo)識(shí)別的功能。其次,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法補(bǔ)充理論驅(qū)動(dòng)的模型架構(gòu),根據(jù)視覺(jué)神經(jīng)活動(dòng)的豐富測(cè)量實(shí)驗(yàn)有效的推動(dòng)模型架構(gòu)的完備性和生物可信性。
類(lèi)腦視覺(jué)的目標(biāo)識(shí)別模型已取得了階段性的進(jìn)展,但是目標(biāo)仍然沒(méi)有任何一個(gè)模型或方法能夠接近人類(lèi)的水平,對(duì)復(fù)雜視覺(jué)環(huán)境具備較強(qiáng)的自適應(yīng)能力和自主學(xué)習(xí)、自主決策能力等。一方面,在未來(lái)的腦啟發(fā)目標(biāo)識(shí)別模型的研究中,需要基于多模態(tài)、多尺度的腦神經(jīng)數(shù)據(jù)分析結(jié)果對(duì)腦視覺(jué)通路進(jìn)行建模計(jì)算,構(gòu)建識(shí)別視覺(jué)目標(biāo)的多模態(tài)、多尺度的神經(jīng)網(wǎng)絡(luò)計(jì)算模型,滿(mǎn)足自主感知、自主決策等智能行為能力;另一方面,需要更多關(guān)注視覺(jué)神經(jīng)系統(tǒng)在不同尺度上的神經(jīng)區(qū)域是如何協(xié)同工作,進(jìn)行動(dòng)態(tài)感知、認(rèn)知、決策,完成目標(biāo)識(shí)別任務(wù)。對(duì)于模型開(kāi)發(fā)框架方面,傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)雖然受到腦神經(jīng)網(wǎng)絡(luò)工作機(jī)制的啟發(fā),但是經(jīng)過(guò)簡(jiǎn)化和抽象,其神經(jīng)元的訓(xùn)練并不具備原有突觸的神經(jīng)機(jī)理支撐,因此,未來(lái)的類(lèi)腦目標(biāo)識(shí)別模型需要依據(jù)相關(guān)視覺(jué)神經(jīng)工作機(jī)理作為支撐設(shè)計(jì)和構(gòu)建多尺度目標(biāo)識(shí)別模型框架。
然而,當(dāng)前人工神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,在計(jì)算方面已逐漸遠(yuǎn)離生物學(xué)主題。這主要是由于過(guò)去幾年的工程突破已經(jīng)改變了計(jì)算機(jī)視覺(jué)領(lǐng)域。因此,有人提出疑問(wèn):人工神經(jīng)網(wǎng)絡(luò)未來(lái)的發(fā)展是否需要神經(jīng)科學(xué)的指導(dǎo)?這些網(wǎng)絡(luò)的成功也有助于人們對(duì)計(jì)算機(jī)目標(biāo)識(shí)別領(lǐng)域的未來(lái)進(jìn)行思考。一方面,這些網(wǎng)絡(luò)的進(jìn)一步工程設(shè)計(jì)已達(dá)到飽和點(diǎn),層數(shù)、激活函數(shù)、參數(shù)調(diào)整、梯度函數(shù)等方面的新穎性不斷提高,其準(zhǔn)確性?xún)H得到提高。對(duì)于一般應(yīng)用而言,生物視覺(jué)系統(tǒng)要遠(yuǎn)遠(yuǎn)優(yōu)于任何計(jì)算機(jī);另一方面,雖然神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)之間的思想交流經(jīng)歷了起起落落,但人們很難不對(duì)以神經(jīng)科學(xué)為基礎(chǔ)的計(jì)算機(jī)視覺(jué)的未來(lái)充滿(mǎn)熱情。在許多方面,神經(jīng)科學(xué)、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域之間從未有過(guò)如此多的交流,最近在機(jī)器學(xué)習(xí)方面的成功和最近在神經(jīng)科學(xué)技術(shù)方面的進(jìn)展高度重合,而且這兩個(gè)領(lǐng)域可能準(zhǔn)備以前所未有的規(guī)模利用彼此的洞察力。然而,抓住這個(gè)機(jī)會(huì)需要努力和文化的轉(zhuǎn)變,因?yàn)檫@兩個(gè)領(lǐng)域通常有非常不同的目標(biāo)和方法。