王松偉


摘要:人工智能的核心基礎科學問題是認知和計算的關系。拓撲知覺理論是當前極具代表性的一種認知理論,而深度學習是當前人工智能計算實現的主要技術手段。本文對二者的理論和發展歷程分別進行了闡述,給出了二者內在聯系的一種假設,并提出將深度學習與拓撲知覺理論的結合將有利于人工智能技術和相關認知理論的進一步發展。
關鍵詞:人工智能;拓撲知覺;深度學習
當第一臺計算機誕生后,人們就在思考其是否可以擁有類人的智能,進而自主的幫助人們處理常規勞作、自行處理圖像語音信息、自動進行醫學診斷、實現智能控制以及支持基礎科學研究等。在1956年達特茅斯會議上,科學家們首次提出了“人工智能”的術語,距離計算機誕生僅僅才過去十年。自2006年,Geoffrey Hinton提出深度信念網絡后,世界各國相關領域研究人員和高科技公司對其高度重視,掀起了以“深度學習”為名的新一代人工智能研究熱潮,并成為當前國民經濟發展的重要推動力量。
想要成為人工智能領域的真正意義上的科學強國,離不開對人工智能的基礎研究。通過總結認知科學研究近四十年來的發展經驗,人們逐漸認識到,發展新一代人工智能的核心基礎科學問題是:認知和計算的關系。
“大范圍首先”的拓撲性質知覺理論[1],是由我國陳霖院士提出的在當前國際上極具代表性的一種認知理論。經過30多年的發展,不僅把這個理論應用到視覺問題,而且成功地應用到注意、記憶、意識乃至情緒等廣泛不同認知層次的研究。該理論認為:一、知覺過程是“由大范圍性質到局部性質”,在對物體的性質或組成部份進行知覺的分析之前,視覺系統首先取得的是物體的整體性的知覺;只是在隨后的階段,如果需要的話,視覺系統才知覺物體的細節性質。二、所謂整體性的知覺即“知覺組織”,涉及到圖形和背景分離、圖象分割、分組、伴隨出現、相屬關系等概念。三、知覺組織應當從變換和變換下的不變性的知覺來理解。一個變換越是一般,這個變換下的不變性質就越是大范圍(穩定)。相對于各種幾何變換,拓撲變換是最一般的,因此拓撲性質是最穩定、最大范圍的不變性質。知覺組織可以用拓撲性質科學描述。四、越是大范圍的性質,越早在知覺過程中發生;拓撲性質是最大范圍的,因此在知覺過程中“首先”發生。“首先”具有兩方面的嚴格含義:局部幾何性質的知覺在因果關系上基于由拓撲性質決定的大范圍組織;拓撲性質的知覺在時間先后關系上先于局部幾何性質的知覺。
研究任何一種過程,創立任何一種過程的任何科學理論,必須首先回答的一個最基本的問題是:這種過程操作的基本單元是什么?認知科學必須回答的一個最基本的問題是:什么是認知過程操作的基本單元?大量的認知科學實驗事實表明,認知基本單元是知覺組織形成的“知覺物體”的表達[1,2,3]。“大范圍首先”的拓撲知覺理論提出知覺物體的拓撲學定義,把知覺物體的直覺核心含義,即形狀改變下的整體不變性,科學準確地定義為拓撲不變性質,即,拓撲性質。知覺物體拓撲學定義在知覺組織、注意、記憶、學習、數字認知、意識,乃至情緒等各個認知層次得到了廣泛的行為實驗驗證。
早期拓撲知覺對基于局部的計算視覺方法提出了挑戰。以連通性這種拓撲性質為例,陳霖院士在《知覺組織的拓撲方法》一文中引用到[1]:“對于二維的R,連通模式的數量會隨|R|的增加而指數增加;這意味著對于一定尺寸的R,在一個可接受的訓練過程中能使用的訓練樣本在所有可能樣本中所占的比例是很小的。因此,對多層感知機而言,很難想象它能依據相對較少的訓練樣本進行成功地泛化。”“拓撲計算一直是連接主義所面臨的主要困難。”
但也正是早期拓撲知覺對計算視覺方法提出的挑戰,導致拓撲性質難以量化、建模,這反過來阻礙了拓撲知覺理論及其相關諸多認知科學理論的進一步深化、豐富。同時,這也是特征捆綁這一計算視覺難題存在的深層原因[4]。
近年來,深度學習算法[5]得到了迅猛的發展。其方法論是:用于描述我們周圍世界的概念可以依據其他概念,以一種分層的方式進行定義;由次抽象概念定義的抽象概念位于更高的層次。大致地講,利用深度學習算法構建不變性特征的過程可以看做是兩個步驟的重復。首先提取數據的低級特征,即卷積操作;然后對這些低級特征集進行池化,拋棄細節信息,形成較高級的不變性特征;逐層進行類似的操作,獲得不變性不斷增強且保持目標身份信息的高級特征。Bengio指出,核方法、流形學習、決策樹及早期的神經網絡都可以看做是一個淺層的結構,其泛化的能力主要依賴于鄰近性;對同一復雜函數進行表征,n-1層結構所需訓練的網絡連接較n層結構指數增加,因此,深層結構具有更強的泛化能力。而視皮層也是一個深層的結構。
深度學習算法的衍化有兩個方面值得注意:其一,深度學習處理的圖像正在經歷小尺寸到大尺寸的轉變,因此很多借鑒視皮層感受野機制的卷積算法得到了廣泛應用,例如卷積深度信念網絡,具有平移不變性的卷積神經網絡,具有平移、旋轉和尺度變換下不變性的平鋪卷積神經網絡等,感受野機制對應的局部連接使并行計算發揮出越來越重要的作用。其二,深度學習提取的特征正在經歷從中級特征到高級特征的轉化。中級特征是對低級特征的抽象。常見的中級特征包括特征包,空間金字塔,以及卷積網絡、深度信念網絡和 HMAX網絡的高層單元。而高級特征是中級特征的進一步抽象,但其訓練所需的時間和空間成本是極其巨大的,很多研究者只能選擇降低模型和訓練數據庫的尺寸,這必然會影響提取到的高級特征的質量。2012年,Stanford大學的Andrew Y.Ng聯合Google開展了‘Google Brain項目,使用1000臺電腦(每臺電腦16個CPU,共計16,000個CPU),依據視皮層信息處理機制,構建了一個當時世界上最大的、共計11億神經元連接的人工網絡。使用1千萬張無標記的自然圖像(其中隨機提取的100,000個Patch中人臉所占的比率不超過3%)對網絡進行3天的訓練后,從網絡高層的神經元中找到了對特定類型目標(人臉、貓臉和人體)敏感的神經元,如圖1所示,即,成功模擬了IT區老祖母細胞的響應。將系統在ImageNet這個龐大的數據庫上進行20,000類目標的識別,識別精度達到15.8%,比當時最高水平提高了70%。
使用深度網絡提取到的特征進行目標識別取得了巨大的成功,這啟發我們提出如下觀點:模擬視皮層信息處理機制的大型網絡提取到的High-Level特征是拓撲性質在某種意義下的近似物。雖然沒有嚴格的證明,但是我們可以為這種觀點尋找到理論、神經生理和計算視覺等方面的一些支持:
1.拓撲知覺的核心是知覺組織應該從變換和變換下的不變性的知覺的觀點進行理解。如果我們將用于計算識別的數據庫中屬于某些類別(如狗、鳥、電腦等)的所有圖片看做是這些基本類所對應的知覺對象在各種變換下的實現,那么在機器識別上下文中提取到的可以進行不同類辨別的高層特征可看做是拓撲知覺上下文中拓撲性質的近似。因為高層特征可以有效識別的前提是:它是某個知覺對象在各種身份保持變換下的不變量。
2.文獻[6]指出:“功能磁共振成像實驗揭示,前顳葉區參與拓撲知覺和知覺對象的形成,而這一腦區本來是形式視覺通路的終點。”“行為學上‘大范圍優先的結果與視覺通路神經解剖學結果的悖逆,提示我們應該注意對象表征形成的問題和更廣泛的意義上,知覺到底在何處發生的基本問題。”對于上句話我們的理解是:視皮層形式視覺通路僅僅涉及感覺信息的處理,而不涉及知覺的形成。(注:一些文獻提及了皮層下通路,但與本項目的研究思路不存在矛盾)
3.大量神經生理證據表明[7-10],腦在目標發生各種形狀變化的情況下仍能快速識別目標的神經機制是:從視網膜開始,經由外側膝狀體,初級視皮層,形式視覺通路,通過一個層疊的、大量前饋的計算,在IT區達到終點,形成一種強大的神經表征。IT區同樣是形式視覺通路的終點。
4.很多在目標識別中獲得成功應用的深度學習算法都是基于視皮層層疊、大量前饋的信息處理的機制進行構建。例如HMAX模型、美國銀行支票手寫數字識別廣泛使用的卷積神經網絡等。
一些計算視覺任務中表現優異算法的成功原因可以用拓撲知覺理論進行解釋。例如人臉識別問題,最好的識別算法都是首先確定諸如眼睛、鼻尖、左右嘴角的配置關系,然后在這些標記點的附近位置提取特征。這種識別策略的成功甚至催生了面部關鍵點檢測,面部分解等計算視覺任務,如圖2所示。顯然,這種臉、嘴和鼻子伴隨出現的整體性配置關系屬于知覺組織的概念范疇。首先獲取配置關系這種大范圍屬性,然后在此基礎上提取局部特征,這是符合“大范圍首先”學說的計算視覺實現,也是這類算法取得成功的原因。
因此,針對拓撲性質對基于局部特征的計算視覺方法提出的挑戰,采用大型深度網絡對拓撲性質進行模擬計算;考察網絡在一些知覺組織相關計算視覺任務中的表現,并借鑒皮層信息處理機制調整網絡結構,可以構建更好的認知計算模型,發展新一代的人工智能技術。同時也會對拓撲知覺理論的深化、視皮層神經信息處理機制的探索以及計算視覺研究均具有重要的促進作用。
參考文獻:
[1]Chen,L.(2005).The topological approach to perceptual organization.Visual Cognition,12,553-637.
[2]Pylyshyn,Z.W.,&Storm,R.W.(1988).Tracking multiple independent targets:Evidence for parallel tracking mechanism.Spatial Vision,3,179-197.
[3]VanMarle,K.,&Scholl,B.J.(2003).Attentive tracking of objects vs.substance.Psychological Science,14,498-504.
[4]Chen,L.(2001).Perceptual organization:To reverse back the inverted(upside down)down question of feature binding.Visual Cognition,8,287-303.
[5]Hinton,G.E.and Salakhutdinov,R.(2006).Reducing the dimensionality of data with neural networks.Science,313(5786),504–507.
[6]Tiangang Zhou,Jun Zhang,Lin Chen.(2009),Neural Correlation of“Global-first”Topological Perception:Anterior Temporal Lobe.Brain Imaging and Behavior.
[7]Collins,C.E.,Airey,D.C.,Young,N.A.,Leitch,D.B.,and Kaas,J.H.(2010).Neuron densities vary across and within cortical areas in primates.Proc.Natl.Acad.Sci.USA 107,15927–15932.
[8]Brewer,A.A.,Press,W.A.,Logothetis,N.K.,and Wandell,B.A.(2002).Visual areas in macaque cortex measured using functional magnetic resonance imaging.J.Neurosci.22,10416–10426.
[9]Nowak,L.G.,and Bullier,J.(1997).The timing of information transfer in the visual system.In Cerebral Cortex:Extrastriate Cortex in Primate,K.Rockland,J.Kaas,and A.Peters,eds.(New York:Plenum Publishing Corporation),p.870.
[10]DiCarlo,J.,Zoccolan,D.,and Rust,N.(2012).How does the brain solve visual object recognition?Neuron.