編譯 許林玉
近十年來,許多令人印象最深刻的人工智能系統(tǒng)都使用大量帶有標記的數(shù)據(jù)進行學習。例如,一幅圖像可能被標記為“虎斑貓”或“山貓”,以便“訓練”人工神經(jīng)網(wǎng)絡能夠正確區(qū)分虎斑貓和山貓。這種策略極其成功,但同時也存在嚴重的缺陷。
這種“監(jiān)督式”訓練需要人工標記數(shù)據(jù),極為費力,而神經(jīng)網(wǎng)絡通常會走捷徑,學會將這些標記與最少的信息相關(guān)聯(lián),而這些信息有時只是表象。例如,神經(jīng)網(wǎng)絡可能會根據(jù)是否有草來識別奶牛的照片,因為在拍攝時,通常會讓奶牛待在田野中。
加州大學伯克利分校的計算機科學家阿列克謝·埃夫羅斯(Alexei Efros)介紹說:“我們正在培養(yǎng)新一代算法。它們就像整個學期都沒有上課的大學本科生,然后在期末考試前一晚臨時抱佛腳。他們并沒有學習這些資料,但也可以在考試中取得好成績。”
此外,對于關(guān)注動物與機器智能交叉領域的研究人員來說,這種“監(jiān)督學習”在揭示生物大腦工作原理方面可能會受到限制。包括人類在內(nèi)的動物并不是通過標記數(shù)據(jù)集進行學習。在大多數(shù)情況下,他們會自己探索環(huán)境,進而全面、深刻地了解世界。
目前,一些計算神經(jīng)科學家已經(jīng)開始使用含有少量甚至沒有人工標記的數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡。這些“自監(jiān)督學習”算法在建模人類語言以及識別圖像方面已經(jīng)頗具成效。在最近的研究中,與監(jiān)督學習得到的模型相比,使用自監(jiān)督學習算法構(gòu)建的哺乳動物視覺和聽覺系統(tǒng)的計算模型更接近大腦功能。在一些神經(jīng)科學家看來,人工網(wǎng)絡似乎開始展現(xiàn)人類大腦實際使用的一些學習方法。
大約在10年前,受人工神經(jīng)網(wǎng)絡啟發(fā)而構(gòu)建的大腦模型就已經(jīng)成熟。與此同時,一個名為AlexNet的神經(jīng)網(wǎng)絡徹底改變了未知圖像的分類任務。與所有神經(jīng)網(wǎng)絡一樣,該網(wǎng)絡由多層人工神經(jīng)元構(gòu)成。這些計算單元相互連接,但強度或“權(quán)重”可以有所不同。如果神經(jīng)網(wǎng)絡無法正確對圖像進行分類,學習算法就會更新神經(jīng)元之間連接的權(quán)重,以降低下一輪訓練中出現(xiàn)錯誤分類的概率。該算法對所有的訓練圖像多次重復這一過程,并調(diào)整權(quán)重,直到網(wǎng)絡的錯誤率低至可接受水平。

加州大學伯克利分校的計算機科學家阿列克謝·埃夫羅斯認為,大多數(shù)現(xiàn)代人工智能系統(tǒng)都過于依賴人類創(chuàng)造的標簽,它們并沒有真正地學習
與此同時,神經(jīng)科學家使用AlexNet及其衍生網(wǎng)絡等神經(jīng)網(wǎng)絡,開發(fā)了靈長類視覺系統(tǒng)的第一個計算模型。這種結(jié)合看起來前景光明。例如,當猴子和人工神經(jīng)網(wǎng)絡看到相同的圖像時,真實神經(jīng)元和人工神經(jīng)元的活動表現(xiàn)出有趣的對應關(guān)系。檢測聽力和氣味的人工模型也隨之出現(xiàn)。
但隨著該領域的發(fā)展,研究人員意識到了監(jiān)督式訓練的局限性。例如,2017年,當時任職于德國圖賓根大學的計算機科學家萊昂·蓋蒂斯(Leon Gatys)和他的同事拍攝了一張福特T型車的照片,然后在照片上覆蓋豹皮圖案,生成了一張奇異但易于辨認的圖像。一個行業(yè)領先的人工神經(jīng)網(wǎng)絡正確地將原始圖像分類為福特T型車,但將修改后的圖像視為豹子。它專注于紋理,對汽車(或豹子)的形狀卻一無所知。
自監(jiān)督學習策略旨在避免這些問題。通過這種方法,人類不用給數(shù)據(jù)貼上標簽。“標簽來自數(shù)據(jù)本身。”瑞士巴塞爾弗里德里希·米舍爾生物醫(yī)學研究所的計算神經(jīng)科學家弗里德曼·岑克(Friedemann Zenke)介紹道。自監(jiān)督算法本質(zhì)上是在數(shù)據(jù)中制造空白,然后讓神經(jīng)網(wǎng)絡填補空白。例如,在一個所謂的大型語言模型中,訓練算法會向神經(jīng)網(wǎng)絡展示句子的前幾個單詞,并要求它預測下一個單詞。當使用從互聯(lián)網(wǎng)上收集的大量文本語料庫進行訓練時,模型似乎學會了語言的句法結(jié)構(gòu),并展現(xiàn)出極其出色的語言能力——所有這些都沒有施加外部標簽或監(jiān)督。
計算機視覺領域也正在開展類似的研究。2021年底,臉書的人工智能實驗室研究科學家何凱明和他的同事展示了他們的“掩碼自動編碼器”。該編碼器以埃夫羅斯團隊在2016年開創(chuàng)的技術(shù)為基礎。這種自監(jiān)督學習算法隨機對每張圖像的近四分之三使用掩碼。掩碼自動編碼器將未使用掩碼的部分轉(zhuǎn)換為隱層表示——包含關(guān)于物體重要信息的壓縮式數(shù)學描述。(就圖像而言,隱層表示可能是捕捉圖像中物體形狀等信息的數(shù)學描述。)之后,解碼器將這些表述重新轉(zhuǎn)換成完整的圖像。
自監(jiān)督學習算法對編碼器和解碼器組合進行訓練,以將掩碼圖像恢復為完整圖像。真實圖像和重構(gòu)圖像之間的任何差異都會反饋到系統(tǒng)中,以幫助系統(tǒng)學習。該過程對一組訓練圖像重復進行,直到系統(tǒng)的錯誤率降至合理程度。例如,當一個經(jīng)過訓練的掩碼自動編碼器碰到一張之前沒見過、幾乎80%的圖像使用掩碼的公共汽車圖像時,該系統(tǒng)成功地重構(gòu)了該公共汽車的結(jié)構(gòu)。
“這一結(jié)果令人印象深刻。”埃夫羅斯說。
相比起先前的算法,此類系統(tǒng)創(chuàng)建的隱層表示包含更深層信息。例如,該系統(tǒng)可以學習汽車或豹子的形狀,而不僅僅是它們的圖案。埃弗羅斯說:“從下至上構(gòu)建知識,正是自監(jiān)督學習的基本理念。”再也不用為了通過考試而臨時抱佛腳。
這類系統(tǒng)讓一些神經(jīng)科學家想到了人腦的學習方式。加拿大麥吉爾大學和魁北克人工智能研究所的計算神經(jīng)科學家布萊克·理查茲(Blake Richards)表示:“毫無疑問,大腦90%的學習活動都是自監(jiān)督學習。”人們認為,生物大腦一直在不斷做出預測,如一個移動物體接下來的位置,或者句子中的下一個單詞,就像自監(jiān)督學習算法試圖預測圖像或文本片段中的空白一樣。大腦也會從自己的錯誤中學習——在大腦的反饋中,只有一小部分來自外部,其他基本上都是“錯誤答案”。
例如,參考人類和其他靈長類動物的視覺系統(tǒng)。所有動物感覺系統(tǒng)得到了最充分的研究,但神經(jīng)科學家一直在努力解釋為什么它們包含兩個獨立的通路:用于識別物體和面部的腹側(cè)視覺流和處理運動的背側(cè)視覺流。

計算神經(jīng)科學家布萊克·理查茲幫助創(chuàng)造了一種人工智能,可以模仿活體大腦中的視覺網(wǎng)絡
理查茲和他的團隊創(chuàng)建了一個自監(jiān)督模型來尋求答案。他們訓練了一種結(jié)合兩種不同神經(jīng)網(wǎng)絡的算法:第一種稱為ResNet架構(gòu),用于處理圖像;第二種稱為回饋式架構(gòu),它可以跟蹤一系列先前的輸入,從而對下一個預期的輸入做出預測。為了訓練聯(lián)合人工智能,該團隊從一個序列開始,例如從一個視頻中的10幀畫面開始,讓ResNet逐一對其進行處理。然后,回饋式架構(gòu)預測第11幀畫面的潛在表示,而不是簡單地匹配前10幀畫面。自監(jiān)督學習算法將預測值與實際值進行比較,并指導神經(jīng)網(wǎng)絡更新其權(quán)重,使預測更加準確、合理。
理查茲團隊發(fā)現(xiàn),使用單一ResNet訓練的人工智能擅長識別物體,但不擅長運動分類。當他們將一個ResNet拆分為兩個,在不改變神經(jīng)元總數(shù)的情況下創(chuàng)建兩條通路時,人工智能將其中一個用于識別物體,另一個用于運動分類,從而能夠像我們的大腦一樣對這些屬性進行下游分類。
為了進一步測試人工智能,該團隊向其展示了一組西雅圖艾倫腦科學研究所的研究人員此前曾給小鼠播放的視頻。和靈長類動物一樣,小鼠的大腦也有專門處理靜態(tài)圖像和運動的區(qū)域。艾倫的研究人員記錄了小鼠觀看視頻時視覺皮層的神經(jīng)活動。
同樣,理查茲團隊也發(fā)現(xiàn)了人工智能和活體大腦對視頻的反應方式具有相似之處。在訓練過程中,人工神經(jīng)網(wǎng)絡中的一條通路變得更類似于老鼠大腦內(nèi)檢測物體的腹側(cè)區(qū)域,而另一條通路則變得類似于專注運動的背側(cè)區(qū)域。
據(jù)理查茲介紹,研究結(jié)果表明,只有一條通路是不夠的,因此我們的視覺系統(tǒng)有兩條專門的有助于預測視覺的未來的通路。
人類聽覺系統(tǒng)的模型與此相似。2022年6月,由Meta AI研究員讓-雷米·金(Jean-Rémi King)領導的團隊訓練了名為Wav2Vec 2.0的人工智能。該人工智能使用神經(jīng)網(wǎng)絡將音頻轉(zhuǎn)換為隱層表示。研究人員隱藏了其中的一些表示,然后將其輸入到另一個被稱為轉(zhuǎn)換器的組件神經(jīng)網(wǎng)絡中。在訓練過程中,轉(zhuǎn)換器預測被隱藏的信息。在這個過程中,該人工智能學會了將聲音轉(zhuǎn)化為隱層表示——不需要標簽。金介紹說:“團隊使用了大約600小時的語音數(shù)據(jù)來訓練網(wǎng)絡,這大約相當于一個孩童在最初兩年接收的語音信息量。”
該系統(tǒng)完成訓練后,研究人員就用英語、法語和普通話給它播放有聲讀物中的部分內(nèi)容。然后,研究人員將人工智能的性能與來自412人的語音數(shù)據(jù)進行了比較。這些人由上述三種語言之一為母語的人組成。在他們聽取同一段音頻的同時,用功能性磁共振成像掃描儀對他們的大腦進行成像。金說,盡管功能性核磁共振成像圖像有干擾信息而且分辨率低,但神經(jīng)網(wǎng)絡和人腦不僅相互關(guān)聯(lián),而且以系統(tǒng)的方式相互關(guān)聯(lián):人工智能早期層的活動與初級聽覺皮層的活動一致,而人工智能最深層的活動與大腦中較高層(即前額葉皮層)的活動一致。“這些數(shù)據(jù)真的很漂亮,”理查茲說,“雖然它們不具有決定性作用,但這是一個令人信服的證據(jù)。它們表明,我們在學習語言時,很大程度上是通過預測接下來要說的話實現(xiàn)的。”

讓-雷米·金幫助訓練了一種人工智能,它可以模擬大腦對音頻進行加工—部分是通過預測接下來會說什么
這種說法并不能讓每個人都信服。美國麻省理工學院計算神經(jīng)學家喬希·麥克德莫特(Josh McDermott)利用監(jiān)督學習和自監(jiān)督學習對視覺和聽覺感知模型進行了研究。他的實驗室設計了一種合成音頻和視頻信號(他稱之為“metamers”)。對人類而言,這些信號只是難以理解的噪音。但對于人工神經(jīng)網(wǎng)絡來說,它們與真實信號幾乎沒有差異。這表明,即使是自監(jiān)督學習,神經(jīng)網(wǎng)絡深層形成的表示也與我們大腦中的表示不相匹配。麥克德莫特說,這些自監(jiān)督學習方法“在某種意義上是一種進步,因為你不需要任何標記就可以學習支持多種識別行為的表示。不過,這種方法仍然存在許多監(jiān)督模型的缺陷”。
該算法本身也有很多需要改進的地方。例如,在Meta AI的Wav2Vec 2.0中,人工智能只能預測幾十毫秒聲音的隱層表示,這比發(fā)出能夠在感知上區(qū)分的噪聲所需的時間還短,更不用說一個單詞了。金說:“要想讓人工智能像大腦一樣工作,依然任重而道遠。”
要想真正了解大腦功能,需要的不僅僅是自監(jiān)督學習。一方面,大腦充滿了反饋連接,而目前的模型幾乎沒有這種連接。顯而易見,研究工作的下一步是使用自監(jiān)督學習來訓練高度循環(huán)的網(wǎng)絡——這是一個艱難的過程。此外,還要觀察這類網(wǎng)絡中的活動與真實的大腦活動有多大的可比性。另一個關(guān)鍵步驟是將自監(jiān)督學習模型中的人工神經(jīng)元的活動與單個生物神經(jīng)元的活動相匹配。金表示:“將來,我們的研究結(jié)果也有望通過單細胞記錄得到證實。”
如果大腦與自監(jiān)督學習模型之間被觀察到的相似之處同樣適用于其他感官,那么這將更有力地表明,無論我們的大腦有什么魔力,都需要某種形式的自監(jiān)督學習。金說:“如果我們能在截然不同的系統(tǒng)之間找到系統(tǒng)上的相似之處,那就意味著也許沒有那么多方法能夠以智能的方式加工信息。至少,這正是我們想要尋根究底的一種美好假設。”
資料來源 Quanta Magazine