蔡立英/編譯
?
Facebook人造大腦背后的人
蔡立英/編譯

揚·勒坎,紐約大學計算機科學教授,Facebook人工智能科學首任總監。他試圖構建對圖像和文字具有高級理解力的人工神經網絡:能理解一張圖片或一個故事中有什么內容,是如何構成的,以及下一步可能會發生什么
● 在《新科學家》雜志記者阿維娃·魯特金(Aviva Rutkin)對揚·勒坎(Yann LeCun)的采訪中,這位Facebook人工智能總監指出:如果電腦學會人類常識,人工智能將給我們的生活帶來真正沖擊。
阿維娃·魯特金:您正在嘗試讓基于神經網絡的人工智能變得更聰明,面臨哪些大的挑戰?
揚·勒坎:面臨的大挑戰是無監督學習(unsupervised learning),即機器僅僅通過觀察世界就獲得常識的能力,對此我們還沒有算法。
阿維娃·魯特金:為什么人工智能研究人員關注常識和無監督學習?
揚·勒坎:因為這種學習方式是人類和動物最常用的,我們人類的所有學習幾乎都是無監督學習。我們通過觀察和體驗來學習世界是如何運轉的,而無需他人告訴我們每個事物的名字。那么,我們如何讓機器像動物和人類一樣以一種無監督的方式學習呢?
阿維娃·魯特金:2015年 11月,Facebook展示了一個人工智能系統,能回答一幅圖中發生什么故事這樣的簡單問題,這是通過人類提供解釋性意見訓練的嗎?
揚·勒坎:這個系統結合了人類的注釋以及人工產生的問題和答案,圖中已有所含物體的列表或相關說明。從這些內容中,我們能產生關于圖中物體的相關問題和答案,然后訓練人工智能系統在提問時使用答案。
阿維娃·魯特金:是否有某些類型的問題會讓您的人工智能系統有所困惑?
揚·勒坎:有,如果你問的是概念性的東西,那么人工智能系統將不能很好回答,因為它受訓的是特定類型的問題,比如關于物體的存在與否,或是物體之間的關系,但是它也有很多事情做不了,還不是一個完善的系統。
阿維娃·魯特金:這個系統能用于自動捕獲圖片嗎?
揚·勒坎:捕獲圖片使用的是一種稍微不同的方法,但是類似。當然,這個功能對于使用Facebook的視障人士會很有用,或是當你正在開車,某人發給你一張圖片,而你不想看手機,這時你就可以問人工智能系統“圖片中有什么?”
目前,人工智能系統只能告訴你這張圖片是什么類型的,是室外還是室內圖片,是否有落日或其他物體。然后,它會列出圖片中已有物體的列表,但并非完整的句子,只是一串單詞。
阿維娃·魯特金:您是說人工智能系統并不知道這些物體之間的關系?
揚·勒坎:是的,所以我們正在實驗室研究的下一代人工智能系統更像是散文 (指能形成連貫語句,而非單純的詞匯列表)。
阿維娃·魯特金:您預見到神經網絡還有哪些其他的潛在用途?
揚·勒坎:在生物學和基因組學領域,可以做很多有趣的研究。比如,加拿大多倫多大學布倫丹·弗雷(Brendan Frey)的研究表明,可以訓練深度學習系統模擬生化儀器,讀取DNA、合成蛋白質。使用深度學習系統,可以推斷出基因組多種變化和特殊疾病之間的關系,這些疾病非單個基因突變所引起,卻可能由多種因素所導致。因為有這種有力的工具,醫學領域將取得很多進步。
阿維娃·魯特金:是否存在深度學習和您的圖像闡釋系統無法解決的問題?
揚·勒坎:確實存在我們目前無法解決的問題,但是誰知道我們將來就不能解決?比如,倘若10年前你問我,“做人臉識別,我應該使用卷積網絡(一種人工神經網絡)還是深度學習”,我原本可能會回答神經網絡做不了人臉識別,但實際上它做得很好。
阿維娃·魯特金:您那時為什么認為神經網絡做不了人臉識別?
揚·勒坎:那時,神經網絡的確很擅長識別一般類別的物體,比如小轎車或是椅子,神經網絡擅長分離提取“椅子形狀”或“小轎車形狀”的物體,而不管物體是什么特定類型或處于什么姿勢。但是,對于識別某個種類的鳥、狗或是植物、面孔,你需要細粒度識別(fine-grained recognition),因為你可能有成千上萬甚至數百萬個類別,而不同類別之間的差別是非常細微的。
我本來以為深度學習不是細粒度識別的最好方法,以為有其他方法能做得更好,結果我錯了。我低估了我們自己技術的能力,有很多事情我可能認為現在很困難,不過一旦技術獲得擴展,將來就能做到。
阿維娃·魯特金:Facebook最近推出了一款測試,給一臺電腦《指環王》中的一段文字,然后提出相關問題讓它回答,這是Facebook給機器設計的新智能測試的例子嗎?
揚·勒坎:這是以前研究工作的后續,使用了相同的基礎技術。這款測試的研究團隊提出了機器應該能回答出來的問題。給出一個故事,回答這個故事的相關問題。一些問題只不過是簡單的事實。如果我說“阿里拿起他的手機”然后問“阿里的手機在哪里?”人工智能系統應該回答“手機在阿里的手里”。
但是,如果是一個人物到處移動的完整故事呢?我可以問,“那兩個人在相同的地方嗎?”你得知道物理世界是什么樣的才能回答出這些問題。
要回答諸如“現在房間里有幾個人?”的問題,你就得記得有幾個人進入房間,就需要推理。
阿維娃·魯特金:我們需要先教會機器常識,才能讓它們預測未來嗎?
揚·勒坎:不,我們可以同時教。如果我們能訓練人工智能系統預測未來,它就能通過預測推斷出它看到的這個世界的結構。體現這一點的有一種很酷的神經網絡叫做Eyescream,能產生看起來比較自然的圖像。你可以讓它畫一架飛機或是一座教堂,而且對已經訓練的事物,它能生成看起來可信的圖像。能夠生成圖像,這是難題的一部分。如果你想預測視頻中接下來會發生什么,你就必須先有一個能生成圖像的模型。
阿維娃·魯特金:一個模型能預測什么類型的事物?
揚·勒坎:如果你把一個視頻展示給一個人工智能系統,然后問它,“視頻的下一幀看起來會是什么樣的?”其實這個問題并沒有那么復雜。移動物體很可能沿著原來的方向繼續移動。但是,如果你問這個視頻1秒之后看起來是什么樣的,可能會發生很多不能預測的事情。所以,人工智能系統需要經過困難的時間來做出很好的預測。
如果你正在看一部希區柯克的電影,我問你“15分鐘后,電影的劇情將會如何發展?”你就必須推斷出誰是兇手。要完全解決這個問題就需要深入了解世界和人性,正是這一點很有趣。
阿維娃·魯特金:5年后,深度學習將會如何改變我們的生活?
揚·勒坎:我們正在探索的一個想法是個人數字管家。在Facebook,我們把該研究稱為“M項目”(Project M)。個人數字管家是M項目的長遠科幻版,就像科幻電影《她》(Her)描繪的那樣。
[資料來源:New Scientist][責任編輯:岳 峰]