摘 ?要:本文論述AI目前的智能水平,及AI智能的正確研究思路和方向。
關鍵詞:AI智能;智能感知;智能認知;智能決策
近幾年AI圈熱鬧非凡,各種新聞令人眼花繚亂。但冷靜下來想想,圖像識別是個黑盒子,自動駕駛常出事故,重大災難發生時機器人救援效果不佳,萬眾期待的AI智能遲遲不撩開面紗。那么AI什么時候能擁有智能,并且這種智能是我們人類可以理解,可以相信的呢?
在此描述一下AI智能的正確打開方式,首先從計算機視覺開始討論。實驗心理學家赤瑞特拉做過心理實驗證實:人類獲取的信息83%來自視覺,11%來自聽覺,這兩個加起來就有94%。其它途徑是嗅覺、觸覺和味覺。在人工智能領域,計算機視覺的重要性不言而喻。
現在主流的卷積神經網絡,從AlexNet,GoogLeNet,ResNet,到DenseNet,不停變化的神經網絡結構,不管有多復雜,整體來看其實只有兩層:各個神經元之間的回歸函數層,及最后的分類層。回歸函數層起到的作用是提取不同層次的特征,最后由分類函數進行相似度計算,得出分類結果。由于提取特征的過程不透明,不可解釋,與人類的思考方式不一致,自然就不容易相信。
我們人類觀察一個物體或一張圖片,歷史的經驗會起到很重要的參考作用,而對于沒有見過的物體通過想象來推理其用處。這是一種學習和推理能力,是智能的一部分,而神經網絡顯然不是這樣的工作方式。
例如看到一張從未見過的貓的圖片,我們是從有皮毛的動物,有四肢,有尾巴,臉部形狀等來推測。那么AI能不能用類似的方法呢?答案是可以的,已經有團隊在嘗試。具體請參考[1802.00121] Interpreting CNNs via Decision Trees。
智能的整體架構
對于AI智能,僅僅擁有可解釋的觀察能力是不夠的。整體的AI智能架構包括七層,分別是初始任務、知識和常識、感知和認知、學習人類的價值函數、決策機制、頭腦和語言。我們一層一層來解釋。
初始任務
初始任務就是AI智能努力的目標。以自然界的一只小松鼠為例,首先要解決的是活下來,要有食物,不要被其它天敵吃掉,長大成熟后找到配偶,撫育下一代,這些就是小松鼠的初始任務。那么一個智能機器人的初始任務可以是家務機器人,可以是運動陪伴機器人,可以是溺水救援機器人等等。這是智能的起點。
知識和常識
常識就是我們在這個世界和社會生存的最基本的知識。它使用頻率最高,并且它可以舉一反三,推導出并且幫助獲取其它知識。包括社會常識和物理常識/視覺常識,例如房間內的物體可以是被地板支撐,可以掛在墻上,可以吊在頂棚等。
感知和認知
在AI智能領域,研究最多的就是智能識別和感知。與當前CV領域三大基本能力不同,智能感知并不是從目標識別、目標定位和目標分割三方面去努力,而是選擇了完全不同的道路。
AI智能要做的第一步是二維圖像的三維重建,而且是基于單張二維圖像的三維重建。這在數學上很難做到,因為三維重建需要雙視角的信息輸入。但是我們人類有這種能力,看到一張照片就能在腦海里進行三維還原,基本原理就是我們知道每件物品在現實社會里的大小。例如門高80英寸,椅子和小腿高度一樣,約16英寸等。
3D重建完成后,對于每一個物品的識別,并不是依賴大量標注好的圖片訓練,而是從人類視角,推測這個物品我們如何使用。如果可以存放物品,并且高度是人眼的高度,形狀是立方體,那就是壁櫥。如果從力學角度人坐上去會感覺舒服,那就是椅子,以此類推,而不是簡單貼上標簽。
識別物體之后,還要理解物體的擺放是否合理和安全。這會影響之后的動作決策。
對于各種容器內的物體或液體,要根據人類的動作和容器的狀態進行推理。如果在倒水,那壺里一定是有水的。這里漸漸能看到智能的影子。
對于各種可見不可見的物體識別完之后,如果圖像里有人或動物,就可以觀察他/她/它在關注什么,知道什么,喜歡什么,猜測之后可能的動作是什么。
上面是對單張圖片的感知內容。如果是視頻,可以了解更多的信息。
學習人類的價值函數
在一定時間的觀察之后,可以得到被觀察者做事方式的價值函數,例如喜歡喝啤酒還是飲料?喜歡多互動還是少打擾?喜歡每天掃地一次還是只要有臟東西就要清理?等等。
決策機制
了解了各種物體,了解了被觀察者的喜好,為了達成初始任務,AI智能體就能決定自己的具體任務鏈,例如去開門,去拿啤酒,去打開電視等等。隨著仿生機器人的快速發展,已經可以完美寫成這些動作。
頭腦
為了更好地完成任務,AI智能體需要理解被觀察者知道什么,正在做什么,打算做什么等等。還要清楚對方知道什么,對方知道自己知道什么,雙方共同知道什么,這是溝通和決定下一步行動的基礎。在這個過程中,需要進行溝通,而語言是溝通的一種主要方式。
語言
人類用語言溝通的基礎是要完成共同的任務,所以語言是任務驅動的。通過觀察和認知,了解這個世界,并且知道自己能做什么,就可以對具體任務進行溝通。這是基于理解的語言,而不是為了說而說。現在自然語言處理領域基本上是從語言開始,到語言結束,與現實社會脫節,成為無源之水。
總結
上面說明的智能,并不是紙上談兵,已經有很多國際團隊在2010年之在致力于AI智能體的實現。電影中描繪的強人工智能離我們還很遙遠,但是通用人工智能(Artificial General Intelligence,AGI)時代已經來臨!
在通用人工智能時代,計算機視覺、自然語言處理、機器學習都是融為一體的,這個融合劑就是感知(Recognition)和認知(Congnition),或者叫做理解和推理。
讓我們擁抱這個時代!
參考文獻
[1] ?M. S. Arulampalam,S. Maskell,N. Gordon,and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP,50(2):174–188,2002.
[2] ?A. Belardinelli,O. Herbort,and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search,106:47–57,2015.
[3] ?A. Borji,D. N.Sihite,and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR,pages 470–477,2012.
[4] ?A. Borji,D. N. Sihite,and L. Itti. What/where to look next? modeling top-down visual attention in complex interactive environments. IEEE TSMCS.,44(5):523–538,2014.
作者簡介:王悅林(1973.2—),男,漢族,黑龍江人,本科生,現任職于聯想數據智能事務部,研究方向是人工智能。