何寶宏
即使將來AI會超越人類智能,也至少不會基于這一代的計算機技術和理論,或許會是基于量子計算
人工智能(AI)的基本假設是“認知即計算”。但目前對認知本質的理解不同發展出了多個學派,典型的如基于數理邏輯的符號學派、模仿生物行為特征的行為主義學派,以及模仿生物神經網絡的連接學派。
60多年來,AI已多次起伏。本輪興起的主因是硬件能力的飛躍、數據的海量增長和算法的明顯改進,尤其是神經網絡(更準確地說是深度學習)在計算機視覺和自然語言識別方面取得了突破。當然,云計算、開源運動和摩爾定律,也起到了至關重要的推動作用。
但目前基于深度學習的AI技術還存在諸多限制。例如,算法還是個黑盒子,無法做因果解釋,調參數主要還是靠運氣。另外,機器學習的訓練是個吞噬算力的“算老虎”。第三,數據透明性不夠,誘導性或對抗性數據容易改變學習的結果等。這些都導致目前的AI技術還無法與其他學派有機結合起來。
最關鍵的,所有AI的實現都要依靠各類計算機,從PC、服務器到GPU(圖形處理器),它們都是 “圖靈機”的具體實現。但理論上已證明,圖靈機是無法建立起“自我”意識的概念。換言之,即使將來AI會超越人類智能,也至少不會基于這一代的計算機技術和理論,或許會基于量子計算。
起源于60年前的AI理論,建立在“智能的本質是計算”的基本假設上。但因為對智能本質的認知不同,基于計算機如何構造AI已形成了三大學派。
第一個叫符號主義學派。主張智能源于數理邏輯,認為人類的認知和思維的基本單元是符號,認知過程就是對符號的邏輯運算。其代表作是在電視問答競賽中戰勝人類選手的IBM Watson。
第二個叫行為主義學派。主張的基礎是諾伯特·維納的控制論,把關注的焦點從人類轉向了整個生物界的智能(比如昆蟲的個體和群體智能),終極形式是二進制的人工生命。其代表作是麻省理工學院的“六足機器人”。
第三個叫連接主義學派。主張將智能建立在大量簡單的計算單元上,經過復雜連接后,并行運算的結果。這一學派基于神經生物學和認知科學,因為人類大腦就是由1萬億個簡單的神經元細胞,錯綜復雜地連接起來產生的。
神經網絡誕生于上世紀60年代,最初只包括輸入層、隱藏層和輸出層。輸入層和輸出層通常由應用決定,隱含層包含神經元可供訓練。2006年,多倫多大學教授Geoffrey Hinton的團隊在《科學》上發表了一篇文章,提出了深度學習的概念,指出可以用更多隱藏層(比如5層-10層)做算法訓練,因為實驗效果顯著,開啟了學界和產業界AI的新浪潮。
相比傳統的機器學習,深度學習可以讓機器自動習來特征,無需人工事先設定。針對不同的應用場景,傳統機器學習算法需要把軟件代碼重寫一遍,而深度學習只需要調整參數就能改變模型。
深度學習是用數據來做訓練。一般而言,學習的深度越深和廣度越大,需要的數據量就越大,需要的數據種類就越多。當然不能一概而論,也不是數據越多越好,可能會出現“過度訓練”。
深度學習的訓練分兩種。一種是有監督的,就是人工為數據加了標簽,這種方法的缺點是,現實世界中被打了標簽的數據太少了。另外一種是無監督的,只有數據沒有人工的標簽,計算機不知道正確答案就可以訓練。
AI的新算法和新數據,都以大幅增加對計算資源的消耗為前提。業界找到的新動力,或者說新的計算資源,就是GPU(圖形處理單元)。
60多年來AI市場規模一直很小,內部幫派林立,支撐不起AI專用芯片的市場。因此早期的機器學習,只能基于廉價而廣泛存在的CPU提供計算資源,或者極少數情況下用昂貴的專用芯片。
GPU誕生于上世紀90年代,設計專用于高并發計算、大量浮點計算和矩陣計算能力的視頻游戲和圖形渲染等應用,即計算密集型應用。深度學習正好就是計算密集型的。大約在2008年-2012年,業界逐步摸索到了,如何將深度學習與GPU有機結合起來的工程方法,直接將深度學習的速度加速了數百倍,讓產業界看到了把AI實用化的希望。
當然GPU可能也還是太通用了,于是更加專用的FPGA(Field Programmable Gate Array,現場可編輯陣列)和ASIC(Application Specific Integrated Circuit,專用集成電絡)紛紛登場。谷歌新近發布的TPU(Tensor Processing Unit)芯片,號稱處理速度比CPU和GPU快15倍-30倍,性能功耗比高出約30倍-80倍,當然是神經網絡專用場景。
摩爾定律說,同樣成本每隔18個月晶體管數量會翻倍,反過來同樣數量晶體管成本會減半。近年來摩爾定律雖然有所減速,但仍然是CPU、GPU和TPU等快速發展的基礎。
云計算也是AI發展的堅實基礎。產業界云計算“大佬”紛紛推出“GPU/FPGA/算法/數據as a Service”業務,可以通過云端直接租用資源,方便用戶做深度學習。
近十年來,不僅是軟件定義世界,而且是開源軟件定義世界。如果說2017年AI技術最大的變化是專用硬件的設計潮,那么2016年AI技術的最大變化則是巨頭們紛紛開源了深度學習框架,比如Facebook的Torch和Caffe,谷歌的Tensorflow,亞馬遜的MXnet,微軟的CNTK,IBM的SystemML等。十年前,谷歌開源了Android操作系統,成功打造了智能手機的Android生態。現在,谷歌等紛紛開源AI框架,希望打造“AI優先”時代的新生態,重現往日輝煌。
深度學習的效果取決于網絡結構的設計、訓練數據的質量和訓練方法的合理性等。無論是從統計學還是對智能的基本認知的角度看,這次深度學習牽引的AI產業化浪潮還存在不少局限性。endprint
首先是在算法方面。深度學習目前仍然是黑盒子,缺乏理論指導,對神經網絡內部涌現出的所謂“智能”還不能做出合理解釋;二是事先無法預知學習的效果。為了提高訓練的效果,除了不斷增加網絡深度和節點數量、喂更多數據和增加算力,然后反復調整參數,基本就沒別的招數了;三是調參還像玄學。還沒有總結出一套系統經驗做指導,完全依賴個人經驗,甚至靠碰運氣;四是通用性仍有待提高。目前幾乎所有的機器學習系統都是被訓練執行單一任務,沒有之前任務的記憶。
其次是在計算方面。目前的機器學習基本還是蠻力計算,是吞噬“算力”的巨獸。一是在線實時訓練幾乎不可能,還只能離線進行;二是雖然GPU等并行式計算硬件取得了巨大進步,但算力仍然是性能的巨大瓶頸;三是能夠大幅提高算力的硅芯片,已逼近物理和經濟成本上的極限。摩爾定律已經衰老,計算性能的增長曲線變得不可預測。
第三是在數據方面。一是數據透明度。雖然學習方法是公開透明的,但訓練用的數據集往往是不透明的;二是數據攻擊。輸入數據的細微抖動就可能導致算法的失效,如果在利益方的誘導下發起對抗性樣本攻擊,系統就直接被“洗腦”了;三是監督學習。深度學習需要的海量大數據,需要打上標簽做監督學習,而對實時海量的大數據人工打上標簽幾乎不可能。
第四是與其他學派結合。目前AI取得的進步屬于連接學派,因此在對智能的認知方面,缺乏分析因果關系的邏輯推理能力,還無法理解實體的概念,無法識別關鍵影響因素,不會直接學習知識,不善于解決復雜數學運算,缺乏倫理道德等方面的常識。
到2017年,機器學習的神經網絡已具有數千到數百萬個神經元和數百萬個連接。這樣的復雜度還只相當于一個蠕蟲的大腦,與有1000億神經元和1萬億連接的人類大腦,差了N個數量級。但盡管如此,神經網絡下圍棋的能力已遠高于一只蠕蟲,而一只蠕蟲所具有的自繁衍、捕食和躲避天敵等智能,人工智能都還望塵莫及。
現在,業界只知道深度學習在圖像處理和語音識別等方面表現出色,未來在其他領域也可能有潛在的應用價值,但它究竟做不了什么,如何與邏輯推理等結合起來仍然不清楚。深度學習需要更安全、更透明和更可解釋。
AI的實現時必須依靠計算機,但基于圖靈機的AI在理論上無法超越人類智能,至少不會基于這一代的計算機技術和理論。
(作者為中國信息通信研究院技術與標準研究所副所長,編輯:謝麗容)endprint