劉有婷
當下哪些科技最火?毫無疑問,人工智能技術名列前茅。提起人工智能,人們總能想起它帶來的便利,比如智慧醫療、無人駕駛、人臉識別等。盡管人工智能在市面上的應用如火如荼,但是中國科學院自動化研究所副研究員張煦堯表示,從研究的角度來看,這門技術仍有很多問題有待解決。
其中,人工智能系統不夠魯棒是阻止這門技術進一步大規模應用的主要原因之一,而如何打造更加魯棒的智能系統,就是張煦堯的主要研究內容。涉足人工智能領域多年,他在模式識別,機器學習,以及深度學習等方面做出了一系列有影響力的成果,已在相關頂級期刊和會議上發表論文70余篇。
對張煦堯來說,人工智能領域就像一座初見光芒的寶藏,他致力于在其中發現更多的“財富”。
自1956年夏,麥卡錫、明斯基等科學家首次提出“人工智能”這一概念以來,相關的科學技術迅速發展起來,并越來越多地應用到人們的生活當中。尤其是以深度學習為代表的人工智能技術,取得了巨大的成就。然而,人工智能系統卻并不完美,因為它既不夠魯棒,也不夠可靠。
人工智能經過60多年的發展,為什么還不足夠魯棒?這就要從人工智能領域發展基于的三個假設說起。
第一個假設是封閉世界假設。張煦堯簡單解釋道:“世界是開放的,因為它有無數不同的事物。但是人工智能的世界是封閉的,你教給它一樣東西,它就認為整個世界就只有這樣東西。比如,阿爾法狗會下圍棋,但是它不會做其他事情。”人的學習是一個“主動的”增量學習過程,但機器的學習卻是“被動的”批量學習過程。正是由于封閉世界假設,導致機器在面對開放環境中的新類別數據以及噪音數據時往往會出現過于自信的明顯錯誤。
第二個假設是獨立同分布假設,即人工智能訓練的環境和測試的環境是獨立同分布的。舉例來說,語音識別的機器在訓練時接收的是普通話,但是有人對著它說廣東話,它就無法識別或識別率低下。這就是導致人工智能不夠魯棒的第二個因素。現實世界中的很多數據不是獨立的,充分利用非獨立數據的上下文關系如語言上下文和幾何上下文,可以顯著提升識別的準確率。此外,在非獨立同分布情形下,通過自適應以及多模態和多任務學習,也可有效提升魯棒性。
第三個假設是大數據假設。張煦堯表示,人工智能之所以這么強大是因為其背后有大數據的支撐。如果想要實現某一個功能,一般的做法就是采集大量相關數據,然后對數據做精準的標注。但在實際應用中,這兩者是相矛盾的。“如果想要利用大數據,就避免不了噪音數據的出現。”因為在海量的數據中,不可能保證每一個數據都是高質量的。為克服這一問題,人工智能系統需要具備數據的容錯學習能力,以及小樣本和弱監督學習能力。

張煦堯在蒙特利爾大學訪問期間留影
“只有打破這三個假設,才能實現更加魯棒的人工智能應用。”為了克服這三個假設的局限性,學術界一直在探索新的模型和新的算法,涌現出大量研究成果和學術論文。近期,張煦堯有關“三個假設”的研究論文“Towards Robust Pattern Recognition: A Review”以綜述的形式發表在國際期刊Proceedings of the IEEE上。
進入21世紀后,人們對于人工智能的關注大多聚焦在其應用上,但是張煦堯認為,人工智能的長遠發展一定要突破基礎研究中的問題。2008年,張煦堯從武漢大學畢業以后,進入中國科學院自動化研究所跟隨模式識別國家重點實驗室主任劉成林研究員攻讀博士學位。劉成林研究員深厚的學術功底和嚴謹的學術態度對張煦堯產生了深遠的影響,同時張煦堯本科時期學習的是計算數學專業,這為他之后的研究工作打下了堅實的基礎。
張煦堯的博士論文從大類別集和非獨立同分布角度出發,對模式分類中的維數削減、分類器設計及分類器自適應等重要問題進行了深入研究。所取得的關鍵成果發表在人工智能頂級期刊和會議上,在國際上取得了較好影響,并被TPAMI選為該刊2013年7月的焦點論文。此外,中國計算機學會(CCF)獎勵委員會還授予他2014年度“CCF優秀博士學位論文獎”。
博士前期,張煦堯的科研工作經歷了一段瓶頸期。因為沒有成果產出,他曾一度處于低落、迷茫的狀態中。為了使自己盡快從迷茫中脫身,張煦堯前往加拿大模式識別與機器智能中心訪問學習,跟隨加拿大皇家科學院院士Ching Y.Suen教授學習模式識別的相關知識。2015年,已經在人工智能領域小有成績的張煦堯又前往深度學習發源地蒙特利爾大學進行訪問研究。
在蒙特利爾大學,張煦堯認識了深度學習三巨頭之一,也就是2018年圖靈獎獲得者Yoshua Bengio教授。經過一年的學習和研究后,張煦堯取得了很大的收獲,并與Yoshua Bengio教授合作發表了三篇與深度學習相關的成果論文。
說起Yoshua Bengio教授,張煦堯語氣中有著藏不住的仰慕之情。他說,深度學習三巨頭之所以在這一領域能夠取得這么大成就,是因為他們十分注重基礎平臺的搭建以及基礎理論研究工作。在其他人還不看好深度學習的時候,他們就一直在持續地研究和探索,并向學術界開源其深度學習平臺,如早期的Theano平臺等。無論神經網絡研究經歷了怎樣的起落,他們都一直在堅持。可以說,他們是從無到有地推動了深度學習的發展。
雖然跟隨國際熱點進行“超車”十分重要,但是中國要想實現科技強國的目標,還要重視原始創新的研究。用張煦堯的話來說,既能夠“從1做到100”,也能“從0做到1”。他的研究工作就是一個“從0到1”的過程,進入一個“無人區”,其起步必定艱難。所幸,張煦堯獲得了中國科學院基礎前沿科學研究計劃從0到1原始創新項目的支持,以及中國科協青年人才托舉工程的支持。
最近,中國科學院開始籌建人工智能創新研究院,并成立了“2035創新任務團隊”,張煦堯入選了自主進化智能基礎理論團隊。目前,在項目和團隊的支持下,他的研究工作正在順利進行當中,但是他表示,研究真正想要取得大的突破,樂觀估計,還需扎扎實實地坐好幾年冷板凳。
如今,人工智能應用無處不在,但是它不能憑空創造需求,而是必須依附于各個已有的產品,為用戶提供更好的體驗。所以從一定角度來看,人工智能技術的應用大多是錦上添花,而不是雪中送炭。
在一些關鍵領域,由于人工智能不夠魯棒和不夠可靠,很可能造成這一領域的巨大風險,如在無人駕駛、金融、醫療等領域。張煦堯生動地形容道:“人工智能有個很大的缺點,那就是它明明錯了,卻還十分自信。”因此置信度估計是提高智能系統魯棒性的有效途徑之一。張煦堯以無人駕駛汽車為例介紹說:“當一輛無人駕駛汽車要轉彎時,如果它的置信度是0.999,那它就直接轉彎了。但是,當它的置信度只有0.1時,它的識別不是很可靠,這時就需要人為的干涉來避免風險。”另外,當人工智能的應用環境、條件、數據規模、數據質量發生變化時,如何能依舊保證較高的準確率,也是智能系統獲得普適應用所面臨的挑戰。

在中國科學院大學授課
對于人工智能威脅論,張煦堯認為談這些為時過早。在他看來,人工智能與人的智能有著本質不同,最顯著的是,人有“自知之明”,而人工智能卻沒有,這也是造成它不夠魯棒的根本所在。所以,我們所看到的人工智能應用大多是錦上添花。未來,張煦堯希望可以真正觸及人工智能的技術痛點,實現這門技術雪中送炭的作用。
研究工作之余,張煦堯還指導了多名博士研究生和碩士研究生。他在中國科學院大學參與教授的“模式識別”“深度學習”等多門課程,受到了同學們的廣泛歡迎,并獲得2019年中國科學院大學校級研究生優秀課程。
作為新時代的青年教師,張煦堯在教育上有著自己的見解,他常常告訴學生們,要有質疑精神。在他看來,科研就是一個新舊結合、新舊博弈、新舊更替的過程,只有敢于質疑,才能衍生出新的方向,才能真正推動科技的發展。