謝更好

2018年,興軍亮在瑞典斯德哥爾摩參加國際人工智能聯合大會和國際機器學習大會。
電子游戲從誕生之時起就帶來了各種爭議性的話題,尤其在當今社會,游戲上癮逃學和玩暴力游戲引發暴力行為的報道層出不窮。電子游戲真的是洪水猛獸嗎?也許換個角度,對此會有完全不同的看法。
從早期的西洋跳棋,到近期的圍棋,乃至德州撲克……每一次人工智能在游戲中戰勝人類都會在全社會產生強烈反響。在中國科學院自動化研究所(以下簡稱“中科院自動化所”)研究員興軍亮看來,電子游戲是人工智能研究的最新“測試場”。讓機器打游戲是興軍亮近年來的研究興趣點,他研發的星際爭霸AI曾獲2017年IEEE CIG星際爭霸AI第2名,研發的德州撲克AI勝率超過了2018年國際計算機撲克大賽(ACPC)冠軍程序Slumbot和2017年發表在美國《科學》雜志上的DeepStack方法的開源實現版本,速度較DeepStack提升超過1000倍。這些游戲AI技術不僅可以被應用到游戲產業中,讓游戲內容更有趣、情節更吸引人,甚至在未來更有望應用于個人電子助理、推薦系統、無人駕駛、芯片設計、決策支持等所有需要做出持續決策的領域中,幫助大家解決更多的實際問題,讓生活更美好。
在博士階段和剛進入中科院自動化所工作時,興軍亮所做的工作與游戲其實沒有太大關系。在西安交通大學計算機系本科畢業后,他被保送為清華大學計算機科學與技術系的直博生,開始做計算視覺研究。
讀博對興軍亮是一個轉折,開始做科研后,他發現很多時候不只需要去學習,而且更需要去發現問題和解決問題。周圍不乏優秀的人,又在一定程度上為興軍亮帶來了壓力,尤其是算法在調試了很久無法得到好的結果時,他會變得灰心喪氣。當時導師艾海舟教授給了興軍亮很多支持和鼓勵,同時為了適應這些變化,他自己也在尋找調整的方法,通過運動,通過與別人交流,他的狀態慢慢好起來。
“一定要做頂天立地的研究。”這是導師對興軍亮的要求,所以在博士階段,興軍亮做的工作都是實用性的創新研究。由于當時國內對科研的投入不多,而國外的大公司卻有非常強烈的合作意愿,于是跟隨導師,興軍亮也參與到了和惠普、英特爾、歐姆龍等知名企業的多項合作研究課題中,研究的是與人臉、人體檢測和跟蹤相關的技術,其中很多技術都用到了這些公司的產品中。
不斷思考、轉換思路,在堅持中求變,興軍亮在博士期間進步很大,收獲也很大。他曾獲得清華大學計算機系學術新秀、清華大學綜合一等獎學金、清華大學優秀博士畢業論文、谷歌學者等獎勵和榮譽稱號。因表現出色,2012年博士一畢業,他就順利加入了中科院自動化所模式識別國家重點實驗室。
剛進入胡衛明研究員組里時,興軍亮仍繼續進行計算機視覺相關研究,同時,圍繞互聯網內容安全他也做了很多算法研發。另外,在運動分析、多物體跟蹤上,他做的幾個比較典型的工作也取得很好的結果,組里在多個相關問題的科研水平一直保持在當時的國際前列。
2012年12月至2013年12月在新加坡國立大學的訪學和2015年4月至11月作為“鑄星計劃”訪問教授在微軟亞洲研究院網絡媒體組的科研經歷,又為興軍亮帶來了拓展視野和提升自我的機會。
在新加坡國立大學,與顏水成教授合作,興軍亮不僅解決了一直解決不了的人臉配準問題,而且還做了一套美顏系統。淘寶最早的虛擬換裝應用,用的就是這個技術方案。相關論文“Wow!You Are so Beautiful Today!(哇,你今天真漂亮)”更是獲得了2013年多媒體領域頂級國際會議ACM Multimedia最佳論文獎。
在被稱為中國IT業“黃埔軍校”的微軟亞洲研究院,興軍亮感受到了頂尖科研機構做研究的方法和模式。在寬松的研究氛圍中,大家可以憑借興趣開展任何研究,并進行充分的討論交流。在那里,興軍亮參與完成的一些基于骨架關節點的動作識別研究工作,成為這個問題中的經典論文。由于在那里的良好互動,直至現在,興軍亮仍與微軟亞洲研究院的很多老師保持著密切的合作。
憑借對科研的興趣和堅持不懈的努力,在計算視覺領域深耕,興軍亮取得了一系列不俗的成績。他出版計算機視覺譯著2部;多次帶隊在人臉識別、車輛識別、視頻識別等國際和國內挑戰賽中獲得冠軍;在重要國際期刊如TPAMI、IJCV、AI以及重要國際會議上如AAAI、IJCAI、ICCV、CVPR上發表論文100余篇,谷歌學術引用接近1萬次。
作為項目負責人或核心骨干,他主持或參與了國家自然科學基金、原國家“863”“973”計劃項目等多項重要課題,并與富士通、華為、騰訊等大企業開展了多次合作,研究課題涉及人臉和人體視覺、網絡敏感內容安全和大數據分析應用等多個方向。尤其在“基于區分性模型學習的綜合在線多物體檢測、跟蹤和分割”的課題中,通過一系列高效和魯棒的多物體檢測、跟蹤和分割算法,興軍亮采用區分性學習模型統一去構建智能化視覺監控原型系統,提高了已有視覺監控系統的有效性和實用性,促進了視頻中物體檢測、跟蹤和分割等相關技術的發展。
而針對無約束環境下的人臉識別這個極具挑戰的研究課題,興軍亮以深度神經網絡為基本建模工具和學習框架,提出了無約束人臉識別問題的新型框架和多種模型方法,多次在國際人臉識別技術挑戰賽中獲得冠軍,構建出的高性能可實用的無約束人臉識別系統,又促進了人臉識別相關理論方法的發展,推動了無約束人臉識別算法在實際認證系統中的應用。
目前,興軍亮研發的視覺感知相關技術已在華為、微軟等許多機構得到了多次應用落地和推廣,取得了良好的經濟和社會效益。按理說興軍亮會在計算視覺領域繼續做下去,但在2016年,他卻突然轉變了自己的研究方向,走上了另一條路。
一直很少接觸游戲的興軍亮,為什么會選擇將游戲作為自己的研究課題呢?“為了不失業。”興軍亮開玩笑說,“我們研究的計算視覺,基本上就是在教AI識別‘是什么’,即識別圖片里是張三還是李四,是車子還是桌子等。但我慢慢發現,如果只是讓AI學會識別‘是什么’這類問題,離最終想達到的人工智能目標可能相差甚遠。而且到2016年的時候,我感到計算視覺領域已經非常成熟了,再往下做可能將沒有太多空間,于是我開始思考下一步該做些什么。”
2016年,AlphaGo橫空出世。興軍亮發現讓計算機去下圍棋,其實是在解決一個很重要的問題——認知智能。即它不光要知道“是什么”,更要知道“為什么”,它要一步一步地去做,去明白為什么這么做就會贏。由于當時覺得這個問題很有意思,興軍亮便開始考慮怎么轉向這個方向。
為了對各種游戲有了解,他甚至熬夜把所有以前沒有玩過的一些游戲都拿來研究,學習一些教程,練習手速,希望能通關。他自己都差點上癮,覺得游戲非常有意思,尤其游戲里的設置很適合用來研究一些基本科學問題。于是在2016年,興軍亮堅定地轉向了游戲博弈這類問題的研究上。
如果說研究計算視覺是為了讓計算機具備像人眼那樣的功能,那么研究游戲博弈就是為了讓計算機擁有像人腦那樣的功能。而游戲為什么對人工智能如此重要呢?
在人工智能的發展歷史中,游戲一直伴隨左右。早在人工智能創始期,人工智能之父、英國科學家艾倫·圖靈,在1950年就提出了一個重要概念“圖靈測試”,即讓一個人向一臺隔離的機器和另外一個人提問,如果提問的人沒辦法分清回答問題的是機器還是人,就認為這臺機器通過了圖靈測試。圖靈測試提供了評估機器智能水平一個非常簡單的方法,其實也可以把它理解成一個游戲,一個讓人和機器玩猜真假的游戲。
接著,IBM研究院一位優秀的研究員塞謬爾,在1959年設計了一款具有一定自學能力的程序,他讓這個程序學習西洋跳棋。一段時間后,他發現自己已經打不過這個程序了。隨后他讓程序繼續不斷學習,到了1962年,這個程序已經能夠打敗美國的州冠軍,這是人工智能領域早期一個里程碑式的事件。
其實在人工智能發展的不同階段,游戲一直是相關研究的試驗場。1996年,IBM的深藍計算機使用一種改進的搜索化程序,戰勝了國際象棋世界冠軍卡斯帕羅夫,引起了世界轟動。到了2016年,更廣為人知的是AlphaGo戰勝了圍棋九段李世石及世界排名第一的柯潔。
AlphaGo已經在人類最復雜的棋類游戲中獲勝了,但它遠遠沒有解決真實的人工智能問題。圍棋游戲其實還非常簡單,因為它有著明確的規則和確定的邊界,并且雙方都可以看到完整的盤面信息。圍棋的決策復雜度大概是10360,這樣的復雜度已經是目前人類解決的最復雜的決策問題之一了,但它跟現實世界中的決策問題實際還相差甚遠,因為一些開放環境下的現實決策問題,復雜度會遠遠超過1010000。
那么如何從百級的指數復雜度跨越到萬級的指數復雜度,這就需要一些新環境去測試,這個環境還是游戲,只不過這一次是復雜的實時策略電子游戲。《王者榮耀》《星際爭霸》《刀塔》等,它們的復雜度大約都在101000到1010000之間,非常適合用來訓練人工智能,超越AlphaGo。
在人工智能研究的不同歷史時期,都會找到不同復雜度的游戲用以測試人工智能的新技術。在游戲的試驗場中,興軍亮帶領團隊篩選了很多典型游戲,包括最簡單的單機游戲、麻將這種棋牌類游戲,《王者榮耀》這種實時策略游戲,以及更復雜一點的足球游戲,旨在從簡單到復雜,從單個智能體到多個智能體的游戲中研發人工智能。

博弈學習研究組部分成員合影
興軍亮說,游戲的不同分類能幫助人工智能學習不同的能力,以探索類為例:“在《蒙特祖瑪的復仇》這個游戲中,智能體的目標是走出迷宮,而要走出去就必須通過右邊那扇門,要想走出那扇門就必須拿到左邊那把鑰匙,而底下有骷髏頭會讓它死掉。一開始它什么都不知道,就在里面不斷地嘗試。經過嘗試之后,它就能發現一條很好的路徑,它最終會學到先跳到梯子那里,然后下去,跳過骷髏頭,爬上梯子,拿到鑰匙,然后再下去,再跳躍,最后就走出去了,這是一個很復雜的過程。在這個復雜的決策過程中,它需要不斷地去摸索怎么一步步走下去,慢慢地理解為什么要這么走。而人類在平時生活工作中也會遇到很多類似的情況。比如當面臨很多選擇的時候,怎么做決定?當失敗的時候該怎么辦?這都跟這種小游戲背后的原理很像。所以,我們去研究這類小游戲,就可以讓人工智能更容易理解人的決策過程,并在人工智能不斷變聰明的過程中了解人的智能是怎么形成的。”
除了小游戲外,興軍亮帶著團隊還做了一款德州撲克的游戲AI。它的復雜度跟圍棋差不多,都是10的百次方。它的難點在于每個人手上都有兩張私有牌。持有的牌小的時候也不一定會輸,因為可以假裝很大,押很大的注,把對方嚇跑,這就涉及不完美信息的博弈問題。
為讓機器學會打這種游戲,興軍亮他們用了十余臺計算服務器,每臺有8個GPU、2個CPU和1TB的內存,集中這么大的算力,讓AI不斷地自己跟自己打牌。用了大概20多天,共打了1億局左右,最后AI達到了很高的博弈水平。最近,興軍亮的研究組又進一步提升了游戲學習的性能,僅僅使用一臺服務器訓練不到3天就能讓AI達到極高的博弈水平。“所以AI會學習一些類似于人類專業選手才會有的計謀,這也是這種不完美信息博弈最有趣的地方。”興軍亮說。
為了推廣這個不完美信息博弈研究的環境,讓AI更聰明,也為了讓人理解AI的決策過程,后來他們還做了一套德州撲克在線人機對抗平臺OpenHoldem(http://holdem.ia.ac.cn/),目前已對外開放。
“這個系統可能是目前國內唯一的一個能夠公開打德州撲克的地方,也歡迎大家注冊到這個系統中跟AI打撲克,試試AI的水平,也幫助AI不斷提升。”興軍亮介紹。“除此,我們還做了一款麻將AI。麻將和德州撲克有一個共性,都會有私有信息。但麻將相對于德州撲克來說難度會更大,因為未知的牌更多,所以它的信息缺失程度更大。我們打一盤麻將通常要幾十個回合才能玩完,所以它的決策過程也更復雜。我們做這個程序時,不想再像德州撲克那樣靠那么多機器去算,會特別耗電。我們希望在算力有限的情況下,通過算法的改進,盡快讓AI學到比較高的水平。所以我們設計了很多不同的算法策略,進行改進和提升。之后我們也會把這個麻將AI放到網上讓大家玩,一方面可以幫助AI學習,另一方面提升自己牌技,過年回家打牌可以多贏點。”
但在麻將、德州撲克和單機小游戲中,只是讓一個智能體學習如何與其他玩家或環境博弈。實際上,現實中很多問題是要多個智能體一起學習,而且要相互配合。為解決多智能體博弈的求解問題,興軍亮帶領團隊又開展了基于博弈對抗的足球推演系統研究。“足球比賽是11個球員跟11個球員對打,這里面的配合、戰術、戰法都會更復雜,其復雜度又增加了很多個數量級。這個工作還處于前期,目前取得了一些初步成果,很多AI學會了快速突防、門前補射等戰術。未來希望能使這11個智能體同時學習,并配合得到更好的結果。我們也希望這些研究能提升中國足球的水平,得到一些可取的參照經驗。”興軍亮說。
從2016年轉到游戲博弈研究后,興軍亮也慢慢建立起了自己的團隊。“現在的學生都非常有想法和個性,所以對他們的培養需要因材施教。而且還要多跟他們交流,讓他們愿意把心里話告訴我,所以我跟他們是亦師亦友的關系。”興軍亮談起了與學生的相處方式。
興軍亮認為這些聰明的學生,理應心懷高遠,從國家的角度出發,去解決一些更大、更重要的問題。他希望他們不要被外界的誘惑和壓力影響,能在最寶貴的時光里做最重要的事情。雖然很多學生能做到,但也有一部分學生因為種種原因不能全身心去投入。
“我認識很多人非常有天賦,但最后他們選擇去了更賺錢的地方,也是迫于生活等各方面的壓力。其實每個行業都一樣,都在選擇合適的人做合適的事。中科院、清華、北大等院所、高校出來的研究生,是百里挑一、萬里挑一的優秀人才,他們是最適合解決科學和工程研究難題的那批人,這些人都去干別的事情了,國家的科技發展要靠誰?”興軍亮說,對人才的流失心里很擔憂。
雖然環境的影響讓職業選擇更加多元化,但興軍亮還是希望有更多人投入到科研事業中來,于是他經常去學校做科普,希望有更多學生未來能成為科學家。面對充滿變數的國際形勢,他更呼吁海外的那些優秀科技人才能回來,加入到為祖國科技發展作貢獻的隊伍中來,讓技術更聰明、人們生活更美好、國家更富強。
而對興軍亮來說,眼下最重要的是把正在開展的項目“大規模不完美信息博弈高效求解方法研究”完成好。他介紹,不完美信息動態博弈在經濟政策制定、法律法規優化、外交策略選擇等諸多領域具有廣泛應用。國外以加拿大阿爾伯特大學和美國卡內基梅隆大學為代表的研究機構長期致力于大規模不完美信息博弈的求解技術研究,近年來取得了諸多進展,而國內相關研究積累非常薄弱,與國外存在很大差距。
而正在開展的項目不僅面向一些實際應用需求,而且匹配了科技部發布的《科技創新2030——“新一代人工智能”重大項目2019年度定向項目申報指南》的技術方向。以突破大規模不完美信息博弈高效求解技術為牽引,重點研究兩人及多人不完美信息博弈建模與均衡分析方法、大規模不完美信息博弈計算與優化學習技術、不完美信息博弈性能評價指標和高效評測協議等內容,項目最終想要實現的目標是:形成一個開放的不完美信息博弈在線評測和訓練研究平臺,從而打破國外相關研究機構在該研究領域的壟斷地位,推動國內在不完美信息博弈及相關研究領域的技術發展和應用轉化。
興軍亮介紹,在人工智能領域有個很明顯的現象,一旦一款游戲被攻破、一個目標被實現,它所用的這個技術就不屬于人工智能了。這既是一個殘酷的現實,又給相關科研人員不斷帶來希望,他們可以通過更復雜的游戲,讓AI不斷進步。“也許某一天,游戲AI在某個領域戰勝了人,但是它還需要去完成一些更復雜的任務,以更好地去幫助人、替換人。所以這個領域可能不會遇到我之前研究視覺問題時面臨的失業問題,因為我們會持續地研究下去,直到最后得到一個更聰明、更有用、可與人類融為一體的人工智能。”興軍亮說。