作為一門多領域交叉學科,機器學習涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等,是研究怎樣使用計算機模擬或實現人類學習活動的科學,被公認為人工智能的核心。早在1950年,計算機科學之父艾倫·麥席森·圖靈(Alan"Mathison"Turing)就曾提議建立一個學習機器,但是直到2000年年初,機器學習才有了突破性的進展。20世紀80年代以來,機器學習作為實現人工智能的關鍵途徑引起了廣泛關注,尤其是近十幾年來,機器學習領域的研究工作發展進入快車道。隨著以深度學習為代表借鑒人腦的多分層結構、神經元的連接交互信息的逐層分析處理機制,以及自適應、自學習的強大并行信息處理能力取得多方面的突破性進展,機器學習不僅在基于知識的系統中得到應用,而且在自然語言理解、非單調推理、機器視覺、模式識別等許多領域也得到了廣泛應用。
在今天,大數據時代的到來為機器學習的發展帶來了新的挑戰。大數據時代的機器學習更多地被視為一種服務技術,如何基于機器學習對復雜多樣的數據進行深層次的分析,更高效地利用信息成為當前大數據環境下機器學習研究的主要方向。但隨著數據產生速度的持續加快,數據的體量有了前所未有的增長,同時,需要分析的新的數據種類也在不斷增加。這就導致了如今機器學習在應用層上面臨三大困境:復用(使用)門檻高、數據門檻高、認知門檻高。幾十年來,研究發展機器學習的方法種類很多,清華大學電子工程系助理教授姚權銘認為:“機器學習這一基礎學科最大的作用,就是幫助人們從數學角度搞清楚人工智能為什么能工作。因此,要解決當下機器學習技術面臨的三大困境,可以從一種抽象的數學雙層優化模型入手。”這將是他在未來幾年中的工作重心之一。
求學與積淀
——如何做好的研究
2009年是姚權銘人生中意義非凡的一年。這一年,他以優異的成績考入華中科技大學電子工程系,邁出了通往科研殿堂的第一步。
在華中科技大學計算機科學與技術學院“只爭朝夕,不負時代”“協作、創新、修德、開拓”的學科特色文化影響下,姚權銘逐漸具備了“服務國家,敢于競爭,團結協作,勇于創新”的精神品格。他所在的基于導師制的人才孵化站(Dian團隊)更是以培養隊員高尚的道德情操、優秀的工作作風和扎實的專業技能為目標,將導師制、科研團隊及工程實踐相結合,通過“在干中學”的方式,以科研課題為牽引,選拔優秀學生直接參與科研活動。得益于這樣優秀的人才培養模式,姚權銘早早地就奠定了自己工作和探索的風格,并獲得校園年度“發明創造之星”稱號和香港科技大學直博資格。
“物有甘苦,嘗之者識;道有夷險,履之者知。”在旁人看來枯燥的博士生科研歷程里,姚權銘以攻堅克難為樂,學以致用、以用促學,讓理想之火熊熊燃燒,收獲了累累碩果:2015年獲謝卓毅研究卓越獎,2016年獲谷歌全球博士獎學金(2016年全球13位獲獎人中,泛亞地區唯一獲獎者),2019年獲香港科技大學工程學院博士研究卓越獎,成果“抗噪標簽算法合作教學(Co-teaching)”為當年十大高引論文之一……“這背后離不開學校、導師、團隊的悉心支持與培養。”他說,“在我科研生涯的第一個階段——求學階段中,如果要問‘我得到的最寶貴的財富是什么?’那就是我明白了‘什么是好的研究’‘應當如何做好的研究’。”由此,姚權銘邁出了通向科研生涯第二個階段的堅定步伐。
社會與實踐
——明確意義和需求
于香港科技大學計算機系取得博士學位之后,姚權銘前往第四范式創業公司擔任高級科學家,創建和領導第四范式創業公司的機器學習組,成為國內最早一批從事自動化機器學習的研究團隊。
彼時,之所以選擇第四范式創業公司,是因為姚權銘想要明確一個問題:“科研的社會意義是什么?我所學習的知識,我所從事的研究,到底能為社會發揮怎樣的積極作用?”在他科研生涯的第二個階段中,找尋這一答案既是行為動力,亦是主要目標。實踐報國的精神在他身上傳承,經世濟民的夢想在他身上延續。他知道,只有面向社會、面向市場,才能真正了解社會對技術的需求是怎樣的。
在面向需求,追求效益的同時,姚權銘也從未放下心中崇高的理想信念:“比起短期內高回報的‘流水線’工程,我更愿意做需要長期投資的,具有深遠影響的工作。”這一點在他的人才培養理念上表現得尤為明顯。面對每一位想要加入團隊的年輕學者,無論對方多么優秀,姚權銘做的第一件事情都是“勸退”,他解釋說:“團隊優秀與否并不取決于規模大小,我想尋找的是愿意長期在這一領域專心做研究,能夠沉下心服務社會和國家的合作伙伴。如果在‘勸退’的前提下,對方仍堅持加入,我雖然不能斷定對方一定有這樣的覺悟和堅持,但起碼他是有準備的。”姚權銘相信,只要心中有共同的信念和目標,無論面臨怎樣的困難,團隊最終都能克服并一起走向成功。
雖然嘴上從來不對團隊成員說起,但姚權銘打心眼兒里看好團隊中的年輕學者。“他們都是一幫很優秀的學生,我希望他們能夠考慮得更長遠,讓研究更深入一點,讓職業發展前景更廣闊一點。只有獨立認真思考,努力拼搏拿到的成果,自己過5年之后才愿意看,如果太急功近利,把團隊的部分積淀變成自己的文章,雖然短期內看起來收益很高,但其實是害了自己。”因此,他對學生的要求一向很高,就連他自己也不得不承認:“做我的學生很辛苦。”
帶領公司的機器學習組在市場中摸爬滾打3年,積累了豐富的成果產業化經驗之后,對于當初的“科研意義之問”,姚權銘已然有了深刻體悟:“即便是從事基礎研究,我們也必須立足需求,在基礎之上,解決領域內的務實問題。歸根結底,自動化機器學習的意義就是要降低社會解決某一問題的成本。”
2020年,國際財經商業雜志《福布斯》公布了“2020年中國30歲以下精英榜(30"Under"30)”。由于一直以來帶領機器學習研究團隊為行業發展作出的突出貢獻,姚權銘榮登科學與醫療健康領域的精英榜。然而,正當其所帶領的“第四范式機器學習組”逐漸成長并預備走上正軌時,姚權銘卻意識到,從企業發展的角度來看,支撐科研團隊不計成本地從事影響更加深遠的研究并不現實,細水長流的科研和優質人才的養成需要更加穩定的平臺,團隊創新力、洞見力的維持與提升也需要有源源不斷的優質人才加入。基于以上考慮,姚權銘認為,高校無疑是更加合適的發展平臺。于是2021年6月,他正式辭去企業職務,來到清華大學,開啟了科研新征程。
研學和育人
——開拓機器學習新范式
從工業界回到學術界,成為清華大學電子工程系助理教授后,姚權銘關心更長遠的問題:“一個人走很快,一群人走更遠。怎么能夠凝一群優質人才,讓大家愿意承受失敗的風險去做一些更有創造力的事情?這是非常重要的。”為國家的長遠未來儲備優質人才、積累更具影響力的科研技術,就是其當下科研生涯第三個階段中的奮斗目標。
在人才培養方面,姚權銘充分發揮自己的“橋梁”作用,積極推動產業界和學術界的廣泛合作與交流。在他的極力促成下,清華大學與第四范式創業公司及香港科技大學的一些研究團隊之間已經形成了研究上互補、人才培養上互助的良好合作模式。同時,姚權銘在清華大學新組建的課題組也已初步成長起來,并且和百度、斯坦福、加州大學洛杉磯分校等企業、高校建立起了長期合作關系。得益于這種良好的產學研合作環境和各方的協同合作,近兩年來,姚權銘團隊已發表論文超過30篇,積累了小樣本學習工具包等產品的商業化成功經驗,獲得了學術界與產業界的高度評價。
在科研創新方面,姚權銘帶領團隊延續此前自動化機器學習方向,展開了更深一層的探索。具體而言,在大數據時代到來的今天,機器學習更多地被視為一種服務技術,這也為機器學習學科的發展帶來了新的機遇與挑戰。如何基于機器學習技術對復雜多樣的數據進行深層次的分析,更高效地利用信息,成為當前大數據環境下機器學習研究的主要方向。與此同時,數據稠密型的機器學習方法,即“海量參數+巨大模型”,已經成為機器學習應用的主流范式。但是此類方法在3個方面的問題日漸顯著:使用門檻高、數據門檻高、認知門檻高。這意味著在進行機器學習的自動化編程過程中,即便要做到對寫字、畫畫這樣的簡單情景的識別與理解都伴隨著巨大的成本支出。可要想逾越這些門檻,無疑是耗時又耗力的,它們的存在一方面將機器學習服務變成了壟斷資源,使其成為大廠的專有權利;另一方面抬高了各行各業應用機器學習技術的成本,限制了相關技術在社會層面的智能升級。而姚權銘的主要研究內容就是用自動化機器學習的手段,通過知識與數據融合的雙層優化方式來降低這些門檻,使更多個人和企業能用上相關技術,進而為全社會謀福利。
目前,姚權銘團隊已經在知識圖譜上實現自主表示學習方法。實驗結果表明,這種新方法不僅在知識圖譜學習代表性任務鏈接預測上的表現超過手工設計模型的效果,并且還在大型生物知識圖譜谷歌百科和維基百科圖譜上表現優異,曾力克螞蟻金服、斯坦福等研究團隊,刷新大規模知識圖譜榜單(OGB)紀錄,助力第四范式創業公司在2020年完成7億美金D輪融資。
未來幾年,姚權銘會帶領團隊繼續深入自動機器學習方向的工作,聚焦知識與數據融合的技術手段,探索如何高效地求解雙層優化問題,推動機器學習從自動化到自主化發展,將其拓展至人工智能的科學場景中,探索前沿科學問題,進一步助力各行各業智能升級。
(責編:袁園)