祝傳海


世界著名統計學家西·雷·勞(C.R.Rao)教授曾說過,“在終極的分析下,一切知識皆為歷史;在抽象的意義下,一切科學皆為數學;在理性的基礎上,所有的判斷皆為統計?!笨梢哉f,在現代社會中,統計的身影無處不在,越來越扮演著更加重要的角色。
而所有的統計,又都必須基于數據。隨著現代科技的迅速發展,數據愈趨復雜,包含的時空信息、維度、異構等特征越來越多,傳統的統計分析方法顯得力不從心。特別是當面對結構復雜的函數型數據,現有的研究手段更是應付不來。這也是目前統計學界研究的熱點和難點。
國家特聘專家、北京大學講席教授、統計科學中心主任姚方長期致力于函數型數據分析與研究,與合作者成功功克了多個困擾同行的科研難題,是國際知名的統計學專家。2019年3月,他毅然辭去多倫多大學的終身教職,全職回到北京大學(以下簡稱“北大”),為我國統計學的研究與應用、學科建設、人才培養等貢獻力量?!澳軘y手最好的平臺推進祖國的統計學科建設,為自己的國家培養人才,這種自豪的感覺是在國外工作多年無法體會的!”姚方表示。
偶然:一見傾心 與統計結緣
姚方2019年滿40歲,可他從事統計學相關研究已經有20多年了。在工作中,姚方擅長從偶然中尋找必然,從隨機性中發現必然性。有意思的是,他與統計結緣,恰恰源于一次偶然。
“年少懵懂的時候,在媽媽工作的醫院里,看到用統計方法整理的病歷數據給工作帶來了很大的便捷,我便萌發了對這門學科的好奇?!被厥淄?,姚方始終記得與統計學初見的情景。這份最初的驚艷,讓他初識了統計學的魅力,讓他對統計學產生了濃厚的興趣,也給他未來的專業選擇指出了方向。
1996年,高考結束,姚方毫不猶豫地選擇報考中國科技大學統計系,準備一窺統計學世界的究竟。在一批學術功底深厚、學風質樸的老教授的指導下,年輕的姚方在統計學知識的海洋里自在暢游,由最初的驚艷,到逐漸認識到這門學科研究之深,應用范圍之廣,更加意識到能夠在一堆隨機事件中找到規律并幫助解決實際問題“真的很有意思”,加深了對統計學科的興趣。
統計學是一門關于數據收集、表達、整理與分析的科學,它利用概率論建立數學模型,通過量化分析、成果展示和總結,做出推斷和預測,從而為相關決策提供依據和參考,廣泛應用于工程、醫學、自然科學、社會科學、資訊工程、金融經濟等各個領域。20世紀90年代末,我國統計學科尚處于起步發展階段,與國際存在較大差距。
在濃厚興趣的驅使下,本科畢業后,姚方選擇出國深造,進一步探索統計學的奧妙。勤奮好學的他,僅用了3年時間就取得加利福尼亞大學戴維斯分校統計學方向的博士學位,博士階段的學習和研究更是極大地開拓了他的視野?!安┦侩A段在導師穆勒教授指導下的學習和研究極大地開拓了我的視野,讓我真正地體會到了科研的樂趣,而穆勒教授嚴謹的治學態度、與學生開放平等的交流都讓我受益終生。在科研中沉淀自己,讓我明確了自己的熱愛所在——把統計研究作為自己一生的追求和事業?!币Ψ綀远ǖ卣f。2003年博士畢業后,姚方便順利地在科羅拉多州立大學統計系獲聘助理教授職位。經過3年的努力耕耘,2006年,姚方加盟多倫多大學統計系。憑著出色的科研能力和教學水平,他在2008年獲得多倫多大學統計系終身教職。這一年,他剛剛29歲。
作為人工智能研究的起源地之一,多倫多大學的統計系與計算機系有很多交叉合作。作為年輕的科研工作者,姚方得以與眾多世界知名的專家學者交流學習,其中包括Geoffrey Hinton(2018年度圖靈獎獲得者之一)和Nancy Reid(美國、英國、加拿大等國家科學院院士)?!八麄兡菚r已經很有名了,這些世界頂級學者對年輕人、對同事謙虛平和的態度給我留下了深刻的印象,也對我的研究生涯影響很大。”姚方回憶。
在統計學研究領域,“傳統數理統計以向量型變量為研究和觀測的對象,而在實際應用中,數據記錄都是隨時間和空間發生連續變化的。”姚方告訴記者,這種關于曲線曲面或任何連續變化信息的數據,在學術上被稱為函數型數據,例如股票交易記錄、腦電波及腦圖像等,是目前統計學中的研究熱點之一。要以“變化的眼光”看待數據模型的建構,“就像我們發朋友圈,此時我們顯示的地址還是這里,下一秒就有可能轉移了”。
在變化的數據中尋找不變的規律,其難度可想而知。在國外的10多年間,姚方就一直從事函數型數據的研究,與合作者做出了一系列奠基性與開創性的工作:首次提出針對稀疏觀測的函數型數據主成分分析的方法和理論,此工作被廣泛引用并引領了稀疏函數型數據研究的發展(SCI引用418次);首次提出了混合內積空間的概念,以及如何在此空間上定義函數型數據的密度以及構建具有數據自適性的混合模型;首次提出普遍適用于稠密和稀疏觀測的基于主成分分解的函數型線性回歸方法,引起了廣泛關注(SCI引用225次),成為此方向的奠基性工作;首次提出了結合函數型與高維自變量的部分函數型線性回歸,并對其模型估計和變量選擇提出了新的方法和理論,引發了其他學者在這方面的研究。凡此種種,在函數型數據研究領域,姚方取得了一系列在國際上有影響的研究成果,其中大多數論文發表于統計學的國際頂級期刊JRSSB、Ann. Stat.、JASA、Biometrika??蒲谐晒话绹c澳大利亞科學院院士P. Hall,COPSS獎獲得者R.Carroll等國際知名統計學家等多次引用,被認為填補了相關領域的空白?;赗和Matlab開發的集成大量最新研究成果的函數型數據分析軟件包PACE,已被國內外統計學者以及其他科學領域的學者大量使用。
二十余載寒來暑往,弦歌不輟,姚方已經成長為國際統計學界知名的專家學者。由于在函數型數據分析領域所做出的開創性貢獻,2012—2014年,姚方獲加拿大自然與工程基金委發現促進獎(Discovery Accelerator Supplement Award,類似于美國自然基金CAREER Award或國家自然基金的“杰青”);2014年,姚方獲加拿大統計學會和數學研究中心聯合頒發的CRM-SSC獎(用以獎勵博士畢業15年內在加拿大取得突出貢獻的統計學家)。并于2017年、2018年分別當選國際數理統計學會會士(IMS Fellow)和北美統計學會會士 (ASA Fellow)。
必然:學成歸國 服務國計民生
“人只有出了國,才能夠真正發現自己愛國?!边@是無數海外游子的切身體會。姚方也深有同感,在國外工作生活的時間越長,他歸國的思緒就越如蔓草般瘋長。在科研道路上,快速成長的姚方比同齡人更早觸碰到了那塊無形的“天花板”,很多科研想法難以實現。近年來,統計學在國內上升為一級學科,得到了快速發展,厚植了人才施展本領的沃土。2019年,陽春三月,姚方放棄了國外優渥的待遇和穩定的工作,回國全職加盟北大數學科學學院任講席教授,為我國統計學科的發展貢獻力量。
北大統計學科歷史悠久,是我國最早開展概念統計的教學科研單位,陳家鼎等老一輩統計學家都曾為統計學科的發展謀劃。2017年,北大統計學科被教育部評為A+學科,2018年入選教育部“雙一流”建設學科。近年來,得益于國家和學校的大力支持,吸引了全球資深的專家和學者的加盟,統計學科迎來高速發展期。這是姚方施展抱負的舞臺。
盡管回國時間不長,姚方的各項工作已經全面展開:由他牽頭的關于復雜結構的函數型數據的分析與研究的重點項目已經獲批,一支梯隊明顯、優勢互補、兼具國際視野的科研團隊已經初具雛形,其中既有函數型數據分析方面的資深學者,也有從事復雜數據分析的中青年學者。他還擔任了發展與整合北大統計學的統計科學中心主任,承擔著為北大招攬和培養統計與數據科學人才的重任。這讓姚方感受到了前所未有的歸屬感和使命感,他說:“很多與國家戰略發展相關的項目都能做,很多想法都有可能得到支持,這在國外是無法想象的?!?/p>
回國后,在此前工作的基礎上,姚方和團隊在函數型數據分析領域又取得了可喜的成果??紤]到研究腦圖像等結構復雜并帶有時序性數據的需求,他們把黎曼流形的思想引入函數型數據的表達降維中,構建了黎曼空間上函數型數據主成分分析的統計理論與方法,在文獻中尚屬首次。在函數型數據研究的另一個核心方向上,他和團隊觀察到復雜函數型數據的非線性結構,從流形的角度首次提出把函數型協變量看作來自低維流形空間的帶有誤差的觀測變量,避免了函數型數據非參數回歸的“維度詛咒”,利用局部協方差算子與相應的主成分分析構造了收斂速度最優的函數型數據流形回歸的估計方法和理論。相關成果均發表在國際重要刊物上,受到業內的廣泛關注。
“把函數型數據和具有高維與復雜結構的模型方法進行有機結合,包括流形、圖模型和網絡數據等,提出創新的統計模型和解決相關的理論問題,從而可以有效應用到大規模可擴展的數據中。”現階段,姚方的主要研究方向依然是針對復雜數據的統計學方法和理論,但是他已經將目光放得更遠了——讓科研成果服務國計民生。據了解,這類研究在眾多的科研領域和社會經濟中均將有廣泛的應用,諸如人類的生長曲線,艾滋病患者血液中CD4細胞數量曲線,腦掃描圖像和心電圖波動過程與各類生理疾病及心理認知的關系,氣候和環境研究中隨時間和空間變化的觀測過程,國民經濟和金融市場隨時間變化的過程與機制等。如果關鍵問題得以突破,那么就可以量化其中的隨機變異,解釋不同群體間的差異和回歸預測等復雜關系,將大大促進各領域的研究和發展。
近年來,越來越多的數據呈現出非歐幾何,尤其是微分流形的特征。類似的微分流形結構也越來越多地出現在函數型數據中。“這些函數型數據的共同特點是,每個觀察到的函數的取值都落在一個非線性的黎曼流形上,如正定矩陣空間或者多維球面。除此之外,經典的函數型數據也可能呈現流形結構。這些數據,學術上統稱為黎曼函數型數據 (Riemannian functional data)。”姚方告訴記者。
這給研究者帶來了新的挑戰?!霸谔幚磉@類函數型數據時,傳統的方法不能直接應用,或者效率低下。因此,我們需要開發和研究能夠處理黎曼函數型數據的統計方法?!币Ψ奖硎尽T诶碚撋?,由于函數型數據的無窮維特征和微分流形的非線性特點,開發這樣的統計方法和理論是一個極具挑戰的任務。例如,由于非線性,對于黎曼流形上的概率分布,傳統的平均值和協方差并不存在。除了理論研究,他和團隊還需要設計和實現可擴展的計算軟件,以方便廣大的數據分析工作者在實踐中使用針對此類數據的先進統計方法。由于不同的流形具有不同的結構,設計一個具有高通用性的計算軟件包也并非易事。
面對困難和挑戰,姚方和團隊早已成竹在胸,他們計劃從3個方面展開攻關:從主成分分析與表示理論入手,分別研究稠密黎曼函數型數據和稀疏黎曼函數型數據的主成分分析問題,然后研究黎曼函數型數據的分類和廣義回歸,在此基礎上,開發計算軟件包并設計一個通用的黎曼流形數據分析平臺。目前,各項研究工作正在緊張進行中。
“數據科學并不是陽春白雪,是需要服務于社會和科學需求的,這也是這門學科吸引我的重要原因?!币Ψ秸f。讓統計學科在多學科和經濟建設中發揮更大作用,也是他回國的初衷之一。他希望在已有的與工程、醫學、遺傳學及經濟學等專家進行有效合作的經驗基礎上,能夠以最新的統計工具協助其他學科發現新現象,提出新方法及理論,開展和企事業單位的有效合作,促進統計學在快速發展的社會經濟中廣泛正確的應用,進而改變國內統計學的應用長期落后于發達國家的現狀。目前,他和團隊已經與北大心理認知學院有了初步的交流和合作,在不久的將來,將通過統計學的方法,為醫學診療提供更直觀、更簡單的預測和推斷。
期然:興趣+恒心 寄語莘莘學子
交叉性是統計學的本質特征之一。它被廣泛應用在各門學科之中,從物理和社會科學到人文科學,甚至被用在工商業及政府的情報決策之上。隨著數字化的進程不斷加快,人們越來越希望能夠從大量的數據中總結出一些經驗規律從而為后面的決策提供一些依據。統計學專業不是僅僅像其表面的文字表示,只是統計數字,而是包含了調查、收集、分析、預測等。
因此,就要求統計學科的學生不僅要有很強的數學與統計學的基礎,同時還要對社會現象、科學問題和熱點有必要的關注?!拔覀冃枰牟粌H是數學能力,更需要過硬的綜合能力和對于科研的敏銳直覺?!币Ψ綇娬{。
既要深度,又要廣度,這對學生的培養提出了很高的要求。因材施教,激發學生本身對學科的興趣,是姚方的教學之道。他說,每個人的特長和興趣都不一樣,如果采用一樣的引導和一樣的進度,勢必造成學生知識吸收和能力進步的不均衡。看重每個學生作為獨立個體的長處,充分挖掘他們的學術潛質,是教師分內的重要工作。
對本科生,在授課之余,姚方總會抽出時間,向學生們介紹這門基礎課程在學術研究中的應用?!氨热缰v線性模型時,這是最基礎的一門統計專業課了,但是在很多前沿的研究中都有它的影子?!币Ψ脚e例。他還鼓勵學生多聽學術報告,了解專家學者的最新研究。在潛移默化中,讓學生了解自己所學專業的研究前景,了解本學科的研究動態,對學生們今后的學習和成長都大有裨益。
姚方倡導“早嘗試”“早接觸”,他鼓勵對科研有興趣的同學盡早投入到科研的實踐中。北大數學學院近期開設的“3+X”討論班,姚方認為對學生成長很有幫助,能讓中高年級的本科生在繁重的課業之余抬眼看世界,了解最新的學術進展,開拓思路,潤物細無聲地引導學生走入真正的科研殿堂。
對研究生,姚方則強調自由發展,給學生充分的自由探索和鉆研空間,充分培養學生的興趣,培養學生良好的科研習慣,“如果沒有足夠的興趣和持之以恒的熱忱,科研很難堅持下來,也很難取得成績”。他還注重培養學生的批判性思維,激發學生自己的想法,不做科研民工,不唯上,只唯實,不追熱點,真正從興趣出發,持之以恒地瞄準研究方向。
與在國外的教學經歷相比,姚方覺得,在國內教學更有自豪感和獲得感。他認為,北大有最優秀的學生,無論是本科生還是研究生,普遍天資聰穎又非常勤奮,帶領他們做科研是非??鞓返氖虑?。姚方很高興地看到,新一代的年輕人非常善于學習交流,加上他們扎實的理論基礎,在交流時常常能碰撞出思想的火花。更讓他欣喜的是,近幾年,國內各方面發展迅速,國家不斷加大對科研和教育的投入力度,在各個領域里,與發達國家的差距越來越小,優秀人才在國內完全大有可為?!澳軌驗榕囵B新一代人才貢獻力量,或者對他們的成長起到一點推動作用,我覺得這有一種說不出的自豪感?!币Ψ奖硎?。
每天,姚方都要處理大量的、各種各樣的數據,在旁人看來這是一件非??菰锏氖?。在他看來,卻是樂事一樁。在他眼里,這些數據不再是靜止的,而是動態的,不再是平面的,而是立體的,其中隱藏著很多寶藏。讀懂弄通它們,就可以敲開一扇未知的大門,將其應用在廣闊的天地。一片數據的藍海,正等待著善泳者的到來。
專家簡介
姚方,國家特聘專家、北京大學數學學院講席教授、統計科學中心主任。2000年獲得中國科學技術大學理學學士學位,2002年和2003年分別獲得加利福尼亞大學戴維斯分校統計學方向碩士和博士學位。主要研究包括無限維和高維空間的函數型數據分析,例如函數主因子分析和各類函數回歸,分類和聚類模型;復雜結構數據的模型選擇和降維方法;對非獨立相關型的縱向數據和生存分析的綜合模型的研究。由于其在函數型數據分析領域所做出的奠基性和開創性的貢獻,2014年獲得由加拿大統計學會和數學研究中心聯合頒發的CRM-SSC獎(授予博士畢業15年內在加拿大做出突出貢獻的統計學家),并當選為數理統計學會會士、美國統計學會會士、國際統計學會當選會員。現擔任《加拿大統計期刊》主編,迄今擔任9個國際統計學期刊編委,包括頂級期刊《美國統計學會期刊》與《統計年刊》。