本刊記者 杜月嬌
劉漢中:大數據時代的“新力量”
本刊記者 杜月嬌

劉漢中
隨著科學技術的發展和大數據時代的到來,人們可以較容易地獲得海量數據,比如基因芯片數據、衛星傳感數據、文本數據、互聯網數據(百度、谷歌、臉書、推特等)。“這些數據的最大特點就是海量、高維。”劉漢中說道。海量可以理解,高維又是什么概念呢?
“高維數據是指數據的維度遠遠大于樣本量,例如基本芯片數據、大腦核磁共振成像數據、傳感數據、社交網絡數據等。”劉漢中給出了解釋。如何利用統計學的模型和方法有效地分析和處理這些高維數據并用于指導實踐活動,這將是一個非常有意義的研究問題。
對于作為2016年執教于清華大學的劉漢中來說,致力于研究解決高維數據和大數據問題的統計學方法和理論,把高維統計學和因果推斷發展成清華大學的核心課程,并應用高維統計分析的方法解決與大數據相關的實際問題,則是他回國的最大初衷。
在大數據和數據科學時代,統計學家和數據科學家經常面臨解決高維數據的問題。這些問題來源于各種不同的領域,如基因學、生物信息學、神經科學、環境科學、信息學和金融學等。也因此,高維統計和變量選擇成為最近20年最為熱門的研究問題之一。而目前,劉漢中正致力于高維數據相關的領域的研究,這其中包括高維統計推斷和大數據因果推斷。
2009年,劉漢中從中國科學技術大學統計學專業畢業,優異的學習成績讓他獲得了保送北京大學研究生的資格,這也讓他遇見了對自己研究方向有直接影響的導師郁彬教授。2012年,他又獲得了國家留學基金委博士生聯合培養項目的名額,在加州大學伯克利分校度過了兩年豐富的時光。之后,在加州大學伯克利分校統計系從事博士后研究,導師為郁彬教授。至今,劉漢中已發表高水平SCI論文3篇,其中一篇發表在世界四大名刊之一的美國科學院院報(PNAS)上(劉漢中為共同第一作者)。此外,他還擔任了多個SCI國際學術頂級期刊和重要國際會議(包括AoS,AoAS,JASA,JMLR,ICML)的審稿人。在多項成果中,“利用機器學習的方法,解決大數據背景下如何更有效地進行因果推斷的問題”是劉漢中的突出成績之一。
機器學習和因果推斷是兩個非常重要的研究領域。機器學習的方法已經被廣泛地應用于研究相關性關系,并以此進行分類和預測等。但是利用機器學習的方法推斷因果性關系的研究卻很少,這是因為因果性關系的確定比相關性關系要復雜得多。隨機試驗是進行因果推斷的重要手段。在現代的大規模隨機試驗中,研究者們能夠觀察到大量的解釋變量。然而,在大數據背景下,解釋變量的個數往往大于樣本量,而且并不是所有的解釋變量都對感興趣的因變量有影響。因此,變量選擇或者一定形式的正則化對于提高因果效應的估計精度非常重要。傳統的因果推斷方法不能很好地利用大數據的信息,這也使得研究者們迫切需要發展新的理論和方法研究大數據因果推斷。
考慮到機器學習在相關性關系的研究中獲得的巨大成功,如何把機器學習的方法和大數據因果推斷結合起來,這將是一個非常重要的研究方向。在郁彬教授的指引下,劉漢中很快就捕捉到了這一點。他和合作者們(Adam Bloniarz博士、Cun-Hui Zhang教授、Jasjeet S.Sekhon教授、郁彬教授)首次提出了利用高維變量選擇的方法(Lasso)進行大數據因果推斷的理論框架,把Lasso的理論和方法推廣到Neyman-Rubin因果模型中去,為研究者們提供了分析大數據因果推斷的重要工具。這項研究給出了Lasso能夠更有效地估計平均因果效應的充分條件,并在此基礎上證明了該估計方法的漸近正態性。同時,給出了漸近方差的一個保守估計,可以用于建立平均因果效應的置信區間。而劉漢中的研究成果也被《美國科學院院報》接受發表,初步探索了機器學習和因果推斷這兩個領域的結合方法。
除讓機器學習和因果推斷兩個領域完美結合,劉漢中還有多項非常有意義的創新研究成果。其一就是基于殘差Bootstrap和Lasso+OLS的高維統計推斷。統計推斷,即建立參數估計的置信區間、求p值等,是統計學研究的核心之一。“在高維即大數據背景下如何進行統計推斷是一個非常困難的問題”劉漢中直言。這是因為高維的統計學估計方法,例如Lasso、Elastice Net等,他們的極限分布十分復雜,難于估計。傳統的殘差Bootstrap的方法也不能給出漸近合理的置信區間。
迎難而上是科研者的使命。最終劉漢中和導師郁彬教授獨辟蹊徑,創新性地把傳統的統計學思想和方法(Bootstrap和最小二乘法)和現代高維變量選擇的工具(Lasso)結合起來,提出了基于兩步估計Lasso+OLS的殘差Bootstrap方法來建立高維稀疏線性回歸模型中參數的置信區間。這項研究從理論上證明了該方法的合理性,并且和已知的方法相比,該方法更加通俗易懂,計算速度更快,非常適合數據科學家分析大數據時使用,其相應的成果也發表在數理統計類SCI期刊上。
科學理論和方法研究的意義之一就是實際應用。研究帶有非負約束的Lasso估計的變量選擇和參數估計的理論性質,并把該方法應用到中國股票市場的指數追蹤問題中,正是應用意義的體現。指數追蹤是重要的經濟金融問題,據劉漢中介紹,在當時的中國股票市場,由于無法賣空股票,只能依靠買入股票追蹤某種指數,比如滬深300指數。由于昂貴的交易費用和管理費用,人們通常不會選擇持有構成指數的所有股票來追蹤該種指數。如何從大量的股票中選擇出能夠最有效地追蹤指數的那些股票?這個問題就變得非常重要。為了解決這一問題,劉漢中和合作者們(楊玥含博士、吳嵐教授)提出了帶有非負約束(即只能買入股票,不能賣空股票)的Lasso方法,并且在一定的條件下證明了該方法具有變量選擇相合性和參數估計相合性。在追蹤滬深300指數的實際應用中,發現只用30只股票就可以實現年化追蹤誤差在5%左右。該項研究成果發表在數據分析方向重要期刊上。
2016年,學成歸來,帶著理想和抱負,劉漢中毅然加入清華大學。在已有研究成果的基礎上,回國后的他積極開展有關高維統計分析和大數據因果推斷方面的教學和科研工作。在教學方面,他立志盡全力把高維統計學和因果推斷發展成清華大學的核心課程;在科研方面,將致力于應用高維統計分析的方法解決與大數據相關的實際問題,同時發展大數據背景下進行因果推斷的新理論和新方法。
“大數據因果推斷將是未來統計學研究的重點方向之一。”高維統計推斷和因果推斷是清華大學統計學研究中心未來的重點發展方向之一。回國后的劉漢中將作為主要研究人員,承擔高維統計推斷和大數據因果推斷的教學工作。在國外的學習和研究工作經歷,不僅讓劉漢中掌握了大量經典的和最新的高維統計學理論和方法,更了解了高維統計學和大數據的學術研究前沿動態,同時受到了國外先進的教學授課方法的熏陶。基于此,劉漢中表示將結合清華大學的實際情況,把國外所學傾囊傳授給清華的莘莘學子,同時希望能夠發展具有清華大學統計學中心特色的高維統計學核心課程。
科研上,劉漢中表示除了完成現有課題的論文寫作工作,還將致力于高維統計分析理論和應用研究、機器學習和因果推斷研究。具體而言,將在因果推斷的Neyman-Rubin框架下,研究各種機器學習方法(例如Elastic Net、Ridge等)的統計性質,發展適合大數據因果推斷的統計學新方法,并把這些方法應用于研究實際中出現的各種因果推斷問題,比如個人醫療、A/B檢驗(例如互聯網點擊率影響因素探索)等。
如何利用好大數據時代提供的海量高維數據?盡管“還有相當長一段路要走”,但在劉漢中看來,“同時充滿了各種機遇和機會”。但作為大數據時代的新生力量,他將奮力開啟一段新的征程。