李明麗

張世華
隨著科學技術的迅速發展,多種多樣的海量數據正被廣泛地產生和積累。各式各樣的數據不僅存在于日常生活中,也正在成為各科學領域深入研究的基本要素。這種“數據密集型”的研究甚至被認為是科學研究的新型范式,顯著促進了數據科學的蓬勃發展。生物醫學領域就正在發生這樣的變化。豐富的組學大數據正在迅速產生,這催生了以生物數據解析為對象的生物信息學的迅速發展。大數據與數學特別是運籌學、統計學、機器學習等的碰撞,正在促進基礎研究以及解決復雜的實際問題的能力不斷發展和創新,并被廣泛應用于生物、信息、工程、軍事等各個領域。
在大數據的時代背景下,如何“運籌”優化、“統計”計算,實現復雜數據特別是生物大數據的解析呢?中國科學院數學與系統科學研究院研究員張世華的研究工作即面向該方向,將幾個傳統學科緊密聯系在一起,致力于尋找數據解析、生命優化的金鑰匙。
近年來,現代生命科學與生物技術取得了一系列重要進展,并正在擴大基礎研究的深度與廣度;同時向應用領域滲透,在解決人類發展所面臨的環境、資源和健康等重大問題方面展現出廣闊的應用前景。生物技術的不斷發展,產生了大量的不同層面的數據,傳統的生物學研究范式已不足以應對生物大數據的產生和發展。應用數學、運籌學、統計學、計算機科學等學科在生物研究領域顯示出越來越重要的作用。
“很多交叉科學的研究,很難定論它是屬于哪一學科。從研究本身的角度來說,科學研究是沒有邊界的,只不過后來人們為了方便交流、管理和統籌,才劃分并強化了學科的概念。但很多學科之間都是密切聯系的,很多科學技術的創新與突破也是多學科交叉融合的產物。”張世華帶領團隊主要圍繞與基因組學、表觀遺傳學和網絡生物學相關的生物信息學和與優化、統計以及機器學習交叉的數據科學進行探索和研究,專注于開發新的計算模型與算法,并用于大規模生物數據的分析和生物模式的發現。
多年來,張世華團隊已經在生物信息學與數據科學領域積累了豐富的經驗,發展了多個有影響力的方法,研究成果發表在Advanced Science、Nature Communications、Nucleic Acids Research、Bioinformatics、IEEE TPAIM、IEEE TKDE、IEEE TFS、AoAS等一系列重要雜志。張世華獲得中國青年科技獎,入選國家“萬人計劃”青年拔尖人才計劃,并主持完成了國家自然科學基金優秀青年基金項目。
通常,一般的方法對異源噪聲數據進行集成分析時,往往忽略了不同來源的數據之間噪聲存在很強的異質性。最近,張世華團隊提出一個針對異源噪聲建模的貝葉斯聯合矩陣分解框架;并針對大數據可擴展性問題,提出基于交替方向乘子法的貝葉斯分布式矩陣分解方法,給出理論的解釋。非獨立同分布噪聲的結構化問題,是機器學習與統計學領域的一個熱點問題。斯坦福大學著名統計學家Jonathan Taylor(2018 ICM 45分鐘報告人)與合作者曾嘗試給出基于先驗知識的思想,但這樣的知識通常是不可得的。張世華團隊提出圖噪聲建模的框架(Graphical Noise Modeling)與精妙算法,將這個想法推向可操作的層面,同時加深了人們對經典主成分分析方法以及精確矩陣估計問題的理解。
隨著高通量測序技術(如C h I Pseq,RNA-seq和Single-cell RNA-seq)的發展,逐漸產生并積累了大量的不同條件且相互關聯(如不同癌癥、不同細胞系、不同時刻)的基因組數據。這為通過大規模數據分析和數據比較,來揭示不同關聯條件下存在的共性和特異性提供了機會。整合分析與差異分析是兩個常用的數據分析的范式。然而,通常的整合方法忽略了差異的模式,而差異分析方法通常不能識別差異部分的組合模式,一些識別組合模式的方法則要求數據的維數是匹配的。張世華團隊針對組學數據整合的問題,多年來,開展了系統性的研究。比如,最近提出了一個基于聯合非負矩陣分解的技術,以同時識別共有和特異組合模式的強大模型C S M F(Common and Specific patterns via Matrix Factorization),并應用于4種不同的生物學場景。該成果發表于國際知名期刊Nucleic Acids Research后,隨即獲得了Faculty of 1000 Biology的推薦。
隨著染色質構象捕獲技術(3C)及其衍生技術的迅速發展,三維基因組圖譜數據正在大量累積,這為進一步揭示哺乳動物染色體的折疊機制提供了機遇和挑戰。張世華團隊針對3D基因組圖譜數據,提出一個通用且高效的多尺度拓撲結構域識別方法M S T D,以從多種類型的三維基因組數據中鑒定多尺度的拓撲結構,其中包括順式和反式的交互結構。該方法不僅能夠鑒定多尺度的拓撲關聯結構,而且首次提出鑒定啟動子錨定的交互結構域和成對的拓撲關聯交互結構域。該成果發表于國際知名期刊Nucleic Acids Research。
新興的單細胞技術正在逐漸成熟,它使得在單細胞分辨率下并行檢測大量單細胞的變化成為可能。這涉及諸如轉錄組學、基因組學、代謝組學、染色質開放性、甲基化組和三維染色質結構等層面的信息。這些技術給研究者提供了前所未有的機會,使得人們可以利用單細胞動態變化的連續性,揭示細胞的時間和空間變化。先前的大量研究證明,使用單細胞RNA-seq數據在轉錄組水平上的偽軌跡重構是研究細胞核內生物過程動態性的有效方法。
最近,基于流式細胞儀分選的單細胞H i-C技術的發展,使研究者能夠通過計算分析來判斷單細胞的周期相位,并分析染色體結構和組織的動態性。然而,這項開創性研究的計算方法過度簡化了染色質的拓撲結構信息,嚴重依賴于多個經驗閾值,缺乏可擴展性,對生物用戶來說具有顯著的挑戰性。因此,迫切需要基于單細胞Hi-C圖譜探索染色體結構動態特征的有效的、高度自動化的計算方法。為此,張世華團隊提出一種功能強大且穩健的環狀軌跡重構工具CIRCLET。該方法考慮了染色體的多尺度結構特征,并無須指定起始細胞,用以排序單細胞的周期階段。CIRCLET被應用于1171個單細胞的細胞周期Hi-C圖譜集,表現出最佳的重構性能。該工作被國際重要學術期刊Advanced Science在線發表。
“目前,我們做得很有意思的一個事情是,研究可解釋的統計學與人工智能方法,并應用于模擬和生成單細胞三維基因組圖譜,指導數據的產生過程和提高生物發現的潛能。”這聽起來很不可思議,但看起來張世華樂在其中,信心滿滿。
2008年,張世華從中國科學院數學與系統科學研究院畢業,獲得運籌學與控制論專業博士學位。博士畢業之前,他已經開始思考自己未來的路該怎么走,他主動聯系了美國南加州大學進行博士后工作;畢業前夕,中國科學院數學與系統科學研究院也邀請他留所工作。張世華坦言,留所工作是他的意外之喜,但是也深感責任在肩。2011年年初,張世華回到中國科學院數學與系統科學研究院,其后他曾先后被邀請到加州洛杉磯分校、新加坡國立大學、日本東京大學、美國哈佛大學進行訪問交流。雖然中國科學院數學與系統科學研究院對上課沒有強制要求,但張世華主動開設了強化基礎、面向前沿的多門課程,比如正在開展的“數據科學與矩陣優化”。“做科研其實是一個不斷學習的過程,講課就是這樣一個再學習的機會。因為要不斷地解決問題,所以要不斷學習新東西,不能坐吃山空。”張世華說道。
2010年前后,國內有關數學、計算機與生命科學交叉研究的青年學者之間的交流活動還不夠活躍。面對這一情況,他開始思考國內是否可以在這方面多進行一些交流。2012年,張世華找到中國科學院遺傳與發育生物學研究所王秀杰研究員交流了自己的想法。他們一拍即合,然后組織了“數學、計算機與生命科學交叉研究青年學者論壇”。截至目前,該論壇已經成功舉行了7屆,論壇主題涵蓋了基因組學、表觀修飾組、腫瘤基因組、RNA與蛋白質結構預測、機器學習以及腦連接譜等前沿研究領域。論壇不但為青年學者提供了難得的鍛煉機會,還提升了學生們的學術交流能力。
諾貝爾曾說過:“科學研究的進展及其日益擴充的領域將喚起我們的希望。”在人工智能時代,數學、計算機與生命科學的交叉研究還能為我們帶來什么樣的驚喜?帶著這一問題,張世華正在路上!