汲曉奇
從古代科學時期,人類直觀地認識自然界,并將所獲得的知識包羅在統一的古代哲學之中;到近代科學時期,人類開始對自然界進行系統地觀察、設計精確的實驗,并初步建立起嚴密的邏輯體系;再到現代科學時期,科學的發展把人為分解的各個環節重新整合起來。在這100多年時間里,始終勃興的交叉科學面對消除各學科之間的壁壘的挑戰,有望填補它們之間邊緣地帶的空白。特別是從抽象的數學到實際的生物醫學,需要跨越一道道鴻溝。
為實現這一跨越,眾多學者在生物信息學、系統生物學交叉研究這片廣袤的沃土上耕耘并收獲著創新性成果,而中國科學院數學與系統科學研究院的研究員王勇是其中一員。一直以來,他致力于用手中的數學工具為看似遙遠的抽象數學和實際的生物醫學“牽線搭橋”,將“天塹”變成通途。
在生物醫學的后花園“玩耍”
1995年,王勇作為國家首屆數理基地班的學生得以免試推薦到內蒙古大學。一開始他身肩繁重的課業壓力,既要學習數學又要學習物理。到大三專業分流時,他最終選擇興趣更為濃厚的數學,從此踏入數學研究的大門。之后,他又經免試被推薦到大連理工大學攻讀碩士。一路走來,王勇刻苦拼搏,勇往直前。2005年,他從中國科學院數學與系統科學研究院獲得運籌學與控制論博士學位,博士論文研究內容為基于神經網絡的蛋白質結構預測與分類研究。
對于攻讀博士階段轉向生物醫學研究,王勇給出了解釋:“生物醫學是一個龐雜的大學科,近年來在測序等新技術的推動下產生了大量的數據,需要在數學上找出產生數據的最佳的模型,揭示生物學家關心的因果關系;需要研究生物數據的基本數學結構,最優的分離信號與噪聲;需要研究如何最優地集成生物醫學數據。這些都離不開最優化建模。”而他數學研究的背景,恰好就是“最優化”。就像是一座橋梁,“最優化”將數學與生物醫學連接起來,也將王勇和生物醫學的緣分連接了起來。
但“牽線搭橋”并不是那么容易,如何將其與最優化進行交叉研究是個值得思考的問題。王勇漸漸摸索出一條可行的道路。“從一些前人已經研究透徹、數學意義比較清楚的問題入手,采用計算的方法從數學角度來研究生物醫學問題,慢慢對生物的積累和理解就多了。”如今的王勇越來越了解生物醫學的研究方式,他可以站在生物學家的角度思考,提出一些他們所關心的問題,再尋找一些“有趣的數據”來進行數值試驗。對此,他戲稱自己“這是在生物醫學的后花園玩耍。”
2005年10月,王勇遠赴日本從事系統生物學方面的研究。在日本,他第一次接觸到“基因調控網絡”。“基因調控網絡”就是以基因為節點、基因之間調控作用為邊建立的生物分子網絡。王勇強調,這里的調控作用指的并不是兩段基因之間的物理相互聯系,而是一種間接通過mRNA、蛋白質、代謝物或者非編碼RNA實現的調控作用。
每個細胞都有一套完整的基因調控系統,用來保持體內代謝過程的正常狀態、適應多變的環境、防止生命活動中的有害后果、產生細胞周期特異性和外界信號的響應特異性。因此,研究基因調控網絡具有非常重要的理論和應用價值。它是系統生物學里的研究熱點,一改傳統“集郵式”的研究方法,強調以網絡、相互作用、動態行為等整體論觀點,并結合數據整合的觀點對復雜生命現象進行理解和詮釋。
然而,如何推斷基因調控網絡成為擺在眾多研究者面前的難題。由于生物實驗條件的限制,每個時間序列數據集只能在相對很少的時間點上取得觀測數據(一般少于20點),相比之下基因數量是非常龐大的,比如模式生物酵母菌中有6000多基因,兩兩基因間可能的調控關系有3600萬,需要找出和數據最匹配的調控關系的集合是個非常困難的問題。這種模型復雜性和時間序列數據嚴重不足之間的矛盾,就是通常講的“維度災難”。在希爾伯特提出著名的23個數學問題的整100年后,美國數學會召開了題為“21世紀的數學挑戰研討會”。會議上美國科學院院士、壓縮感知的提出者之一——Donoho教授發表了題為“高維數據分析中的維數災難”的主題演講,特別指出,維數災難是個核心的問題,在科學各領域中無處不在。王勇與合作者針對這個困難,提出了基因調控網絡重建的最優化模型與算法,系列結果發表在生物信息學頂級雜志Bioinformatics上,目前被引用300多次。基于該方法,他們用計算方法重建了小鼠24小時節律基因調控網絡,識別出一些新的重要基因,受到美國科學院院士、美國加州大學圣地亞哥分校Steve Key教授的高度評價,生物領域頂尖綜述期刊Annu. Rev. Genet.的綜述認為王勇等通過卓越的努力,成功地整合多樣和不完整的數據集,用數學建模彌補了數據的稀缺。
馳騁于廣闊原野
回憶起在國外的求學經歷,王勇坦言,收獲很多,能在交叉研究領域一直堅持下來,得益于很多好老師——博士生導師章祥蓀研究員、大阪產業大學陳洛南研究員、波士頓大學夏煜教授、斯坦福大學王永雄院士等。通過和這些老師合作,王勇在研究方法和方式上都得到了很大的啟發和幫助。
訪問波士頓大學生物信息學中心和斯坦福大學Bio-X中心,給王勇最深的感受就是“國外做交叉學科的條條框框很少”,習慣于成立“program”,往往是跨院系、跨研究組、將興趣相投的一群優秀人才聚集在一起開展自由探索研究。這樣相較于傳統學科的研究方式,他們擁有更廣闊的天地和更加自由的發揮空間。王勇喜歡把他們這些做交叉研究的學者比作“曠野上的牛仔”,他們的獵物就是有趣的課題。而他所要做的就是選擇合適的工具伺機展開獵捕。這或許就是交叉學科的魅力所在。
2017年,王勇提升為中科院數學與系統科學研究院研究員,他的研究水平也更是上了一個階梯。他開始探尋更加前沿的全新領域。
半個世紀以來,基因調控的DNA編碼和轉錄因子編碼從物理、生化角度得到廣泛關注,但在基因調控與環境等外部因素交互等研究方面遇到了困難。因此,近年來位于中間層面的表觀編碼特別是染色質開放、被修飾和甲基化狀態得到密切關注,并形成遺傳學中一個前沿領域:表觀遺傳學,其重點研究基因的DNA序列在沒有發生改變的情況下,基因功能發生了可遺傳的變化,并最終導致表型的變化。有越來越多研究表明,染色體狀態從表觀遺傳學層面為基因調控的研究注入了新的元素,同時也開辟出新途徑。
針對基于染色質狀態的基因調控網絡研究中高通量數據的快速積累問題,已有的單層次數據方法還存在很多局限。“這需要對來自染色體和轉錄組兩個層次數據的集成方法進行深入研究,建立一系列可以應用于這些數據分析、整合的,且有嚴格數學與信息學理論支持的模型與算法,并應用到具體問題對生物機理進行探索,”王勇道出了問題的關鍵。
以染色質上基因的調控元件的開放狀態為核心,王勇梳理出了幾個核心問題,即染色質調控元件開放狀態參與基因表達調控的機理;調控元件的上游調控因子是什么?受這些功能區域調控的下游基因是什么?如何集成調控元件上下游的定量信息揭示基因調控機理? 他與美國斯坦福大學王永雄教授、清華大學自動化系江瑞副教授開展合作,針對調控元件的開放狀態和基因表達相互作用機理和多層次數據特點,構建基因調控網絡來探索表觀遺傳與遺傳因素互作機理,極大地擴展了傳統基因調控網絡的概念。發表于《國家科學評論》的綜述文章“集成染色質開放狀態和轉錄組數據的調控網絡建模”中,介紹了這一方面的最新進展。他們合作開發的利用匹配的染色體開放狀態和轉錄組兩層次數據推斷調控網絡的研究工作近期發表在《美國科學院院刊》上。
最近,參與中科院先導專項研究“動物復雜性狀的進化解析與調控”,讓王勇感到尤為興奮。各個研究所,不同背景的研究人員被集中在一起,針對“進化的基因型、表型的系統生物學eGPS”進行研究。項目由昆明動物所牽頭,基因組所、上海生科院、遺傳發育所、北京動物所以及數學與系統科學研究院共同參與,王勇參與的是模型和算法部分的課題。
展望未來,王勇表現得尤為專注和踏實,他表示會按照興趣繼續探索下去。慶幸的是,中科院數學與系統科研學院為他提供了寬松的平臺,也給予他充分的時間來專注基礎研究,對此,王勇十分珍惜機會。未來,他期望以數學為器,在醫學的后花園種植出更多的豐碩果實。