劉吳林

基因和生物體的生、老、病、死等生命現象相關,生物體內的基因對于生物本身的影響一直是科學家們致力研究的方向。尤其在大數據時代的影響下,將計算機科學與生物學研究緊密結合,無疑將會使生物研究,尤其是基因組這一熱點研究變得更加便捷、高速、精準。
“多學科交叉在現在看來其實是一件再正常不過的事情,因為單個學科的研究方法發展到一定程度會有一個瓶頸,需要和別的學科或方法進行結合、產生碰撞,才能進一步促進自己學科的發展,產生新的知識。而我所從事的生物信息研究工作其實就是將生命科學和計算機科學這兩個交叉學科相融,兩者碰撞中產生‘火花,從而激發出令人意想不到的創新成果。”正因為有此認識,昆明理工大學的鄭云博士才在交叉創新研究的路上,收獲了讓人刮目相看的原創性科研成果。
夯實基礎不斷前行——上下求索的漫漫長路
清朝劉開《問說》中說“理無專在,而學無止境也”,意為學習應該是無止境的。科學研究亦是如此,科學家要想有好的科研成果,必須有執著探索的信念和心理準備。對此,鄭云深有領悟,不管之前學習深造還是之后從事科學研究,對他來說兩者是一條相連的漫漫長路,偶有曲折在所難免。路漫漫其修遠兮,他將上下求索。
鄭云1994年就讀于北京航空航天大學制造工程專業工程學,從那時起,他開始接觸計算機,并產生了濃厚興趣。后來考研失敗,但因為一心想要繼續深造,所以他一邊工作一邊堅持學習,還自主考了GRE、托福等。因為家庭原因,只有申請到全額獎學金才能出國深造,所以一直堅持,終在2002年得償所愿考到新加坡南洋理工大學攻讀計算機博士學位,本來想學習機器學習和人工智能專業,無奈招生已滿,于是選擇進入該校的生物信息研究中心。那一年,距人類基因組工程測序完成,生物信息學走向高潮僅過了1年時間。在新科技的浪潮下,同時學習計算機知識和研究生物信息無疑是緊跟時代的步伐,對此,鄭云投以極大的熱情。新加坡南洋理工大學畢業后,鄭云先后到新加坡國立大學和美國圣路易斯華盛頓大學從事科學研究。國外鼓勵多思考、創新、開放、自由的環境使他的知識和技能得到了進一步的鞏固和提高。
在美國華盛頓大學完成博士后研究以后,鄭云加盟復旦大學的發育生物學研究所開展獨立研究。在此期間,他開始把更多的注意力集中到一種稱為microRNA(miRNA)的基因上。miRNA是一類由內源基因產生的長度約為22個核昔酸的非編碼RNA分子,這種分子參與了各種生物學過程并和人類疾病有重要關系。鄭云注意到植物的miRNA功能預測有很多不足,一些有功能的靶基因不能通過當前普遍承認并廣泛使用算法正確識別。于是,鄭云提出了一種全新的算法,稱為Seq Tar算法,推翻了之前的植物靶基因預測方法。SeqTar算法不僅發現了所有的已報道過的miRNA靶基因,還發現了大量未報道過的miRNA靶基因。這項研究為更全面、更準確的研究植物miRNA的功能奠定了堅實的基礎,并在國際著名期刊《核酸研究》(Nucleic Acids Research)上發表。
2013年加入云南省久負盛名的昆明理工大學后,鄭云更是兢兢業業做學術研究,已發表接近20篇文章。在談及自己在此期間所做的最滿意的工作時,鄭云提到“用嚴格理論方法研究學習布爾函數的復雜度”。鄭云提出了一種新穎的基于信息論的稱為離散函數學習(DFL)的機器學習算法。較之之前的算法,鄭云巧妙地運用信息論的理論結合高效的計算過程解決了以前布爾函數步驟多的難題。鄭云用一系列數學定理證明了這一方法對待特殊函數,只需要nxk個步驟就能算出,這是解決學習布爾函數這一問題的理論上的最優方法。這種用數學方法解決計算機難題的方式為相關理論研究的進一步發展做出了很大的貢獻。
天道酬勤。漫長又艱辛的研究,邁過荊棘叢生處,定是山花爛漫的地方。雖然研究取得一定成績,但鄭云關于基因序列突變這一問題的思考并沒有結束。因為他深知科學探索永無止境,舊的謎題解開了,新的謎題又會產生。而他所能做的,就是不斷探索,不斷前行。
研究有時創新無時——機遇偏愛一直努力的人
九層之臺,起于累土;千里之行,始于足下。鄭云的經歷證明了這一點。之前在基礎理論研究方面積累的豐富經驗,為他進一步在動植物基因研究領域創新收獲,埋下了堅實的伏筆,機遇偏愛一直努力的人。
生物體內有大量基因,每個基因都扮演著自己應有的角色。而植物中的基因不僅能調控葉、花等器官的發育,而且能在獲得基因進化規律的同時對農作物的產量質量產生作用。鄭云現工作的云南省有著豐富的植物資源,其中有兩個重要的經濟植物是玫瑰和西瓜,但科學家對這兩個重要植物的HNA的相關研究基本處于空白階段。所以鄭云和團隊在2015年主要就一種最近發現的、廣泛存在于各種植物中的一種新基因——PHAS分段生成的phasiRNA基因進行研究,通過分析RNA高通量測序文庫識別西瓜和玫瑰中的phasiRNA,分析降解組高通量測序文庫研究這些phasiRNA的靶基因和功能,并在不同物種中探尋這種基因的進化規律。
隨著研究的深入開展,鄭云明白生物數據的準確挖掘對于尋找基因的進化規律有重大意義;同時也明白了光有腳踏實地是不夠的,還要有推陳出新,合作共贏的意識。所以對自己今后的努力方向有了清晰的定位:一是開發新的生物信息方法,找到一些能夠以新思路挖掘數據獲得新知識的新方法;二是在開發新方法后通過合作的方式解決實際問題。
在這一定位的指引之下,鄭云課題組堅持致力于新方法的研究。業道酬精,終有所獲。由于miRNA在各種生理過程中都有重要作用,一些miRNA中的編輯和突變會引起嚴重的后果,并引發疾病,如癌癥等。但要從大量的測序數據中找到miRNA的編輯和突變非常困難,國內對此的研究甚少。盡管研究有一定難度,但鄭云團隊選擇迎難而上。他們通過集成分析小RNA和基因組高通量測序數據識別人類和靈長類疾病模型miRNA的編輯和突變的這一最新研究取得了實質性進展。在這項研究中,鄭云又一次提出了一種新的算法(MiRME),這項成果2016年5月26日也發表在國際著名期刊《核酸研究》(Nucleic Acids Research)上。這項新的研究旨在利用自主開發的生物信息學方法即MiRME計算流程高效和準確地識別并區分miRNA的SNP和編輯。它主要采用了一種新穎的三輪序列比對的策略解決了這一難題。這種新的算法避免了其他算法的缺點,采用了一系列高效的計算步驟,同時保持了高靈敏性和低假陽性率。
一項科研成果的創新離不開合作團隊中的每個人。說到合作,鄭云表示“一個人的力量是很弱小的,合作很重要”。就像鄭云喜歡的足球運動一樣,他形象地描述“一支球隊離不開每一個人,一個人是無法完成整場比賽的,就是C羅、梅西來了也沒用。”團隊內部的合作奠定了他們與外部團隊進一步合作的基礎。對他們來說,和不同領域的科學家合作,其實是一個學習的過程,不僅能使效率提高,還能學到更多新的知識。最近,鄭云和復旦大學的合作者發現目前普遍認為沒有功能的基因內含子區域其實具有重要的功能,而且內含子失調會影響生物體的正常發育。這一研究成果將被世界著名期刊《公共科學圖書館,遺傳學》(PLOS Genetics)發表。這樣的合作才是鄭云今后努力的另一個方向:取大家所長,解決實際問題。
從2002年博士研究生開始,10多年過去,鄭云在生物信息這條道路上越走越從容。他選擇用創新來為自己的科研增光添彩,而事實證明了他選擇的正確性。值得一提的是,他不止將創新用在科研中,還落實到教學中。除了將創新的理念引導給學生,鼓勵他們在夯實基礎的同時勇于創新,還提倡“個性化培養”,根據不同學生的不同特點進行引導,尤其注意關注學生的興趣點。他說:“任何科研成果的得來都是一步一個腳印走來的,唯有腳踏實地,才有超越創新的可能性。”