戴曉峰
摘 要:生物信息在各個生命科學相關領域的作用日顯突出,但是生物信息學的研究范圍與人才類型尚不清晰,更缺乏相應的人才培養(yǎng)方案及成熟的科學研究體系。針對這些問題,本文界定了生物信息學的研究范圍,將生物信息學人才分為4種類型,針對每種類型人才提出了相應培養(yǎng)目標、學科來源與就業(yè)導向,還指出了該領域科研發(fā)展中的尚存問題,有針對性地提出相應建議。本文旨在明確生物信息的研究內容與特點,促進生物信息學人才培養(yǎng),推動生物信息學及相關學科的發(fā)展。
關鍵詞:生物信息學 人才培養(yǎng) 學科發(fā)展
中圖分類號:G642 文獻標識碼:A 文章編號:1674-098X(2017)08(c)-0241-02
生物信息學是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅猛發(fā)展,二者相互交叉形成的一門新學科。生物信息的發(fā)展大致經歷了前基因組時代、基因組時代和后基因組時代。目前其主要研究內容已經從對DNA和蛋白質序列比較、編碼區(qū)分析、分子進化轉移到大規(guī)模的數(shù)據(jù)整合、可視化,比較基因組學、代謝網(wǎng)絡分析、基因表達譜網(wǎng)絡分析、蛋白質技術數(shù)據(jù)分析處理、蛋白質結構與功能分析以及藥物靶點篩選等[1]。隨著高通量實驗手段的飛速發(fā)展,海量數(shù)據(jù)大量生成,如何從這些數(shù)據(jù)中挖掘出有用信息進一步指導實驗或者對實驗結果進行合理分析,是降低研究成本與周期,推動生命科學相關研究快速發(fā)展的必需工具。
雖然生物信息學已經成為目前極其熱門的系統(tǒng)生物學研究手段,但是人們對生物信息學的定義十分模糊,該方面研究人才也相對稀缺,不少高校都沒有設置相關專業(yè)與課程。生物信息相關科學研究也出現(xiàn)形式多樣、百花齊放的模式,許多學校也沒有注意到該學科具有高度交叉性的特點,缺少相應的扶持政策,使我國生物信息領域的發(fā)展始終滯后于國際水平。因此,如何在各生命相關學科內對生物信息學進行精準定位,并針對不同培養(yǎng)階段的學生設置相應的課程進行定向培養(yǎng),對于學生與學科發(fā)展都有著極大的推動作用。
1 生物信息學研究范圍
生物信息研究主要分為4類,即“算法開發(fā)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)庫構建”。第一,算法開發(fā)。算法開發(fā)是為了解決某個生物學問題設計相應的數(shù)學算法,涉及編程語言的使用和對該生物學問題的深度理解。第二,數(shù)據(jù)處理。數(shù)據(jù)處理主要指對包括各種類型轉錄組數(shù)據(jù)在內的高通量數(shù)據(jù)進行處理,獲得包括差異基因在內的初步數(shù)據(jù)分析結果。這部分研究具有高度程式化的特點,可以對各個分析步驟涉及的算法進行深入開發(fā),進而與“算法開發(fā)”接軌;也可以借助現(xiàn)有算法并將其高度整合,構建解決某一問題的pipeline。該方面研究多以生物信息學服務為目的,是目前許多公司中生物信息學工作的主要內容。第三,數(shù)據(jù)分析。該方面研究較分散、類型眾多,根據(jù)不同研究目的與數(shù)據(jù)類型,分析方法多種多樣,往往需要研究者對生物學問題具備較多的背景知識與理解,掌握多種公共數(shù)據(jù)庫與數(shù)據(jù)分析工具,是目前高校科研最常涉及的生物信息研究類型。第四,數(shù)據(jù)庫構建。該方面研究往往針對已有的數(shù)據(jù)進行整合、存儲,是現(xiàn)代生物學研究數(shù)據(jù)積累的重要手段,往往需要專業(yè)人員進行數(shù)據(jù)更新與維護,可以涉及簡單的數(shù)據(jù)分析模塊構建,既適合科學研究也適合商業(yè)服務。
2 生物信息學人才分類
作為生命科學與計算機科學的交叉學科,生物信息人才需要具備兩個領域的知識,對人才的知識架構要求較高,但是不同培養(yǎng)方向的人才對各部分知識結構的需求也不盡相同。根據(jù)生物信息學研究的4種類型,生物信息學人才的培養(yǎng)目標、學科來源與就業(yè)導向可以做以下歸類。
2.1 算法開發(fā)人才
對算法開發(fā)類人才的培養(yǎng)目標是培養(yǎng)能夠熟練運用各種編程語言,靈活運用各種包括機器學習在內的算法、思路,根據(jù)具體生物學問題設計解決該問題的數(shù)學方法與工具的人才。在實際應用中,對這類人才的編程水平、算法與邏輯思維要求較高。因此,該類人才比較適于對來自數(shù)學、計算機相關專業(yè)的學生進行定向培養(yǎng)。在課程設置上,在強化編程語言與算法設計的同時,需要對生物學基本知識進行培訓,為研究者快速、深刻地了解目標問題,準確地設計問題解決方案奠定理論知識基礎。算法開發(fā)人才在高校科研與企業(yè)研發(fā)中均發(fā)揮著十分重要的作用,也是生物信息學研究的中流砥柱。
2.2 數(shù)據(jù)處理人才
對數(shù)據(jù)處理類人才的培養(yǎng)目標是培養(yǎng)能夠利用各種現(xiàn)有數(shù)據(jù)分析工具對龐大的原始數(shù)據(jù)進行預處理,獲得可供下游生物學分析使用的初始數(shù)據(jù)的人才。這類研究主要針對高通量數(shù)據(jù)的處理,人才需要對該實驗過程的基本原理、分析過程與現(xiàn)有算法及其優(yōu)劣了如指掌;需要具備Linux等計算機系統(tǒng)的操作技能,可以對海量數(shù)據(jù)進行靈活批量處理。該類人才既可以來源于計算機也可以來源于生物學背景的學生,在課程設置上要照顧兩方面知識的交叉培訓。在我國,數(shù)據(jù)處理人才仍然是生物信息行業(yè)的主流,特別是在企業(yè)界該類人才更是供不應求。
2.3 數(shù)據(jù)分析人才
對數(shù)據(jù)分析人才的培養(yǎng)目標是培養(yǎng)能夠利用公共數(shù)據(jù)庫信息或實驗所得數(shù)據(jù)挖掘有用信息,獲得有價值的生物學結論或者為下游分子生物學實驗提供指導的假設性結論的人才。該類人才需要善于使用各種數(shù)據(jù)庫及數(shù)據(jù)分析軟件并掌握一到兩門簡單的高級編程語言,能夠根據(jù)各研究課題的目的和需求設計數(shù)據(jù)分析步驟與流程,能夠對結果有深刻的理解與把握。由于這類人才需要對生物學問題具有深刻的認識和理解,學生宜來源于生物相關專業(yè)。對該類學生的培養(yǎng)除了介紹一些常用高級編程語言、數(shù)據(jù)庫與分析工具外,更需要注重介紹各類生物學問題的解決方案和相應的方法選擇。數(shù)據(jù)分析人才在各種生命相關的科學研究當中都必不可少,是降低研究盲目性、縮短研究周期、提高研究水平的重要推動力之一。
2.4 數(shù)據(jù)庫構建人才
對數(shù)據(jù)庫構建人才的培養(yǎng)目標是培養(yǎng)能夠將現(xiàn)有數(shù)據(jù)整合、構建成一個便于檢索、分析的數(shù)據(jù)庫的專業(yè)人才。這類人才的培養(yǎng)不局限于生物學專業(yè),但是其在生物學領域的應用成為生物信息學研究的重要內容之一。隨著海量數(shù)據(jù)的不斷生成,如何將數(shù)據(jù)組織成一個便于檢索、便于分析的存儲模塊是該類研究人才需要解決的核心問題。對于這類人才的培養(yǎng),數(shù)據(jù)庫基本知識與必要的編程技能是培養(yǎng)的重要內容;此外,如何低成本地維護、更新數(shù)據(jù)庫也是這類人才需要具備的基本技能。公司與高校對這類人才的需求從未間斷,特別是本身能夠不斷產生高通量數(shù)據(jù)的企業(yè)或科研機構。endprint
3 生物信息學的人才培養(yǎng)
我們在高校環(huán)境下談人才培養(yǎng)就涉及到本科生和研究生培養(yǎng)兩個階段。
3.1 生物信息學本科生培養(yǎng)
本科生培養(yǎng)是對學生相關專業(yè)的基礎技能培訓,同時肩負著激發(fā)學生對該學科學習興趣的任務。針對該特點作者提出以下教學建議。第一,由于學生未來職業(yè)發(fā)展的定向性較差,因此教學內容應該涵蓋生物信息學的4種類型,讓學生對該學科有一個充分、正確的認識。第二,單方面教學內容不宜過深,以避免學生產生對該學科的畏懼心理。第三,理論與實踐相結合,寓教于樂。生物信息學是一門應用型科學,一定要與實踐相結合才能達到教學目的。對于每一類生物信息學研究,都應給予相應的應用案例,最好每一部分由長期從事相關研究的老師擔任,這樣學生可以及時將學習內容與未來應用相關聯(lián),既增強了教學實用性也提高了學生的學習積極性。
3.2 生物信息學研究生培養(yǎng)
研究生培養(yǎng)是對學生研究能力的培養(yǎng),同時是對學生的專業(yè)定向與深度培訓。此時的學生培養(yǎng)除了教學還包括科學研究,與老師和專業(yè)的接觸機會也大大增加。針對該階段的培養(yǎng)特點,筆者認為該時期應該確定某一生物信息學研究方向,有針對性地對學生進行專業(yè)化培養(yǎng)。為此,以下培養(yǎng)方式可供參考。第一,這一時期的教學培養(yǎng)應該借助“課程整合”的概念與優(yōu)勢,根據(jù)需要和學生知識結構選擇合適的課程進行培訓。學校應該支持跨學科、跨學院選課機制,支持研究生選修本科生課程,并且對這些學生的考察方式與標準做適當調整。由于該階段學生已經開始接觸具體科研課題,且課程培養(yǎng)輔助于科學研究,因此應當借鑒許多發(fā)達國家的培養(yǎng)方式,讓研究生導師制定相關考核方式并對學生進行單獨考核。第二,鼓勵學生自學相關專業(yè)知識,培養(yǎng)學生獨立學習與探索的能力。在該方面許多發(fā)達國家也有著很多值得借鑒的經驗。比如,老師給學生指定一本書或相關資料讓學生自學,最后老師出題進行考核;開設討論性課程,給定學生討論話題,由學生自主搜集材料、學習并與課程其他學生分享,學生考核由課程老師根據(jù)其在分享學習成果中表現(xiàn)出的學習效果以及在討論中的積極性與正確性來評判。
4 生物信息學的科研發(fā)展
生物信息學作為一個服務性交叉學科,是一個完整生物學研究歷程的重要組成部分,需要和其他特別是實驗性研究相結合才能最大程度地發(fā)揮功能,推動相關研究的發(fā)展。
目前高校主要存在兩種生物信息學研究模式。一種是獨立的生物信息學研究團隊,偏向于計算機與數(shù)學方向。這類團隊大多與實驗性團隊有著戰(zhàn)略性合作關系,要么是開展“算法開發(fā)、數(shù)據(jù)分析”等工作,然后其開發(fā)的算法、提出的生物學假設等由實驗性團隊使用或驗證;要么是對實驗性團隊產生的結果進行“數(shù)據(jù)分析”與“數(shù)據(jù)庫構建”。另一種是綜合型生物信息學研究團隊,偏向于生物學研究,擁有自己的實驗平臺,可以圍繞某特定生物學問題,開展包括“數(shù)據(jù)分析”等在內的全套研究。第一種方式的科研運轉模式相對簡單,招生來源也比較明確,但是由于涉及深度合作,發(fā)展方向、水平與速度受到合作伙伴的限制;以第二種方式存在的團隊雖然可以靈活自主地把控自己的研究方向與成果,但是由于交叉性很強,如果想要得到長久發(fā)展,需要得到學校相應的靈活政策支持,比如,允許跨學院招生或者學院間聯(lián)合培養(yǎng)學生等。
5 結語
由于生物信息學是一門典型的交叉、新興學科,高校需要在人才培養(yǎng)上給予一定靈活性,體現(xiàn)“課程整合”在學生培養(yǎng)中的優(yōu)勢。由于生物信息學具備服務性和多樣性的特點,高校需要制定相應靈活地招生與培養(yǎng)策略才能促進生物信息學與其他實驗性科學的深度融合,成為各生命科學相關研究的有利武器,推動相應科學研究的順利開展。
參考文獻
[1] Roos DS. Computational biology.Bioin for matics——trying to swim in asea of data[J]. Science,2001,291(5507):1260-1261.endprint