張渝潔 邢晉祎
摘要 生物信息學是一門新興的交叉學科,生物信息學實驗在生物信息學教學中占有重要地位。總結了生物信息學實驗教學中網絡資源的使用和檢索方法,并將其在生物信息學實驗教學中進行了應用,取得了良好的教學效果,為培養創新應用型人才奠定了基礎。
關鍵詞 生物信息學;實驗教學;網絡資源
中圖分類號 S-01;Q811.4文獻標識碼 A
文章編號 0517-6611(2019)11-0276-03
doi:10.3969/j.issn.0517-6611.2019.11.081
開放科學(資源服務)標識碼(OSID):
Abstract Bioinformatics is a new interdisciplinary subject, and bioinformatics experiment plays an important role in the teaching of bioinformatics. This paper summarized the methods of using and searching network resources in the experimental teaching of bioinformatics. These methods were applied in the experimental teaching of bioinformatics, and good teaching effect was achieved, which laid the foundation for training innovative and applied talents.
Key words Bioinformatics;Experimental teaching;Network resources
基金項目 2017年度臨沂大學教學質量工程項目“教育信息化研究課程”;2018 年度山東省本科教改項目(M2018X059);臨沂大學2014年校級生物科學特色專業項目。
作者簡介 張渝潔(1968—),女,山東臨沂人,副教授,碩士,從事遺傳學和生物信息學研究。*通信作者,教授,博士,從事動物遺傳和生物信息學研究。
收稿日期 2019-01-06;修回日期 2019-03-14
生物信息學(Bioinformatics)是生物和信息技術的結合,是現代科學的又一分支學科,是一門新興的交叉學科,是采用計算機技術和信息論方法研究蛋白質及核酸序列等各種生物信息的采集、存儲、傳遞、檢索、分析和解讀的科學,是現代生命科學與計算機科學、數學、統計學、物理學和化學等學科相互滲透而形成的交叉學科[1]。作為一門生命科學和信息技術的交叉學科,生物信息學從其誕生之日起就迅速成為世界各國學術界矚目的焦點領域。生物信息學的研究對象——各種分子生物學數據是在全世界各個實驗室中產生的,然后再提交到相應的數據庫中。生物信息學發展的源動力來自于從實驗中獲得的海量數據,基于這些數據建立的生物信息數據庫以及新的在線軟件工具開發[2]。由此可見,生物信息學是一門實踐性很強的課程,生物信息學實驗的開設對于培養學生的操作能力、創新能力和綜合分析能力非常重要。開展生物信息學實驗教學中網絡資源利用的探索,構建信息化環境下生物信息學有效的實驗課堂教學模式,實現教育信息化與現代化,提升學校辦學水平,促進學生的全面發展,培養創新創業型人才,全面提高教學質量,具有重要的實踐意義。
1 生物信息學實驗教學中的網絡資源
1.1 常用數據庫
1.1.1
核酸序列數據庫。核酸序列數據庫綜合了DNA或RNA序列數據,其數據源于眾多的研究機構和核酸測序小組以及科學文獻。數據庫中的每條記錄代表著一條單獨的、連續的、附有注釋的DNA或RNA片段。目前的核酸序列數據庫主要包括GenBank、EMBL、DDBJ三大核酸序列數據庫。其中,GenBank數據庫包含了所有已知的核酸序列和蛋白質序列以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(The National Center for Biotechnology Information,NCBI)建立和維護的,從1979年開始建設,于1982年正式運行[3]。EMBL(The European Molecular Biology Laboratory)核酸序列數據庫由歐洲生物信息學研究所(EBI)維護的核酸序列數據構成,于1982年開始服務[4],查詢檢索可以通過因特網上的序列提取系統(SRS)服務完成。DDBJ(DNA Data Bank of Japan)數據庫由日本于1984年開始建立,于1987年正式服務[5],也是一個全面的核酸序列數據庫,與GenBank和EMBL核酸庫合作交換數據,使用其主頁上提供的SRS工具進行數據檢索和序列分析。
1.1.2 蛋白質序列數據庫。蛋白質序列數據庫是指應用計算機功能分析生物學信息的數據庫。它應用計算機的運算法則,比較DNA和蛋白質序列,檢測結構、功能和序列之間的進化關系。蛋白質序列數據庫主要包括SWISS-PROT、PIR(Protein Information Resource)、TrEMBL、UniProt(Universal Protein)等。SWISS-PROT是一個集試驗結果、計算特征和科學結論于一體的高質量、帶注釋、非冗余的蛋白質序列數據庫,由瑞士日內瓦大學創建,由瑞士生物信息學研究所和歐洲生物信息學研究所共同維護和管理,是目前最常用、注釋最全、包含獨立項最多的數據庫[6]。PIR是一個蛋白質信息學的公共信息源及支持服務于一體的資源網站,致力于基因組學和蛋白質組學的研究及科學探索,是一個全面的、經過注釋、非冗余的蛋白質序列數據庫[7]。TrEMBL是瑞士生物信息學研究所的蛋白質序列數據庫SWISS-PROT的一個增補本,增加了一些SWISS-PROT數據庫所沒有的歐洲分子生物學實驗室核甘酸序列。UniProt是信息最豐富、資源最豐富的蛋白質數據庫,由整合SWISS-PROT、TrEMBL和PIR 三大數據庫的數據而成,其數據主要來自于基因組測序項目完成后后續獲得的蛋白質序列。它包含了大量來自文獻的蛋白質的生物功能信息[8]。
1.1.3 蛋白質結構數據庫。蛋白質結構數據庫即生物大分子三維空間結構數據庫,主要有PDB(Prorein Data Bank)、MMDB(Molecular Modeling Database)等。PDB是1971年創建的國際上最著名、最完整的蛋白質三維結構數據庫,由美國Brookhaven國家實驗室維護管理,其數據是通過X射線晶體學、核磁共振波普學或逐漸增加的低溫電子顯微鏡獲得的,以文本格式儲存數據[9]。MMDB是由實驗確定的三維生物分子結構數據庫,提供了豐富的3D結構數據庫和大量的潛在功能注釋,由NCBI維護管理[10]。
除了以上綜合數據庫以外,還有很多專題數據庫,主要有共表達數據庫、代謝和調控路徑數據庫、基因組數據庫、文獻數據庫、真核生物啟動子數據庫、基因注釋數據庫、基因分類數據庫、真核生物基因表達調控因子數據庫、轉錄因子和基因表達數據庫、真核生物DNA中重復序列數據庫、微衛星重復序列數據庫、分子探針數據庫、靈長類mtDNA調控區序列庫、植物順式作用調控因子數據庫、miRNA數據庫、IncRNA數據庫、甲基化數據庫等。
1.2 常用在線分析工具
1.2.1
Expasy工具。ExPASy(Expert Protein Analysis System)由瑞士生物信息學研究所維護(Swiss Institute of Bioinformatics,SIB),即專業蛋白質分析系統,是SIB生物信息學資源門戶,提供生命科學不同領域的數據庫和軟件,包括蛋白質組學、基因組學、系統發育學、群體遺傳學、轉錄組學等,可以從許多不同的SIB組以及外部機構找到資源。
1.2.2
BLAST工具。BLAST(Basic Local Alignment Search Tool),是基于序列相似性的數據庫搜索程序,即基本局部比對搜索工具,一種快速序列比較的新方法。BLAST搜索使研究人員將查詢序列與序列數據庫進行比較,并識別出與某個閾值以上的查詢序列相似的庫序列。BLAST工具主要應用于DNA和蛋白質序列數據庫的直接搜索、motif搜索、基因鑒定搜索以及長DNA序列中多個相似區域的分析。
除了上述2個重要的在線工具以外,還有引物設計(Primer3、MethPrimer)、啟動子預測(Promoter Scan)、開放閱讀框預測(ORF Finder)、多序列比對(MUSCLE、Clustal Omega、ClustalW2、T-Coffee)、在線繪圖工具(Venn、WEGO、CIRCOS、IBS)、circRNA分析(CIRCexplorer)、可視化通路圖分析(iPath)、基因代謝通路注釋(KEGG)、基因組可視化(UCSC)、RNA-seq在線分析(RAP)、基因外顯子、內含子和UTR注釋(AUGUSTUS)和domain區域特征展示(GSDS)等在線工具。
2 網絡資源在生物信息學實驗教學中的應用
根據以上網絡資源,結合學生的知識水平和自身特點,在生物信息學實驗教學中除了基礎實驗外,設計了以下綜合性實驗。
2.1 數據庫檢索
數據庫檢索的目的是讓學生掌握在線Entrez和SRS檢索方法,熟悉SWISS-PROT蛋白質序列數據庫的查詢,了解GenBank數據庫平面文件(Flat file)和蛋白質結構數據庫中的PDB文件。在實驗過程中,根據學生已有的分子生物學知識,讓學生任意選擇某個基因關鍵詞進行檢索。例如,脂蛋白脂肪酶(LPL)基因,輸入LPL關鍵詞后依次點擊各個數據庫查看,使學生對Flat file和PDB文件界面、結構組成有一個直觀的認識,學生可對感興趣的內容鏈接點擊、查看、閱讀,加深了學生對分子生物學相關知識的理解和認識,同時在查詢過程中也使學生直接接觸到英文界面,加強了專業名詞的學習。
2.2 序列比對和序列相似性搜索
序列比對是將2個或多個序列按照一定的規律排列在一起,確定序列之間的相似性或同源性,直觀觀察序列的變異,以便揭示整個基因家族的特征。在生物信息學實驗教學中,多序列比對使用較多的在線工具主要有MUSCLE、Clustal Omega和T-Coffee。這些序列比對工具的特點是精確、快速。給定學生某個基因,下載不同物種的核苷酸和氨基酸序列,然后使用這些在線比對工具進行多序列比對,描述一組同源序列之間的親緣關系,以便了解一個分子家族的基本特征,尋找motif和保守區域等,進一步應用到分子進化分析中。兩序列比對常使用BLAST在線工具,通過BLAST搜索數據庫可以查詢基因或蛋白質序列可能具有哪些功能、來源于哪個物種以及屬于哪種功能基因的同源基因等。
2.3 系統發育樹的構建
為了分析不同物種之間的親緣關系,根據生物的核苷酸或蛋白質序列構建系統發育樹,以便了解生物的進化歷史過程。構建系統發育樹最常用的軟件是MEGA,該軟件界面友好,初學者容易上手,操作簡單,結果清楚、直觀。讓學生下載不同物種某個基因的核苷酸或氨基酸序列在多序列比對的基礎上,采用鄰接法構建系統發育樹,選擇Bootstrap檢驗,從而在分子水平上確定不同物種之間的親緣關系,認識物種進化的歷史。
2.4 蛋白質結構與功能預測
蛋白質結構包括蛋白質的一級、二級、三級和四級結構,還包括蛋白質構象中二級結構和三級結構之間的一個層次——超二級結構。蛋白質結構和功能預測是生物信息學所追求的最重要目標之一,它在結構基因組學、藥物設計和蛋白質設計領域有著廣泛應用,其目的是讓學生了解蛋白質結構與功能的常用網站和軟件,學會蛋白質結構和功能預測的方法,屬于綜合性較強的實驗。學生在前期學習和實驗的基礎上,充分利用網絡資源(主要是Expasy在線工具)來預測蛋白質的理化性質、親疏水性、跨膜區結構、卷曲螺旋、翻譯后修飾位點、信號肽、結構域等,加深了學生對蛋白質結構和功能的認識和了解,鞏固了生物化學和分子生物學的理論知識體系。
3 教學效果
根據生物信息學實驗課程的特點以及國內外生物信息學發展的趨勢,以學生將來進一步深造為導向,對課程設置和教學計劃進行改革,加強實踐教學環節。在教學過程中更新了生物信息學實驗教學內容,實驗中注重學生獨立思考、獨立操作能力的提高,注重學生科研能力的訓練,吸收本科生參與科研活動。通過教學增強了學生利用網絡資源在線分析實際問題的能力,加強了學生對理論學習內容的理解和掌握,提高了學生觀察問題、解決問題的能力,進一步拓寬了學生的知識面,調動了學生的學習興趣,提高了生物信息學實驗的教學質量,取得了較好的實踐教學效果。該課程在生物科學和生物技術專業開設以來,學生受益匪淺,在近幾年畢業生考研工作中再創佳績,這得益于學生較強的實踐能力以及在考研面試中學生對導師提出的有關生物信息學大數據分析等研究熱點問題的理解和正確回答。2016—2018年,通過該課程的學習讓學生自行設計生物信息學相關本科畢業論文,取得了顯著效果,課程組指導的學生已發表4篇生物信息學方面的學術論文,并獲得3項國家級大學創新創業項目。
4 結語
隨著大數據時代的到來,生物信息學優勢日益突顯,生物信息學網絡資源不斷更新和充實。通過生物信息學實驗課的學習,加深了學生對基礎理論的理解,提高了學生實踐操作和分析問題的能力,對于培養創新應用型人才、提高學生的綜合素質和就業競爭力具有重要意義。在今后的教學工作中,隨著教學經驗的積累,需要從教學內容、教學方法和手段等方面進行進一步改革,不斷總結經驗,充分挖掘網絡資源,緊跟生物信息學發展的前沿,以取得更好的教學效果。
參考文獻
[1] HOGEWEG P.The roots of bioinformatics in theoretical biology[J].PLoS Comput Biol,2011,7(3):1-5.
[2] 石曉衛,張靖,王林嵩.應用型專業生物信息學教學體系改進與實踐[J].生物學雜志,2018,35(4):124-126.
[3] BENSON D A,BOGUSKI M S,LIPMAN D J,et al.GenBank[J].Nucleic acids research,1998,26(1):1-7.
[4] STOESSER G,MOSELEY M A,SLEEP J,et al.The EMBL nucleotide sequence database[J].Nucleic acids researchs,1998,26(1):8-15.
[5] TATENO Y,FUKAMIKOBAYASHI K,MIYAZAKI S,et al.DNA Data Bank of Japan at work on genome sequence data[J].Nucleic acids researchs,1998,26(1):16-20.
[6] BOECKMANN B,BAIROCH A,APWEILER R,et al.The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003[J].Nucleic Acids Res,2003,31(1):365-370.
[7] WU C H,YEH L S,HUANG H,et al.The protein information resource[J].Nucleic Acids Res,2003,31(1):345-347.
[8] The UniProtConsortium.UniProt:A hub for protein information[J].Nucleic acids researchs,2015,43:204-212.
[9] BERMAN H M.The Protein Data Bank:A historical perspective[J].Acta Crystallogr A,2008,64(1):88-95.
[10] WANG Y L,ADDESS K J,CHEN J,et al.MMDB:Annotating protein sequences with Entrezs 3Dstructure database[J].Nucleic Acids Res,2007,35:298-300.