蔡富娟++汪煜琦
【摘要】生物信息學在生命科學研究的數據處理方面等方面發揮重要作用,伴隨著云計算和大數據技術的出現和在生物信息學學科中的成熟運用,此門學科將在生命科學研究領域發揮更大的作用。因此,在生物專業的培養過程中加強生物信息學的學習和熟練掌握程度尤為重要。
【關鍵詞】生物信息學 云計算 大數據
【中圖分類號】G642 【文獻標識碼】A 【文章編號】2095-3089(2017)09-0094-02
一、引言
日前,生物技術的發展使得海量生物數據不斷產生,隨著大量數據的出現,生物計算對運算速度、數據處理、數據存儲、計算成本等各方面的不同需求也越來越強烈。
生物信息學(Bioinformatics)是在生命科學研究中,主要通過研發并應用計算機技術、統計與數學方法,對海量生物數據進行存儲、管理、檢索、分析、建模,從而解決生物學問題,發現新的生物學規律,以獲得傳統生物學研究手段無法獲得的創新發現。它是當今生命科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。而隨著云計算、大數據兩個強大技術背景的出現,生物信息學必將在生命科學領域研究中能給予更大的支持和引領作用。因此,如何將以上重要的技術運用到生物領域的各項研究中,除了對技術本身的掌握外,重要前提之一就是重視生物信息學的學習和掌握程度。本文將從以下幾個方面闡述。
二、生命科學研究過程中產生的數據現狀
生命科學各領域研究過程中產生的數據正在急速增長,尤其是2010年以來,隨著新一代測序技術的發展,更大數量級的基因組數據產出日漸增加(從GB,TB級到PB,EB級)。生命科學大數據不僅僅來源于高通量的基因組和轉錄組測序。大數據的產生已從基礎研究、藥物開發、臨床診療到健康管理的所有環節,這表明生命科學研究已進入了大數據時代。因此通過對數據的挖掘可能會比基礎實驗研究更早的發現生物學規律,從而促進生命科學領域健康快速的發展。給傳統生物學帶來了前所未有的機遇和挑戰。
三、云計算(Cloud Computing)相關技術在生物信息學的應用現狀[1]
生命科學研究領域的大量研究都是建立在數據的基礎上,但這些數據散布在上萬個不同的數據庫中,而且存在不同的拷貝。數據庫格式種類多,大多數能夠以扁平結構的文件形式獲得,而且這些數據庫與檢索系統相容性很差。數據的存儲與分析、處理無法在同一平臺上完成。以上這些問題隨著云技術的發展很可能迎刃而解。
1.云存儲在生物信息學中的應用
云計算系統擁有強大的存儲能力,云計算采用分布式、冗余存儲存儲數據,具有很高的可用性、可靠性和經濟性。云計算的數據存儲技術未來的發展將集中在超大規模的數據存儲、數據加密和安全性保證以及提高I/O速率等方面。這也正是生物信息學技術對于未來生物學數據存儲的要求。
2.云計算的超強計算能力在生物信息學中的應用
生物信息學中的數據在使用前必須要進行大量地分析與整合,因此對于硬件的運算能力提出很高的要求。云計算通過一定的協調調度策略,通過數萬乃至百萬的普通計算機之間的聯合來提供超強的、可與超級計算機相抗衡的計算能力,使用戶完成單臺計算機根本無法完成的任務。
3.云搜索在生物信息學中的應用
目前,生物信息學研究中使用的數據庫技術都不能很好的與現有的搜索技術兼容,因此數據的搜索,尤其是在海量數據中進行數據的搜索成為一個主要的問題。云搜索是基于云計算技術的一種搜索引擎,與傳統的搜索軟件不同,云搜索是在‘云”中,通過用戶在互聯網上提交的查詢請求,云計算模式將調用云中的成千上萬臺計算機同時搜索眾多數據庫及網絡資源,并運用各種不同的方法盡可能地提供完備的搜索結果。
4.基于云計算技術的編程模型在生物信息學中的應用
云計算技術可以將軟件加載在“云”上,用戶可以不必使用自己的終端來安裝軟件,只需直接利用互聯網上現有的軟件來完成生物數據的分析與研究。這樣可以大大減弱運行軟件對于用戶終端硬件的配置要求,同時對于一些付費軟件業可以在低成本的情況下使用。另外,云計算技術能夠讓用戶更輕松的享受服務,允許用戶利用云技術提供的編程模型編寫簡單的程序來實現特定的目的。
四、大數據(Big Data)相關技術在生物信息學的應用現狀
大數據技術主要指從各種類型的數據中快速獲得有價值信息的技術,其處理技術包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用等。
1.超大容量的生物數據庫
現有生物大型通用數據庫包括美國NCBI的GenBank、歐洲的EBI、日本的DDBJ等。針對于某些特定數據或研究對象的數據庫如Uni-Prot(蛋白數據庫)、MG-RAST(微生物數據庫)也正在快速發展。這些都是從事生物信息數據的管理、匯聚、分析、發布等工作的大型數據庫[2]。
2.高性能計算(High Performance Calculation,HPC)
生物大數據的規模和計算強度已經遠超過了我們個人電腦所能處理的范圍[3]。目前比較流行的快速高效計算方法有并行計算和GPU計算。并行計算(Parallel Computing),即一個任務分配給多條流水線路或多個處理器來完成。并行計算可以充分調用可用于計算的資源。在生物信息學中典型的應用就是分子對接計算[4]。GPU具有很高的數據計算效率[5],單個GPU芯片中可以集成上千個處理器,具有極其強大的浮點數運算能力。同時,使用CUDA編程技術可以很好的解決復雜計算問題。生物研究領域的計算具有數據量大、計算度復雜、要求精度高的特點,生物研究領域的大數據處理將是GPU計算的最佳用武之地[6]。
3.數據挖掘
數據挖掘又稱為數據庫中的知識發現(knowledge discovery in database,KDD),是對大量觀察到的數據進行收集、分析和提取,從中發現事先未知的聯系和規律,進而形成知識[7]。時至今日,面對海量的數據已無法采用人工的方式來完成。數據挖掘和知識發現是生物信息學在生物領域研究的主要任務[8]。目前數據挖掘技術已被應用于基因芯片分析、DNA序列比對、真核基因表達、RNA轉錄、生物文獻的挖掘以及生物數據的可視化研究領域等。
4.催生新的科研模式
生物信息與網絡有類似的體系結構,例如研究對象由堿基A、T、G、C序列組成,與計算機的元數據0、1序列數據相類似,基因組學的網絡環境與計算機網絡的層次結構十分類似。從理論上講這兩者有一定的同構基礎。海量數據的出現催生出新的科研模式,即面對海量數據,科研人員只需從數據中直接查找或挖掘所需要的信息,無需直接接觸需研究的對象,這給生物信息的研究帶來了新的思路,如對人類認識疾病的發病過程、疾病的抵抗性研究將帶來新思路、個人基因組以及個性化醫療等等。
五、結語
鑒于生物信息學學科的特殊性,它是多學科之間的交叉領域,如想真正掌握并運用好此門學科,需要充分認識到生物大數據帶來的機遇和挑戰;必須有扎實的計算機、數學、統計學等學科基礎;思考適應該學科的最佳教學方式等。這就需要對生物專業培養方案中生物信息學學科教育的重新審視。
生物信息學被譽為解讀“生命天書的慧眼”[9]。早期DNA、RNA和蛋白質一級序列的相關研究促成了生物信息學的誕生和快速發展,如今基于以上兩個強大技術的支持,生物信息學必將迎來第二次騰飛。
參考文獻:
[1]魏霖靜陳蕾.云計算技術在生物信息學中的應用[J].信息與電腦122-123,2014.09.
[2]寧康,陳挺.生物醫學大數據的現狀與展望[J].科學通報2015,60(5-6)534-546.
[3]Boyle J.Biology must develop its own big-datansystems[J].Nature,2013,499:7.
[4] Dudley JT,Butte AJ.A quick guide for developing effective bioinformatics programming skills[J].PLos Comput Biol,2009,5:e1000589.
[5] Li JY,Zhao DS,Wang YM.GPU computing and its application in biomedical reserch[J].Mil Med Sci,2011,35:634-636.
[6]胡瑞峰.大數據時代下生物信息技術在生物醫藥領域的應用前景[J].藥學學報2014,49(11):1512-1519.
[7] Gong ZL,Chen Y,Su Y,et al.Application of data mining in biomedical data analysis[J].J Shanghai Jiaotong Univ(Med Sci),2010,30:1420-1423.
[8] Howe D,Costanzo M,Fey P,et al.Big data:the future of biocuration[J].Nature,2008,455:47-50.
[9] Hu YG,Xu WB.Application of data mining in bioinformatics[J].China J Bioinform,2004,3:40-42.