病毒基因組生物信息分析系統的構建及關鍵技術探析

2018-06-05 18:45:26黃雪瑩

神州·下旬刊 2018年4期

黃雪瑩

摘要：在生物信息學蓬勃發展的背景之下，本文將針對病毒基因生物信息分析系統的構建及構建過程中所使用到的關鍵技術進行研究。

關鍵詞：病毒基因組生物信息分析系統；構建；技術

生物信息分析系統應具備對生物信息進行收集、分析、挖掘等功能，而由于病毒自身進化速度較快，所產生的數據量自然也要更多一些，因此，針對病毒基因組建立專門的生物信息分析系統是非常有必要的。本文將首先對這一系統構建過程中應用到的關鍵技術進行介紹，在此基礎上研究具體的系統構建辦法。

一、關鍵技術

（一）生物數據集成

生物數據集成主要是指將從WEB數據庫中得到的數據進行轉換、集成的過程，現階段常用的集成方法主要有以下兩種：1、虛擬本地數據庫方法。顧名思義，這一方法主要是指在分布式、異構式數據庫的基礎上構建一個軟件層，并通過一個虛擬的集成視圖來完成對數據的各項操作。2、數據倉庫方法。這一方法主要是指從不同的一級數據庫中提取數據后將他們集成并存儲到一個集中的數據庫中以供用戶進行后續操作。結合這樣的概念不難分析出，除了對數據進行查詢之外，這一方法同樣支持用戶進行后續的分析、計算和評估工作。結合本文所討論的內容來說，這樣的特點對于特定數據庫的建立是非常有益的。

（二）應用軟件集成

病毒基因組生物信息分析系統的開發必然需要對大量關聯復雜、形式多樣的數據進行處理，在這樣的背景之下，原有的開發模式已經不能滿足這樣的需求，相關人員必須針對系統間各個機構之間的共享、復用、集成等進一步的進行研究。本文主要對生物信息領域常用的分布式開發集成技術進行介紹：1、CORBA、DCOM等傳統分布式體系結構。CORBA即通用對象請求代理體系結構，這一體系結構可以分為對象請求代理、公共對象服務、公共設施三部分。CORBA雖然能滿足軟件與硬件互聯的需求，但同時因為其系統過于龐大，相關技術和標準更新的都比較緩慢。DCOM的全稱為分布式組件對象模式，是對COM的拓展，這也就導致了這種模式對于Windows以外的操作系統的支持并不理想。2、Web服務。Web服務主要是通過一系列協議來完成分布式計算的，因此，只要系統支持這些協議，那么就能支持Web服務的應用。近年來，Web服務在生物信息領域已經得到了初步的應用，這一技術能有效的消除不同軟件平臺之間的差異，滿足生物信息分析系統對于大量軟件的應用需求。3、網格服務。網格服務是在Web服務的基礎上提出的，網格服務定義了一組接口用以解決動態服務創建、服務生命周期管理等問題。通過這一技術的應用，系統中的所有組成部分都將被抽象為“服務”，進而在此基礎上通過標準接口來進行管理。

二、系統構建

（一）生物信息分析系統

結合上文中的內容，病毒基因組生物信息分析系統的構建模型如下，本文將分層對其進行介紹。（見圖1）

數據源層：系統數據來源。常用的數據存儲方式可以分為關系數據庫、文件數據庫兩種。

數據處理層：這一層應完成對源數據的集成操作。結合上文中的內容，本文采用以數據倉庫方法為主、虛擬本地數據庫方法為輔的方式來完成系統的構建。通過兩種數據集成方式的同時應用，系統將能在構建新數據庫的同時實現動態更新功能。在圖一中，數據處理層主要由HTML處理器、格式轉化器兩部分組成，其中，前者主要完成對HTML數據的處理，并將相關數據存儲到文件數據庫中；格式轉化器則主要負責為應用層不同的應用提供所需的數據格式。

應用層：應用層是整體系統的核心組成部分，在系統的構建過程中，上文提到的三種應用集成模式都可以完成軟件復用及數據復用的需求。病毒基因組生物信息分析系統應具備以下功能：1、數據檢查更新。通過對本地數據庫與網絡數據庫的對比找出本地數據庫中不包含的新數據，并在此基礎上進行下載更新。2、數據檢索及管理。數據的檢索和管理主要是針對數據庫的增、刪、改、查等操作。3、數據分析。向用戶提供一個完善的生物信息分析環境，并結合用戶需求完成數據分析工作，將結果返回給用戶。

表示層：在本文所介紹的模型之中，系統表示層主要由數據管理界面和數據應用界面組成，其中，前者主要提供數據處理接口，后者主要用來接收用戶的需求。在整個系統中，這一層將直接的與用戶進行交互，而C/S模式的應用能極大程度的降低后臺數據管理的復雜性，B/S模式則能為系統內部資源的共享和傳輸提供便利，具體構建模式的選擇應結合具體需求來確定。

（二）系統特點

結合上文中的內容，本文所介紹的病毒基因組生物信息分析系統主要具備以下特點：1、層與層之間是獨立的。在這樣的特性支持下，針對不同層的開發工作將能同步進行，只需要對相應的接口進行約定即可。在這樣的背景之下，系統開發的復雜性和開發周期都將得到極大程度的降低。2、底層數據與上層應用的聯系將變得更弱。底層數據與上層應用的聯系過于緊密必然會導致上層應用需要頻繁的進行更新，而數據處理層的添加將能有效的解決這一問題。3、系統的可擴展性提高。隨著生物信息領域的不斷發展，這一系統必然也需要進行功能上的擴展，而在本文所介紹的模型之下，系統擴展將變為針對中間層的處理，工作量將會大大降低。4、能為用戶提供個性化接口。對上文中的內容進行分析不難發現，表示層并不關心下層結構的實現細節，因此，對表示層做出的更改也并不會對系統功能造成影響，具體客戶端的表現形式可以是多種多樣的。

結語

綜上所述，具備指向性的生物信息分析系統的構建已經成為必然，而通過生物信息分析平臺多層模型的應用，系統的靈活性、可擴展性等都能得到有效提升，因此，在后續的發展過程中，相關的科研人員應進一步對這一模型的具體應用進行研究，以此來保證病毒基因組生物信息分析系統能為更好的為相關生物研究提供服務。

參考文獻：

[1]曹永忠.新城疫病毒生物信息分析系統的構建及其全基因組的比較研究[D].揚州大學，2009.

[2]陸王紅.病毒基因組生物信息可視化系統研究[D].揚州大學，2008.