鄭薇瑋,陳金慧,施季森
(1.福建江夏學院 電子信息科學學院,福建 福州 350108;2.南方現代林業協同創新中心,林木遺傳與生物技術省部共建教育部重點實驗室,南京林業大學 林學院,江蘇 南京 210037)
生物信息學是一門含括計算機科學、生命科學、數學、物理學、化學等在內的交叉學科領域[1].生物信息學研究利用數據庫中海量的數據資源,輔以多種不同類型的數據處理工具來協同完成.生物信息學實驗通常由一系列標準嚴格的步驟組成,激增的生物數據量使得實驗過程變得更為復雜,單純的手工實驗難度加大[2].多數生物信息數據庫在開發之初,就為研究人員開放了網絡服務接口,允許不同的程序對數據資源進行直接訪問.同時,生物信息學研究團隊總是樂于無償分享他們用于分析實驗數據的程序和算法,網絡上用于相同的目的的數據分析工具數量眾多、良莠不齊.加強生物信息學在線資源(包括數據及其處理程序)的整合研究利用,搭建專用的生物信息研究平臺,為生物學家的研究提供方便,被認為是生物信息技術發展的重要任務之一[3].
工作流是一種基于先進流程控制技術的信息系統.源自辦公自動化的工作流系統,具有與辦公自動化系統相獨立的開發技術.辦公自動化系統的核心目標是實現內部的流轉,即能夠使得辦公過程中的業務環節實現相互銜接,上一個環節結束之后,處理結果能夠自動流轉到下一個環節[4].這種信息系統在實際應用中具有明顯的優勢,它支持應用邏輯和過程邏輯的分離[5],其中應用邏輯指的是管理模式中各環節的處理工作,過程邏輯指的是管理模式中各環節間的相互銜接.管理模式中的應用邏輯是基本不變的,而過程邏輯則根據具體的業務進行不斷調整、變化的.通過對業務流程的有效整合和靈活設計,使信息系統能夠適應大量不斷變化的業務需求,在不修改具體功能應用的前提下,通過調整過程模式來實現系統概念下的功能改變[6].
工作流技術的研究工作已經在國內的許多領域開展,分布式應用技術(如J2EE、.NET等)的成熟為工作流的應用發展提供了更為有利的條件[7].新的工作流產品如雨后春筍般涌現,其應用主要關注業務流程管理和流程重組.由于工作流的基礎定義至今未有定論,其標準規范也難以制定,目前存在眾說紛紜、相互重疊的情況[7],導致人們常將工作流技術概念與其他技術相混淆,認為工作流只是其他某一概念的補充.
生物信息學領域,大量的數據、算法和程序工具散落分布在網絡空間.工作流技術作為集成數據和算法的一個良好的解決方案,將其應用于生物信息學的研究分析,負責執行和監控生物信息學實驗過程,能避免研究者們被復雜的編程環節困擾,從而將精力投放于了解生命現象本身.研究和開發基于不同生物信息學應用的工作流系統,具有重要的意義[8].
數據資源結構類型各異、地理位置分散,亟須一種能夠快速獲取、科學易用的工具對海量且繁雜的數據資源進行開發、共享和管理.資源目錄的概念正是這樣應運而生的.資源目錄早期被應用在圖書館、檔案、政務等信息資源的整合和組織中.例如,基于目錄體系的政務信息資源,將分散的政務部門,按照領域、地區進行重新組織、按需整合,它們物理上分散、邏輯上集中,為使用者提供協同統一的政務信息,適應政務業務的動態變化,實現政務信息的整合共享.資源目錄服務在業務需求驅動下,將網絡環境中的相關資源按照目錄樹的結構進行整合和存儲,網絡資源即是它的目錄信息,由它授權使用[9].本實驗整合葉綠體基因組發育分析過程中所使用的在線平臺,建立供實驗室內部使用的葉綠體資源目錄門戶.
葉綠體發育基因組學是植物進化生物學的發展趨勢[10].葉綠體基因組與核基因組相比:結構保守;置換率適中;大小僅次于核基因組,且富集核苷酸與氨基酸序列信息;編碼區與非編碼區分子進化速率差異顯著,適用于各階層系統發育學研究.換言之,葉綠體作為系統發育學手段,具有明顯的優勢[10].同時,已有豐富的實驗數據證明,葉綠體全基因組在植物系統發育關系的重建是行之有效的.例如,64種植物葉綠體基因組的聯合進化分析,確認了Amborella為被子植物最基部類群[11].葡萄葉綠體全基因組與26種被子植物葉綠體基因組進行進化分析,顯示葡萄科與薔薇分支有姐妹親緣[12].
生物信息學實驗涉及大量的嚴格統一的工作步驟,需要多種不同類型的數據和工具協同完成.整合和管理分布廣泛的程序、算法和Web服務,高效完成生物信息學分析具有重要意義.已有大量的面向實際問題的生物信息學工作流,如序列分析、基因芯片數據差異表達分析等科學計算系統被成功構建,基于葉綠體全基因組的進化分析系統則鮮有報道.本實驗是在實驗室進行杉木系統發育地位確認的相關實驗過程中,收集了基于葉綠體基因組構建系統發育圖譜流程的相關在線服務,并進行歸類整合,構建的在線資源門戶,系統結構圖如圖1所示.根據實際工作需要,設計基于工作流的進化分析資源目錄采用三層的B/S模式架構,在邏輯上分為表示層、應用層、數據層三層,如圖2所示.

圖1 總體結構圖
如圖1所示,根據葉綠體基因組進化發育分析流程的4個步驟,從在線服務中將如下四個模塊進行整合,并使用jQuery技術來實現其菜單導航,即:對測序后的葉綠體基因組使用DOGMA(http://dogma.ccbb.utexas.edu)進行注釋;對未被注釋的基因進行Blast(http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&PAGE_TYPE=BlastSearch&BLAST_SPEC=&LINK_LOC=blasttab&LAST_PAGE=blastx)比對,尋找數據庫中的已注釋過的同源基因;Alignment(http://www.ebi.ac.uk/Tools/msa/muscle/),從而找出最佳核苷酸迭代模型;將模型導入工具,進行系統進化分析Phylogeny(http://www.phylogeny.fr/one_task.cgi?task_type=mrbayes).
XML作為一種數據描述語言,允許用戶根據需要自定義標記及屬性.在我們的資源目錄中采用XML來描述系統工作流程配置.如圖1所示的,葉綠體基因組的進化分析4個過程任務,分別對應系統的4個功能模塊.使用XML描述的工作流程如圖3所示.其中使用<Cworkflow></Cworkflow>標識一個工作流定義塊;<Cprocess></Cprocess>定義需要執行的業務流程;<Csection></Csection>用于標識系統功能模塊.

圖3 工作流程
為了驗證這種基于工作流技術的生物信息系統的可靠性、穩定性,將系統部署到實驗室GNU/LINUX操作系統大型服務器上,軟件環境使用jdk1.8.0_74+apache-tomcat-8.0.23容器作為測試環境.客戶端只需要安裝有瀏覽器的普通PC機即可.
由于生物信息分析過程其實質也是模塊化、流程化的數據處理過程,工作流技術被認為在生物信息學研究中有很大的發展空間.目前,大量面向實際生物信息應用問題的工作流,如基因差異表達分析、序列表達等已經被構建[13].這些工作流管理系統數量多、標準不一,各個系統定義工作流的語言不同、難于統一.
本實驗嘗試構建基于當前葉綠體基因組序列分析工具的資源目錄工作流系統,將各分析功能模塊有機整合,系統靈活易用、集成成本低、易擴展,為本實驗室的科研人員在葉綠體基因組研究方面提供支持.由于,本平臺僅供實驗室內部使用,在構建系統的時候,尚未考慮網絡環境的復雜性,數據源也是有所選擇和針對性(即其結構和數量均穩定).在今后的工作中,將在上述幾個方面做進一步考慮.
〔1〕 李淮.生物信息學研究概述[J].開封教育學院學報,2017,37(6):283-284.
〔2〕 Li P,Oinn T,Soiland S,et al.Automated manipulation of systems biology models using libSBML within Taverna workflows[J].Bioinformatics,2007,24(2):287-289.
〔3〕 吳占坤.電子政務中的信息資源整合研究[D].哈爾濱理工大學,2007.
〔4〕 杜鵬.工作流技術及其在辦公自動化系統中的應用.萬方數據資源系統,2008.
〔5〕 譚寧.基于Petri網的辦公自動化系統結構模型設計[J].硅谷,2009(12):53-53.
〔6〕 顧煜新,張淑華,方艷,等.基于工作流技術的網絡平行審計系統的研究[J].長春大學學報,2006,16(8):56-59.
〔7〕 黃鈺.工作流BioW平臺的構建與應用[D].華中科技大學,2008.
〔8〕 Romano P.Automation of in-silico data analysis processes through workflow management systems[J].Briefings in Bioinformatics,2007,9(1):57-68.
〔9〕 肖儂,任浩,徐志偉,等.基于資源目錄技術的網格系統軟件設計與實現[J].計算機研究與發展,2002,39(8):902-906.
〔10〕 張韻潔,李德銖.葉綠體系統發育基因組學的研究進展[J].植物分類與資源學報,2011,33(4):365-375.
〔11〕 Jansen RK,Cai Z,Raubeson LA,et al.Analysis of 81 genes from 64 plastid genomes resolves relationships in angiosperms and identifies genome-scale evolutionary patterns[J].Proc Natl Acad Sci U S A,2007,104(49):19369-19374.
〔12〕 Jansen RK,Kaittanis C,Saski C,et al.Phylogenetic analyses of Vitis (Vitaceae)based on complete chloroplast genome sequences:effects of taxon sampling and phylogenetic methods on resolving relationships among rosids[J].Bmc Evolutionary Biology,2006,6(1):32.
〔13〕 閔波,張樂平,劉小宇,等.面向生物信息學的工作流管理系統框架[J].生物信息學,2011(3):213-216.