賈澤宇 李宗瑾
摘要:針對生物大數據時代高血壓基礎研究面臨數據量龐大、類型復雜、數據挖掘困難等問題,提出一種基于生物大數據的高血壓數據挖掘分析平臺的構建方案。該平臺擬整合國際數據庫中高血壓相關的基因組、轉錄組、蛋白質組等分子數據,收集國內外高血壓前沿科研成果,構建高血壓醫學組數數字資源庫;同時集成主流數據分析方法和軟件,打造高血壓數據挖掘分析平臺,為科研工作者及臨床醫學研究者提供專業、精準、高效的數據查詢檢索、數據比對分析及成果可視化展示等服務,滿足不同科研工作者的多樣化需求,提供一站式的高血壓大數據云服務,為高血壓精準醫學研究提供最可靠的數據支持與保障。
關鍵詞:生物大數據;高血壓云服務;數據挖掘;分析平臺構建
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0268-02
1 引言
生物信息學(Bioinformatics)是伴隨著人類基因組計劃(Human Genome Project,HGP)而迅猛發展的一門交叉學科,其涉及生物學、統計學及計算機科學等多個學科。生物信息學通過對生物信息數據獲取、處理、儲存、分析和解釋,揭示生物信息數據包含的生物學意義。隨著高通量測序技術、生物信息數據挖掘技術的飛速發展,R和Python語言在數據挖掘廣泛應用,加之基因組、蛋白組、轉錄組等海量組學數據指數型增長。同時高通量測序實驗技術成熟發展,生物醫學實現由單一組學時代向多組學融合時代的跨越。這昭示著我們已經進入生物大數據時代。
在生物大數據時代,生物醫學組學數據主要呈現出數據多元化、增速快、數據結構復雜且標準化程度低、數據分布零散難以整合分析等特點。目前,生物醫學研究面臨主要問題有:(1)數據碎片化、管理分散、難以實現有效整合分析;(2)數據安全無保障,缺乏交流平臺,是世界最大組學數據輸出國;(3)數據缺乏標準化機制且管理混亂,質量參差不齊,缺乏同國際交流的平臺與窗口,受國際、國內的政策與技術的限制嚴重。
高血壓作為一種常見的慢性非傳染性疾病,是目前我國居民健康的主要威脅之一,也是我國生物醫學領域的研究重點和熱點。隨著生物大數據時代來臨,高血壓生物醫學研究面臨新的機遇與挑戰。以基因組、轉錄組、蛋白質組為代表的各種組學蓬勃發展為高血壓生物醫學研究提供了新的研究方向與研究方法,與此同時,由于組學數據量大增速快、種類繁多結構復雜、數據分散難以共享等特點,使得高血壓研究面臨嚴峻挑戰。
本文提出一種高血壓大數據分析平臺構建方案,該方案借助云存儲技術和虛擬化技術構建高血壓生物醫學大數據資源庫,擬解決生物大數據時代高血壓醫學數據分散、結構復雜、不易存儲等問題;借助云計算技術、數據挖掘技術打造高血壓數據分析平臺,彌補現階段高血壓醫療數據存儲分散難以共享不足,為科研和醫療工作者提供專業化的高血壓數據共享云服務,為高血壓精準醫學研究提供精準數據支持和平臺支撐。
2 生物大數據時代高血壓大數據分析平臺設計
隨著生物大數據時代到來,高血壓生物醫學數據爆炸式增長,為滿足高血壓大數據發展需求,彌補傳統數據存儲模式和數據管理分析技術成本高、部署困難、不易擴容、數據處理速度慢等不足。本文提出一種基于MVC架構的高血壓數據挖掘分析平臺構建方案,該方案利用MVC架構低耦合的特點實現圖形界面和數據挖掘分析組件優勢組合,用戶通過視圖將數據服務請求傳遞給控制器,控制器根據不同服務請求調用相應模型,模型將封裝的數據參數及業務需求傳遞給數據挖掘分析系統,系統在接收到數據參數后從高血壓數據資源庫中提取數據,調用數據處理程序進行挖掘分析,最后將數據分析結果通過視圖展現給用戶。該平臺將高血壓數據資源和數據挖掘分析組件部署于云服務器,通過負載均衡來策略協調用戶對數據挖掘系統的訪問,從而提升系統的計算效率,使用戶在服務體驗、系統的交互性、可靠性等方面相對于傳統的數據挖掘平臺皆有很大提升。該平臺架構圖如圖1所示。
1)高血壓數據資源庫設計實現
高血壓數據資源庫是基于云存儲技術設計實現的,在不改變現有物理存儲設備基礎上借助分布式存儲技術、虛擬化技術以及計算機網絡技術構建虛擬數據云服務,基于PostgreSQL數據庫技術構建高血壓數據資源庫,并采用先進I2B2數據管理方法,實現對高血壓數據的有效管理。資源庫內的數據主要分為結構胡數據和非結構化數,結構化數據包括:基因組學數據、蛋白質組學數據、轉錄組數據和表觀遺傳組數據等分子數據;非結構化數據主要包括:病例數據、科研文獻以及其他類型數據。高血壓數據資源庫結構如圖2所示:
2)高血壓數據挖掘分析系統設計實現
高血壓數據挖掘分析系統是整個高血壓大數據分析平臺的核心與靈魂。數據挖掘分析系統采用模塊化設計思想,整個系統分為數據選取、數據預處理,算法模型及可視化四部分,各模塊又細分若干子模塊,模塊之間相互獨立,通過統一API訪問接口向外提供服務,當用戶需求改變時,只需修改相關的模塊的業務參數即可,其他模塊不受影響。采用這種模塊化結構設計模式,能夠使系統的擴展性和健壯性大大提高。
3 數據挖掘平臺關鍵技術
高血壓數據挖掘分析平臺構建關鍵在于平臺架構設計和算法實現兩個方面,平臺設計方案的合理性和健壯性決定了平臺系統的穩定性;算法的健壯性和可靠性決定了用戶體驗。現針對平臺建設中涉及的關鍵技術進行研究,詳細內容如下:
1)云計算技術
云計算技術是一種借助互聯網技術整合大量計算數據與處理器資源并向提供可用的、便捷的、按需的資源訪問模式,其具有功能強大、運行成本低、安全性高、可共享等優點,是高血壓數據挖掘分析平臺的核心技術之一,在平臺構建過中,主要運用分布式存儲技術、虛擬化技術、并行云計算技術。
(1)分布式存儲技術。該技術借助網絡技術優勢將分散的、碎片化存儲空間構建成一個虛擬的整體,并將數據存儲于虛擬空間中。借助此方式可以將碎片化的、零散的物理存儲設備構建成虛擬的、高擴容性的存儲空間,在此基礎上構建高血壓數據資源庫,適應高血壓分子數據增長趨勢。
(2)虛擬化技術。該技術可將多臺服務器設備有效連接起來構成一個高效的服務資源池,從而優化資源配置,使服務器資源得以最大化利用。運用該技術將高血壓數據分析系統多個算法模塊分別部署在不同服務器中,保證各個數據分析模塊相互獨立,互不影響,從而提升高血壓數據挖掘分析平臺數據處理能力和處理效率。
2)MVC框架技術
MVC(Model-View-Controller,模型-視圖-控制器),是一種當前主流軟件設計模式,該模式將數據、業務邏輯以及前端分割成相互獨立三部分,各部分通過控制器實現數據交換、業務傳遞,細化分解軟件開發工作,大大提升軟件系統開發效率。采用MVC架構的高血壓數據挖掘分析系統具有維護成本低、耦合性低、重用性高等特點。該架構實現了平臺中前端展示界面和數據挖掘分析組件的解耦,將兩者相互獨立,在開發過程中前端工程師不需要關心具體的數據挖掘分析流程;而后臺業務流工程師也不必關心展示界面,大大提高了數據挖掘分析平臺的開發效率。
3)分布式并行計算技術
分布式并行計算技術是將數據分布、任務并行、任務調度等技術細節進行封裝,在實際的應用中,用戶并不需考慮這些內容,而知識能夠在終端操作應用滿足自身的需求。利用分布式并行計算技術有利于提高數據挖掘的效率,同時降低企業數據挖掘平臺維護的成本。高血壓數據挖掘分析平臺構建采用分布式并行計算方法協調數據與分析模塊關系。當用戶使用時只要在終端開啟執行數據運算的指令就可以實現數據的操作,它對數據的分析以及任務的并行執行有著推動的作用。
4 結語
隨著生物大數據時代來臨,高血壓分子數據呈現爆炸式增長,對高血壓數據有效整合與利用可以促進高血壓精準醫學研究發展,實現數據資源到數據財富轉化。本研究依托云計算技術、MVC框架技術、分布式并行計算技術構建高血壓數據資源庫以及數據挖掘分析平臺,服務于廣大醫療及科研工作者,滿足不同群體不同需求,實現高血壓數據資源的共享,高血壓研究者提供一個專業化信息交流平臺,進一步促進高血壓精準醫學研究發展,實現更大的經濟效益和實用價值。
參考文獻:
[1] 胡瑩石,陳家晨,徐菱.云計算下數據挖掘平臺架構及技術探究[J].無線互聯科技,2018,15(12).
[2] 王曉妮,段群.基于MVC模式的數據挖掘平臺設計與實現[J].信息與電腦(理論版),2018(15):53-55.
[3] 王俊,郭麗,吳建盛,湯麗華,等.大數據背景下的生物信息學研究現狀[J].南京郵電大學學報(自然科學版),2017,37(04):62-67.
[4] 張國慶,李亦學,王澤峰,等.生物醫學大數據發展的新挑戰與趨勢[J].中國科學院院刊,2018,33(08):853-860.
[5] 丁巖,楊慶平,錢煜明.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].中興通訊技術,2013,19(01):53-56.
[6] 樊紅珍.基于云計算的數據挖掘平臺架構及其關鍵技術[J].電子技術與軟件工程,2017(05):196.
[7] 趙友杰,曹涌,熊飛.基于林業大數據的生物信息云平臺的構建研究[J].電腦知識與技術,2018,14(01):23-25.
[8] 李國妮.tranSMART轉換醫學平臺的本地化及其深層次的開發[D].長安大學,2016.
[9] 陶慶.基于云計算的MVC架構數據挖掘平臺的研究與設計[J].集寧師范學院學報,2018,40(03):53-57.
【通聯編輯:代影】