劉江濤 邢輝
【摘要】 生物大數據可視化的實現能夠對科研工作人員對海量復雜數據進行綜合、多角度觀察提供極大的幫助。生物數據量越大,復雜性越強烈,生物大數據可視化的作用就越加重要。文章主要針對生物大數據可視化的現狀及挑戰進行分析。
【關鍵詞】 生物大數據 大數據可視化 發展趨勢
在以往的10余年中,生命科學的各個領域得到了快速的增長,并且累積了海量的數據信息。海量的數據信息類型多樣,數量驚人,擁有巨大的潛在價值。如果采用傳統的處理方式來對海量數據進行處理不僅僅需要大量的人力、物力投入,而且還會使得失誤率大大提升。在這一情況下,生物大數據可視化技術應運而生。
一、大數據及其技術
大數據是一種區別于傳統意義的研究模式,其與傳統模式中以個別案例作為研究對象的方式不同,其需要使用大規模的數據來開展研究。大數據最為顯著的特征就是包括:1)海量數據。伴隨著信息技術的進步,2009-2012年在醫學領域有數以千百萬計的患者的病歷并采用電子格式保存[1]。電子病歷形式的數據給予了利用大量患者數據開展醫學研究的機會。2)類型多樣。基因測序技術在細胞領域的各個層面都形成了組學系統。同時,很多數據都是呈現非結構化的狀態,給醫療信息化的進步帶來了巨大的空間;3)形成速度快。當前大數據的增長數據依然處于持續增加的狀態中。在臨床醫學領域中,預計2019年采用電子病歷形式存儲的患者將會增加10倍。
二、生物大數據應用
生物大數據不僅僅擁有大數據的特點,而且同時還擁有生物數據的特征,生物大數據擁有數據量大、數據多樣化、數據價值高等重要特征。就當前生物大數據的應用狀況來看,生物大數據的應用有待進一步的深入開發,根據生物大數據的上述特征,其能夠在醫療健康、農業領域、食品健康領域得到廣泛的應用。
三、生物大數據可視化的現狀
1、測序數據。測序數據能夠將被比對至基因組中的所有數據類型通過圖像的形式顯現出來。其對于基因組數據展示模式大部分現存瀏覽器的相同特征:1)將染色體位置作為索引的基因組數據視圖;2)以參考基因組為標準提供位置坐標軸;3)優越的交互性與可定制性,可以根據不同需求來隱藏或裝載相關內容[2]。
2、分子結構數據。結構分子生物是物理、化學與生物學緊密聯系的重要學科,其主要關注3D與4D復雜形狀與功能關系的探索,成像捕捉、顯微觀察等技術給其研究工作提供了直觀的視圖數據。例如,軟件Para View在使用過程中,使用者可以利用其通過定性預定量的方式選取大海量的數據快速建立三維視圖模型,并且可以從隨意一個角度來進行分子的結構進行細致觀察。蛋白質等類型大分子結構十分復雜,其內部的位置關系與詳細情況需要海量的運算空間,所以三維視圖軟件的使用相對于二維軟件來說需要更加強勁的算法設計,因此軟件的硬件設備也需要相應的提高,以支持軟件的運算。為了全面提升海量數據的處理能力,Para View可以使用分布式存儲計算資源,能夠在超級計算機中來進行運算,從而實現可視化。
3、臨床數據。雖然電子病歷的普及范圍是在不斷擴大,然而非統一的標準以及非結構化的數據模式對于獲取患者資料有著一定的阻礙[3]。鑒于改善這一問題,Flatiron技術建立Oncology Cloud就能夠歸納整理來自多渠道的患者詳細信息與患者恢復情況,并且還可以對數據集進行分類研究。醫生不單單可以利用Oncology Cloud搜索到同類病人的治療結構,還可以實時搜索到以往不同治療方式下不同的療效。又例如,Chimera軟件可以將分子結構、序列對比、軌跡等數據整合起來,以形成高質量的動畫效果。另外,針對臨床數據的可視化軟件還包括能夠實現核小體定位與組蛋白分析的可視化等。
四、生物大數據可視化新技術展望與挑戰
首先,在目前擁有的海量數據中存在著大量的冗余,因此在未來的生物大數據可視化技術發展趨勢中可以將數據分類歸納,采用統一的規格來進行存儲,降低數據存儲與處理的成本,提升數據的易用性。其次,由于生物大數據都是位于不同的研究機構的,因此可以建立相關的通信協議,在通信協議的支持下可以實現同一界面對異地數據的可視化。最后,生物大數據的多樣性與海量性給數據挖掘帶來了巨大的困難,為了提升生物大數據的挖掘,在實現生物大數據可視化的過程中要在保證實用性的基礎上提升軟件的人性化水平,兼顧到使用者的體驗感,提供更加友好的人機交互界面。
五、結束語
生物大數據可視化工作種類多樣,針對不同需求有不同的工具來實現可視化。基于更徹底、更好的挖掘有效數據,生物大數據可視化工具的開發趨勢已經朝著擁有統計分析功能的一站式集成軟件發展。伴隨著科技的進步,未來的生物大數據可視化工具將會更加人性化、更加美觀、更加實用。
參 考 文 獻
[1]周琳 , 孔雷 , 趙方慶.生物大數據可視化的現狀及挑戰[J].Science Bulletin, 2015, (Z1):547-557.
[2]蘇咪咪.大數據的“豆形”可視化及其在資本市場中的應用[J].科學與管理, 2014, (06):3-8.
[3]第一次“中國生物大數據統計方法研討會”在重慶第三軍醫大學召開[J].中國衛生統計, 2015, (01):145.