廉士珍,閆喜軍,胡 博,張 蕾,薛向紅(中國農業科學院特產研究所,吉林 長春 130112)
?
可視化技術在基因組測序中的應用研究
廉士珍,閆喜軍,胡 博,張 蕾,薛向紅
(中國農業科學院特產研究所,吉林 長春 130112)
摘 要:隨著人類基因組計劃的順利研究以及新型測序技術的不斷發展,其逐步推動了農業中對動植物基因進行測序的計劃進展。通過在農業中對動植物的基因進行測序可有效顯示動植物疾病病變中的基因變化情況,為相關疾病的診治提供可靠依據。本文就計算機可視化技術在基因組信息測序中的應用進行一下綜述。
關鍵詞:計算機可視化技術;基因組;信息測序
隨著對基因組信息測序的不斷發展,人類掌握了大量的基因表達模式、蛋白質相互作用以及蛋白質結構等方面的數據。基因測序的信息數據不斷增加,對其進行數據采集、處理、儲存以及分析成為目前的主要任務[1]。計算機可視化技術在基因組信息測序中的應用極大的解決了海量數據分析的難題[2]。現就其相關應用作一下分析,以表明計算機可視化技術在基因組信息測序中的不可或缺性。
自遠古時代起就有對數據進行可視化的處理,計算機的可視化技術對信息數據的處理則源于人類歷史上首臺數字式計算機的發明。目前計算機的可視化技術在醫學、天文物理學、材料科學、人類學和考古學、海洋學、環境與生態科學、建筑設計學、地質勘探、航天工業、氣候模型與預測、工業無損探傷以及生物學等多方面、多領域均具有廣泛的應用[3]。
可視化技術即將數據或者符號轉化成形象直觀的幾何圖形或者圖像,方便研究者進行觀察研究的技術。計算機可視化技術即為利用計算機的圖形學以及圖像處理技術將信息數據轉化成圖形或者是圖像在屏幕上展現出來,并進行交互處理的理論、方法以及技術[4]。隨著我國科學技術的不斷發展,在計算機可視化技術探索中也獲取一定成效。計算機的可視化技術主要涉及到計算機的圖形分析、圖像處理、計算機視覺以及計算機的輔助設計等多方面、多領域的內容,是對信息數據進行綜合表示、處理以及決策分析的計算機技術[5]。其基本途徑一般包含三方面:第一是將需要計算處理的信息數據進行收集、組織并壓縮,第二是將計算機處理后的數據進行幾何元素的提取以及對其可視模型進行構建,第三是繪制相關圖形并將其顯現出來。
在生物科學中,一個生物體的基因組是指包含在該生物體內的全部DNA和/或RNA中的遺傳信息,又稱為基因體(genome)。基因組包含了基因和非編碼DNA。更精確地講,一個生物體的基因組是指一套染色體中的完整的 DNA序列。早在一九二零年,德國漢堡大學的植物學教授漢斯.溫克勒(Hans Winkler)就首次使用了基因組這一名詞。現代遺傳學家認為,基因是 DNA(脫氧核糖核酸)分子上具有遺傳效應的特定核苷酸序列的總稱,基因位于染色體上,并在染色體上呈線性排列,形成具有遺傳效應的DNA分子片段。通過控制人體基因的生化特性,人類將能夠恢復或修復人體細胞和器官的功能,甚至改變人類的進化過程。此外利用基因,人們可以改良果蔬品種,提高農作物的品質,更多的轉基因植物和動物、食品將問世。
計算機可視化技術的強大圖形分析、圖像處理以及數據分析能力,使其在基因組信息測序中得到成功的應用。利用計算機可視化技術可以有效的反映出生物序列的三維結構,并且能直觀、準確且短時間內快速地整理出其復雜的相互關系。目前基于基因組信息測序的計算機數據可視化技術主要包括語義鏡技術、信息壁技術、基因調控網絡、聚焦+關聯技術等。
計算機可視化技術在基因信息測序中的應用主要體現在以下幾方面:第一,計算機可視化技術可以對基因組測序獲得的信息數據進行比對,根據其序列相關結構分析測得其相似性;第二,計算機可視化技術可對基因組測序中獲得的大規模數據信息進行分析處理,將雜亂的數據轉化成清晰的數字信息;第三,計算機可視化技術可對規模龐大的基因功能表達譜進行有效分析;第四,通過計算機可視化技術可以對已經完成測序的完整基因組進行比較分析,使得人類對生物進化、遺傳疾病可疑突變基因的分離以及相關基因新功能的預測取得巨大的進步;第五,計算機可視化技術下,可對數據進行深入的挖掘,可以發現并鑒定新型基因以及新單核苷酸的多態性,發現基因插入以及缺失等結構變化,為對新型基因以及新單核苷酸的多態性相關的生物功能以及疾病的研究提供了技術基礎[6-7]。其中UCSC基因組瀏覽器可將任何類型的數據進行基因組比對,比對后將其形成圖像在服務器端的網頁中顯現出來。基因組瀏覽器對基因組測序數據的展示是以染色體位置作為索引、以相關參考基因組為標準,具有可定制性以及良好交互性的模式,它可以根據用戶的具體需求進行數據內容的展示以及隱藏。在各組織轉錄組之間存在著一定的表達差異性,往往需要通過一定的聚類手段對數據進行聚類統計,后對其進行直觀結果分析。計算機可視化技術中的聚類工具,使用熱圖對基因組測序獲得的信息數據進行集成化統計分析并直觀展現出來,并利用生物數據庫中的先驗知識提供相關性分析、富集分析以及數據顯著性計算等多種數據分析手段,通過對相關數據的排序、過濾隱藏、聚集以及可視化分析使應用者能夠對數據進行可視化以及交互性觀測。
基因組信息測序獲得的數據信息數量龐大且復雜,數據信息具有一定的不明確性以及不完整性,而計算機可視化技術具有強大的復雜數據轉化能力,其可以將大量的無規律數據轉化為有規律可循的有用信息。將其應用在基因組測序獲得信息數據的整理分析中,可有效發現數據之間的相互關聯,明確其變化規律,對數據進行可視化探索。計算機可視化技術是基因組信息測序獲得數據分析的必不可少的手段。
參考文獻:
[1]王俏,王偉.基于知識圖譜的國際基因組流行病學可視化分析[J].中華醫學圖書情報雜志,2013,22(4):2-9.
[2]伍勇,鐘志農,景寧等.海量圖數據可視化研究[J].計算機應用研究,2012,29(9):3216-3220.
[3]黃輝,陸利忠,閆鑌等.三維可視化技術研究[J].信息工程大學學報,2010,11(2):218-222,247.
[4]張卓,宣蕾,郝樹勇等.可視化技術研究與比較[J].現代電子技術,2010,33(17):133-138.
[5]宋成龍,鄒辰,王文珂等.分子結構與基因序列數據綜合可視化方法研究[J].計算機工程與科學,2013,35(12):26-33.
[6]Thorvaldsdóttir H,Robinson J T,Mesirov J P. Integrative Genomics Viewer (IGV): High-performance genomics data visualization and exploration. Brief Bioinform,2013,14:178–192.
[7]Hon,Jiri,Martinek,Tomas,Rajdl,Kamil et al.Triplex: an R/Bioconductor package for identification and visualization of potential intramolecular triplex patterns in DNA sequences[J].Bioinformatics,2013,29(15):1900-1901.
(責任編輯:張時瑋)
中圖分類號:C39
文獻標識碼:A
doi:10.3969/j.issn.1672-7304.2016.01.062
文章編號:1672–7304(2016)01–0133–02
作者簡介:廉士珍(1976-),吉林人,助理研究員,研究方向:動物疫病防控。
Research on the application of visualization technology in genome sequencing
LIAN Shi-zhen, YAN Xi-jun, HU Bo, ZHANG Lei, XUE Xiang-hong
(Specialty Research Institute, Chinese Academy of Agricultural Sciences, Changchun Jilin 130112)
Abstract:As the study of the human genome project and the development of new sequencing technologies, and gradually promote the agriculture of animal and plant gene sequencing plan in progress. By gene sequencing of animals and plants in agriculture can effectively according to genetic changes in animal and plant disease situation, provide a reliable basis for the diagnosis and treatment of related diseases. In this paper, the application of computer visualization technology in genome sequencing is reviewed.
Key words:Computer visualization technology; genome; information sequencing