陳鵬
摘 要
隨著現代計算機信息技術的快速發展,生物信息學與計算機技術的結合度也越來越高,在生物信息學的數據庫中就很好地應用了計算機信息技術,而數據庫的建立與完善對生物信息學的發展也具有重要的作用,本文中主要對數據庫的應用進行分析。
【關鍵詞】生物信息學 數據庫 應用
現代社會是一個信息化的社會,人們每天進行各種信息的交流愈加頻繁,在這個信息化的時代,計算機以及信息技術為人們信息的交流提供了重要的工具。生物信息學數據庫的建設與應用就是利用了現代的計算機信息技術對生物信息進行存儲、檢索與分析。
1 生物信息學數據庫
生物信息學是建立在應用數學、計算機科學以及生命科學等多學科基礎之上的交叉學科,這門學科的主要任務就是探究如何高效地獲取生物學信息,對信息進行處理與分析,存儲信息以及應用生物學信息。數據庫技術主要解決了將世界海量的生物學數據、已有的研究成果以及技術信息等收納并存儲在數據庫中,這樣可以大大方便人們的生物研究與信息的查詢與借鑒。
2 數據庫的分類與特點
生物信息學數據庫中的數據種類極為多樣,其數據庫中的信息覆蓋面也極為廣泛,數據信息很全面;數據庫的信息更新速度快,信息的內容更新的也很豐富;數據庫的規模在不斷地擴大,數據庫的復雜性也在不斷增加;在使用上更加地網絡化、便捷化。
2.1 一級數據庫(一次數據庫)
在生物信息學數據庫中的一級數據庫主要包括了核酸和蛋白質一級結構序列數據庫,基因組數據庫以及生物大分子(主要為蛋白質)的三維空間結構數據庫,通常稱為基本數據庫。一級數據庫的明顯優勢就是在這個數據庫中數據的信息量很大,海量信息存儲在數據庫中并且數據每天都在增加,數據的信息也會及時更新并且更新速度很快,一級數據庫的用戶量也很多并且用戶面也很廣泛。因此以及數據庫的建立是需要性能高的、磁盤的容量很大的并且擁有專門的數據庫信息管理系統的計算機作為載體來支撐這些功能的完成。另外,數據信息還需要一些大型的商業軟件作為數據管理的支撐。例如,在我國的生物信息學研究所中使用的是Oracle數據庫系統,這種軟件管理系統可以較好地將數據進行管理與分類。研究所中針對基因組的數據庫進行管理以及運行則主要是基于Sybase數據庫系統來完成的。
2.2 二級數據庫
所謂的二級數據庫主要是以一級數據庫以及文獻資料為基礎建立起來的數據庫,也稱專業數據庫。二級數據庫相較于一級數據庫,其數據信息的容量也小得多,數據信息的更新速度也相對要慢一些。二級數據庫不需要大型的商業軟件來支撐數據庫的管理,可以直接使用一些基本的瀏覽器,如web瀏覽器。二級數據庫有很多種類,例如,基于核酸數據庫建立的二級數據庫中有真核基因順式調控元件和反式作用因子數據庫的TransFac數據庫,以及真核基因啟動子數據庫EPD,密碼子使用表數據庫CUTG等。基于三維空間結構為基礎構建的數據庫有蛋白質二級結構構象參數數據庫DSSP,已知空間結構的蛋白質家族數據庫FSSP等。
3 生物信息學數據庫的應用
3.1 序列的比較
所謂的序列的比較主要是指將兩個序列中的各個元素放在一起然后按照對應等同的關系對元素進行有關的排列。對于兩個序列中共有的那些排列順序表示的是這兩個序列的相似程度是較高的,是對序列的一種較為定性的描述。對于最優的排列主要是反應在這兩個序列中的最大相似程度以及最少相異處,現在較為普遍尋找最優排列的方法是通過動態的規劃算法來尋找最優序列。一般來說,對于一個新的序列以及數據庫中的某個序列的比較是可以在非常短的時間內就可以比較出來的,但是由于基因數據庫中的數據極為繁多,因此在這個序列中的比較會相對花費較長的時間才可以比較出來,尤其是逐個對比的時候,所需要的時間更長。所以,現在對于基因數據庫中的序列的比較主要是使用搜索計較算法來進行序列的比較。另外,關于序列的搜索主要是有兩種使用較為普遍的使用程序,一個是BLASR程序,另外一個是FASTA程序,這兩個程序在實踐應用中是比較成功的,其可以根據給定的序列,然后在基因數據庫中快速地找出一些同源的序列,進而提高搜素與比較的速度。例如,在BLASR這個程序中主要使用的是一種對于序列的數據進行局部的對比與分析,這可以較快找出一些同源的序列,然后進行比較找出較優的序列,因為這種程序可以較快提高比較速度,軟件的使用性能也不錯,因而在實踐中應用度較廣。
3.2 數據挖掘技術
隨著生物信息學的數據庫的數據在飛速增長,怎樣在海量的信息中提取出用戶需要的信息成為一個問題的關鍵,也是在生物技術信息數據庫的應用中需要解決的一個問題。另外,如何在已有的數據信息中以及從基因數據庫中識別出編碼的蛋白質的基因,如何對識別的基因進行多種信息的表達與控制,如何解讀出生物的遺傳密碼,分析出蛋白質的相關結構以及功能等都是需要面對以及解決的問題,也在當下生物信息學數據庫中面臨著的比較棘手的困難。針對上述問題,在實踐應用中比較常用的是一種數據的挖掘技術。這種信息挖掘技術可以高效地從數據庫的海量信息中挖掘出有效的信息或者生物知識。這種數據挖掘的技術主要就是從數據庫中這些海量的信息、隨機的信息數據中提取出一些人們以前不知道的但確實是有用的信息來提供給用戶使用。用戶通過這種技術可以高效地找出自己需要的信息與知識,因此這種技術具有很強的應用性,值得推廣與應用。
4 結束語
關于生物信息學數據庫以及應用方面還有很多需要探究的方面,本文主要是對其進行了一些簡單的介紹,并沒有很詳細的延展開來,需要在今后繼續分析與研究。但可以肯定的是很多的生物技術的研究都是需要數據庫的支撐來促進世界生物技術的發展與進步。
參考文獻
[1]趙屹,谷瑞升,杜生明.生物信息學研究現狀及發展趨勢[J].醫學信息學雜志.2012,33(5):2-6.
[2]孫清鵬,賈棟,萬善霞.生物信息學應用教程[M].北京:中國林業出版社.2012:23-56.
作者單位
重慶醫科大學 重慶市 400016endprint