關于生物特征基因數據的統計學研究

2018-05-14 14:14:03趙萬通韓延波張浩男

科技風 2018年10期

趙萬通　韓延波　張浩男

摘要：本文主要從生物特征基因的提取出發，進而展開對特征基因數據的統計學分析、聚類以及到最終的特征基因表達差異分析，得出結論。本文研究內容的意義在于能夠通過比較同種樣本在不同時期或不同形態下的基因表達差異來得到對我們人類自身有益的、對科學領域研究有價值的基因信息，從而更好的給生物技術領域提供數據支持。

關鍵詞：生物信息；特征基因；統計學分析；數據挖掘

提及特征基因數據，就不得不說起生物信息學，人類在該領域進行的挖掘、剖析等操作依舊是將計算機作為關鍵的方式及工具，其探究活動以蛋白質學與基因組學為主。具體來說，它是在分子層面，通過應用數學、計算機科學及統計分析中衍生出的一系列方法，將切入點選擇為基因組DNA分子序列，在將蛋白質編碼信息數據獲悉之后對其展開結構模擬與預估，并以此為據來針對特定蛋白質功能展開藥物開發的一類學科。因而，以內容為基準，可對生物信息學做出如下闡述：新興算法和統計學研究；數據集的轉化和分析；開發針對數據管理的新工具。而本文所做的工作，則是簡要說明生物特征基因數據分析的過程，包括從最初的樣本數據預處理到后期的統計聚類分析等。

一、國內外研究現狀

在科技持續精進的大背景下，基因組計劃的發展也表現得頗為迅猛，但是相應的數據量也在日益增長，所以我們必須通過生物信息領域的一些相關方法來對這些數據進行收集、整理和分析，然后這些信息才能變成有用的知識和信息。即只有借助生物學手段對此類信息加以處理之后才可以對基因組產生無誤的理解與認識。

（一）國外研究現狀

在生物信息學發展方面，國外給予了極高的關注，諸多的專業研究組織及企業接二連三的創立，相應的科技企業以及制藥工業內部的相應部門也愈來愈多。1993年，歐洲生物信息學研究所EBI開始籌備創建。1995年，日本也建立了信息生物學中心CIB。現如今，大部分核酸及蛋白質數據庫都是源自于上述三個國家。而現階段全球最大的分子生物信息研究、研發及服務組織European Molecular Biology Network是由歐洲國家所創建，其借助計算機網絡達成了德、法、英等多國相應資源的共同分享。與此同時，這些國家又各自創設了自有的相應機構及數據庫，并且都有自己的核心分析技術，為自己國家在該領域內的發展提供支持，其中一部分也會向全球公開供應。

（二）國內研究現狀

近年來，我們國家關于生物信息學的研究也取得了不少的進步，先后建成了北京大學生物信息學中心、中國科學院上海生命科學院生物信息中心等，一些高等院校也已將該學科作為一門專業進行開設。2002年，國家自然科學基金委在生物物理學、生物化學以及生物醫學工程學科的基礎上創建了生物信息學項目，國家 863計劃也特意創設了與其相關的技術主題，以國家需求為內驅力，促使該學科長足發展。不過，由于研究開展的時間較晚加之其他的多個緣由，導致我們國家在該領域的發展與發達國家相比還很落后。由此可見，我國對生物信息學領域的深入研究刻不容緩。

二、特征基因數據的預處理

（一）生物數據特點

細胞在特定條件中的全基因組數據都可借助生物微陣列實驗而獲取，數百數千個基因在細胞中的絕對或者相對豐度都涵蓋在其內，而條件不一樣下的相應數據即可構成一個A×B的數據矩陣M，通常狀況下A>>B，各個基因HYPERLINK"http：//www.bio1000.com/reseach/gene/"＼t"http：//www.bio1000.com/experiment/fenzi/_blank"在某種條件下的表達水準都可借助其中相應的元素加以代表，而基因在B個條件下的表達則由行向量所代表，某條件下各個基因的表達則由水平列向量所代表。

（二）數據處理方法

在對特征基因數據HYPERLINK"http：//www.bio1000.com/zhuanti/product/201308/444070.html"＼t"http：//www.bio1000.com/experiment/fenzi/_blank"進行整理、剖析和數據挖掘前，經常要按照實際情況對其進行數據預處理，包括對數據遺失的修補、對殘缺數據的移除以及對相似數據的捏合等處理方法，按照分析的具體目的而展開過濾，同時依據分析方式來選取相應的數據轉換手段。但是在現實之中，時空特異性是生物細胞中的基因表達的一個特別之處，在某一條件下可以真正表達的基因所占據的比例極小。所以，DNA微陣列實驗所獲取的數據矩陣里出現的絕大多數基因表達譜曲線都較為平緩，即基因表達水平變化很小。生物學研究者對于此類基因通常不會過多關注，然而它們的出現卻會導致數據剖析活動變得更加繁雜，并且有礙于結果的客觀性，所以對這些數據進行過濾是非常有必要的。基因表達HYPERLINK"http：//www.bio1000.com/zt/gene/jiyin.html"＼t"http：//www.bio1000.com/experiment/fenzi/_blank"譜數據在完成此處理之后，以及在聚類分析等操作開始之前，通常還需完成數據的轉換，也就是將其形式加以改變，使其更適于挖掘。由此看來，數據的轉換處理離不開數據的標準化。數據的標準化即為把全部數據轉換至相同的一個范疇之中，從而使對比及運算都變得較為簡單，然而在標準差與0較為相近的時候便會出現極大的噪聲，恰是因為如此所以才會必須完成上述的過濾處理。在標準化結束之后，各個基因表達譜的平均值都為0，標準差為1。

三、數據的統計學分析

（一）數據的統計

在大部分現代生物學當中，統計分析是重中之重，是前者的根基。諸多的生物學假說都是借助繁雜的統計學模型擬合而成的。當前，統計學軟件的功能已經十分強大，而且使用便捷，任何人都可以借助其完成模型，數據的處理是此方面的關鍵。在該領域信息分析期間，統計分析的運用從開始到結束都是不可或缺的。數據的統計主要是通過對樣本進行相關性分析以及顯著性檢驗來判斷表達出不同性狀的基因之間的相關性，以便于更好的對其進行聚類和比較分析。

斯皮爾曼相關性分析：可在多個范疇之內加以運用，其等級相關對數據條件的要求的嚴苛度并不及積差相關系數，僅需兩個變量的觀測值是匹配的等級評定信息，或者是通過持續變量觀測資料轉變而獲取的等級信息，都可借助斯皮爾曼等級相關展開探究，而對兩個變量的整體排列狀態等都不存在限制。

肯德爾相關性分析：肯德爾相關系數是用以對兩個隨機變量相關性的統計值進行測量。一個肯德爾檢驗即可被視作一個無參數假設驗證HYPERLINK"http：//www.so.com/s？q=%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C&ie=utf8&src=se_lighten_f"＼t"http：//blog.sina.com.cn/s/_blank"，其借助運算而獲取的相關系數來對兩個隨機變量的統計依賴性加以驗證。此系數的數值為1～1，一旦τ=1，則代表兩個隨機變量的等級相關性完全相同；一旦τ=1時，則結果相反；一旦τ=0，則代表二者間具有單一性。

我們主要通過這兩種系數來進行相關性分析，從而能夠根據得到的相關性情況更好的對數據進行聚類。

（二）數據的聚類

聚類分析是統計學中極為關鍵的方法，應用面較為廣闊。上文中首先運用統計學中的相關性分析檢驗如斯皮爾曼相關系數、肯德爾相關系數等對樣本數據進行相關性檢驗，目的是以此來判斷表達出不同性狀基因之間的相關性，以便于更好的進行聚類。所以，下面將介紹兩種常用的聚類方法，主要用來對樣本數據進行聚類分析。

Kmeans聚類：指定聚類，也就是指定變量至某一個類，必須使其與這個類中心的間距比其至其它相應中心小。它是一種迭代聚類方法，它要求最接近某一類中心距離的那些變量歸為這一類，而再借助每個類中的平均將該類中心值加以代替，所以才會如此命名。這可以由一個交替最小化算法優化過程中給出，因此我們可以獲得最優的中心值。算法輸入：初始隨機選擇一個基因作為中心值，對剩余的每個基因比較到每個中心的距離的大小，將其賦給距離最小的那一類，然后重新計算該類的中心值。算法輸出：不斷重復上述算法，直至符合方差最低標準的聚類。

模糊聚類：此類分析是關系到事物相互間的模糊邊界的時候依據相關條件展開對事物的類別劃分的數學方法。在數理統計HYPERLINK"https：//baike.baidu.com/item/%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1/408183"＼t"https：//baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"活動當中，經常用到聚類分析HYPERLINK"https：//baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90"＼t"https：//baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"，它是一種多元剖析的方式，借助數學手段對樣本的關聯性加以定量明確，從而使分出的類別具有較強的客觀性。事物之間的界限，有些是確切的，有些則是模糊的。譬如天氣的陰、晴邊界即為模糊。基本過程為：變量或者樣本之間的相似系數HYPERLINK"https：//baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%B3%BB%E6%95%B0"＼t"https：//baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"展開運算，創設模糊相似矩陣HYPERLINK"https：//baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%9F%A9%E9%98%B5/10369874"＼t"https：//baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"；借助模糊運算來合成優化相似矩陣，以獲取模糊等價矩陣HYPERLINK"https：//baike.baidu.com/item/%E7%AD%89%E4%BB%B7%E7%9F%A9%E9%98%B5"＼t"https：//baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"；最后依照各種的截取水準λ對獲取的上述矩陣加以截取類別劃分。

通過以上幾種方法對所研究樣本數據進行聚類分析，并得到相應的分析圖形與表格，最后通過分組對比獲取的結果可將特征基因在各類樣本數據中的表達區別展現出來。

四、總結

本文針對現代生物信息學中的統計學分析方法進行了簡單的闡述，伴隨前者的高速發展，特定功能基因篩選己經成為了該領域研究的一個重要方向，從海量數據中篩選出對生物遺傳性狀和生命活動有指導意義的信息已變成當前該領域的全新探索方向。在此過程中，統計學在生物信息分析活動中得到了大量的運用。同時也進行了數據處理方法分析，對待研究的樣本數據做預處理和統計分析，包括從相關性分析到聚類分析等。文章的實施目的在于能夠從以上分析的基礎上提取出一些對科學研究有價值的數據，以便于更好促進對生物信息領域的理解，也能更好的為人類基因組學提供數據支持。

雖然目前針對特征基因數據可以用多種分析方法來分析，但是實際操作中難免會遇到一些客觀因素帶來的問題，比如：基因有其復雜性，故在對樣本進行分析過程中，可能會造成一定的誤差；相關性分析的方法都有其使用條件，因而不能涵蓋所有類型的數據；當前對基因數據的研究還只是停留在初級階段，所使用的手段還很有局限性。所以，對于之后要進行的工作以及對最終結果的論證還需要相關技術人員做進一步的基因蛋白數據庫比對研究。

參考文獻：

[1]郭樂樂.統計聚類在生物信息分析中的應用[D].蘭州大學碩士論文，2014.

[2]肖文莉.圖形表示在生物信息學中的研究及應用[D].燕山大學碩士論文，2016.

[3]趙屹，谷瑞升，杜生明.生物信息學研究現狀及發展趨勢[J].醫學信息學雜志，2012，（5）.

作者簡介：[JP2]趙萬通（1994），男，遼寧海城人，大連海洋大學理學院在讀研究生，研究方向為生物信息處理；張浩男（1994），男，遼寧大連人，大連海洋大學理學院在讀研究生，研究方向為生物信息處理。[JP]

*通訊作者：韓延波（1977），男，遼寧營口人，大連海洋大學合作發展辦公室主任，碩士，助理研究員，研究方向為教育管理。