【摘要】本文首先運用Relief算法與相關性分析相結合的方法,去除大量無關基因和冗余基因,取出了區分癌變樣本的特征基因;接著根據特征基因的表達水平,結合BP神經網絡建立了分辨正常樣本與癌變樣本的分類器,并對樣本作了測試;然后,利用該分類器討論了Golub噪聲模型對提取基因標簽是有利的;最后,從統計學角度出發,結合提取基因標簽,建立了診斷腫瘤疾病的假設檢驗模型,并提取若干個樣本進行了驗證.
【關鍵詞】Relief算法;BP神經網絡;Golub噪聲模型;假設檢驗模型
引 言
隨著大規模基因表達譜技術的發展,基因表達數據的分析與建模已經成為生物信息學研究領域中的重要課題.如果可以在分子水平上利用基因表達分布圖準確地進行腫瘤亞型的識別,對診斷和治療腫瘤具有重要意義.因為每一種腫瘤都有其基因的特征表達譜.從DNA芯片所測量的成千上萬個基因中,找出決定樣本類別的一組基因“標簽”,即“信息基因”是正確識別腫瘤類型、給出可靠診斷和簡化實驗分析的關鍵所在,同時也為抗癌藥物的研制提供了捷徑.
通常由于基因數目很大,在判斷腫瘤基因標簽的過程中,需要剔除掉大量“無關基因”,從而大大縮小需要搜索的致癌基因范圍.1999年《Science》發表了Golub等針對上述急性白血病亞型識別與信息基因選取問題的研究結果[1].Golub等以“信噪比”,采用加權投票的方法進行亞型的識別,僅根據72個樣本就從7129個基因中選出了50個可能與亞型分類相關的信息基因.Guyon等則利用支持向量機的方法再從中選出了8個可能的信息基因[2].但信噪比不是衡量基因對樣本分類貢獻大小的唯一標準,腫瘤是致癌基因、抑癌基因、促癌基因和蛋白質通過多種方式作用的結果,在確定某種腫瘤的基因標簽時,應該設法充分利用其他有價值的信息.考慮到腫瘤的基因標簽的選擇過程類比機器學習中的特征選擇方法非常相似,所以,我們選擇用Relief算法作為特征基因的預篩選器,然后對篩選出來的基因進行冗余分析,確定信息基因.基于神經網絡對大規模數據進行并行處理的優勢,最后用BP神經網絡作為樣本分類和識別器;考慮到數據噪聲,我們引入Golub噪聲模型,剔除噪聲基因.
1.模型的建立與求解
模型假設基因表達之間的相關性表現在其表達水平的相關系數大小上,相關系數越大,相關性就越大.有些基因在大多數樣本中的表達水平是非常相近的,只有少數的樣本會出現特殊的情況,這些的基因認為是噪聲基因.
1.1 信息基因的確定
1.1.1 Relief算法初步篩選
在機器學習領域,Relief算法[5][10]屬于一種特征權重算法,其通用性強,算法復雜性低,非常適用于大規模數據集,可以快速去除大量不相關的特征.從訓練集中選一個樣本R,然后從和R同類的樣本中尋找最近鄰樣本H,稱為Near Hit,從和R不同類的樣本中尋找最近鄰樣本M,稱為Near Miss,根據以下規則更新每個特征的權重:如果R和Near Hit在某個特征上的距離小于R和Near Miss上的距離,則說明該特征對區分同類和不同類的最近鄰是有益的,則增加該特征的權重;反之,則降低該特征的權重.最后特征的權重越大,表示該特征的分類能力越強.具體步驟如下:
Step 1:從訓練集中隨機選取一個樣本T,計算其他樣本與之的類內或類間距離,本文采用歐式距離:
Dk=∑mi=1(xTi-xki)2.(1)
其中xTi為樣本T中第i號基因的表達水平,xki為第k個樣本第i號基因的表達水平,Dk為第k號樣本與基礎樣本T的距離,k=1,2,3,…n.
Step 2:以樣本T為基礎,從類內按距離從小到大排列Step 1得到的樣本,從類間按距離從大到小選擇距離大的同樣數目的樣本,得到同類樣本集H和不同類樣本集M.
Step 3:先置所有基因的特征權重為0,再根據公式
wi=wi-diff(i,T,H)m+diff(i,T,M)m(2)
進行累加減得出各個基因的權重,式中wi表示第i號基因的特征權重,diff(i,T,H)表示第i號基因在樣本T和同類樣本H中的表達水平之差(絕對值),diff(i,T,M)表示第i號基因在樣本T和不同類樣本M中的表達水平之差(絕對值),m是總的基因個數.
1.1.2 冗余分析
基因表示之間存在著很強的相關性[7],但是一般認為與一種腫瘤直接相關的突變基因數目很少.在Relief算法篩選出來的部分信息基因之間相關性是很強的,因此接下來對上述得到的基因進行冗余分析.具體步驟如下:
Step 1:分別計算基因表達水平兩兩之間的相關系數,得到一個相關系數矩陣.
Step 2:規定一個相關系數閾值,提取出相關系數大于該閾值的若干對基因,根據大量實驗,我們認為,當兩個信息基因之間表達水平相關系數大于0.9時,這兩個信息基因對樣本分類的貢獻一樣.
Step 3:比較上一步提取出的每對基因的權重,保留特征權重大的基因.這些被保留的基因與上一步剩下的相關系數低于0.9的基因對的集合就是最后得到的“基因標簽”.
1.2 基于BP神經網絡的樣本分類模型
神經網絡是一個由大量簡單的處理單元組成的高度復雜的大規模非線性自適應系統.它首先對樣本數據進行多目標學習,通過人工神經元之間的相互作用實現控制.根據神經網絡理論,按照以下步驟建立樣本分類器模型:
Step 1:根據上一步篩選出的特征基因,選取樣本中的數據,對樣本數據進行歸一化,將正常樣本和癌變樣本按照一定比例分配到訓練集和測試集中.
Step 2:采用BP神經網絡對樣本進行訓練,根據樣本數據及Kolmogorov原理,建立一個三層BP網絡作為分類器.
1.3 噪聲模型的建立和求解
在高密度基因芯片上的數千個基因中,一些基因的表達水平在所有樣本都非常相近.這類基因沒有為樣本提供任何信息,只會增加計算的復雜度,因此在腫瘤分型中這類基因應該排除掉,在本模型中著重處理這一類基因.
本文仍引用Golub噪聲模型,以“信噪比”指標作為衡量基因對樣本分類貢獻大小的量度,采用加權投票的方法進行識別.具體步驟如下:
Step1:提取上述基因表達水平的樣本數據,標準化,計算各基因在正常樣本和癌癥樣本中表達水平的均值μi1,μi2以及標準差σi1,σi2.
Step 2:根據信噪比公式
di=μi1-μi2σil-σi2(3)
計算出基因對應的信噪比.
Step 3:計算信噪比值的中位數Med,并將其作為信噪比閾值,如果di 2.實驗結果分析 根據2010年研究生數學建模競賽A題提供的數據,我們對本算法在Matlab[8]環境中進行了模擬實驗.首先用Relief算法篩選出59個特征基因,在相關系數閾值為0.9的情況下,我們從初步篩選的59個基因中確定了23個基因為信息基因,從醫學角度來講,大部分基因與蛋白質的合成有著密切關系,這也從一定程度上說明了本算法的可行性.接下來計算出23個基因對應的信噪比,代表第i號基因信噪比,各基因編號,對應的信噪比及其特征權重如下表1所示: 由上述實驗結果發現,特征權重分布在高水平的基因其信噪比往往比較高;特征權重分布在較低水平的基因其信噪比往往也比較低;特征權重分布在中等水平的基因其信噪比不太穩定.這一結果說明噪聲模型對篩選出來的23個基因重選表現在兩個方面:一是繼續剔除特征權重小的基因;二是對特征權重分布在中等水平的基因進行進一步篩選,這兩個方面對特征權重閾值的選擇是一個很好的彌補,勢必會讓模型的結果更準確.根據Golub噪聲模型進行進一步提取,我們確定了11個基因為“標簽”. 確定基因標簽后用BP神經網絡對同樣的樣本進行訓練和測試,訓練集有46個樣本,包括前16個正常樣本和30個癌變樣本,測試集就是剩下的16個樣本.運用Matlab工具箱,把歸一化的46個訓練樣本數據作為輸入,對應的癌變樣本取1、正常樣本取0作為輸出.然后對樣本進行訓練,建立分類器.訓練次數在30000次時,其誤差精度可達到10-3.用余下的16個測試樣本的數據對分類器模型進行驗證,驗證結果如表2所示,其中(接近)0和1分別表示正常和癌變樣本作為輸出進行訓練. 由表2可知,該模型只對N18一個樣本的預測是錯誤的,預測準確率為94%,高于未剔除噪聲基因的準確率,因此可以得出結論:分析給定的數據的噪聲對預測結果的準確性是更有利的,因為分析噪聲會再次減少用于分類識別的基因特征,這對解決分類的核心問題具有極其重要的貢獻. 3.對于不確定問題的假設檢驗模型 由上述噪聲模型,我們確定了11種基因“標簽”.在這些基因標簽中,某個基因與結腸癌的關系非常密切,我們考慮用11個基因標簽的平均水平對比正常樣本中基因標簽的平均水平做假設檢驗,建立了融入11種有助于診斷腫瘤信息的確定基因“標簽”的數學模型.具體步驟如下: Step 1:對篩選出的數據進行標準化處理,標準化公式即為表達式(1). Step 2:將62個樣本分為兩組:前22個包含這11個基因“標簽”的正常者樣本為第一組,分布函數記為N1;后40癌癥患者樣本為第二組,分布函數記為N2.計算兩個樣本對應基因的均值μi1,μi2,結果為: μi1=[9.3565 7.9739 8.6514 5.9829 5.7953 7.7103 64248 6.7100 9.3491 8.7674 7.9343], μi2=[7.8233 9.4259 7.6975 7.0024 6.9769 8.9699 77003 8.023510.3456 9.7340 9.2704]. Step 3:在Step 2的基礎上對μi1和μi2分別求其均值μ1,μ2和方差S21,S22,結果為: μ1=7.6960μ2=8.4518 S21=1.6820S22=1.3106(4) 即N1(7.696,1.682)為正常者的分布,N2(8.4518,13106)為癌癥者的分布.由概論統計知識,我們得知(其中x為正常樣本的均值,y為待分類樣本的均值): x-y~Nμ1-μ2,1n1+1n2σ2.(5) 本文中n1=11,n2=11;均值差μ1-μ2=δ,由上面求得的結果知δ=-0.7558. 假設正常樣本和待分類樣本的均值未知,其分布分別為N11(μ1,1.6820)和N12(μ2,1.3106),接下來對這兩個不同正態分布的均值差進行檢驗.通過計算得出結論:若x-y在區間[-1.8438,0.3322]之外,則接受原假設H0,診斷結果為癌癥. 在上述模型建立完成后,我們選取了三組癌癥樣本進行了檢驗,結果均診斷為癌癥.由此可見,此模型具有比較高的可信度. 4.結束語 本文采用了Relief算法對基因標簽的選擇作了很好的預處理,充分利用BP神經網絡,建立的癌癥患者診斷模型,結合被診斷者的基因標簽作出判斷.但隨著基因數量的減少,BP神經網絡建模的魯棒性有所降低,使得預測結果的準確性波動較大;其次對于癌癥亞型類別的增多,分類器會表現出一定的局限性,對多類別的分類效果不如兩類的效果.因此,模型選擇更適合的變量,建立更科學的數學模型等此類問題還需進一步的創新. 注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文