基于PCA的模糊C均值聚類算法識別AD候選致病基因

2016-07-24 17:24:31楊華蘭龐朝陽董體智胡本瓊

四川師范大學學報(自然科學版) 2016年4期

楊華蘭，龐朝陽，董體智，胡本瓊，4

(1．四川師范大學數學與軟件科學學院，四川成都610066; 2．四川師范大學計算機科學學院，四川成都610066; 3．東華軟件股份公司，陜西西安710068; 4．成都理工大學管理科學學院，四川成都610059)

楊華蘭1，龐朝陽2*，董體智3，胡本瓊3，4

研究表明阿爾茨海默病(AD)的致病機理可能與基因有關．利用計算方法對AD基因表達數據進行挖掘，以獲得AD候選致病基因，尋找治愈AD方法．結合生物信息理論應用基于主成分分析(PCA)方法的模糊C均值算法處理基因表達數據:觀察到AD基因表達數據具有線性相關性后，先用PCA對數據降維，再利用一維分類方法對降維后的數據聚類，然后將結果提供給模糊C均值算法作為其初始聚類數目和聚類中心．通過算法，最終識別出9個AD候選致病基因．

基因表達數據;AD候選致病基因;模糊C均值算法;主成分分析

AD是一種危害性極大的癡呆癥．目前為止，科研工作者已成功識別出3種不同的早發性AD致病基因:APP基因、PSEN1基因、PSEN2基因及一種晚發性AD致病風險因子APOE基因［1－3］．對致病基因進行研究后研發的相關藥物，對治療AD有一定的效果．研究表明AD可能為多基因遺傳病，為徹底根治AD，擴充和健全AD致病基因系統顯得必要．

由于已有的AD基因表達數據量大、維數高、噪音多．很難直接從中獲取有用的生物信息．為此，本文利用計算方法對數據聚類．將與AD致病基因具有相同或相似功能的基因聚為一類，同一類中的基因表達模式類似稱作共表達基因［4－5］．若一些基因在AD病發歷程中(AD病發歷程共包括正常階段、輕度、中度、重度4個階段)一直與致病基因同屬一類，那么這樣的基因就被識別出來作為AD候選致病基因．

1 預備知識

1．1 AD基因表達數據的組織形式本文所使用的AD基因表達數據下載于 NCBI的GEO數據庫［6］．原始數據是通過對9個正常、7個輕度、8個中度、7個重度階段 AD樣本(患者)中相同的22 283個基因實驗得到．原始的基因表達數據組成4個不同的矩陣．(1)式顯示的是正常階段下基因表達數據組成的矩陣(n=22 283，p=9)．

式中，矩陣的行表示同一基因在p個樣本中的表達．列是同一樣本中n個基因的表達情況．類似，輕度階段的基因表達數據構成22 283×7的矩陣，中度階段的數據構成22 283×8的矩陣，重度階段的基因表達數據構成22 283×7的矩陣．

1．2 AD基因表達數據預處理由于基因表達數據矩陣中的每列數據是在不同樣本中獲得．為避免量綱對實驗結果的影響，采用標準化處理數據的方式［7］預處理數據．記預處理后的矩陣為Y．

這里

2AD基因表達數據的處理

2．1 AD基因表達數據的特征基因表達數據矩陣中，不同列的數據來源于不同的樣本．但由于樣本所處的狀態相同，且矩陣的行數據是同一個基因的表達情況．因此，認為基因表達數據矩陣的不同列間的數據也應該存在某種相關性．事實上，這種相關性確實存在．

以正常階段下基因表達數據矩陣(1)式X為例．將X中的每列數據都看作是對應一個變量．這樣，X中任意2列數據就對應2個不同的變量．將這兩個變量分別記為x，y．那么同一基因的2個變量所對應的基因表達數據就構成空間中的二維點(x，y)．圖1［8］顯示了X中第一、二列數據構成的二維點的分布情況．由圖1可以看到所有的點都落在一條直線的周圍，這意味著同一階段下相同基因在不同的樣本中的表達數據是具有線性相關性的．

為使這種相關性得以更清楚的表達，計算并得出了X的相關系數矩陣T(見表1)．

表1 正常階段下基因表達數據的相關系數值［8］Table 1 The correlation coefficients of gene expression data in the normal stage of AD

將上述數值構成相關系數矩陣T=(tij)9×9，T是通過將X中的列數據分別記為向量x1，…，x9后，計算

所得到．(xi×xj表示向量內積，‖xj‖表示向量的范數)．

表1表明X中任意兩列數據間相關系數大于0．85．這進一步驗證了同一階段中相同基因在不同的樣本中的表達數據是具有線性相關性．這種相關性的存在使得對數據降維有意義．

2．2 應用主成分分析方法對AD基因表達數據降維 AD基因表達數據量大，維數高．而列數據間線性相關性的存在使得對基因表達數據降維有意義．主分量分析(PCA)方法是常用的降維方法，該方法用少數新變量來解釋原變量，新變量是原變量的線性組合且攜帶了原變量的多于85%的信息．

PCA對AD基因表達數據降維處理的具體步驟如下(以正常階段數據為例)．

步驟一:計算公式(2)中Y的相關系數矩陣R．

這里

cov(i，j)是xi與xj的協方差是第j列的平均值，Sj是第j列的標準差．

步驟二:計算R的特征值和特征向量．相關系數矩陣R是p行p列的實對稱矩陣．設它的p個特征值為(λ1，λ2，…，λp)．滿足λ1＞λ2＞…＞λp．特征值所對應正交化的特征向量為

步驟三:計算貢獻率及累計貢獻率，確定主成分的個數．

貢獻率:

按照累計貢獻率大于85%的原則，選擇前k個主成分．

步驟四:計算主成分的載荷和得分．載荷矩陣為p行p列的矩陣Z．

元素

得分矩陣C=X×Z，這里Z是p行p列的矩陣．按照上述步驟，利用PCA對正常、輕度、中度、重度4種不同階段的AD基因表達數據進行處理后，發現數據呈現出2個特征(以正常階段為例)．

特征一:第一主成分的貢獻率遠大于其他主成分的貢獻率，如圖2所示．這表明第一主成分攜帶多于85%的原始生物信息．因而后續思考或者計算用第一主成分來代替原始數據顯得合理和有意義．

特征二:第一主成分得分數據的分布具有明顯的分類特征且類與類間有比較明顯的邊界，如圖3

3 應用基于PCA的模糊C均值算法對基因表達數據聚類

識別已知的AD致病基因的共表達基因是有生物學意義的，這是因為共表達基因表達模式類似，且在功能上具有相似性或相關性［4－5］．對基因表達數據聚類可以將具有共調控關系和功能上彼此關聯的基因聚在一起．截止目前，一些經典的聚類算法比如 K－Means聚類算法［8］、層次聚類算法［9］等均被應用到 AD候選致病基因的識別過程中．

雖然在AD候選致病基因識別過程中應用這些聚類算法是有意義的，但文獻［4］指出生命活動中，一些蛋白在功能上具有多樣性，而其功能的發揮是通過與不同蛋白協調工作達到的．不同條件下，編碼這些蛋白的基因與多組不同的基因共表達．這一生物特點的存在會使得聚類過程中出現各個類別重疊的情況．識別與多組不同基因共表達(表達模式相似)的基因用一般非模糊聚類算法是很難達到的．尤其是當數據是由不同實驗條件下的數據合并而成時，這種缺陷更加明顯．而模糊聚類算法的出現卻較好地解決了該問題．模糊聚類算法借助隸屬度概念對基因進行分類，這種聚類方法相比其他聚類方法柔性更好，更適合對基因進行聚類．模糊聚類算法中最經典的為模糊C均值算法—FCM算法．

3．1 模糊C均值聚類算法簡介 FCM算法作為傳統的硬劃分(HCM)的改進，是一種模擬人類思維的方法，該算法融合模糊集中的隸屬度概念［10－11］．相對HCM算法來說FCM算法本身具有一定的柔性，理論上更適用于生物計算．FCM算法利用隸屬度uij判別基因的所屬類別，uij表示第j個基因屬于第i個類的可能性．給定一個相對合理的閾值，如果隸屬度uik大于閾值則將第k個基因劃分到第i個類．FCM算法的最優聚類在目標函數J(U，V)取最小值時得到．

(4)式中，模糊指數m(m＞1)，U是c×n的隸屬度矩陣，uij是第j個樣本隸屬于第i類的隸屬度值(i= 1，…，c;j=1，…，n)，V是s×c的聚類中心矩陣，dij為樣本點xj到中心點vi的距離(dij=|xj－xi|)，目標函數是關于自變量(U，V)的優化約束問題．利用KT極值的必要條件有(6)和(7)式所顯示的迭代方程的存在:

記

利用FCM算法對數據聚類，需要先初始化聚類中心或隸屬度矩陣，然后利用(6)和(7)式不斷更新聚類中心和隸屬度矩陣，直到滿足設置的終止條件，算法具體步驟如下:

Step 1:設置模糊指數m，收斂值ε＞0，迭代次數k=0，初始化聚類中心V(0);

Step 2:利用隸屬矩陣的迭代公式計算u(0);

Step 3:計算目標函數J(0)，k=k+1;

……

Step k:更新聚類中心得到V(m);

Step k+1:更新隸屬度矩陣得到U(m);

Step k+2:計算目標函數J(m)．若

則算法停止．輸出聚類中心和隸屬度矩陣．否則，返回step k，算法繼續．

FCM算法是一種具有柔性的模糊劃分方式，在生物學基因識別方面應用合理．但是，該算法的缺點在于要求事先確定初始聚類中心．而一般情況下，初始聚類中心的選擇是隨機的，具有不確定性．這會給最后的實驗結果帶來誤差．為了解決該問題，我們對FCM算法做了一定的改進:引用文獻［8］提出的一維分類方法來確定FCM算法的初始聚類中心和聚類數目．

3．2 一維分類算法確定FCM初始聚類中心和聚類數目主成分分析方法處理數據后，第一主成分被選為主要的研究對象．觀察第一主成分的得分數據發現它們具有明顯的分類特征(圖3)．為確定類的個數．可對這些數據進行聚類，聚類遵循的原則:類間樣本點間距小，類類樣本點間距大．基于此，考慮到了第一主成分得分數據的間距且獲得它們由大到小排列的分布直方圖(圖4)．觀察圖像，間距由大到小的變化過程可被看做是類類間距向類間間距的過度過程，而判據應該集中在曲線與直線的交點附近．為找到該交點，確定類的數目．我們引用文獻［9］提出的一維分類算法．該方法具體實驗步驟如下:

Step 1:設第一主成分得分集為X*．

Step 2:對X*升序排列，記排列后的得分集為Y，索引號為ID．

Step 3:對Y做向前差分，得到前后相鄰2個基因間的距離矩陣Y1．

Step 4:計算所有距離的平均值，篩選出大于平均值的距離，將其個數記做l．將它們組合成新的矩陣Y2．

Step 5:定義并計算門限值Lepso．

Step 6:利用Lepso對X*分類．設n1=1，若di＜Lepso，則nj+1=nj．否則，

便得到初始分類矩陣N．

依據索引號ID={idx1，idx2，…，idxn}，將N中索引號對應到X*，取出相應的分類集合N*．表示第i個類別，k表示類別數目．

Step 7:計算N*中每個類的類別中心n(0)，

應用基于PCA的模糊C均值算法對AD基因表達數據聚類，由如下步驟得到聚類結果．

3．3 基于PCA的模糊C均值算法對AD基因表達數據聚類的具體步驟以正常階段的基因表達數據為例，其他3種情況類似．

Step 1:設正常階段下的數據矩陣為X，預處理后得到矩陣Y．

Step 2:對Y作PCA降維處理．降維后的第一主成分得分集為

Step 3:用一維分類法對X*聚類(詳細過程見3．2)，得到聚類結果

上述方法確定出來的n(0)和類別數k，作為FCM算法的初始聚類中心和聚類數目．由于FCM算法中的模糊指數m控制算法的柔性．目前對m的最佳取值，并沒有統一的規定．研究者在對m進行選擇時，通常都是結合各自的研究目的和數據特點給出m的取值或取值范圍:文獻［12］給出［1，1．5］，聚類效果最佳;而文獻［13］又從物理學角度出發解釋m=2，聚類結果最優;而文獻［14］從漢字識別的應用背景出發得到［1．25，1．75］聚類效果最好;隨后，文獻［15］再一次從收斂角度出發提出m的取值與

Step 4:用FCM算法對基因進行聚類(詳細過程見3．1)，得到聚類結果

4AD候選致病基因的判定依據

由于共表達基因分享同一表達模式，屬于同一類．這種類別的屬性是不隨外界條件改變而改變的．因此，本文中那些與致病基因同屬一類并在AD發展進程中一直與致病基因屬于同一類的基因便為AD候選致病基因．換言之，若基因H0與致病基因ZAD同屬一類，H0被判定為AD候選致病基因的依據為

H0∈F(ZAD)=

Fc(ZAD)∩Fi(ZAD)∩Fm(ZAD)∩Fs(ZAD)，F(ZAD)表示 AD候選致病基因集合．Fc(ZAD)、Fi(ZAD)、Fm(ZAD)、Fs(ZAD)分別表示正常、輕度、中度、重度4種不同階段下與致病基因ZAD同屬一類的基因的集合．

5 實驗結果

通過基于PCA的模糊C均值算法對AD基因表達數據聚類及AD候選致病基因的判定依據．本文最終篩選出9個符合條件的AD候選致病基因(表2)．

表2 識別出的候選致病基因列表Table 2 The list of identified candidate genes of AD

識別出的9個候選致病基因中，ap2b1、Rere、PUF60、TBCB作為APOE的共表達基因在AD進程中一直與APOE同屬一類．而eif4g2、rpl24、Sepw1、trim2、loc12729作為APP的共表達基因在AD病發四個階段一直與APP屬于同一類．由于共表達基因功能上的相關性，因此認為識別出的候選致病基因在AD整個過程中與致病基因一樣或許發揮了相同或者相似的功能．因而對候選基因進行生物學驗證具有意義．

6 總結和討論

本文從已知的AD候選致病基因出發，對已有的基因表達數據進行分析．企圖獲取在AD病發整個歷程中均與已知的AD致病基因同屬一類的基因．另外，由于基因功能上的多面性，文章應用基于PCA的模糊C均值聚類算法對基因聚類:觀察到AD基因表達數據具有線性相關性后，先用主成分分析(PCA)方法對數據降維，選擇蘊含大部分原始數據信息的第一主成分作為主要的研究數據，將第一主成分投影到一維子空間發現第一主成分的得分數據具有明顯的分類特征．為此，利用文獻［8］提出的一維分類算法對數據進行聚類，并將結果提供給FCM算法作為其初始聚類數目和聚類中心．

應用算法，文章最終識別出9個AD候選致病基因分別為 ap2b1、Rere、PUF60、TBCB、eif4g2、rpl24、Sepw1、trim2、loc12729．

由于候選基因與已知致病基因功能上的相關性，后續工作可以對識別出的AD候選致病基因進一步分析或驗證．

［1］LARS B，ROUDOLPH E T．Thirty years of Alzheimer’s disease genetics:the implications of systematic meta－analyses［J］．Nature Reviews Neuroscience，2008，9(10):768－778．

［2］HAROLD D，ABRAHAM R．Genome－wide association study identifies variants at CLU and PICALM associated withAlzheimer’s disease［J］．Nature Genetics，2009，41(10):1088－1093．

［3］LAMBERT J C，HEATH S，EVEN G，et al．Genome－wide association study identifies variants at CLU and CR1 associated with Alzheimer’s disease［J］．Nature Genetics，2009，41(10):1094－1099．

［4］岳峰，孫亮．基因表達數據的聚類分析研究進展［J］．自動化學報，2008，34(2):113－120

［5］EISEN M B，SPELLMAN P T，BROWN P O，et al．Cluster analysis and display of genome－wide expression patterns［J］．Proceed National AcADemy Sci United States Am，1998，95(25):14863－14868．

［6］美國國家生物信息技術中心．阿爾茨海默病基因數據［EB/OL］．［2013－9］Available:http://www．ncbi．nlm．nih．gov/ gds/?term=alzheimer(2013－10－10)

［7］PANG C Y，HU W，HU B Q，et al．A special local clustering algorithm for identifying the genes associated with Alzheimer’s disease［J］．IEEE Trans Nanobioscience，2010，9(1):44－50．

［8］PANG C Y，YANG L，ZHANG D X，et al．The strong correlation of gene expression data on Alzheimer’s disease and co－regulation of gene［C］//Taiwang:2011 IEEE International Conference on Granular Computing，2011:855－858．

［9］PANG C Y，LIU S Q，LI Y，et al．The nonlinear correlation character of gene expression data on Alzheimer’s disease and hierarchy clustering of co－regulated gene［C］//Taiwang:2011 IEEE International Conference on Granular Computing，2011:859－862．

［10］莫智文，舒蘭，許彪．模糊數學理論及其應用評述［J］．四川師范大學學報(自然科學版)，1998，21(3):330－335

［11］莊劉，曾艷．基于模糊C－均值聚類的最優量化器設計［J］．四川師范大學學報(自然科學版)，2010，33(4):559－562．

［12］BEZDEK J C．Pattern Recognition with Fuzzy Objective Function Algorithms［M］．New York:Plenum Press，1981．

［13］BEZDEK J C．A physical interpretation of fuzzy ISODATA［J］．IEEE Trans Syst Man Cybern，1976，6(3):387－390．

［14］CHENG Y S，CHAN K P．Modified fuzzy ISODATA for the classification of handwriting chinese characters［C］//Singapore:Proc Int Conf Chinese Comput，1986:361－364．

［15］BEZDEK J C，HATHAWAY R．Convergence theory for fuzzy c－means:counterexamples and repairs［J］．IEEE Trans Syst Man Cybern，1987，17(5):873－877．

［16］FUKUNAGA K，HOSTETLER L．The Estimation of the G radient of a Density Function with Application in Pattern Recognition［J］．IEEE Transactions on Information Theory，1975，21(1):32－40．

Applying FCM Algorithm Based on PCA to Identify the Candidate Genes of Alzheimer’s Disease

YANG Hualan1，PANG Chaoyang2，DONG Tizhi3，HU Benqiong3，4

(1．College of Mathematics and Software Science，Sichuan Normal University，Chengdu 610066，Sichuan; 2．College of Computer Science，Sichuan Normal University，Chengdu 610066，Sichuan; 3．Donghua Software company，Xi’an 710068，Shaanxi; 4．College of ManagementScience，Chengdu University of Technology，Chengdu 610059，Sichuan)

Researches show that the pathogenesis of Alzheimer’s disease(AD)may be associated with genes．It’s significant to identify the candidate genes of AD and find the way of curing AD at last by mining the AD gene expression data．Combing the theory of biological information，the Fuzzy C-Means(FCM)clustering algorithm based on Principal Component Analysis(PCA)is chosen to process the gene expression data．After observing the fact that there is a linear correlation between AD gene expression data，we use the way of PCA to reduce the dimensions of data．Then a dimensional classification algorithm is put forward and is applied to cluster the AD gene expression data．Simultaneously，the clustering results are provided to FCM as its initial clustering centers and numbers．Finally，9 candidate genes of AD are identified．

gene expression;the candidate genes of AD;Fuzzy C-Means clustering;principal component analysis

O24

1001－8395(2016)04－0496－07

10．3969/j．issn．1001－8395．2016．04．006

(編輯陶志寧)

2014－03－29

中國航空科學基金(2012ZD11)

*通信作者簡介:龐朝陽(1973—)，男，教授，主要從事基因計算與量子力學的研究，E－mail:cypang402@126．com

2010 MSC:62H25;62H30

四川師范大學學報(自然科學版)2016年4期

四川師范大學學報(自然科學版)的其它文章: “5·12”地震后“再生育家庭”可持續發展現狀研究
——以四川省調查數據為例; 基于熵權法的水匱乏指數在四川省水安全評價中的應用; 青藏高原東緣高寒草地土壤碳空間異質性; 芯片法和培養法對結核分枝桿菌耐藥檢測的對比研究; 銫對青稞幼苗SOD和CAT活性的影響; 鼓浪嶼島種子植物分布區類型初步研究