一種基于類均值的腫瘤基因芯片數據的標準化方法

2007-01-01 00:00:00王廣云邱浪波王正志

生命科學研究 2007年3期

摘要：分析了當前常用的標準化方法在腫瘤基因芯片中引起錯誤分類的原因，提出了一種基于類均值的標準化方法，該方法對基因表達譜進行雙向標準化，并將標準化過程與聚類過程相互纏繞，利用聚類結果來修正參照表達水平，選取了5組腫瘤基因芯片數據，用層次聚類和K-均值聚類算法在不同的方差水平上分別對常用的標準化和基于類均值的標準化處理后的基因表達數據進行聚類分析比較，實驗結果表明，基于類均值的標準化方法能有效提高腫瘤基因表達譜聚類結果的質量。

關鍵詞：腫瘤基因芯片；聚類分析；標準化；中心化；相關系數

中圖分類號：Q332 文獻標識碼：A 文章編號：1007－7847(2007)03－0206－06

腫瘤基因芯片分析是當前研究的一個熱點，主要研究技術之一就是聚類分析，其目標是用某種相似性度量準則(如Pearson相關系數等)將樣本或基因組織成有意義的組，對基因聚類，有助于對基因功能、基因調控及細胞過程等進行綜合研究：對樣本聚類，可以確定和發現新的腫瘤類型，從而對相應的診斷、治療和預防有很大幫助，有多種聚類算法已被成功地用于基因表達譜的聚類分析，如層次聚類(hierarchical clustering)，K-均值聚類(K-means clustering)等。

然而，基因芯片實驗中的誤差來源很多，如熒光標記效率、掃描參數的設置以及空間位置的差異等，這些都可能對基因表達水平的測量產生影響，從而導致較差的聚類效果，因此，為了消除這些外界因素引起的誤差，使基因表達數據能夠真實地反映測量樣本的生物學差異，需要對基因表達數據進行標準化處理，雖然，已有許多文獻介紹了當前常用的標準化方法。但還沒有文獻在理論上對其作用機理進行深入地闡述，概括起來，常用的標準化方法包括零均值單位方差方法和數據中心化方法，它們都是用均值或中值對樣本或基因進行標準化處理，但是，這些方法處理后的數據不能正確反映出類別差異，在以相關系數為相似性度量準則的聚類算法中，尤其在基因表達譜中存在極端值，或者各類包含的樣本或基因數量相差較大的情況下，會引起類型偏倚，從而導致樣本或基因的錯誤分類。

針對上述問題，本文在研究聚類分析和標準化基本原理的基礎上，分析了上述標準化方法引起錯誤分類的原因，提出了一種基于類均值的標準化方法，該方法對基因表達譜進行雙向標準化，并將標準化過程與聚類過程相互纏繞，利用聚類結果來修正基因(或樣本)的參照表達水平，不但消除了芯片間差異，還突出了每個基因(或樣本)在各樣本(或基因)中的變異，本文通過對5組寡核苷酸芯片的基因表達數據的聚類分析，驗證了該方法能有效地提高聚類結果的質量。

1 聚類分析

聚類分析的基本思想是在樣本或基因間定義相似性度量準則，將相似度高的樣本或基因劃分為一類從而確定各個樣本或基因間的關系，最常用的聚類分析方法有層次聚類(hierarchical clus-tering，HC)，K-均值聚類(K-means clustering，KM)等，這些方法都是基于個體間的相似度來進行聚類的，因此，相似度是聚類分析的首要環節，對聚類結果有著非常重要和直接的影響，

Pearson相關系數是最常用的相似性度量準則之一，它從方向上判斷兩個表達水平X=(x₁，x₂…，x_n)和y=(y₁，y₂，…，y_n)的相似程度，即

Θ田為向量X和Y間的夾角，P為1時，X和Y的相似度最高，Θ為0°；P為-1時，相反程度最高，Θ為180°：P為0時，相關程度最低，Θ為90°，可見，影響Pearson相關系數的是X和Y間的夾。

2 標準化及其對聚類結果的影響

2．1 常用的標準化方法及其對聚類結果的影響

最常用的一種標準化方法是零均值單位方差，即，使每個樣本或基因向量的平均值為0，標準差為1，其目的是放大弱信號抑制強信號，將所有數據轉換到同一個范圍內，另一種常用的標準化方法是數據的中心化，即把每個基因在各樣本中的表達值減去該基因在所有樣本中表達值的均值或中值來去除參照表達水平的影響，或者將各個基因在每一樣本中的表達值減去該樣本中所有基因表達值的均值或中值來消除芯片間的差異，使基因表達水平具有可比性，該方法一般用于腫瘤樣本的聚類或分類研究中。

實際上，上述兩種標準化方法都有一個中心化的過程，均值和中值都是觀察值“中間”位置的一種測度，可以看作是對參照水平的估計，在向量空間中，減去均值或中值就是將坐標原點平移到均值或中值所對應的點上，零均值單位方差的標準化方法只是比數據中心化方法多了一個單位化的過程，此過程方便比較和計算相關系數，但是，會把噪聲納入真實信號，尤其在標準差很小時會產生很大的噪聲。

對樣本的標準化，雖然消除了芯片間的差異。但是標準化后的值不能很好地反映各個基因在不同樣本中的變異：對基因進行標準化后的值雖然突出了各個基因在不同樣本中的變異，但是由于芯片間差異沒有消除，各個基因在不同樣本中變異的可靠性值得懷疑，所以，只進行單向的標準化不能得到可靠的數據，尤其值得注意的是，當對基因標準化并對樣本聚類或對樣本標準化并對基因聚類時，由于均值和中值固有的特性，會使樣本(或基因)間的相似度偏離真實的相似度，從而使得聚類結果出現類型偏倚，下面以基因芯片樣本的兩類別聚類為例來說明均值和中值的中心化對聚類結果的影響，

設A=[α_ij]m×n為m×n基因表達譜矩陣，行表示基因g_i，i=1，…，m，列表示樣本s_j，j=1，…n，α_ij表示基因g_i在樣本S_j中的表達值，對基因中心化后，基因g_i的表達值為g^'_i=g_i[α_i]1×n，樣本S_i的表達值為s^'_i=S_i-β，其中，α_i表示用來中心化的值，

但是，當兩類所包含的樣本數目不相等時，中值就會有比較大的差異，在基因表達譜聚類分析中，兩類中樣本的數目一般都不會相等。還經常會出現兩類中樣本的數目相差較大的情況，在這種情況下，均值和中值都會偏向數目較大的一類，使聚類結果偏向數目較小的一類，此時，樣本所對應的向量空間分布在二維平面上的投影如圖1b所示，圖中所有標示與圖1a相同，點線箭頭表示經過s中心化后的樣本所對應的向量，如圖1b所示，由于C₂類所含樣本數目明顯多于C₁類，點S₁和點₂更接近C₂類的樣本點，此時，一些原本屬于C₂類的樣本點會被劃分到C₁類中。

2．2 基于類均值的標準化方法

為了解決上述問題，本文提出了一種基于類均值的標準化方法，具體過程如下：

Step 1：對所有樣本S_j，j=1，…，n進行零均值單位方差標準化：

Step 2：將樣本聚為k類，S_c11，…，S_c1t1為第一類樣本(C₁)，…，S_ck1¨…，S_cktk為第k類樣本(C_k)，其中，C₁₁，…，c₁t₁，…，C_k1，…，c_kt_k=1，…，n，t₁+…t_k=n；

Step3：分別計算出每一類樣本的中值

稱m為類均值，再將每個樣本減去m，對基因進行數據中心化的標準化處理，得到新的樣本表達值；

Step4：重復Step2和Step3，直到每類中的樣本不再改變，或達到預定的迭代次數為止，

(注：對基因的標準化也是類似的過程.)

下面以基因芯片樣本的兩類別聚類為例來說明該方法的有效性。

如圖2a所示，設點p₁，和點p₂分別為C₁類和C₂類的實際的類別中心，則點S₀位于線段P₁P₂的中點位置，當樣本中出現極端值時，該方法根據第一次聚類的結果，分別計算出C₁類和C₂類的中值m₁和m₂，對應圖中的點M₁和點M₁，由于點M₂是C₂類的中值點，不受極端值的影響，所以點M₂在點P₂附近；C₁類中沒有極端值，所以點M₁也在點P₁附近，因此，C₁類和C₂類中值的均值m所對應的點M位于線段M₁M₂的中點位置，并且在點S₀附近，所以，經過m中心化后，樣本間的相似度接近實際，不會影響聚類結果。

如圖2b所示，當兩類中樣本的數目相差較大時，由于本文所提出的方法先計算了每一類的中值，所以樣本數目的差異對相似度沒有明顯的影響。因此，聚類結果不會受到影響，

上述過程中，m₁和m₂分別是對C₁類和C₂類的類別中心的估計，反映了每一類的基本表達水平，經過m中心化后的表達值反映了每個基因在每個樣本中與每個類別中心的接近程度，突出了樣本間的類別差異，而且，由于中值具有不受極端值影響的特性，所以，在初步聚類中，被錯誤分類的樣本點對估計類別中心的影響不大，例如，當第一次聚類時，將邊緣上的點D₁劃分到了C₁類中，而中值對點D₁的變化不敏感，只是樣本數目的變化使得點M₁會向C₂類的方向稍有移動，點M₂會向偏離C₁類的方向稍有移動，但都不會偏離點p₁和點p₂很遠，這樣，點M也不會偏離點S₀很遠，所以，經過m中心化后再對樣本聚類，將會糾正點D₁的錯誤分類。

3 實驗結果

3．1 基因表達譜數據

1)白血病數據集

選用文獻提供的7129個白血病基因表達譜的兩組數據，第一組(Datal)有38個樣本，包括27例ALL樣本和11例AML樣本；第二組(Data2)有34個樣本，包括20例ALL樣本和14例AML樣本，過濾掉所有表達值含有負值的基因。

還選用了文獻篩選出的50個與ALL和AML分類緊密聯系的基因(Data5)，包含25個與ALL高度相關的基因，25個與AML高度相關的基因，將小于20的表達值改為20。

2)結腸癌數據集

選用文獻提供的2000個結腸癌基因表達譜的兩組數據，第一組(Data3)有40個樣本，包括26例結腸癌組織和14例正常組織，第二組(Data4)有22個樣本，包括14例結腸癌組織和8例正常組織。

3．2 結果及分析

先對所有數據進行對數變換，然后在20個不同方差水平上，對前4組數據進行特征基因篩選，每個數據集得到相應的20組數據，對于Data5隨機選取35個基因，使兩組基因的數目有一定的差異，也得到20組數據，Data1－4中行為基因列為樣本，Data5中列為基因行為樣本，對每組數據使用4種標準化處理方法——對列進行零均值單位方差標準化(no central，NC)、對行進行中值中心化(median central，MDC)、對行進行零均值單位方差標準化(mean central，MC)、基于類均值的標準化(class mean，CM)。

為了使用已有的外部標準對聚類結果進行評估，本文針對兩類別聚類問題進行分析，分別使用層次聚類和K-均值聚類算法對上述數據經過4種預處理后得到的基因表達譜聚類，其中，Datal-4進行樣本聚類，Data5進行基因聚類，表1和表2分別列出了層次聚類法和K-均值聚類法對經過上述4種標準化處理后的5個數據集在所有方差水平上最差和最好的聚類結果，表中數字表示聚類結果中被正確分類的樣本數。

通過比較可以看出，Data1、Data2、Data3、Da-ta5經過CM標準化處理后，在層次聚類和K-均值聚類中的都得到了優于其它標準化處理的聚類結果，而且迭代次數不超過6次；Data4無論經過怎樣的標準化，聚類結果的正確率都不高，這是因為Data1-3、5的類別差異比較顯著，而Data4的兩類樣本交叉在一起，類別差異不顯著，這一點可以由Madab7中的PCA分析得到，此處不再贅述。

圖3表示層次聚類法和K-均值聚類法對經過上述4種標準化處理后的前4個數據集的聚類結果中被正確分類的樣本數目在不同方差水平上的變化曲線(由于對Data5的20組數據是隨機采樣得到的沒有規律性，所以不研究它的變化曲線)，其中，細線對應層次聚類法，粗線對應K-均值聚類法，可以看出，層次聚類法總體上要比K-均值聚類法的結果要好，所以，本文提出的方法更適用于層次聚類，隨著方差水平的升高，即特征基因數量的減少，無論使用哪種標準化，聚類效果都呈改善趨勢，但是當基因數量太少時，又會有所下降，從圖3中還可以看出，Data1和Data3經過CM標準化后的聚類結果明顯優于其它標準化的聚類結果，這是由于這兩個數據集中，不同類別中包含的樣本數量相差較大，而且Data1中包含有極端值。

綜上所述，本文所提出的基于類均值的標準化方法在樣本聚類和基因聚類中都具有優于其它標準化方法的數據處理能力，通過使用與聚類過程相互纏繞的迭代方法，使聚類結果得到明顯改善，而且不占用時間資源，尤其是在處理由于實驗條件的限制使不同類別所包含的樣本(或基因)的數目相差較大，或由于基因芯片的高噪聲而使表達譜數據中包含有極端值的基因表達數據時，該方法能取得很好的效果，從而給后續的分析提供更能反映樣本(或基因)間生物學差異的數據，使后續分析得到更準確的結果。

4 結論

基于類均值的標準化方法在消除芯片間差異的同時，突出了腫瘤基因在各樣本中表達值與類別的相關程度，在以Pearson相關系數為相似度準則進行聚類時能有效的提高聚類結果的質量，與其它標準化方法的主要區別在于，它進行雙向標準化，并與聚類過程相互纏繞，所以它能夠為聚類分析提供更好的數據，本文對各種標準化方法作用機理的研究能夠為研究人員提供一定的參考，幫助他們針對特定任務選擇最佳的標準化處理的策略和方法。

作者簡介：王廣云(1980－)，女，山西運城人，博士研究生，從事生物信息學研究。

生命科學研究2007年3期

生命科學研究的其它文章: ｎ－６脂肪酸去飽和酶ｆａｔ－１基因對神經元細胞凋亡的抑制作用; 鏈霉菌Ｈ０３發酵液中具有抗菌活性多糖的分離純化及其單糖組成分析; 植物芥子酶研究進展; ＫＬＦ４過表達對ＲＡＷ２６４．７巨噬細胞和Ｃ_２Ｃ_１２肌原細胞增殖的影響; ｕＰＡ基因重組ＧＦＰ－腺相關病毒載體質粒的構建及其表達; 中坡國家森林公園蕨類植物區系分析