用于單核苷酸多態性數據聚類分析的方法比較

2015-10-26 03:04:01姜龍訓張玲

中國醫藥導報 2015年25期

關鍵詞：分類方法模型

姜龍訓　張玲

1.首都醫科大學公共衛生學院，北京100069；2.北京市豐臺區南苑社區衛生服務中心，北京100076

用于單核苷酸多態性數據聚類分析的方法比較

姜龍訓1，2張玲1▲

1.首都醫科大學公共衛生學院，北京100069；2.北京市豐臺區南苑社區衛生服務中心，北京100076

對于目前用于單核苷酸多態性（SNPs）數據進行聚類分析的統計方法進行了比較說明，并在其中遴選出了5種具有代表性的統計方法，分別對每種方法具體進行分析。在每種聚類方法的論述過程中，均分為該方法的原理、計算方法和公式、優點與缺陷幾個部分。并且在討論部分對各種方法進行了總結歸納，提出了今后針對SNPs數據聚類計算方法的發展方向預測。

單核苷酸多態性；聚類分析；基因；數據挖掘

在人類的基因組中存在各種形式的變異，其中，單核苷酸多態性（single-nucleotide polymorphisms，SNPs），即單個的核苷酸變異所引發的DNA鏈序列的多態性，是這些變異中最普遍的形式。根據數據統計，在人類含有不低于30億個含氮堿基對數量的基因組中，SNP出現的概率在1/1000左右［1］。如何利用這些信息，建立數字模型，探索這些基因與位點和疾病的關聯，成為了擺在科學家面前的一個富有挑戰意義的課題［2］。

科學家們在長期的研究中，根據“物以類聚”的原始思想，衍生出了對復雜數據或者試驗對象等進行歸類的一種多元統計學分析方法，即現在歸屬于統計學分支的聚類分析（cluster analysis），又稱其群分析。這種統計方法的核心思想從誕生之日起就未更改，即在沒有任何可用來參考的或者依從的規范下（即先驗知識準備程度為零），按照被研究對象或者樣品本身的特點或者性狀，進行最大程度合理的分類。通過聚類分析的計算過程，不僅可以保證在最終所分的類別情況下，同一類別中的對象或者樣品，能夠具有最大程度的相似性，而且使不同類別中的對象或者樣品，擁有最大程度的相異性。以大量相似為基礎，對收集數據來分類，成為了聚類分析計算本身的最終目標［3］。從統計學的觀點看，聚類分析計算是通過數據建模簡化原有數據復雜程度的一種方法，而從實際應用的角度看，聚類分析計算亦是數據挖掘的主要任務之一。高維度高通量SNPs數據聚類分析，是近現代聚類分析中一個非常活躍的領域，同時也是一個非常具有挑戰性的工作。

目前用于高維度SNPs數據聚類分析的方法有很多種，常用的幾大類有Logistic回歸、潛在類別分析（latent class analysis，LCA）模型、結構方程模型分析（structural equation modeling，SEM）、以決策樹為基礎的分類回歸樹（classification and regression trees，CART）和隨機森林（random forest，RF）算法的分析［4］、基于貝葉斯網絡（Bayesian networks，BNs）模型的分析、基于神經網絡（neural networks，NNs）模型的分析和支持向量機（support vector machine，SVM）的方法等，上述種類的方法各有其適用性，在聚類計算的效能方面也廣泛存在爭議。本文從以上幾類方法中，遴選出應用較廣泛、理論相對成熟的潛在類別分析、分類回歸樹模型、貝葉斯網絡潛變量模型、BP神經網絡模型和支持向量機5種具體方法進行比較，闡述其在SNPs數據聚類分析中的意義。

1　潛在類別分析

誕生于20世紀50年代的LCA方法，其基本原理是通過引入潛變量概念，建立潛在類別模型（latent class model，LCM），在保證維持各個顯變量的數據局部獨立性的基礎上，力圖用少數的潛變量與各個顯變量建立關系，然后以數量相對較小的潛變量進行對象關系解釋。而爭取利用最少數量的且關系上互相排斥的潛變量對各個顯變量的概率分布進行最大程度的解釋，就是潛在類別分析的基本假設，這種假設的思想傾向于各種顯變量對其類別進行解釋的潛變量都有反應的選擇性［5］。潛在類別分析的統計原理建立在概率分析的基礎之上。一個潛在類別模型是由一個（或多個）潛在變量和多個外顯變量組成的Bayes網［6］。

完整的LCM分析過程包括數據概率變換參數化、模型參數估計與識別、模型評價指標選擇、分類結果解釋等［7-10］。

1.1概率參數化

潛在類別概率和條件概率構成了潛在類別模型概率參數化過程中的兩種參數。假設某數據集含有三個彼此之間不相互獨立的外顯變量，以A、B、C表示，而且每一個顯變量分別具有的水平數為I、J、K。按照假設，若尋找到合適的潛變量X，則X需滿足一下條件：首先，要求合理解釋A、B、C的關系；第二，在潛變量的各個類別之中所有顯變量維持最大的局部獨立性，則為潛在類別分析，如果潛變量X中含有T個潛在類別的話，用數學模型表達就為：

條件概率，用πitAX表示，其意義可以解釋成：外顯變量A的第i個水平更傾向于劃歸到第t個潛在類別的個體的概率。由于各個潛變量的各個水平處于相互獨立的狀態，所以各外顯變量的條件概率總和為1，即:

1.2參數估計與模型擬合

在潛在類別模型的參數估計過程中，最大似然法（maximum likelihood，ML）是被最廣泛使用且計算軟件中默認的方法。EM（expectation-maximization）、NR（Newton Rapson）算法在計算迭代過程中為最常用的方法，而其中前者更為常用。在潛在類別模型評價方面，AIC評分（akaike informationcriterion）和BIC評分（bayesian information criterion）成為使用最為廣泛的擬合評價指標。兩者共同點為：其計算理論基礎都為似然比χ2檢驗，對于模型對應的參數限制不一致的情況下，也可以用來橫向比較，且結果簡單直觀，都是數值越小表示模型擬合越好。Lin與Dayton曾經指出，當研究的樣本數量級達到或者超過千位級時，BIC指標更可靠，否則AIC更佳［11］。

1.3潛在分類

完成最優化模型的確定之后，就可以利用模型進行計算，將每個外顯變量的數據值分配到判定的潛在類別之中，通過這個過程，完成數據的后驗類別分析，即潛在聚類分析。上述分類的理論依據是著名的貝葉斯理論，分類的計算公式為:

潛在類別分析雖然理論建立時間較早，但是一直依靠著自身的優勢在聚類分析領域有一席之地，其計算思想中融合了結構方程模型與對數線性模型的構思。該算法的目的明確，即數量眾多的顯變量之間的關系，可以用最優化的組合模式，使用最少的潛變量來解釋。結構方程模型只能夠對連續型潛變量處理的缺陷，在潛在類別模型問世后得到了相當程度的彌補，特別在設計思想范圍中，使得研究者以概率論為基礎，能夠通過數據對分類結果之后所隱藏的因素做更為深刻的了解，這些都要歸功于分類潛變量的引入這一有效提高分類效果的方法［12］。

但是，由于該方法的分析原理比較簡單，只是脫胎于貝葉斯概率理論的概率參數化，所以使得該方法在聚類分析過程中，如果SNPS數量較少，則表現出不錯的聚類效果，但如果SNPS數據維度過高，則有失水準。具體表現在高維度高通量的SNPS數據聚類分析過程異常復雜，時間消耗過長，而最終得到的聚類結果也容易在解釋時發生阻礙。

2　分類回歸樹模型

CART［13］不僅可以在已經獲得的數據庫中通過一定的規則提煉出關聯，而且是對隱藏在各種指標中的分類屬性進行量化計算成為可能，其作為數據挖掘技術中的經典聚類分析方法，為高通量SNPs數據的聚類分析制造了一個科學而準確的平臺。分類回歸樹的基本原理為：如果對于已經給定的待分類對象X，已知其可以進行Y個不同屬性的分類，那么該模型將模擬把X逐級遞歸的分解為多個數據子集，并且認為Y在子集上的分布狀態，是均勻并且連續的，而分解的方法為二叉樹分類法。該方法如同自然界中的樹木一樣，數據集X由根部向葉部逐步分解移動，每一個劃分點即樹木分叉點的原因，由分支規則（splitting rules）確定，最終端的葉子表示劃分出的最終區域，而且每一個預測樣本，只能被分類到唯一的一個葉子，同時Y在該點的分布概率也被確定下來。CART的學習樣本集結構如下：

其中，X1～Xm可以稱之為屬性變量，Y可以稱之為標簽變量。但在樣本集中無論是X或是Y，其變量屬性可以容許多種形式，有序變量和離散型變量都可以存在。若Y處于有序變量的數值情況時，模型被稱為回歸樹；若情況相反，稱之為分類樹。

2.1分類回歸樹的構建

將給定的數據集L轉化成與其對應的最大二叉樹，這個過程稱之為構建樹為了尋找到對應數據集的最優分支方法，最大雜度削減算法被運用到構建過程之中。在進行分支時，數據中每個值都要納入計算范圍，只有這樣才能計算出最佳的分支點進行分叉。CART的構建離不開Gini系數的使用。若數據集L中，含有記錄的類別數量為N，Gini系數的表達式就為：

其中，Pj表示T中第N個分類數據的劃分頻率。對于任意的劃分點T，如果該點中所包含的樣本量非常集中，那么該點的Gini（T）值越小，從分類圖上顯示為該節點分叉角度越鈍。欲構建最終的Tmax，就要重復操作，將根節點分支為子節點，而這種遞歸分類的計算，最好利用統籌學中的貪心算法。

2.2樹的修剪

當Tmax建造好之后，下一步需要對其進行所謂的修剪操作，就是去掉那些可能對未知的樣本分類計算精度上，沒有任何幫助的部分，其目標是處理掉對給定數據集中的噪音干擾的問題，以便形成最簡單最容易理解的樹。通常對樹進行修剪的方法是以下兩種，先剪枝方法（prepruning）與后剪枝（postpruning）方法，兩者都有助于提高已經建成的樹，脫離開訓練數據集后，能夠正確地對未知數據進行分類的能力，而修剪方法都是通過統計計算，將理論上最不可信的分枝去掉。

2.3決策樹評估

測試樣本評估法（test sample estimates）與交叉驗證評估法（cross-validation estimates）［15］是通常被用來對CART模型進行評估的方法，而前者的使用率更高。該評估方法的原理與多因子降維法有些類似，而且即時效率比較高，在學習數據集囊括的樣本量比較大的情況下，該方法的優越性就更加突出，其原理可以解釋為：將原始的數據集L隨機分成兩部分，分別為測試集L2與樣本集L1，利用L1生成一系列的Tmax，而且按照序列T1＞T2＞T3＞…＞Tn，將測試集L2放到序列中的樹模型之中，TK為L2中的每個樣本逐個分配類別，因為L2中每個樣本的原始分類是事先已經知道的，則樹TK在L2上的誤分情況可以利用公式（6）計算：

作為一種經典的通過數據集進行訓練并有監督學習的多元分類統計模型，CART以二元分叉樹的形式給出所構建出的分類的形式，這種方式非常容易解釋，也非常容易被研究者理解和運用，并且這種方法與傳統意義上的統計學聚類分析的方法構建完全不一樣［16］。

但是CART方法對主效應的依賴程度很高，無論是每個分支的根節點還是后續內部的子節點，其預測因子都是在主效應的驅動下進行，并且每個節點都依賴于上一級的母節點分支的情況。而且CART方法對結果預測的穩定性上也有缺陷，具體表現在，如果所給數據集中的樣本有小范圍的更改，那么所產生的蝴蝶效應就會導致最終所構建的模型與原始模型的差別很大，當然分類結果也就難以一致。

3　貝葉斯網絡潛變量模型

BNs是一種概率網絡，它用圖形的形式來對各種變量間的依賴概率聯系做描述，經典的圖形中，每一個隨機變量利用節點的方式表達，而變量之間的概率依存關系則利用直線表達，直線的粗細表示依賴的強度。在BNs中，任何數據，當然也可以是高通量SNPs數據，都能夠成為被分析的變量。BNs這種分析工具的提出，其原始動力是為了分析不完整性和概率性的事件，它可以從表達不是很精準的數據或信息中推理出概率結果。

網絡的拓撲結構和條件概率分布作為構成BNs的兩大核心組件，如果再將潛變量概念引入BNs，則成為了BNs潛變量模型。被包含在BNs中的潛變量數量，決定著這個模型的復雜程度，因為一般來講，在實際工作中，研究者常常利用潛變量來進行聚類計算，所以BNs潛變量模型也成為了一個經典的潛結構模型（latent structure model）或潛類模型（latent class model）。

3.1模型參數

在滿足一定的假定條件下，才能對BNs模型進行參數學習的過程。根據文獻記載，這些條件分別為：所有的樣本處于獨立狀態；無論全局和局部，均處于獨立狀態；變量不能為連續變量，只能是分類變量。在上述條件得到滿足的情況下，該模型可以利用數據，計算出網絡拓撲結構中各個節點的條件概率θ，且服務于制訂的BNs模型結構η和數據集D。計算的方法有最大似然估計法等［17］。

3.2模型選擇

與LCA方法類似，BNs模型也利用函數來對模型的擬合優劣程度進行評價，衡量標準也是BIC、AIC、BICe等的評分，一般來說，分數低的模型更加優化。

3.3模型優化

在通過評分的方法來確定BNs潛變量模型后（需綜合考量BIC、AIC、BICe三者的得分），該模型下一步就轉化成了如何去搜索符合所給數據集的最優模型的過程。由于該網絡的拓撲結構，使得該模型結構的數目的增長速度非常快，與納入模型的變量數的增長呈指數級別比例，能夠適應這種數量級的搜索算法是啟發式的，其過程是比較不同的模型的評分，其中最常被使用的是爬山算法（hill climbing）［18］。

利用BNs模型進行高通量SNPs數據聚類，其優點之一就是在該模型中，所有遺傳的模式都可以被忽略，無論是對SNPs的二分類變異賦值，還是三分類變異賦值，只要納入模型中，就轉變成純粹的數學問題。正是由于這種優勢的存在，使得該方法對原始數據的類型容許程度很高，由此擴展了此種模型的使用范圍。BNs模型計算的過程雖然復雜，但是結果解讀起來卻是十分的簡單直觀。只要將各個類別的概率直方圖呈現出來，那所有重要的且有意義的高維度SNPs的整體效應，就能直觀的展現出來。BNs模型一旦被建立起來，就可以被用來對新納入的患者進行分類，其過程如下：輸入新加入樣本的SNPs的狀況，并且將這些狀況進行數學化處理即賦予其數據值，并帶入模型開始運行。模型會通過新加入樣本的SNPs的狀況，根據概率理論，將其歸入相應類別。

但是BNs模型的理論比較抽象，公式比較復雜，如果讓醫學工作者去理解其中的數學機制，可能不太現實，若再要求對模型進行深刻解釋，則更困難。該模型在優化過程中的搜索算法也有硬傷，爬山算法從出現開始，就一直受到一定程度的詬病，因為其有使模型偏離到局部最優的傾向。

4　BP神經網絡模型

BP（back propagation）神經網絡在所有的神經網絡模型系列中，是被使用最多的模型之一，其核心原理為按照誤差逆傳播算法，對所給數據集進行多層的正向的反饋擬合，而這些層則包括輸入層（input layer）、隱層（hide layer）和輸出層（output layer）。

BP神經網絡模型對于已經給定的數據集的訓練過程可以解釋為：各種數據由輸入層負責接收，并且向內層進行傳遞，傳遞過程中需經過一定的中間層級，信息在隱層部分進行計算處理，處理完畢后向輸出層傳遞，輸出層的神經元接收到后，即完成了一次完整的訓練信息的傳播，其結果由輸出層向外面釋放。如果輸出的結果與期望值差距沒有達到要求，則進入信息的反方向運動過程，將誤差信息通過輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過程中，為了使整個BP神經網絡模型的誤差的平方和達到最小，就需要對各個層級的權重和反應閾進行相應調整，在一定次數的迭代過程中達到符合設定的要求范圍內［19］。

BP神經網絡模型建立流程：①建立高通量SNPs足夠而可靠的數據信息樣本數據庫。②把SNPs樣本數據進行處理，變成BP神經網絡模型可以納入的形式。③建造BP神經網絡初級雛形，進行數據訓練。首先確定神經網絡所需層的數量，還有隱藏節點的數量，接下來完成各連接權值的初始化過程，將樣本數據代入。④開始BP神經網絡的迭代過程，按照誤差逆傳播算法，對所給數據集進行多層的正向的反饋擬合，最終確定各個層的權重。⑤利用訓練好的BP神經網絡測試樣本。將樣本輸入訓練好的BP神經網絡，并輸出結果［20］。

非線性問題的解決能力是BP神經網絡模型區別于其他的能夠自我學習、自我訓練的模型的特點之一，該模型以簡單的結構模仿神經組織的構成和信號傳導通路，根據提供的數據進行學習和自適應，最后可以對復雜的問題求解［21］。該模型的運行模式也很簡單，一旦模型建立，則直接將數據帶入，BP神經網絡就可以對諸多影響因素和結果之間的復雜關系進行統計，超越傳統聚類模型，也有能力提供更多的信息量［22］。

但是BP神經網絡模型的缺陷也十分明顯，首先該種聚類方法迭代次數比較多，計算收斂的速度比較慢；標準的BP神經網絡算法各個層的權重值的確定是完全隨機性的，容易形成局部最優化；在模型建立的初始階段，各個節點的確定也沒有確鑿的理論支持［23］。

5　支持向量機

1995年Comes等［24］提出了一種新型機器學習方法，該方法的數學理論基礎雄厚，被稱之為SVM。這種方法問世之后，就以其在小樣本、高維度數據方面處理的獨特優勢，被迅速推廣到數據聚類分析領域的各個方面［25］。SVM的基本原理如下：利用非線性映射的方法φ（x）:Rn→H，將待聚類數據集首先映射到高維空間H中，試圖在高維空間中尋找最優化的一個超平面，此超平面的作用為對數據進行分類。達到最優超平面的要求為：對于數據來說，要求分類的間隔最大而且置信區間最窄；達到最少的數據樣本錯分數量，以上兩條的原則為分類風險最低。

SVM的計算流程為：

在高維空間中，如果被映射數據具有二維線性且可分時，則一定存在一個分類超平面：

此超平面令樣本均滿足如下條件:

“支持向量”就是通過使（8）、（9）式等號同時成立的樣本向量來命名。分類間隔用2/‖ω‖表示，如果欲使分類間隔最大，保證模型大范圍推廣，就要最小化‖ω‖2，此時拉格朗日方程被引入:

其中αi≥0稱為拉格朗日系數，該函數對ω和b最小化，對αi最大化。將該問題轉化為其對偶形式，求得最優分類函數為:

其中，K（x，xi）=φ（xi）·φ（xj）被稱之為核函數，其作用是將原始數據集映射到高維H空間。而核函數有很多種形式，多項式形式、徑向基形式等等。但是如果原始數據集經過轉換后，確實為線性不可分時，方法會不可避免的產生錯分點，此時非負松弛變量ξi≤1，i=1，…，l被引入，而式（8）、（9）合并為:

在上述條件下，求下式目標函數的最小值:

在式（13）中，用C來作為懲罰因子，對錯分點來進行一定程度的懲罰，當然是人工定義的，其主要作用是在限制數據集偏差和該方法的推廣范圍兩者間，維持一個平衡。

SVM模型作為一種經典的處理小樣本的自我學習、自我組織的分類方法，雖然其基礎理論依然與神經網絡模型類似，均為通過對給定樣本的統計學習，建造模型，而且對非線性數據的處理能力很強，但是很大程度上避免了陷入局部最優化，維度過高限制，擬合過度等缺陷，擁有更廣闊的發展空間［26］。雖然該方法出現時間比較晚，但是研究者已經在包括預測人口狀況［27］、嬰兒死亡率前瞻［28］、金融產業［29］和工業產業［30］前景推斷等方面進行了有效使用，當然也包括在高通量SNPs數據聚類，均取得了不錯的效果。

但是SVM一樣存在短處，由于其分類過程是基于對原始數據集的再次規劃來尋找超平面，而再次規劃的計算就有n階矩陣（n為樣本個數），如果n的數量很大，則電腦的內存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對數據集進行二分類計算，有一定的局限性，由于在實際工作中，很多情況下分類數量要大于二，為了解決這個問題，只能去在其他方面想相應的解決方法。

6　討論

不僅上述5種具體方法，而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優缺點，研究者們已經針對上述幾類聚類方法的缺陷進行了深入的研究，并提出了許多改進方法，提高了在高通量SNPs數據聚類分析時的計算效能。董國君等［31］提出了將仿生學算法中的退火算法引入到神經網絡模型中，能夠有效地避免該模型收斂到局部最優的狀態。胡潔等［32］更是經過改進，建造了一種能夠快速收斂而且全局最優的神經網絡模型算法，將BP神經網絡的計算效率大為提高。而Leo Breiman在2001年提出的隨機森林（random forest）算法，本質上就是對分類回歸樹算法的一種組合改進，其計算原理為：利用多個樹的模型對數據進行判別與分類，其在對數據進行處理的同時，還可以給出各個變量的重要性得分，評估變量在分類中所起的作用［33］。2012年提出了混合潛變量模型（structural equation mixture modeling，SEMM），本質上是一種結構方程模型衍生出的改進版，其設計思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素，將潛變量分析與結構方程進行協調組合，創造出的一種新型SNPs分析方法。這種新的方法，將結構方程的缺點——只能分析連續潛變量和潛在類別分析的缺點——只能分析分類潛變量，進行有效的補充，而且把一種全新的探索式的思路引入了高維數據分析的領域。在實際進行聚類分析時，也可以將幾種方法結合使用，分別在計算的不同階段利用效能最高的方法，做到優勢互補。現已經出現基于神經網絡算法和蟻群算法進行結合使用的報道。

盡管用于高通量SNPs數據聚類分析的方法有多種，但目前沒有任何一種方法可以適用于所有的情況。因此，研究者們依舊沒有停下尋找更為合適的方法的腳步。不可否認，在基因組相關研究中，SNPs數據的分析對于研究復雜性疾病和遺傳因素的聯系是一項挑戰，但也是機遇。如果能正確合理地運用各種復雜的統計學方法，就可以提高聚類分析的效能，提示研究者們未來應在尋找更適用的高通量SNPs數據聚類分析方法方面付出更多努力。

［1］Jakobsson M，Scholz SW，Scheet P，et al.Genotype，haplotype and copy-number variation in worldwide human population［J］.Nature，2012，451：998-1003.

［2］馬靖，張韶凱，張巖波.基于貝葉斯網潛類模型的高維SNPs分析［J］.生物信息學，2012，10（2）：120-124.

［3］張家寶.聚類分析在醫院設備管理中應用研究［J］.中國農村衛生事業管理，2014，34（5）：510-513.

［4］袁芳，劉盼盼，徐進，等.基因-基因（環境）交互作用分析方法的比較［J］.寧波大學學報：理工版，2012，25（4）：115-119.

［5］張潔婷，焦璨，張敏強.潛在類別分析技術在心理學研究中的應用［J］.心理科學進展，2011，18（12）：1991-1998.

［6］曾憲華，肖琳，張巖波.潛在類別分析原理及實例分析［J］.中國衛生統計，2013，30（6）：815-817.

［7］Kaufman L，Rousseeuw PJ.Finding groups in data：an introduction to cluster analysis［M］.New York：Wiley，2015.

［8］Hagenaars JA.McCutcheon AL.Applied latent class analysis［M］.New York：Cambridge University Press，2012.

［9］邱皓政.潛在類別模型的原理與技術［M］.北京：教育科學出版社，2011.

［10］張巖波.潛變量分析［M］.北京：高等教育出版社，2011.

［11］Lin TH，Dayton CM.Model selection information criteria for non-nested latent class models［J］.J Educ Behav Stat，2012，22（3）：249-264.

［12］裴磊磊，郭小玲，張巖波，等.抑郁癥患者單核苷酸多態性（SNPs）分布特征的潛在類別分析［J］.中國衛生統計，2010，27（1）：7-10.

［13］邵峰晶，于忠清.數據挖掘原理與算法［M］.北京：中國水利水電出版社，2013.

［14］王立柱，趙大宇.用分類與回歸樹算法進行人才識別［J］.沈陽師范大學學報：自然科學版，2014，23（1）：44-47.

［15］溫小霓，蔡汝駿.分類與回歸樹及其應用研究［J］.統計與決策，2010，（23）：14-16

［16］符保龍，陳如云.分類回歸樹在高校計算機聯考數據分析中的應用［J］.計算機時代，2011，（1）：33-34.

［17］Dempster AP，Laird NM，Rubin DB.Maximum likelihood from incomplete data via the Em algorithm（with discussion）［J］.J Royal Stat，2012，39（1）：1-38.

［18］José A，Gámez，Juan L，et al.Learning Bayesian networks by hill climbing：efficient methods based on progressive restriction of the neighborhood［J］.Data Min Knowl Disc，2012，22：106-148.

［19］張凡，齊平，倪春梅.基于POS的BP神經網絡在腮腺炎發病率預測中的應用［J］.現代預防醫學，2014，41（11）：1924-1927.

［20］張晶.BP神經網絡在圖書館信息處理中的應用研究［J］.圖書情報，2014，（9）：132-133.

［21］徐學琴，孫寧，徐玉芳.基于BP神經網絡的河南省甲乙類法定報告傳染病預測研究［J］.中華疾病控制雜志，2014，18（6）：561-563.

［22］馬曉梅，隋美麗，段廣才，等.手足口病重癥化危險因素BP神經網絡模型預測分析［J］.中國公共衛生，2014，30（6）：758-761.

［23］任方，馬尚才.基于條件對數似然的BP神經網絡多類分類器［J］.計算機系統應用，2014，23（6）：183-186.

［24］Comes C，Vapnik V.Support vector networks［J］.Mach Learn，1995，20：273-297.

［25］張學工.關于統計學習理論與支持向量機［J］.自動化學報，2011，26（1）：32-42.

［26］解合川，任欽，曾海燕，等.支持向量機在傳染病發病率預測中的應用［J］.現代預防醫學，2012，40（22）：4105-4112.

［27］劉崇林.人口時間序列的支持向量機預測模型［J］.寧夏大學學報：自然科學版，2013，27（4）：308-310.

［28］張俊輝，潘曉平，潘驚萍，等.基于支持向量回歸的5歲以下兒童死亡率預測模型［J］.現代預防醫學，2014，36（24）：4601-4603，4605.

［29］陳詩一.非參數支持向量回歸和分類理論及其在金融市場預測中的應用［M］.北京：北京大學出版社，2014：104-106.

［30］Li P，Tan ZX，Yan LL，et al.Time series prediction of mining subsidence based on a SVM［J］.Min Science Technol，2014，21（4）：557-562.

［31］董國君，哈力木拉提.基于隨機退火的神經網絡算法及其應用［J］.計算機工程與應用，2013，46（19）：39-42.

［32］胡潔，曾祥金.一種快速且全局收斂的BP神經網絡學習算法［J］.系統科學與數學，2014，30（5）：604-610.

［33］武曉巖，李康.隨機森林方法在基因表達數據分析中的應用及研究進展［J］.中國衛生統計，2014，26（4）：437-440.

Contrasting the methods of data clustering analysis of single nucleotide polymorphisms

JIANG Longxun1，2ZHANG Ling1▲
1.School of Public Health，Capital Medical University，Beijing100069，China；2.Fengtai District Nanyuan Community Health Service Center of Beijing City，Beijing100076，China

Statistical methods currently used for single nucleotide polymorphisms（SNPs）data cluster analysis are explained，and select five kinds of representative statistical methods，make specific analysis to each method separately.In the discussion process for each method，all divided into 5 parts:principle of the method，calculation methods，formulas，advantages and defects.In the discussion section of the article，all the methods are summarized，and propose future development direction of the cluster method for SNPs data.

Single nucleotide polymorphisms；Cluster analysis；Gene；Data mining

R181.2+3

1673-7210（2015）09（a）-0036-06

2015-04-01本文編輯：程銘）

用于單核苷酸多態性數據聚類分析的方法比較

1 潛在類別分析

2 分類回歸樹模型

3 貝葉斯網絡潛變量模型

4 BP神經網絡模型

5 支持向量機

6 討論

1　潛在類別分析

2　分類回歸樹模型

3　貝葉斯網絡潛變量模型

4　BP神經網絡模型

5　支持向量機

6　討論