于娜
摘 要: 分類或分組是多元統計學習的一個重要內容,聚類分析、判別分析、主成分分析及可視化分析都可以對變量或樣本進行分類或者分組。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系。本文從區別和聯系的角度對這幾種方法作簡要闡述,希望對學習數據的分類問題有所幫助。
關鍵詞: 分類與分組 聚類分析 判別分析 主成分分析 可視化分析
在生物、經濟、社會等領域的研究中,存在大量量化分類問題。例如為了研究城鎮居民的消費結構,需要將相關性強的指標歸并到一起。在生物學中,為了研究生物的演變,生物學家需要根據生物的不同特征對生物進行分類[1]。多元統計分析中可以將變量或樣本進行分類的方法很多,如判別分析,聚類分析,主成分分析,可視化分析等。盡管這些分析方法都可以基于所測量的一些特征,給出好的分組方法,對相似的對象或變量進行分組,但由于每種方法的原理不同,因此分組結果往往不同,從而解釋不同。
聚類分析是將樣品(或變量)進行分類時常用的統計方法。按分類對象的不同,分為樣品聚類(型聚類)和變量聚類(型聚類)。樣品聚類是進行判別分析前的必要工作。根據樣品聚類的結果作判別分析,得到判別函數,進而對新的樣本進行歸類判別。變量聚類在尋找研究對象彼此獨立的有代表性變量上發揮著巨大的作用[2]。
聚類方式是用來歸類的某種規則,常用的聚類方式主要有系統聚類,K均值聚類,有序樣品的聚類等。在系統聚類中,樣品歸為某一類便不能改變,因此要求各步驟的分類必須準確,分類方法恰當。另外,系統聚類需要計算樣品(或變量)間的距離(或相似性)和類間距離,要保存“類間距離”矩陣,相應計算量比較大,占用計算機內存較多。但系統聚類可以對不同類數產生一系列的分類結果。K均值聚類是一種迭代計算方法,按要求先給出一種粗糙的分類,然后根據某種原則進行迭代,樣品(或變量)可以在不同的類中有進有出,直到分類比較合理為止。K均值聚類對計算機性能要求不高,聚類結果比較簡單易懂,適用于事先明確分類數目及樣本量很大時的聚類分析;但K均值聚類只能產生指定類數的分類結果。鑒于系統聚類和K均值聚類的優缺點,在實際問題中,往往從樣本中先選取少量數據進行系統聚類,選取合適的類數,然后采用K均值聚類的方法進行聚類。若樣品的次序不可改變,則只可以采用有序樣品的聚類方法。
主成分分析是通過一組變量的幾個線性組合解釋原來變量絕大多數信息的一種統計方法。聚類分析不改變原始數據,只是根據樣本或變量之間的距離遠近或者相似性進行分類。不同于聚類分析,應用主成分分析進行分類,是將原始變量轉化為少數幾個變量,這些少數的變量(主成分)是原始變量的線性組合。以每個樣本的第一、第二主成分的值為變量進行聚類,或以第一、第二主成分為坐標軸,在平面上標出每個樣本,根據圖示,按照距離的遠近對樣本進行分類。另外,還可以以變量的因子得分做點圖,得到變量的分類情況,從而加深對樣本分類含義的全面理解。
主成分分類與一般的聚類方法相比,具有明顯的優越性:首先,主成分分類可以以點圖的方式將樣本分類結果形象直觀地呈現出來,有利于對分類結果的理解,也有利于對類型的形成原因進行探討。其次,可以借助主成分分類的中間成果對因子載荷矩陣進行點圖分類,這樣不僅能得到變量的分類情況,還能加深對樣本分類含義的全面理解。
在多元統計分析中,一些可視化的分析可以從不同角度對樣本進行分類。例如反映多個變量之間相關關系的矩陣散點圖。矩陣散點圖不僅可以在二維平面上同時反映多個變量數值,而且可以根據圖示。從某個變量的角度看,將樣本根據距離的遠近進行分類。依據矩陣散點圖的分類結果,可以與系統聚類中只考慮一個變量的分類情況進行對比、分析。利用可視化分類分類結果形象、直觀。
在生產決策和日常生活中,經常會遇到根據所觀測的樣本數據資料對所研究的對象進行分類判別的問題。例如某醫院有部分患有肝炎、糖尿病、冠心病等病人的資料,記錄了每個病人若干項癥狀指標數據。對于一個新病人,當測得這些指標時,如何利用現有的資料找出一種方法,判別患者患有哪種病。在市場預測中,根據以往調查所得的各項指標,如何判別下季度的產品是暢銷、平銷,還是滯銷。判別分析就是判斷所選樣品屬于哪一類型的一種多元統計方法。不同于聚類分析,主成分分類和可視化分類,事先并不知道類的數量和類別,判別分析是已知類的數量和類別,并且知道每個類的一些樣本的觀測數據,在此基礎上,依據某種分類準則建立分類判別式,并對新給出的樣本判別其的歸屬問題。實際應用中,判別分析和聚類分析往往是結合在一起使用的。當判別分析的類別不清楚時,可先用聚類分析等分類的方法對部分樣品進行分類,然后用判別分析法建立適當的判別準則實現對新樣品的分類。
綜上,我們對聚類分析、判別分析、主成分分析及可視化分析等分類方法作了簡要闡述。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系,希望對學習數據的分類問題有所幫助。
參考文獻:
[1]朱建平.應用多元統計分析[M].北京:科學出版社.
[2]王力賓.多元統計分析[M].北京:經濟科學出版社.
本文為上海電力學院課程建設項目(No.20121207)。