999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺論多元統計的分類問題

2014-10-08 12:06:30于娜
考試周刊 2014年23期

于娜

摘 要: 分類或分組是多元統計學習的一個重要內容,聚類分析、判別分析、主成分分析及可視化分析都可以對變量或樣本進行分類或者分組。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系。本文從區別和聯系的角度對這幾種方法作簡要闡述,希望對學習數據的分類問題有所幫助。

關鍵詞: 分類與分組 聚類分析 判別分析 主成分分析 可視化分析

在生物、經濟、社會等領域的研究中,存在大量量化分類問題。例如為了研究城鎮居民的消費結構,需要將相關性強的指標歸并到一起。在生物學中,為了研究生物的演變,生物學家需要根據生物的不同特征對生物進行分類[1]。多元統計分析中可以將變量或樣本進行分類的方法很多,如判別分析,聚類分析,主成分分析,可視化分析等。盡管這些分析方法都可以基于所測量的一些特征,給出好的分組方法,對相似的對象或變量進行分組,但由于每種方法的原理不同,因此分組結果往往不同,從而解釋不同。

聚類分析是將樣品(或變量)進行分類時常用的統計方法。按分類對象的不同,分為樣品聚類(型聚類)和變量聚類(型聚類)。樣品聚類是進行判別分析前的必要工作。根據樣品聚類的結果作判別分析,得到判別函數,進而對新的樣本進行歸類判別。變量聚類在尋找研究對象彼此獨立的有代表性變量上發揮著巨大的作用[2]。

聚類方式是用來歸類的某種規則,常用的聚類方式主要有系統聚類,K均值聚類,有序樣品的聚類等。在系統聚類中,樣品歸為某一類便不能改變,因此要求各步驟的分類必須準確,分類方法恰當。另外,系統聚類需要計算樣品(或變量)間的距離(或相似性)和類間距離,要保存“類間距離”矩陣,相應計算量比較大,占用計算機內存較多。但系統聚類可以對不同類數產生一系列的分類結果。K均值聚類是一種迭代計算方法,按要求先給出一種粗糙的分類,然后根據某種原則進行迭代,樣品(或變量)可以在不同的類中有進有出,直到分類比較合理為止。K均值聚類對計算機性能要求不高,聚類結果比較簡單易懂,適用于事先明確分類數目及樣本量很大時的聚類分析;但K均值聚類只能產生指定類數的分類結果。鑒于系統聚類和K均值聚類的優缺點,在實際問題中,往往從樣本中先選取少量數據進行系統聚類,選取合適的類數,然后采用K均值聚類的方法進行聚類。若樣品的次序不可改變,則只可以采用有序樣品的聚類方法。

主成分分析是通過一組變量的幾個線性組合解釋原來變量絕大多數信息的一種統計方法。聚類分析不改變原始數據,只是根據樣本或變量之間的距離遠近或者相似性進行分類。不同于聚類分析,應用主成分分析進行分類,是將原始變量轉化為少數幾個變量,這些少數的變量(主成分)是原始變量的線性組合。以每個樣本的第一、第二主成分的值為變量進行聚類,或以第一、第二主成分為坐標軸,在平面上標出每個樣本,根據圖示,按照距離的遠近對樣本進行分類。另外,還可以以變量的因子得分做點圖,得到變量的分類情況,從而加深對樣本分類含義的全面理解。

主成分分類與一般的聚類方法相比,具有明顯的優越性:首先,主成分分類可以以點圖的方式將樣本分類結果形象直觀地呈現出來,有利于對分類結果的理解,也有利于對類型的形成原因進行探討。其次,可以借助主成分分類的中間成果對因子載荷矩陣進行點圖分類,這樣不僅能得到變量的分類情況,還能加深對樣本分類含義的全面理解。

在多元統計分析中,一些可視化的分析可以從不同角度對樣本進行分類。例如反映多個變量之間相關關系的矩陣散點圖。矩陣散點圖不僅可以在二維平面上同時反映多個變量數值,而且可以根據圖示。從某個變量的角度看,將樣本根據距離的遠近進行分類。依據矩陣散點圖的分類結果,可以與系統聚類中只考慮一個變量的分類情況進行對比、分析。利用可視化分類分類結果形象、直觀。

在生產決策和日常生活中,經常會遇到根據所觀測的樣本數據資料對所研究的對象進行分類判別的問題。例如某醫院有部分患有肝炎、糖尿病、冠心病等病人的資料,記錄了每個病人若干項癥狀指標數據。對于一個新病人,當測得這些指標時,如何利用現有的資料找出一種方法,判別患者患有哪種病。在市場預測中,根據以往調查所得的各項指標,如何判別下季度的產品是暢銷、平銷,還是滯銷。判別分析就是判斷所選樣品屬于哪一類型的一種多元統計方法。不同于聚類分析,主成分分類和可視化分類,事先并不知道類的數量和類別,判別分析是已知類的數量和類別,并且知道每個類的一些樣本的觀測數據,在此基礎上,依據某種分類準則建立分類判別式,并對新給出的樣本判別其的歸屬問題。實際應用中,判別分析和聚類分析往往是結合在一起使用的。當判別分析的類別不清楚時,可先用聚類分析等分類的方法對部分樣品進行分類,然后用判別分析法建立適當的判別準則實現對新樣品的分類。

綜上,我們對聚類分析、判別分析、主成分分析及可視化分析等分類方法作了簡要闡述。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系,希望對學習數據的分類問題有所幫助。

參考文獻:

[1]朱建平.應用多元統計分析[M].北京:科學出版社.

[2]王力賓.多元統計分析[M].北京:經濟科學出版社.

本文為上海電力學院課程建設項目(No.20121207)。

主站蜘蛛池模板: 久久特级毛片| 国产成人福利在线| 人妻一本久道久久综合久久鬼色| 五月婷婷导航| av在线5g无码天天| 国产精品夜夜嗨视频免费视频| 国产亚洲欧美日韩在线观看一区二区 | 玖玖精品在线| 欧美性久久久久| 乱人伦视频中文字幕在线| 久久久精品国产SM调教网站| 亚洲无限乱码| 91在线精品麻豆欧美在线| 91www在线观看| 国产一区二区三区日韩精品| 欧美色综合网站| 国产精品自拍露脸视频| 欧美亚洲一二三区| 一区二区日韩国产精久久| 国产91丝袜在线播放动漫 | 波多野结衣视频网站| 久青草免费视频| 成人a免费α片在线视频网站| 国产三级成人| 国产粉嫩粉嫩的18在线播放91| 成年A级毛片| 99青青青精品视频在线| 极品av一区二区| 久久精品国产亚洲AV忘忧草18| 色综合婷婷| 国产亚洲一区二区三区在线| 精品中文字幕一区在线| 青青极品在线| 亚洲乱码在线播放| 九九这里只有精品视频| 天天躁夜夜躁狠狠躁图片| 色综合成人| 亚洲一级毛片在线播放| 在线不卡免费视频| 亚洲第一福利视频导航| 精品无码日韩国产不卡av| 中文字幕va| 一本大道香蕉中文日本不卡高清二区| 999精品免费视频| 欧美笫一页| 亚洲人成在线免费观看| 欧美久久网| 天天综合网站| 国产91精品最新在线播放| 97视频精品全国免费观看| 中文无码毛片又爽又刺激| 狠狠色丁香婷婷综合| 伊大人香蕉久久网欧美| 亚洲国产成人精品无码区性色| 欧美日韩一区二区三区四区在线观看| 亚洲中文在线视频| 精品伊人久久久久7777人| 亚洲第一成年人网站| 国产精品.com| 国产女人18毛片水真多1| 国产日本一线在线观看免费| 免费AV在线播放观看18禁强制| 成人欧美日韩| 亚洲久悠悠色悠在线播放| 国产黄色视频综合| 国产成人精品一区二区三区| 久久黄色一级片| 视频一区视频二区日韩专区| 欧美一级特黄aaaaaa在线看片| 国产精品成人观看视频国产 | vvvv98国产成人综合青青| 国产9191精品免费观看| 午夜无码一区二区三区在线app| 99久久精品视香蕉蕉| 亚洲成人一区二区| 午夜福利在线观看成人| 老色鬼欧美精品| 特级aaaaaaaaa毛片免费视频| 欧美综合激情| 亚洲男人的天堂在线观看| 六月婷婷激情综合| 亚洲成网站|