999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用SPSS進行判別分析的幾個問題的說明

2015-05-24 01:52:32陳敏瓊
現代計算機 2015年5期

陳敏瓊

(中山大學新華學院,廣州 510520)

利用SPSS進行判別分析的幾個問題的說明

陳敏瓊

(中山大學新華學院,廣州 510520)

判別分析是多元統計分析中最常用的方法之一,但由于其原理的復雜性與方法的多樣性,使其成為《多元統計分析》課程學習特別是SPSS軟件操作學習的難點之一。為此,對判別分析的幾種方法的原理進行總結,針對利用SPSS進行判別分析過程中常見的若干疑點,先從理論上做推導說明,結合例子對SPSS判別分析的步驟和輸出結果作詳細解釋和說明。

判別分析;SPSS判別分析;步驟;解釋說明

0 引言

判別分析是根據觀測到的樣品的若干數量特征(稱為因子或判別變量)對樣品進行歸類、識別,判斷其屬性的預報(預測)的一種多元統計分析方法。其基本原理大致為:建立判別函數,給出判別準則,最后將待判樣品代入判別函數進行判別。根據建立判別函數的方法的不同,具體可分為距離判別與Bayes判別,Bayes判別法又可分兩種:最大后驗概率法與最小誤判損失法。還有一種先對樣品進行投影后再采用距離判別的方法,即Fisher判別法,這三種方法是判別分析最常采用的方法。在SPSS操作中只能實現Bayes判別法與Fisher判別法兩種,并且這兩種方法的操作是合在一起進行的,輸出結果也比較混亂,據經驗歸納,對于初學者來說常會提出以下幾點疑問:

①如何利用SPSS完成距離判別?

②SPSS菜單中哪些選項是針對Bayes判別設置的,哪些選項是針對設置的?

③SPSS輸出結果哪些部分是Bayes判別結果,哪些部分是Fisher判別結果?

④SPSS輸出判別函數或投影函數對應的理論表達是什么?

⑤利用SPSS進行Fisher判別時,為何將樣品投影后按距離判別,此處距離只要計算歐氏距離而非統計學意義的馬氏距離?

針對上述種種疑點下文將逐步給出詳細解釋說明。

1 判別分析常用的三種方法的原理總結

1.1 距離判別

設有k個總體,已知總體Gr的均值向量與協方差陣分別為μr,Σr>O,r=1,2,…,k,對于任意待判樣品X,可建立判別函數為:

特別地,若Σ1=Σ2=…=Σk=Σ,則判別函數可簡化為線性函數:

距離判別法思想很簡單,適用條件也很寬松,只須知道各類的均值和協方差陣即可,實際應用中常用樣本均值與樣本協方差陣來估計。

1.2 Bayes判別

此處僅介紹SPSS能操作完成的最大后驗概率法:設有k個總體G1,G2,…,Gk,已知這k個總體各自出現的概率(驗前概率)為q1,q2,…,qk,各總體有概率密度函數f1(x),f2(x),…,fk(x),則可建立判別函數為樣品X=x已知時,它屬于Gr的后驗概率P(X∈Gr|X=x),即:

簡化后為:

判別準則為:

若G1,G2,…,Gk分別為p維正態總體,均值與協方差陣分別為μr,Σr>O,r=1,2,…,k,此時判別函數為:

進一步可簡化為:

特別地,若Σ1=Σ2=…=Σk=Σ,則判別函數可再簡化為線性函數:

對比式(2)和式(5)可知,距離判別為Bayes判別法在各類總體為同方差的多維正態總體且先驗概率相同時有特殊情況。

1.3 Fisher判別

假設有k個p維的總體G1,G2,…,Gk,各總體的期望與協方差陣分別為μr,Σr>O,r=1,2,…,k,且已知若Σ1=Σ2=…=Σk=Σ,Fisher判別法的思想是先對樣品進行投影再采用距離判別法判別,尋找的投影函數F(X)= a'X,a∈Rp必須使得投影后的各總體間差異能盡可能大地拉開,若記:

B,A分別稱為k個總體組間離差陣與組內離差陣,則有結論[1~2]:

設Σ-1B的非零特征根為λ1≥λ2≥…λp>0,對應的單位特征向量分別為l1,l2,…,lp,令:

注:由于投影函數的不唯一性,有時為了計算上方便可對投影函數做一些線性變換,如為了將k個總體的總的中心投至原點,投影函數可進一步變換為:

對于(7)式給出的投影表達式易知有以下兩點性質:

性質一:

性質二:

故對于待判樣品X,只須計算其投影后的點到各類總體投影后中心的歐氏距離再作判別,即投影后可建立判別函數:

判別準則為:

當然,實際中只須取前一兩個投影函數即可將投影后各類樣品明顯分開。

2 判別分析的SPSS操作步驟

2.1 判別分析的SPSS操作的幾點說明

(1)SPSS只能完成Bayes判別與Fisher判別,無法直接完成距離判別;

(2)SPSS中Bayes判別與Fisher判別的操作沒有分開進行;

(3)SPSS中給出的判別表達式(投影函數)都是針對協方差陣相等的情形下給出的,對于協方差陣不相等的情況須手動計算。

(4)SPSS判別以Bayes判別為主,主要菜單與選項都是針對Bayes判別分析設置,并且最終保存的判別結果也是以Bayes判別為依據;Fisher判別操作僅給出投影表達式、各類投影中心坐標及投影分界圖,最終判別結果須我們自己根據各類投影中心坐標或投影分界圖去做判別[5]。

2.2 例子說明

某地市場上銷售的收錄機有多種牌號,該地某商場從市場上隨機抽取了13種牌號的收錄機,其中有4種暢銷,有5種銷售一般,有4種滯銷。所調查的各種收錄機的質量評分、功能評分和銷售價格資料如下表所示:

表1 某地各種收錄機的銷售狀況

其中變量x1指“質量評分”,x2指“功能評分”,x3指“銷售價格”,g指“銷售狀態”:g=1指代“暢銷”狀態,g= 2指代“平銷”狀態,g=3指代“滯銷”狀態,14號樣品為待判樣品。

假設有一新廠商來推銷其產品,其產品的質量評分為7.0,功能評分為7.0,銷售價格為660元,現須將該產品的銷售前景進行預測(歸類)。

對本例采用SPSS進行判別分析的具體步驟如下:

①單擊Ana1yze→C1assify→Discriminant,從對話框左側的變量列表中選中進行判別分析的有關變量x1~x3進入Independents框,作為判別分析的基礎數據變量。從對話框左側的變量列表中選分組變量g進入Grouping Variab1e框,并點擊Define Range...按鈕,在Define Range對話框中,定義判別原始數據的類別數,在Minimum(最小值)處輸入1,在Maximum(最大值)處輸入3。

②打開Statistics對話框,在Descriptives菜單下選擇:

Univariate ANOVAs,對各類中同一自變量均值都相等的假設進行檢驗,輸出單變量的方差分析結果。

Box's M,對各類的協方差矩陣相等的假設進行檢驗。

在Function Coefficients菜單下選擇:

Fisherh's:給出Bayes判別函數系數

Unstandardized:給出未標準化的典型判別系數(Fisher投影函數)。

③打開C1assify對話框:

在Prior Probabi1ities菜單下,選擇先驗概率賦值方式(此項為Bayes判別選項):

A11 groups equa1:各類先驗概率相等(若選此項,得出結果便為距離判別法結果);

Compute from groups sizes:各類的先驗概率與其樣本量成正比(本例選擇)。

在Use Covariance Matrix菜單下,選擇計算中使用的共同協方差矩陣的估計方式:

Within-groups:使用合并類內協方差矩陣進行分類(系統默認)(本例選擇);

Separate-groups:使用各類協方差矩陣進行分類。

在Disp1ay菜單下,選擇生成到輸出窗口中的分類結果(此項為Bayes判別選項)。

Casewise resu1ts:輸出每個觀測量包括判別分數實際類預測類(根據判別函數求得的分類結果)和后驗概率等;

Summary tab1e:輸出分類的小結給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率(本例選擇)。

Leave-one-out c1assification:輸出交互驗證結果。

在P1ots菜單下,選擇要求輸出的樣品投影圖(此項為Fisher判別選項)。

Combined-groups:生成一張包括各類的散點圖(本例選擇);

Separate-groups:每類生成一個散點圖;

Territoria1 map:根據生成的函數值把各觀測值分到各組的區域圖(本例選擇)。

④打開Save對話框,將以下三項全勾上:

Predicted group membership:建立一個新變量,系統根據判別分數把觀測量按后驗概率最大指派所屬的類;

Discriminant score:保存各樣品的判別的分值,該得分是由未標準化的Fisher判別投影函數計算所得。

Probabi1ities of group membership:建立新變量表明觀測量屬于各類的后驗概率。

全部選擇完成后,點擊OK,輸出主要結果如下:

表2 Tests of Equality of Group Means每個變量各類均值相等的檢驗

此結果說明,x1,x2,x3三個指標每個指標均值在三類間都是有差異的,此檢驗通過說明判別有意義。

表3 Box's Test of Equality of Covariance Matrices協方差矩陣相等的檢驗

注意,sig值=0.483>0.05,說明檢驗通過,即各類的協方差相等的假設在0.05的顯著性水平下成立。

Summary of Canonica1 Discriminant典型判別函數綜述(此部分輸出Fisher判別相關結果)。

只有兩個判別(投影)函數,所以特征值只有兩個。判別函數的特征值越大,說明函數越具有區別判斷力。最后一列表示是典則相關系數,是組間平方和與總平方和之比的平方根,表示判別函數分數與組別間的關聯程度。

表5 Wilks'Lambda判別函數檢驗

上表中“1through 2”表示兩個判別函數的平均數在三個類間的差異情況,P值為0.004表示差異達到顯著水平,即兩個投影函數能將各組樣品分開。“2”表示在排除了第一個判別函數后,第二個判別函數在三個組別間的差異情況,P值=0.049表示判別函數2也達到顯著水平,即第二個投影函數亦能將各組樣品分開。

表6 Canonical Discriminant Function Coefficients(非標準化典型判別函數系數矩陣)

由非標準化典型判別函數系數矩陣可寫出兩個判別函數即Fisher投影函數的表達式:

其中li為E-1H的第i大特征根對應的單位特征向量(E,H分別為樣品組內離差陣與組間離差陣)。

表7 Functions at Group Centroids類中心坐標(非標準化典型判別下的類中心)

表7為各類樣品在上述F1,F2兩個投影函數下投影后的中心坐標。

圖1 投影分界圖

圖1為各類樣品投影后的分界圖,其中“1”代表“暢銷”,“2”代表“平銷”,“3”代表“滯銷”,“*”代表各類投影中心,“32”分界線表明是第3類與第2類的投影后的界線,其余兩條意義類似。

由圖2可知待判樣品x0=(7.0,7,660),投影后的點離“平銷”類樣品投影后中心最近,故可判定X0來自第2類,即“平銷”一類。

C1assification Statistics分類分析(此部分輸出Bayes判別相關結果)。

圖2 各樣品投影后的散點圖

表8 先驗概率

表9 貝葉斯判別函數的系數

上表為貝葉斯判別函數的系數矩陣,可以用數學表達式表示為:

它對應的表達式為(5)式中各總體均值μi與協方差陣Σ分別用樣本均值與樣本聯合方差陣Sp估計后所得表達:

圖3 增加了新變量后的數據窗口

返回數據窗口,可發現原數據窗口多了5列(如圖3)。

其中:Dis_1列顯示為各樣品按Bayes判別法判別所屬類別,可知待判別樣品x0=(7.0,7,660)屬于第2類,即“平銷”狀,此分類結果與前面Fisher判別法結果一致;Dis1_2,Dis2_2,Dis3_2列為樣品分別屬于第1類,第2類與第3類的后驗概率大小;Dis1_1,Dis2_1列為樣品在兩個Fisher投影函數下投影后的坐標;

最后結果匯總了將所有樣品包括各類訓練樣品和待判樣品采用Bayes判別法判別后所屬類別與原始類別相比較,由匯總結果可知采用Bayes判別法判別正判率為92.3%。

3 結語

本文總結了距離判別、Bayes判別與Fisher判別三種判別法的原理,并借助例子對這三種判別法的SPSS操作及輸出結果作了詳細說明,要特別說明的是:SPSS中判別分析操作輸出結果都是針對協方差陣相等的情形下給出的,故在做判別分析前,一定要對各類的協方差陣是否相等進行Box's M檢驗,只有檢驗通過了,本文給出的操作及輸出結果才可信,否則只能依照公式(1)或公式(4)手動計算后再做判別[3~4]。

表10 分類結果矩陣

[1] 何曉群.多元統計分析[M].北京:中國人民大學出版社,2008(9):105~112

[2] 高惠璇.應用多元統計分析[M}.北京:北京大學出版社,2008(7):192~198

[3] 陳希傎,曹慧珍.判別分析與SPSS的使用[J].科學技術與工程,2008(7):3567~3574

[4] 任志娟.SPSS中判別分析法的正確使用[J].統計與決策,2006(2):157~157

[5] 張文彤.SPSS統計分析高級教程[M}.北京:高等教育出版社,2006(12):261~277

Instructions for Several Problems about the Discriminant Analysis Using SPSS

CHEN Min-qiong
(Xinhua Co11ege,Sun Yat-Sen University,Guangzhou 510520)

Discriminant ana1ysis is one of the most common1y used methods in mu1tivariate statistica1 ana1ysis,but because of the comp1exity of its princip1e and methods of diversity,making it one of the difficu1ties in 1earning the course of Mu1tivariate Statistica1 Ana1ysis,in particu1ar the 1earning of SPSS software operating.To do this,summaries the princip1e of severa1 methods of discriminant ana1ysis,according to the common prob1ems of SPSS in the process,does the first theoretica1 derivation,combined with examp1es,exp1ains the steps and output resu1ts of SPSS discriminant ana1ysis in detai1s.

Discriminant Ana1ysis;SPSS Discriminant;Procedure;Exp1ain

1007-1423(2015)05-0034-07

10.3969/j.issn.1007-1423.2015.05.007

陳敏瓊(1983-),女,江西吉安人,碩士,講師,研究方向為統計軟件分析與應用

2014-12-30修改日期:2015-01-25

中山大學新華學院2014年院級教改項目(No.2014J001)

主站蜘蛛池模板: 思思热精品在线8| 久久不卡国产精品无码| 大陆精大陆国产国语精品1024| 久久黄色毛片| 久久成人18免费| 日韩中文无码av超清| 亚洲欧洲国产成人综合不卡| 青青青国产视频| 97色婷婷成人综合在线观看| 国产在线专区| 久久青草视频| 看av免费毛片手机播放| 三级国产在线观看| 国产成人av一区二区三区| 婷婷伊人五月| 人人爽人人爽人人片| 国产经典免费播放视频| 色综合五月婷婷| 操国产美女| 久草性视频| 97se亚洲综合| 制服丝袜在线视频香蕉| 国产成人精品视频一区二区电影 | 欧美黄网在线| 国产综合日韩另类一区二区| 精品无码视频在线观看| 亚洲国产精品人久久电影| 亚洲综合精品第一页| 国产精品久久久精品三级| 国产在线麻豆波多野结衣| 精品一区二区三区波多野结衣| 久久亚洲AⅤ无码精品午夜麻豆| 久久男人视频| 亚洲日韩精品伊甸| 97久久超碰极品视觉盛宴| 色偷偷综合网| 日韩麻豆小视频| 在线视频亚洲色图| 第一区免费在线观看| 亚洲精选高清无码| 亚洲黄网视频| 99这里只有精品免费视频| 白丝美女办公室高潮喷水视频| 狠狠色噜噜狠狠狠狠奇米777| 国产一国产一有一级毛片视频| 精品福利国产| 精品人妻一区二区三区蜜桃AⅤ| 亚洲精品无码日韩国产不卡| 久久一本精品久久久ー99| a级免费视频| 亚洲一区二区三区香蕉| 凹凸精品免费精品视频| 日韩在线中文| 3D动漫精品啪啪一区二区下载| 亚洲国内精品自在自线官| 黄色不卡视频| 国产成人h在线观看网站站| 久草视频中文| 国产一区二区福利| 一本大道香蕉中文日本不卡高清二区 | 成人毛片免费在线观看| 亚洲水蜜桃久久综合网站| 国产性猛交XXXX免费看| 日韩免费无码人妻系列| 精品视频福利| 国产爽爽视频| 日本亚洲成高清一区二区三区| 国产福利一区在线| 在线观看国产精品第一区免费 | 成年人免费国产视频| 波多野结衣在线se| 免费av一区二区三区在线| 婷婷亚洲综合五月天在线| 国产成人综合久久精品尤物| 97视频在线观看免费视频| 日韩国产一区二区三区无码| 国产成人精品高清在线| 亚洲精品日产精品乱码不卡| 天天操精品| 欧美黄网在线| 伊人成人在线| 久久人人爽人人爽人人片aV东京热|