佘雅婷
摘要:進行數據分析工作的基礎是掌握數據分析方法。回歸分析、聚類分析、因子分析是三種在實際工作中經常使用的多元統計方法,不過通常在實際使用過程中容易使用錯誤或不易區分。本文基于數據分析理論基礎運用SPSS軟件求解數據分析模型并對三種方法進行對比。
關鍵詞:數據分析模型;SPSS;建模
數據分析即把具有價值的信息從數據中提取出來,在該過程中離不開對數據各種形式的分類以及處理,數據分析員必須準確掌握高效的數據分類方法以及數據處理模式,才可以發揮事半功倍的效果。
SPSS是英文Statistical Package for the Social Science(社會科學統計軟件包)的縮寫.SPSS名為社會科學統計軟件包,常適用于工學、農學、醫學、教育學、管理學、社會學、經濟學、體育學、商學等多種領域。SPSS數據分析工具的基礎功能是數據輸入輸出全生命周期管理、數據統計分析、圖表可視化分析等。SPSS同時提供專業的制圖系統,可以根據數據繪制各種圖形。
一、回歸分析
回歸分析方法是以相關原則為基礎的能夠定量預測的方法。依據具有變量的數量,細化成兩類,一元回歸分析以及多元回歸分析;依據自變量以及因變量兩者間關系結構,細化成線性回歸分析以及非線性回歸分析;依據啞變量的書序位置,細化為含啞變量回歸分析、線性概率模型和Logistic即邏輯回歸分析。在此重點介紹多元線性回歸分析。
多元線性回歸模型的定義是當回歸具有一個因變量y和大于等于兩個自變量x,描繪因變量隨著若干個自變量以及誤差項而變動的數學方程。具有k個自變量x1,x2,…,xk的多元線性回歸模型能夠顯示如下
y=β0+β1 x1+β2 x2+…+βk xk+ε
式中:β0,β1,β2,…,βk是方程的偏回歸系數;ε是被稱為誤差項的隨機變量;y是x1,x2,…,xk的線性函數加上誤差項。
多元線性回歸分析方法能夠歸納為五個基本流程:第一,確定變量,對照課題的目標以及內容確定自變量以及因變量;第二,建立模型,依據上文提到的回歸模型理論基礎建立;第三步,參數估計;第四步,檢驗以及更改模型,不過回歸模型的質量仍必須去校驗模型自己和各個參數項,常見的檢驗方法包括統計檢驗(像擬合優度檢驗、回歸模型線性F檢驗、參數t檢驗等等)和殘差圖檢驗;第五步,模型的運用。
選取逐步回歸法,利用SPSS工具運行后得到如下數據:回歸系數b=(β0,β1,β2)=( -0.443, 0.05, -0.032),包含三個檢驗統計量:相關系數的平方R2,假設驗證統計量F,與驗證統計量F一一對照的概率p這三個變量如下所示:0.739;35.037;0.000,得到初步的回歸模型為y=-0.443+0.05x1-0.032x2,模型中x1表示各項貸款余額,x2表示本年固定資產投資額。參照檢驗統計量R, 驗證統計量F, 概率p的大小得出本數學模型能否使用的結論。
(一)相關系數R的評價。這個條件下判定系數是0.739,得出結論該模型線性相關性較強。
(二)F檢驗法(線性關系檢驗)。F=35.037>F1-0.05 (2,22)=3.1
(三)p值檢驗。P=0.000,符合約束條件 p<α=0.05,使用三種不同的統計校驗方法得到的結論相同,得出結論因變y和自變量x二者間存在顯著的線性相關關系,假設建立的線性回歸模型成立可以用于數學分析。
二、聚類分析
聚類分析方法是把研究中的對象進行分類,分類依據是相同類元素間的相似性遠強于不屬于該類元素的相似性。本數學分析方法的意義是實現相同類元素同質性最大化以及不同類間元素異質性最大化。聚類分析常用的分析方法有系統聚類法,K均值聚類法等等。
系統聚類也稱層次聚類(Hierarchical Cluster),不需要事先確定要分多少類,其聚類過程是一層層進行,先把每一個對象作為一類,然后一層層進行分類,會得出所有可能的類別結果,而研究者由實際情況確定需要的類別。K均值聚類又可以叫做快速聚類(quick cluster),這種分析方法在進行分析前要明確所需分類的數量。
K均值聚類步驟:第一步,確定要分的類別數目K;第二步,確定K個類別的原始聚類中心位置,可以采用人工選定K個樣本點的方式確定聚類中心,還可以令系統隨機選定K個樣本點的方式確定聚類中心;第三步,計算仍未包含在類之中的剩下的樣本點距離聚類中心數值的大小,把其劃分到距離其最近的類;第四步,將重新分好的類的均值更新為新的聚類中心,更新所有樣本點距離新聚類中心的數值;第五步,循環進行第4步操作,直至實現緊挨的兩次聚類結果不發生特別大的變化停止。
使用系統聚類法:繪圖選項中點擊繪制樹狀圖,聚類方法選用Ward法,標準化選用z分數。聚類結果,粗黑線從左到右依次代表將飲料分為五類、四類、三類、兩類。
使用K均值聚類法:把原始變量進行標準化處理,把標準化處理之后的變量當成聚類變量的初始值,聚類數預定是4。分析報告中“聚類”給出每個飲料的列別數,給出了每個飲料距離其所在類中心點的距離。參照給定的方差分析表能夠得到按照分析方法分出的類別可否使用的結論。從表中可以看出,分類后熱量和價格在不同類別之間是顯著的(p<0.05),咖啡因和納不顯著(p>0.05)。
通過這個例題我們可以得出結論,兩種方法給有優缺點。K均值聚類法必須分析前確定類別個數,比之系統聚類法計算量會小的多,效率較高。系統聚類法不需要分析前確定類別分數,本方法能夠繪制得到樹狀聚類圖,更加方便直觀。
三、因子分析
因子分析方法是實現數據簡化的方法,該法對若干變量間的相互關系進行探究,研究參考數據的基本數據結構,同時假設少量的有限個假想變量代表它的基本數據結構,假定的有限個假想變量就可以代表最初若干變量的大量信息。參考變量為能夠進行觀測的顯性變量,另外假想變量為不能夠進行觀測的隱性變量,我們把它稱之是因子。
假設原有變量有p個,分別用x1,x2,x3…xp表示xi(i=1,2, …p)為均值為零、標準差為壹的標準化變量,F1,F2,F3…Fm分別表示m個因子變量,m應小于p0于是有:
x1=a11 F1-a12 F2+…+a1m Fm+a1 ε1
x2=a21 F1-a22 F2+…+a2m Fm+a2 ε2
…
xp=ap1 F1-ap2 F2+…+apm Fm+ap εp
也可以矩陣的形式表示為:X=AF+aε
上文講述了回歸分析、聚類分析、因子分析三種分析模型的理論知識,并使用SPSS輔助工具進行了實例操作。可以看到,針對不同的數據選用不同的模型。因子分析和回歸分析是兩種不同的分析方法,因子分析提到的因子為相對抽象的理論,此外回歸因子卻是具有特別確定的實際意義和價值。聚類分析常用于簡化數據。
參考文獻:
[1]陳永勝,宋立新.多元線性回歸建模以及SPSS軟件求解【J】.通化師范學院學報,2007,28(12).