◇李 坤
統計分析是統計學最重要的應用之一,無論是數據收集,還是數據處理,其最終的目的都是要進行統計分析,以便得出結論,供信息的使用者在做決策或預測時參考,那么我們對不同的統計分析方法進行研究、比較,就顯得異常重要,因為不同的統計分析方法適用的情況不一樣,對于同一種情況使用不同的統計分析方法進行分析可能得出不同的結果,即使得出的結果是一樣的,但是各種結果的準確性也可能有很大差異,基于此,本文對各種常見的統計分析方法進行了研究。
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種常用的統計分析方法,回歸分析的基本思想是:①從一組實測數據出發確定自變量和因變量之間的定量關系式,即建立數學模型,然后估計其中的未知參數。②對這些關系式的可信度進行檢驗。③在多個自變量共同影響一個因變量的關系中,判斷哪些自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,將影響不顯著的自變量剔除,常用兩階段最小二乘法、三階段最小二乘法等方法。④利用最終求得的關系式對某一生產過程進行預測或控制。
一般來說,回歸分析是通過規定自變量和因變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來求解模型的各個參數,然后根據擬合優度值R2來評價回歸模型是否能夠很好地擬合實測數據,如果能夠很好地擬合,則可以作進一步預測。
回歸分析的優點在于方法簡單,易于操作,在統計軟件包中使用各種回歸方法計算十分方便。回歸分析的缺點在于當自變量和因變量之間是非線性關系時,用回歸分析進行擬合的效果往往并不好甚至很差。
判別分析是在已知歷史上用某些方法已把研究對象分成若干組的情況下,根據研究對象的各種特征值來判別其歸屬問題的一種多變量統計分析方法。判別分析的基本思想是,首先根據已知所屬組的樣本給出判別函數,然后在依次判別每一新樣品因歸屬哪一組。常用的判別方法有距離判別、貝葉斯判別和費希爾判別等。
判別分析在經濟學、人口學、醫學、氣象學、市場預測、環境科學、考古學中有著廣泛的應用,一般根據事先確定的因變量找出相應處理的區別特性。在判別分析中,因變量為類別數據,自變量通常為可度量數據。通過判別分析,可以建立能夠最大限度地區分因變量類別的函數,考查自變量的組間差異是否顯著,判斷那些自變量對組間差異貢獻最大,評估分類的程度,根據自變量的值對樣本進行歸類。
判別分析的優點在于通過判別分析能夠將自變量很好地進行分類,判別分析的缺點在于計算復雜,程序繁瑣。
聚類分析的目的是把分類對象按照一定的規則分成若干類,這些類不是事先給定的,而是根據數據的特征確定的,對類的數目和類的結構不必做任何假定。在同一類里的這些對象在某種意義上傾向于彼此相似,而在不同類里的對象傾向于不相似。
聚類分析的基本思想是:首先根據一批數據或指標找出能度量這些數據或指標之間相似程度的統計量;然后以統計量作為劃分類型的依據,把一些相似程度大的樣品首先聚為一類,而把另一些相似程度較小的樣品聚為另一類,直到所有的樣品都聚合完畢。
在經濟學中,根據人均國民收入、人均工農產值和人均消費水平等多項指標對世界上所有國家的經濟發展狀況進行分類;在選拔青年運動員時,對青年的身體形態,身體素質以及生理功能的各項指標進行測試,據此對青年進行分類;根據啤酒中含有的酒精成分、鈉成分和“卡路里”數值,對啤酒進行分類;在我國,按經濟發展水平可以將各地區分為發達地區、欠發達地區和落后地區,這些都要用到聚類分析方法。
聚類分析的優點在于能夠清晰地描述數據并且簡便快捷,是很好的統計分析方法。其缺點在于,在樣本量較大時,要獲得聚類結論有一定困難。
判別分析和聚類分析是兩種不同目的的分類方法,所起作用是不同的。判別分析方法假定組已經事先分好,判別新樣品應歸屬哪一組。聚類分析方法是按照樣品的數據特征,把相似的樣品傾向于分在同一類中,把不相似的樣品傾向于分在不同類中。
主成分分析是一種通過降維技術把多個變量化為少數幾個主成分的統計分析方法,這些主成分能夠反映原始變量的絕大部分信息,它們通常表現為原始變量的某種線性組合。主成分分析的基本思想是:設法將原來眾多具有一定相關性的指標重新組合成一組新的互相無關的綜合指標,來代替原來的指標以達到兩個基本目的:①變量的降維;②主成分的解釋。
成功的主成分分析在降低維數的同時,能夠使所提取的主成分仍保留著原始變量的絕大部分信息,這樣就可以對問題給出符合實際背景的和有意義的解釋。因此,當我們需要對問題給出合理而又有意義的解釋但由于問題本身含有多個變量而又不方便時,可以采用主成分分析,在主成分的累計貢獻率達到一個較高的比例時,就可以用這幾個主成分對問題進行解釋。比如影響男子田徑賽跑成績的因素,影響居民綜合消費性支出水平的因素等,都可以用主成分分析進行解釋。
主成分分析的優點在于通過降維減少了變量的個數,將變量間重疊的信息展開,降低了分析問題的復雜性,使得對問題的解釋變得容易.主成分分析的缺點在于主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚,確切。另外,當所提取的主成分中有一個主成分解釋不了時,主成分分析就失去了意義。
因子分析起源于20世紀初,K.皮爾遜和C.斯皮爾曼等學者為定義和測定智力所做的統計分析。因子分析的目的是,試圖用幾個潛在、不可觀測的隨機變量來描述原始變量間的協方差關系。
當多個變量共同影響一個變量時,為了降低分析問題的難度,通常可以采用因子分析,找出主因子進行解釋。抓住主要因素,忽略次要因素,在不影響分析問題的精確性時,因子分析不失為一種選擇。
與主成分分析相比,因子分析較為靈活(體現在因子旋轉上),這種靈活性使得變量在降維之后更容易得到解釋,這是因子分析比主成分分析有更廣泛應用的一個重要原因。 其缺點在于,因子分析只能面對綜合性的評價,同時對數據的數據量和成分也有要求。
相關分析是研究兩組變量之間相關關系的一種統計分析方法,它能夠有效地揭示兩組變量之間的相互線性依賴關系。其基本思想是:研究兩個變量間線性關系的程度,用相關系數r來描述。
相關分析在實際生活中應用廣泛,牛肉、豬肉的價格與按人口平均的牛肉、豬肉的消費量之間的相關關系;初一學生的閱讀速度、閱讀才能與數學運算速度、數學運算才能之間的相關關系,等等。
相關分析的優點在于,通過降維,減少了變量的個數,降低了分析問題的復雜性。相關分析的缺點在于這種降維技術可能會過分削減信息,以至于不能充分反映實際問題。