王懷亮
(菏澤學院,山東 菏澤 274015)
[經濟管理]
回歸診斷在統計數據異常值探測中的應用
王懷亮
(菏澤學院,山東 菏澤 274015)
近年來有關異常值的理論探討一直是個熱點問題,從回歸模型診斷的角度對統計數據中的異常值進行探測與分析,并在基于R語言的基礎上,結合具體實例,給出回歸診斷在統計數據異常值探測中的應用。
回歸診斷;R;異常值
異常值是指一批數據中有部分數據與整體中其他數據相比存在明顯不一致,也稱為異常數據,或稱離群值。異常值的出現可能是由于記錄錯誤引起的,也可能由于該數據值不屬于這個數據集,或者本來就是如此,需要進一步的調查。異常值是影響統計數據質量的一個非常重要的因素,近年來有關異常值的理論探討一直是個熱點問題;目前研究的重點一直放在統計法律制度的健全以及統計工作程序完善等方面。筆者更關注的則是統計數據的誤差問題,即所提供的統計數據與客觀的社會經濟現象實際的數量特征之間的差距問題。異常值的存在,使得統計分析的誤差大大增大。因此,在利用已得數據進行統計分析之前,必須對異常值進行探測和檢驗,從回歸模型診斷的角度探測與分析統計數據中的異常值進行。
在統計軟件方面,常用的統計軟件有 SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統計分析功能和優秀統計制圖功能的統計軟件,現已是國內外眾多統計學者喜愛的數據分析工具。本文結合實例介紹了R軟件在對統計數據異常值探測中的應用。
1.殘差
設線性回歸模型為:Y=Xβ+ε
其中Y是由響應變量構成的n維向量,X是n×(P+1)階設計矩陣,β是p+1維向量,ε是n維誤差向量。

一般來說,在模型恰當的情況下,所計算的殘差應該比較小,各個樣本點計算的對應的殘差也較小,如果某個點計算的殘差值較大,說明該點可能是異常值點。
2.Cook統計量
Cook在1977年提出了Cook統計量,Cook統計量定義為:
(i)為刪除第i個樣本數據后,由余下的n-1個樣本數據求的回歸系數的估計值。直觀上,Cook統計量Di越大的點,越可能是異常值點,在應用上要視具體問題的實際情況而定。
1.基于R語言的殘差計算程序

根據表1分析居住支出與工資收入的關系,并分析異常值點。

表1 2008年山東省部分地市城鎮居民平均全年工資收入和居住支出情況表 單位:元

數據來源:2009年山東統計年鑒。
經初步分析,可以建立以平均工資為自變量,居住支出為因變量的簡單線性回歸模型,并且該模型通過t檢驗和F檢驗,模型方程為

其殘差圖和Cook距離圖如下:

圖1

圖2

圖3

圖4
圖1是殘差散點圖,從圖形上看,第2號樣本點明顯偏離其他的樣本點;圖2是標準化殘差絕對值的開方的殘差圖,第2號樣本點標準化殘差的開方大于1.5,說明第2號樣本點在95%的范圍以外;圖3表示的是Cook距離,第2號樣本點的值最大,說明第2號樣本點可能是異常值點;圖4給出了回歸直線和樣本點的散點圖,第2號樣本點明顯偏上。綜上分析,青島市居民2008年平均工資收入和居民居住支出相對于該模型為異常值點,具體情況需做相關調查。
[1]王松貴,張忠占,程維虎,高旅端.概率論與數理統計[M].北京:科學出版社,2007.
[2]湯銀才.R語言與統計分析[M].北京:高等教育出版社,2008.
[3]薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2009.
(責任編輯:劉潤婉)
C82
A
1002-2880(2011)02-0118-02
王懷亮(1981-),男,漢族,山東曹縣人,菏澤學院經濟系助教,碩士,研究方向:計量經濟統計分析。
2010年山東省統計科研重點課題《統計數據質量評價方法研究》(基金項目號:KT1089)。