潘麗靜
(1.渭南師范學院 數(shù)學系;2.渭南師范學院 統(tǒng)計科學與社會計算研究所,陜西 渭南 714000)
基于Matlab語言的統(tǒng)計數(shù)據(jù)異常值檢驗
潘麗靜
(1.渭南師范學院 數(shù)學系;2.渭南師范學院 統(tǒng)計科學與社會計算研究所,陜西 渭南 714000)
從回歸模型診斷的角度對統(tǒng)計數(shù)據(jù)中的異常值進行探測與分析,并基于Matlab語言,結合具體實例,給出回歸診斷在統(tǒng)計數(shù)據(jù)異常值探測中的應用.
回歸診斷;異常值;Matlab
評估統(tǒng)計數(shù)據(jù)的準確性是統(tǒng)計學研究的一個重要課題,在實際統(tǒng)計工作中遇到的數(shù)據(jù)常會出現(xiàn)下面的兩種情況:一是單個變量的值過大或過小,明顯偏離該變量大多數(shù)觀測值;二是單個變量值雖未表現(xiàn)出異常,但卻不符合變量間的結構和相關性,明顯擾亂這種相關關系,我們稱這種觀測值為異常值[1].異常值是影響統(tǒng)計數(shù)據(jù)質量的一個非常重要的因素,因此如何發(fā)現(xiàn)和處理這些異常數(shù)據(jù)十分重要,文獻[1-5]對統(tǒng)計數(shù)據(jù)質量的概念及統(tǒng)計數(shù)據(jù)質量評估的方法進行了討論,本文利用Matlab軟件采用殘差分析的方法對統(tǒng)計數(shù)據(jù)中的異常值進行了檢驗.
設線性回歸模型為:Y=Xβ+ε,其中Y是由響應變量構成的n維向量,n×(p+1)階設計矩陣,β是p+1維向量,ε是n維誤差向量.

通過對殘差和殘差的置信區(qū)間進行分析,可以看出原始數(shù)據(jù)中是否存在異常點,若殘差的置信區(qū)間不包括0點,可認為該組觀測為異常點.
(1)調用regress函數(shù)作一元線性回歸[b,bint,r,rint,s]=regeess(y,xdsta);返回系數(shù)的估計值、殘差的估計值及估計值的95%置信區(qū)間、判定系數(shù)、F統(tǒng)計量的觀測值和檢驗的p值.
(2)調用rcoplpt(r,rint)按順序畫出各組觀測數(shù)據(jù)對應的殘差和殘差的置信區(qū)間.
分析2010年全國31個主要城市的年平均氣溫與全年日照時數(shù)的關系,并分析異常值點.數(shù)據(jù)來源于中華人民共和國國家統(tǒng)計局網站2010年資源和環(huán)境統(tǒng)計數(shù)據(jù).
經初步分析,可以建立以年平均氣溫為自變量,全年日照時數(shù)為因變量的一元線性回歸模型,且該模型通過F檢驗,由程序輸出結果知,常數(shù)項和回歸系數(shù)項的估計值分別為3.138×103和-72.5957,從而得線性回歸方程為Y贊=3031.8-72.5957x,回歸系數(shù)的估計區(qū)間為[-102.1742,-43.0173].
其原始數(shù)據(jù)散點與回歸直線圖,原始數(shù)據(jù)殘差及置信區(qū)間圖和剔除異常值后的回歸直線圖如下:

圖1

圖2

圖3
圖1是原始散點及回歸直線圖,從圖形上看,第22、23、24和26號樣本點明顯偏離其他樣本點;圖2是原始數(shù)據(jù)殘差及置信區(qū)間圖,從圖形上看,有三個樣本點的殘差置信區(qū)間不包含0點,它們對應得觀測序號分別23、24和26,可認為這三組觀測數(shù)據(jù)為異常數(shù)據(jù),這和從散點圖上直接觀察的結果基本吻合.它們分別是成都(17.0,689.0),貴陽(14.6,1021.5)和拉薩(10.0,3134.2),這可能是受到它們所處地理位置的影響;圖3是原始數(shù)據(jù)散點、原始數(shù)據(jù)對應的回歸直線和剔除異常數(shù)據(jù)后的回歸直線,由于受異常數(shù)據(jù)影響,兩次回歸結果并不相同.
〔1〕趙慧,甘仲惟,肖明.多變量統(tǒng)計數(shù)據(jù)中異常值檢驗方法的探討[J].華中師范大學學報,2003,37(2):133-137.
〔2〕王懷亮.回歸診斷在統(tǒng)計數(shù)據(jù)異常值探測中的應用[J].黑龍江對外經貿,2011(2):118-119.
〔3〕盧二坡,黃炳藝.基于穩(wěn)健MM估計的統(tǒng)計數(shù)據(jù)質量評估方法[J].統(tǒng)計研究,2010,27(12):16-22.
〔4〕劉洪,黃燕.我國統(tǒng)計數(shù)據(jù)質量的評估方法研究-趨勢模擬評估法及其應用 [J].統(tǒng)計研究,2007,24(8).
〔5〕許永洪.統(tǒng)計數(shù)據(jù)質量的基本概念與數(shù)據(jù)質量評估的基本模型[J].商業(yè)經濟與管理,2010(12).
〔6〕李海濤,鄧櫻.MATLAB 程序設計教程[M].北京:高等教育出版社,2007.9.
O212.3
A
1673-260X(2012)11-0005-02
國家統(tǒng)計局項目(2011LY030),渭南市科技計劃項目(2011YKJ-2)