

摘要:本文筆者對幾種常用的統計量進行著重探討,結合實踐提出穩健性的不足。同時給出幾種穩健統計量,并與傳統的統計量進行比較。通過比較來展現穩健統計量的優勢及其應用價值。
關鍵詞:穩健統計;統計量
1、前言
統計學作為一套科學原理和技術,統計是從眾多數據中挖掘有用的信息,然后得出有關這個領域的某些特征或結論,進而用以指導實踐,來創造更好的數據的科學。然而,傳統的用以描述數據或數據分布特征的統計量在許多情況下都不具有很強的代表性,使得分析結果與實際不符,據此制定相關政策用于指導實踐時,必定會產生不利于社會經濟發展的情況。由于穩健統計方法不受實際數據是否服從正態分布條件的束縛,與傳統的統計方法相比,具有更強的抵抗異常值影響的能力,更能夠反映實際情況,所以它一問世就有著很強的生命力,并逐漸地被廣泛應用于醫學、生物學、化學以及地質學等領域,成為人們處理各種問題的重要思想和工具。
穩健統計的內容非常廣泛,任何涉及到與實際問題和假定條件有偏離有關的傳統統計方法中,都會有穩健統計成長的空間,都會有待于對傳統統計方法進一步完善的必要。本文將主要分析幾種代表總體平均水平的穩健統計量的穩健性,并與傳統的統計量如樣本平均數等進行比較,從而揭示穩健統計量的優勢所在。由于篇幅所限,對穩健統計的其他方面的討論不在本文范圍之內。
2、統計量的穩健性比較分析
2.1傳統統計量
人們普遍會感覺官方公布的人均收入或人均工資之類的指標明顯偏高。進一步研究發現,除了統計誤差和統計口徑上的不同以外,對人均收入指標主觀上認為偏高的主要原因在于收入分布是一種偏態的分布,而且隨著貧富差異原因的增多,偏態有日益嚴重的態勢。同時收入分布中存在著異常極端的離群大值,也會導致收入平均值的不正常上升。舉一個極端一點的例子,如果收入數據中有一個值趨于無窮大,不管是由于操作失誤還是實際情況的真實反映,據此計算出來的平均收入也會趨于無窮大,由此可見,運用非常普遍的平均數絲毫不具有抵御離群值的能力。這也就意味著在正態假定下性能表現非常良好的平均數,當實際數據并不是呈正態分布時所表現出的代表性不強的缺陷。這就引發人們去思考其他的統計量,要求這樣的統計量滿足以下兩個條件:第一,當實際分布未知或雖然已知但不是正態分布時,這樣的統計量應該能夠比較好地描述所研究現象的實際情況;第二,當數據中存在正常的或是非正常的離群值時,這樣的統計量不會偏離實際情況太遠,也即不會因為離群值的存在而對所要說明的問題以及想要得出的結論造成災害性的影響。
切尾均值是對均值的一種變通方法。均值對異常值或離群值非常敏感,它會由于數據集合中的一個或多個異常值的出現而失真。在這種情況下,離群值會使均值偏向自己的一方以尋找平衡點,因而也就歪曲了均值作為平均水平度量的意義。這時就需要對均值的計算方法進行適當的變通,使之較為穩健。通常用到的就是切尾均值,其做法是去掉最大的和最小的數據,然后對其余的作平均。
2.2幾種穩健統計量
從數理角度分析,許多統計量都是通過極小化某一目標函數而得到的結果。例如熟悉的樣本均值就是極小化目標函數Q(xi,t)=Eni=1(xi-t)2所得的t值,其中xi,i=1,,,n是某一獨立同分布的樣本,t是估計值,Q表示目標函數。解此問題的方法是先求Q關于t的導數7(在Q可導的情況下),7(xi,t)=Qc(xi,t)=Eni=1(xi-t)(去掉常數因子),然后求t,使之滿足Eni=1(xi-t)=0。通過求解得t=Eni=1xiPn,也就是樣本均值。同樣,樣本中位數是最小化目標函數Q(xi,t)=Eni=1|xi-t|的解。已經看到,基于殘差平方目標函數的樣本平均值的統計量對于離群值過于敏感,即由于經過平方,使得數據分布的尾部有太大的權數;而基于絕對殘差目標函數的樣本中位數雖然克服了樣本平均值對離群值敏感的缺陷,但卻對數據的中間估計值太敏感。于是,Huber(1964)提出了一種新的目標函數,作為樣本平均值和樣本中位數的折衷。這個目標函數就是極小化上述目標函數的解就是HuberM統計量。樣本中位數和平均數分別是HuberM統計量的極端情況,k稱作細調參數,它決定著Huber統計量的性質。在實際運用中選擇適當的k,能給統計量在某個范圍上合理的性能表現。k越小,Huber統計量越接近于樣本中位數,即對離群值的抵抗能力就越強,反之,就越接近于樣本平均值。Huber統計量是一種比較容易計算的穩健統計量,是對樣本平均值的穩健性的提高和改善。但是與下面三種更穩健的M統計量相比較,Huber統計量的穩健性有時也不能夠滿足實際需要。
根據M統計量7函數(即目標函數的導數)的形狀,人們把Huber統計量稱作單調的,統計量,另外三種比較常見的M統計量:圖基(Tukey)雙權M統計量、漢佩爾(Hampel)回降M統計量和安德魯斯(Andrews)正弦波M統計量都是回降統計量。也就是說,HuberM統計量的7函數是單調遞增的,而后面三種M統計量的7函數最終都要回到水平軸,其函數形式均比較復雜,這里從略。需要強調指出的是,M統計量之所以較平均數穩健,是因為相對于平均數對所有觀察值都賦權數以1的情形,M統計量最終的目標是根據觀察值離數據分布中心的遠近而賦大小不等的權數,即觀測值距離數據分布中心越遠,賦予它的權數就越小,反之就越大。從而提高統計量的全局效率和整體耐抗性。不同的M統計量具有不同的加權體系。HampelM統計量和Andrews正弦波M估計量的權重函數的形狀與Tukey雙權M統計量大體上類似,都是中間部分權數較大,以后逐漸遞減,到兩側的某一點減小到零。所不同的是,如同HuberM統計量中的k一樣,不同的統計量具有不同的細調參數,從而也決定了權重函數走勢變化的分界點。
表1 是筆者利用SPSS 軟件對某市近幾年的居民實際支出原始數據計算的四種M 統計量(為節省篇幅, 只列出每隔一年共6 年的計算結果) , 并列出了平均支出和中位數支出以供比較。
表1 基于居民實際支出數據的四種M 統計量比較
通過上表對六種統計量的比較發現,四種M統計量均低于平均實際支出,而與中位數實際支出的大小關系不固定。由于實際支出數據中有一定量的離群值存在,所以平均實際支出是對實際數據的一種偏高估計,這是毫無疑問的,又由于位數附近可能出現的分布離散性,使得中位數在整體上是對實際數據的一種偏低估計。而M統計量反映了支出數據主體部分的更多信息,因而能夠更準確地體現實際支出的一般水平。
3、結束語
綜上所述,運用非常廣泛的樣本平均數,雖然有其計算簡單的優點,但卻在很多情況下不能夠很好地代表所研究現象總體的平均水平。因此,對更加穩健的統計量的重視和應用,無論是對數據使用者還是對政策的制定者,都有其不可忽視的重要意義。