丁 勇
(南京醫科大學康達學院 理學部,江蘇 連云港 222000)
相關和回歸是統計學研究的重要內容。在實際工作中,受各種因素的影響,原始數據不可避免地存在一定的誤差,這些誤差對計算的結果會產生一定的干擾,因此需要對誤差的影響進行分析和研究。查閱文獻發現,關注誤差對回歸分析影響的研究非常多,例如經典的最小二乘法、最小一乘法都是針對誤差對回歸的影響[1-5];而關注誤差對相關分析影響的研究則很少[6,7]。
相關系數是研究變量之間相關程度的重要指標,在理論研究和實際工作中得到了大量的應用[1,2,8],例如,相關系數作為變量之間的距離,在多元統計分析中,廣泛應用于聚類分析、主成分分析等。因此,研究數據誤差對相關系數的影響有重要意義。本文在一個變量有相對誤差的情況下,探討相對誤差對簡單相關系數(又稱pearson積差相關系數,以下簡稱相關系數)的影響。
記 r 為 x=(x1,x2,…,xn)和 y=(y1,y2,…,yn)的相關系數,則[1,2]:

考慮x、y兩個變量其中之一有誤差,由于對稱性,不妨設 y有相對誤差:;這里εi~N(0,σ2) 且相互獨立。記 ε=(ε1,ε2,…, εn) ,則由樣本標準差和總體標準差的關系可知:

從而可以把σ近似看成是y的平均相對誤差(以下簡稱相對誤差)。
記r*為x=(x1,x2,…,xn)和的相關系數,則:


由此可知,r*是由ε確定的隨機變量,上式比較復雜。為了較簡單明了地分析相對誤差對相關系數的影響,本文從總體特性的角度進行分析。從理論上獲悉r*的統計分布再推導總體均數E(r*)比較困難,為簡單起見,考慮如下的近似公式:

由 數 理 統 計 知 識 可 知[1]:E(εi)=0 ,E(εiεj)=E(εi)E(εj)=0(i≠j) ,且,所 以,從 而,故有。這里E(X)為隨機變量X的數學期望,χ2(1)為自由度為1的卡方分布。由數學期望的 性 質 可 知[1]E[(xi-ˉ)yiεi]=(xi-ˉ)yiE(εi)=0 ,E[(yi-ˉ),又因為,所以從而,因此:


式(1)為有相對誤差數據的相關系數的總體均數的近似公式,與數據有相對誤差相對應,考慮相關系數的相對總體均數:

當ˉ=0,且σ2較小時,式(2)為:

當n≥2、σ≤20%時:

由式(2)可得如下相對誤差對相關系數的影響的3個統計特性:
性質2:相對誤差σ值越小,對相關系數的影響也越小;當σ=0 時,|=|r|;
性質3:相對與性質1誤差對相關系數的影響和有誤差數據的二階原點矩與二階中心矩的比值有關,其值越小,影響越小;因為,故當yˉ=0 時,,此時,y的大小對相關系數沒有影響。
式(1)、式(2)是近似公式,其精度如何?由近似公式得到的性質是否和實際情況相符?下面通過一組數據進行計算機模擬考察和驗證。在實際應用中,考慮到相對誤差不會太大,故設相對誤差界為20%。

表1 某交通點大氣污染情況的測定數據
表1是某交通點大氣污染情況的16個測定數據[9],第1列為汽車流量(輛/小時)數據,第3列為大氣中NO2含量(毫克/立方米)數據,這兩者的相關系數為r=0.8304,第2列為汽車流量減去它的平均值得到的中心化數據,由數理統計知識可知,兩個變量或其中之一做線性變換時,它們的相關系數不變[1],所以它與大氣中NO2含量(毫克/立方米)數據的相關系數也為r=0.8304。由于本例的相關系數大于0,故在以下的討論中,省去相關系數的絕對值。
本文將汽車流量作為x,大氣中NO2含量作為y,此時取相對誤差σ分別為0.05、0.10、0.15和0.20(表2第1列),再由εi~N(0,σ2)產生有相對誤差的隨機數,分別進行了10000次模擬,得到10000個x和y*的相關系數r*,統計其中r*>r的個數(表2第2列,記為m),計算r*的均值和標準差(表2第4列)以及r*與r比值的均數與標準差(表2第7列),為便于和近似公式比較,表2第3列和第6列給出了公式(1)和公式(2)的結果。

表2 大氣中NO2含量數據有相對誤差時10000次模擬結果
顯然,當沒有誤差時,r*=r,從而=r*=r,式(2)也表明,當相對誤差σ為0時,=r;當數據有相對誤差時,由式(2)可知,要小于r,表2第3列結果驗證了這一點,<r=0.8304 ,且當σ增大時,變得更小。是r*的平均值,<r的一個可能原因是當相對誤差σ存在時,r*>r的個數會減少,表2第2列的結果驗證了這一點。以上結果與前述的性質1和性質2的結論是一致的。
為比較y值的影響,取大氣中NO2含量數據為x,汽車流量數據為y,此時=19.7638,比表2的要大的多。類似上述的模擬方法,可得表3的各模擬結果。表3第2列與表2第2列欄類似,隨著誤差σ增大,r*>r的個數越來越少,相比表2的個數還要少;表3第3列與表2第3列欄類似,隨著誤差σ增大而變小,相比表2的數值還要小。

表3 汽車流量數據有相對誤差時10000次模擬結果

表4 汽車流量中心化數據有相對誤差時10000次模擬結果

圖1
由表2、表3和表4的第3列、第4列和第6列、第7列可知,與r*的均數的均數都比較接近,且標準差較小,說明近似公式有較好的精度,本文進一步以均方根誤差(root-mean-square error)為精度評價的量化標準,由于與僅差一個常數,為簡便起見,只對進行比較,記顯然,當σ=0 時,r*=r,從而=r,所以此時RMSE=0 ;另外4種σ的情況,計算機模擬的計算結果列于表2、表3和表4中第5列,一個有趣的現象是,RMSE與σ成正比關系(下頁圖2,圖中R2為決定系數),表4的RMSE小于σ的3.6%(圖2中☆數據),表2的RMSE小于σ的6%(圖2中*數據),表3的RMSE小于σ的21.5%(圖2中o數據)的值越小,RMSE與σ比值就越小;三種情況都表明,RMSE遠遠小于誤差σ,這進一步說明近似公式有較高的精度。由于的精度與的精度是一致的。由于近似公式有較好的精度,由此得到的3個性質與實際情況相符也就順理成章了。與僅相差一個常數,因此

圖2 均方根誤差RMSE與相對誤差σ的關系圖
從復雜的現象中,排除次要因素的干擾,梳理出重要線索,抓住主要矛盾,有助于分析事物間的本質聯系。本文從總體特性的統計規律出發,利用簡單的近似公式,較好地找到了相對誤差對相關系數影響的主要因素。
從變量數據散點圖的幾何直觀來看,數據點越分布在回歸直線附近,變量的相關性越好。眾所周知,數據的誤差會對相關系數產生影響。一般來說,當誤差使數據點靠近(遠離)回歸直線時,相關系數會增加(減少)。由于誤差是隨機的,因此,誤差有可能使相關系數(絕對值)增加,也可能使相關系數(絕對值)減少。本文研究表明,從統計規律來看,誤差的影響大多數情況是不利的,會使變量的相關性變差。
對于相對誤差,一般會認為數據變量的絕對值越大,誤差會越大,從而對相關系數的影響也越大。本文研究得到一個重要的結論是:數據的二階原點矩的與二階中心矩的比值對相關系數有較大的影響。誤差會對相關系數產生影響,但僅有誤差,影響的作用并不大,公式(3)說明了這一點,誤差和二階矩比值的共同作用,特別是二階矩的比值較大時,會對相關系數產生較大的影響,圖1給出了直觀的說明。數據均值為0時,二階矩的比值達到最小值1,此時數據大小對相關系數沒有影響。因此,數據相對誤差對相關系數的影響,除了誤差和數據的大小,還要考慮數據是否對稱分布、均值為0。在實際問題中,可以把二階矩的比值作為一個評價指標,當該指標數值較小時,相關系數的值比較穩定,受誤差的影響較小。