南京醫科大學康達學院理學部數學與計算機教研室(222000) 丁 勇
·學術討論·
隨機誤差對線性回歸相關系數的影響
南京醫科大學康達學院理學部數學與計算機教研室(222000) 丁 勇△
相關系數是統計分析的一個重要指標。由于研究對象的不同,相關系數的定義也不同。最常用的相關系數為簡單相關系數或Pearson積差相關系數[1-3]。在實際問題中,如果兩個變量存在線性關系,但由于觀察或測量數據不可避免帶有誤差,這些誤差必然對相關系數的計算產生一定的干擾,這些干擾會受到什么因素的影響,本文對此進行探討。
1.相關系數公式
顯然,如果沒有隨機誤差,則x、y的相關系數的絕對值為1;當觀察或測量數據有隨機誤差時,相關系數將發生變化。記x、y*的相關系數為r,則有[1-3]


根據公式(5)可得到|r1|與lεε、b2和lxx的關系圖(圖1),理論分析得到的結果與圖是一致的。

圖1 |r1|與b2lxx、lεε關系圖
在實際應用中,樣本量n一般不會很大,此時,|r1|上述這些性質是否對r成立?下面進行討論。
由(1)式可知,r大小與直線的截距a無關,這與r1的性質是相同的。
由于b為直線的斜率,故當b>0時,y隨x的增大而增大,即y與x是正相關,當b<0時,y隨x的增大而減少,即y與x是負相關,所以r的符號應該與b相同。但由于誤差的影響,由公式(1)可知,r的符號可能與b不相同,下面討論發生這種情況的概率。
由于εi~N(0,σ2),且εi相互獨立,所以lxε的方差為



自蒙特卡羅方法于20世紀40年代作為一種獨立的統計模擬方法被提出以來,已在多個研究領域得到了廣泛的應用[5-6]。下面通過計算機模擬,對公式(6)~(9)進行驗證。
先隨機抽?。?.5,10]區間內均勻分布的18個數據,包括端點共20個數據作為x:0.5000 1.07401.4131 3.4909 4.0350 4.2566 4.4100 4.51215.1895 5.2536 5.3097 5.3989 5.4168 5.8319 6.7223 6.8272 7.3483 7.5297 8.1950 10.0000;這批數據的lxx=107.1562。
再設直線方程為y=2+bx,并分別考慮b=± 0.1,±0.5,±1,±3,±5和σ=1,2,3,5的各種情況。
每次模擬用計算機產生20個服從N(0,σ2)分布的隨機數εi作為隨機誤差,再取yi=2+bxi+εi(i=1,2,…,20)。
每種情況共進行10000次模擬,統計結果見表1,其中p1表示b和r同號的概率,根據公式(6)或(7)計算;p2表示的概率,根據公式(8)或(9)計算;f1和f2分別表示10000次模擬中,b和r同號的頻率和的頻率。由于b=-0.1,-0.5,-1,-3,-5結果與b=0.1,0.5,1,3,5的結果幾乎相同,故從略。
由表1可知,當b較大或誤差較小時,b和r同號的概率很大。
表1 b和r同號和的概率、頻率統計表(10000次模擬,lxx=107.1562)

表1 b和r同號和的概率、頻率統計表(10000次模擬,lxx=107.1562)
b σ=1p1f1p2f2σ=2p1f1p2f2 0.1 0.8497 0.8472 0.8262 0.8258 0.6976 0.70310.6928 0.6890 0.5 1 1 0.9892 0.9930 0.9952 0.9951 0.9601 0.9608 1 1 1 0.9959 0.9985 1 1 0.9892 0.9923 3 0.9977 0.9991 1 1 0.9970 0.9990 5 1 1 0.9979 0.9996 1 1 0.9976 0.9993 1 1bσ=3p1f1p2f2σ=5p1f1p2f2 0.1 0.6350 0.6291 0.6334 0.6402 0.5820 0.58590.5816 0.5757 0.5 0.9578 0.9579 0.9161 0.9148 0.8497 08502 0.8262 0.8262 1 0.9997 0.9991 0.9772 0.9815 0.9808 0.9822 0.9392 0.9375 3 1 1 0.9959 0.9981 1 1 0.9920 0.9953 5 1 1 0.9972 0.9988 1 1 0.9959 0.9988
在實際問題應用中,如果計算得到兩個變量之間相關性不大,可能的原因是兩者之間真的相關性不大;根據本文分析,也可能是測量的隨機誤差所造成,此時,提高測量精度和數據質量,可以提高相關性。
兩個或多個變量的相關分析有著廣泛的應用,相關系數是相關分析的一個重要指標,相關系數的大小直接影響統計推斷的結論。因此,分析對相關系數的影響因素,具有重要的應用價值。本文推導了直線回歸中有誤差數據的相關系數公式(1)和大樣本的較簡單的近似公式(3),并分析了影響相關系數的因素。由(1)式和(4)式可知,相關系數的大小與直線的截距無關,這與我們的直觀理解是一致的,截距的作用體現在散點圖的數據點向上或向下平移的距離,不影響自變量和因變量的相關性。
公式(3)比較簡單,通過理論分析即可得到相關系數絕對值與|b|、σ和lxx的關系,公式(1)相對復雜一些,我們用計算機模擬驗證了理論分析結果的準確性。由本文的討論可知,隨機誤差對相關系數的計算產生直接的干擾,隨機誤差越大,相關系數絕對值越小,|b|和x的離差平方和lxx在一定程度上對數據誤差的干擾又有一定的影響,|b|和lxx越大,會減少隨機誤差的干擾。實際問題中,兩變量之間存在線性關系是客觀存在的,我們無法改變|b|,但通過本文的分析,我們知道較大的|b|對誤差有一定的抗干擾作用;另一方面,在科研設計中,我們可以確定自變量的取值,通過加大自變量的離差來控制或減少誤差的影響。
對誤差性質進行分析,減少誤差的影響,有助于提高研究問題的精確度和準確度[7]。本文是在x為非隨機變量的情況下得到的結果,如果x為隨機變量,問題的分析要復雜得多,但在實際應用中,往往將x作為非隨機的情況來處理,對此做法有兩點解釋:一是可以把分析推斷作為“條件化”的結論,二是如果(x,y)聯合分布為正態,則x是否被看成隨機的都無關緊要,有關研究可參看文獻[8]。
[1]孫振球,徐勇勇.醫學統計學.第4版.北京:人民衛生出版社,2014:314-351,131-154.
[2]徐維超.相關系數研究綜述.廣東工業大學學報,2012,29(3):12-17.
[3]徐曉嶺,王蓉華.概率論與數理統計.上海:上海交通大學出版社,2013:513-521.
[4]蘇勇,熊斌.不等式的解題方法與技巧.上海:華東師范大學出版社,2012:30.
[5]李劍龍,陳方堯,李丹玲,等.具有相關關系的靈敏度和特異度的Monte Carlo模擬方法研究.中國衛生統計,2015,32(3):417-420.
[6]劉成友,丁勇.相對誤差直線回歸模型兩種參數估計方法的比較.中國衛生統計,2012,29(5):1-3.
[7]丁勇.誤差絕對值的統計特征和應用.數理統計與管理,2016:39-46
[8]陳希孺,王松桂.近代回歸分析.合肥:安徽教育出版社,1987.
(責任編輯:鄧 妍)
△通信作者:丁勇,E-mail:yding@nimu.edu.cn