

[摘? ? ? ? ? ?要]? 相關分析與回歸分析是統計學中重要的概念,在二者的知識體系中涉及很多關聯性問題,如相關分析與回歸分析、相關關系與函數關系、相關系數與估計誤差、線性回歸與曲線回歸、真實相關與虛假相關等。從上述五組關聯性問題的各自概念入手,解剖了它們之間的內在關聯性,即內在聯系與區別,從數學本質上認識了它們之間的對立統一性,對深刻理解相關與回歸分析提供幫助。同時,站在課程思政角度,指出關聯性分析所蘊含的思政價值。
[關? ? 鍵? ?詞]? 統計;相關;回歸;關聯
[中圖分類號]? C81? ? ? ? ? ? ? ? ? ? ? [文獻標志碼]? A? ? ? ? ? ? ? ? ? [文章編號]? 2096-0603(2022)21-0097-03
相關與回歸分析提供了研究相關關系的方法,在相關與回歸分析知識體系中,存在很多值得研究的關聯性問題,這些關聯性問題中也不乏思政話題。
一、相關分析與回歸分析
(一)相關分析與回歸分析的概念
相關關系的分析方法主要有兩種:相關分析和回歸分析。
相關分析,是對現象之間數量關系的分析研究,目的在于探討變量之間相互關系的密切程度及其變化規律,以便作出準確的判斷,對其進行必要的預測和控制。
相關分析的基本步驟:(1)繪制散點圖。觀察變量間是否呈規律變化。(2)選擇系數類別。根據變量類型或數據的正態性檢驗,選擇合適的相關系數公式。(3)檢驗異常值。對于出現的異常值,要充分考慮它存在的合理性,如果經分析,異常值不適合存在,檢測前應把異常值清除,以便保證數據的穩定性。(4)計算相關系數。計算相關系數r,評估相關程度。(5)顯著性檢驗。由于r一般是從樣本數據得來的,不保證可靠,會存在隨機性的抽樣誤差,因此對相關系數r需進行顯著性檢驗。(6)得出相關結論。根據以上分析,得出變量之間的相關程度的結論。
回歸分析就是依據相關分析得出的結論,確定回歸模型(即數學方程)描繪變量間的相關關系,以便進行估計或預測的統計方法。
回歸分析的基本步驟:(1)確定變量。首先根據對問題的分析判斷,將變量分為自變量和因變量。(2)建立回歸模型。依據自變量和因變量的統計資料,建立數學方程式,即回歸模型,描述變量間的關系。(3)對回歸模型統計檢驗。由于涉及的變量具有不確定性,還要對回歸模型進行檢驗。回歸模型只有通過各種檢驗,且預測誤差較小,才能用回歸模型進行預測。(4)確定預測值。對獲得檢驗通過的回歸模型,用自變量的取值來估計或預測因變量取值。
相關分析與回歸分析的區別:相關分析側重研究變量間的相關性;回歸分析側重于研究變量間的回歸模型,以便運用模型進行預測。
(二)相關分析與回歸分析的關聯性
一般來說,相關分析與回歸分析是相關關系分析中整個完整過程的兩個階段,相關分析是回歸分析的前提和基礎,回歸分析則是相關分析的深入和繼續,只有當變量之間存在高度相關時,進行回歸分析才有意義。
相關分析中,各變量均是隨機變量,變量間處于平等地位,他們之間的關系類似于方程關系。而回歸分析中,明確了自變量和因變量,自變量可以是確定性變量,因變量處于被解釋的地位,它們之間的關系類似于函數關系。
教科書中習慣把相關分析與回歸分析分開論述,但實際上二者互相補充構成了相關關系研究的一個整體。因此只有把二者結合起來,往往才能達到研究的目的。
通過相關分析與回歸分析的關聯性學習,可培育學生科學把握事物之間聯系的思維,同時堅持一分為二看問題的思維習慣。
二、相關關系與函數關系
(一)相關關系與函數關系的概念
客觀現象之間的關系可分為兩類:一是函數關系,二是相關關系。
函數關系是指現象之間是一種確定性的數量依存關系,表現為某一變量發生變化另一變量有確定的數值與之對應。如,正方形的面積與邊長之間就是函數關系。
相關關系是客觀現象存在的一種非確定的相互依存關系,表現為某一變量發生變化另一變量也發生變化,但變化的數值是不確定的。如價格與銷售量、廣告費投入與廣告收益等都屬于相關關系。相關關系可分為一元相關(單相關)和多元相關(復相關)、線性相關和非線性相關、正相關和負相關。相關關系覆蓋了我們生活的全部,它符合世界是普遍聯系的觀點。
(二)相關關系與函數關系的關聯性
相關關系與函數關系具有數學意義下的內在的關聯性。看下面的多元函數:
y=f(x1,x2,…,xn),(x1,x2,…,xn)∈D? ? (1)
上面的多元函數(n≥2)中,如果某些自變量缺失,那么其余變量與y之間便構成相關關系。(1)式中,不妨設剩余變量為x1,x2,…,xr(r<n)相關關系用f來表示,那么此時相關關系可以表示為y=f(x1,x2,…,xr),當r=1時為一元相關,當r≥2時為多元相關。類似地,可以定義多個因變量與自變量之間的相關關系。
從數學意義上說,相關關系與函數關系是一個問題的兩個方面。由于我們缺乏對世界的真正認識以及研究工具的不足,客觀世界的很多現象之間很難確定出準確的函數關系。因而函數關系往往僅是一種理想狀態,而研究變量之間的相關關系成為一種可能。隨著相關關系研究的深入,相關關系的極限目標就是函數關系。
相關關系與函數關系的關聯性分析,其思政價值是能讓學生進一步理解世界是普遍聯系的觀點,以及普遍性與特殊性、理想與現實等的辯證關系。
三、相關系數與估計誤差
(一)相關系數與估計誤差的概念
相關系數是用量化的方式描繪線性相關條件下變量之間相關關系密切程度的指標。相關系數有很多種,不同的數據特征和分析需求會選擇不同的相關系數。這里所指的相關系數是應用最廣泛的皮爾遜相關系數。
相關系數公式與方差,兩者均來自協方差。協方差用于衡量兩個變量的總體誤差,協方差的計算公式為:
式中:σx為變量x的標準差;σy為變量y的標準差。
估計誤差,本文特指估計標準誤差。估計標準誤差,它是說明實際值與其估計值之間相對偏離程度的指標,主要用來衡量回歸方程的代表性。
估計標準誤差可從另一角度顯示回歸模型擬合的優劣狀況。估計標準誤差越小,表明模型擬合越好。反之,正好相反。
(二)相關系數與估計誤差的關聯性
相關系數和估計標準誤差從公式設計的結構及推理上,均體現了二者之間的關聯性。當n充分大時,相關系數與估計標準誤差在數值上存在推理關系。即
從以上推算公式可知,相關系數越大,對應估計標準誤差的值越小,回歸直線的代表性越好。反之,正好相反。
相關系數與估計誤差的關聯性,一方面使學生認識到回歸分析涉及誤差問題的重要性,另一方面其思政價值在于培育學生對數學本質的洞察力和科學探索精神。
四、線性回歸與曲線回歸
(一)線性回歸與曲線回歸的概念
線性回歸是當兩變量的增量按一定比例變化,或者說兩個變量增長率為常數時,就認為兩個變量符合線性關系,可建立線性回歸方程。
曲線回歸是兩變量的增量不按一定比例變化,即兩變量屬于非線性關系的變量,這時的回歸就是曲線回歸。曲線回歸是為了彌補普通線性回歸不擅長處理非線性問題而設計的,它給自變量加上一些適合當前問題的非線性特征(比如指數等),讓模型可以更好地擬合當前非線性問題。
統計學具有過程導向性,需要每一步都要滿足相應的數學邏輯。不管哪種回歸,分析的時候需要關注假設條件是否滿足、模型擬合是否達標、參數是否顯著、自變量之間是否存在多重共線性等問題。
(二)線性回歸與曲線回歸的關聯性
在線性回歸中,數據使用線性預測函數來建模,并且未知的模型參數也是通過數據來估計,這些模型被稱為線性模型。對于一些可線性化的曲線類型,可通過變換等方法轉化為線性模型,利用線性回歸的方法求出相應的回歸方程。
例如,經過散點圖觀察,一組數據的兩個變量符合指數類函數曲線:y=aebx(a,b∈R,a>0)
對方程兩邊取對數,得lny=lna+bx令y′=lny?圯y′=lna+bx.即化為了一元線性方程的形式,然后利用公式計算出lna與b的值,再把最后a和b的值代入所設方程。
可見,上述幾種類型的曲線,都可通過變換將曲線回歸轉化為線性回歸來解決。
線性回歸與曲線回歸的關聯性,體現復雜問題簡單化,用簡單定義復雜。其思政價值在于教學中深入解讀這一科學方法,培育學生的科學思維。
五、真實相關與虛假相關
(一)真實相關與虛假相關的概念
回歸分析的目的是為了找到自變量和因變量之間的相關性,這種相關變量之間如果確實存在一定的“因果關系”,并具有研究意義,這樣的相關就是真實相關。
虛假相關,也稱偽相關,它指的是自變量和因變量之間本來沒有任何現實的邏輯關系,但由于某種原因,相關分析卻顯示出它們之間存在統計意義上的相關性,讓人錯誤地認為兩者之間有關聯,這種相關就是虛假相關。虛假相關,在生活中隨處可見。
例:冰淇淋銷量和溺水兒童數。某個夏天,人們發現鎮上的冰淇淋銷量和溺水兒童數量同步上升,進而拿冰淇淋銷量對溺水兒童數量進行相關分析,得到的結論是二者相關。但其真實的原因是夏天高溫的天氣,同時引起兩者數量的增長。
虛假相關的成因一般有兩個:一個是存在第三變量(干擾因素)同時對這兩個事件造成影響。例子1中夏天炎熱的高溫是引起虛假相關的第三變量。虛假相關的另一個成因是純屬巧合,如例子2,不受第三方干預的兩個獨立個體產生相關巧合。
(二)真實相關與虛假相關的關聯性
真實相關與虛假相關在數據上都滿足相關的條件,而虛假相關雖有數據支撐,但缺乏數據之外的邏輯支撐。
當變量A和B相關時,有以下三種可能:(1)A導致B,或B導致A。A和B真實相關,二者有邏輯關系;(2)C導致A,C導致B,共同干擾因素C引起A和B虛假相關,A與B沒有邏輯關系;(3)D導致A,E導致B,兩個獨立因素D和E引起A與B的虛假相關,A與B沒有邏輯關系。
虛假相關需要通過某種手段檢測分辨。如設計檢測“X→Y”的相關關系,則下列三個條件都成立,才可得出X與Y相關:(1)X發生在Y之前;(2)若X不發生則Y也不發生;(3)若X發生則Y一定發生。如“汽車行駛的速度與剎車距離”滿足上面三個條件,二者相關。“冷飲的銷量與泳池溺水的人數”不滿足上面三個條件,無法確認二者相關。
虛假相關是有危害的,但也不能一概而論,如果相關因為第三變量(成因一)引起,那么這種相關可能是有用的。原因很簡單,很多情況我們無法追根溯源,無法依靠純粹的“因果推斷”,這時通過間接手段獲取信息就是有價值的。還拿冰淇淋例子來說,假設我們無法得到任何季節或氣溫等信息,那么僅靠冰淇淋的銷售數同樣可以推斷溺亡人數的趨勢。
實際中,因相關與回歸分析關乎數據的來源與數量的多少、模型的選擇,以及計算的精準度等因素,都可能產生虛假相關,因此需采取綜合方法研究。
在數據泛濫的當今時代,真實相關與虛假相關的問題提示我們:要相信數據但不能迷信數據,特別是一些缺乏論證的數據,對其可靠性我們要善于提出質疑。課堂上,圍繞這一點要啟發學生善于明辨是非,樹立嚴謹、求實的科學態度。
六、結語
統計學相關與回歸分析知識體系中,關聯性問題很多,他們具有數學本質的一致性。關聯性問題的研究有助于發現事物之間的內在聯系,把復雜問題簡單化。同時,關聯性分析,又可以為我們課程思政找到更多資源。
參考文獻:
[1]宋立新.概率論與數理統計[M].北京:人民教育出版社,2003.
[2]王孝玲.教育統計學[M].上海:華東師范大學出版社,2001.
[3]劉宏偉.統計學原理[M].北京:中國傳媒大學出版社,2008.
[4]趙海榮.統計學基礎[M].北京:教育科學出版社,2018.
[5]劉澤.統計學基礎[M].北京:人民郵電出版社,2017.
◎編輯 馬花萍
作者簡介:宋斌(1968—),男,漢族,黑龍江五常人,教育碩士,副教授,研究方向:經濟數學、統計學和橋牌。