摘要:聯系是自然現象、社會現象普遍具備的特點。通過各種形態的聯系,事物間構成了一個相互影響、相互制約的整體系統。人們在各類實踐活動中,總結和積累了大量的有著明顯類別之分的專業知識。其中大量的知識是關于事物、現象間聯系問題的探討、研究、總結。從某個角度講,關于事物、現象之間聯系的方式、特點、規律的信息構成人類的全部知識。
關鍵詞:聯系 相關分析
統計中根據聯系在數學上的特點的不同,將聯系區分為兩大類:函數關系、相關關系。函數關系指如果事物間的聯系可以用明確的函數表達式進行描述,那么這種關系稱為函數關系。相關關系與函數關系相對應,指如果事物間存在關聯,但關聯并不能描述為明確的函數表達式,那么這種關聯稱為相關關系。函數關系簡潔、直觀,如確定了自變量數值大小,就能唯一確定因變量數值大小,為我們掌握事物變化規律提供了一條捷徑。然而,這種理想色彩濃厚的聯系形式在揭示客觀事物變化,尤其是揭示社會、經濟現象變化時,顯得過于呆板,常常漏洞百出。與函數關系相比相關關系對關聯特征的描述更具靈活性。由于事物間的聯系以相關關系的形態為表現具有普遍性,并且也是確定事物間函數關系的前提,所以相關關系的研究具有重要意義,引入相關關系來完善聯系的類別結構也顯得十分必要。
相關關系根據相關的程度可以分為完全相關、不完全相關、不相關;根據相關的方向可以劃分為正相關和負相關;根據涉及變量的多少可以分為單相關、復相關、偏相關;根據計量結果是否與實際吻合可分為真實相關和虛假相關;根據的曲線特征的不同,相關關系又可以區分為線性相關和非線性相關兩種類型。
線性相關
如果現象之間的關系大致呈現為線性的特征,稱之為線性相關。其線性相關的程度可由指標相關系數(r)進行測度。
相關系數的測度公式:
x:表示某一指標 y:表示相關聯的另一指標
這一公式包括分子和分母兩個部分,我們對兩部分分別進行探討。
1 分子部分
cov(x,y)是兩個變量之間的協方差。它是積差平均數,其功能可以總結如下:
1.1 顯示相關關系的方向 若變量x,y的數據如下表:
根據數據繪制散點圖之后,我們以點(x=35,y=188.3)為中心將坐標系劃分為四個區域?,F在我們來探討坐標點所處區域的不同會對協方差的計算產生哪些影響。
從圖表(一)可以清楚看到,當由變量x,Y的一組取值所確定的坐標點落入第一區時,X大于x,Y大于y,可推知(x-x)>0 (y-y)>0所以有(x-x)(y-y)>0成立。然而第一區可能會出現在坐標系中四個象限中的任意一個,圖表(一)只是顯示了四個分區同時落入第一象限的情況,所以上述結論還須按坐標點可能落入的四個象限分別驗證。
若第一區處于第一象限時,x取正值且x大于x,同時y亦取正值且y大于y,所以(x-x)>0 (y-y)>0,有(x-x)(y-y)>0成立;若第一區處于第二象限,x取負值且x大于x,一個負數減去另一個更小的負數其值為正,所以(x-x)>0依然成立,同時y取正值且y大于y,所以(y-y)>0,有(x-x)(y-y)>0成立;若第一區處于第三象限,x取負值且x大于x,同時y取負值且y大于y,所以(x-x)>0 (y-y)>0,有(x-x)(y-y)>0成立;若第一區處于第四象限,x取正值且x大于x,同時y取負值且y大于y,所以(x-x)>0 (y-y)>0,有(x-x)(y-y)>0成立。也就是說只要坐標點位于第一區,無論第一區處于四個象限中的哪一個(x-x)(y-y)>0始終成立。
根據同樣的推斷方式,我們可以確定坐標點任意落入第m區、第n象限(x-x)(y-y)取值的正負情況(m=1,2,3,4;n=1,2,3,4)。
坐標點落入第m區、第n象限(x-x)(y-y)正負情況列表
變量x與變量y之間的相關方向只會有兩種形態:正相關(相關曲線表現為增函數形態)、負相關(相關曲線表現為減函數形態)。如果變量間為正相關,那么由兩個變量所確定的坐標點雖然在四個分區中都有可能分布,但更多的坐標點會集中落在第一區與第三區,而落入第二區與第四區的坐標點是少量的。根據圖表(二)可知無論第一區、第三區處于哪一象限(x-x)(y-y)都取正值,而無論第二區、第四區處于哪一象限(x-x)(y-y)都取負值,這樣落入第一、第三區為數眾多的坐標點的∑(x-x)(y-y)的絕對值必然地會大于落入第二、第四區為數不多的坐標點的∑(x-x)(y-y)的絕對值,最終所用坐標點的∑(x-x)(y-y)取正值;同理,如果變量間為負相關,那么由兩個變量所確定的坐標點會集中落在第二區與第四區,而落入第一區與第三區的坐標點是少量的,根據圖表(二)可知無論第二區、第四區處于哪一象限(x-x)(y-y)都取負值,這樣所用坐標點的∑(x-x)(y-y)亦取負值。根據上述分析,我們可以做出結論:若兩變量間存在線性相關,如果∑(x-x)(y-y)>0,則兩變量為正相關;如果∑(x-x)(y-y)<0,則兩變量為負相關?!?x-x)(y-y)取值的正負表現決定相關的方向。
1.2 標識相關關系的程度大小
∑(x-x)(y-y)的正負表現可以判斷相關的方向,∑(x-x)(y-y)的絕對值大小也有重要的標識功能。
如果變量x、y之間完全不相關,由x、y定位的坐標點將隨機的分布于由x、y確定的中心點四周,會在四個分區中隨機分布。由圖表(二)可知,分布在一、三分區的坐標點其(x-x)(y-y)為正值;分布在二、四分區的坐標點其(x-x)(y-y)為負值。坐標點在四個分區越是呈現出無序的隨機特征,∑(x-x)(y-y)的取值因為正負相抵將趨近于零。
如果變量x、y之間漸漸表現為正相關,坐標點將由無序狀態逐漸向一、三分區收攏,也就是說分布在二、四分區的坐標點逐漸漸少,而分布在一、二分區的坐標點逐漸增多,這種趨勢繼續發展下去,所有的坐標點匯集于同一條上升直線上,變量x、y之間表現為完全正相關的形態。由于我們分布在二、四分區的坐標點逐漸漸少,而分布在一、二分區的坐標點逐漸增多,可以清楚的看到∑(x-x)(y-y)的絕對值在這一過程里逐漸增大。
同樣,如果變量x、y之間漸漸表現為負相關,坐標點將由無序狀態逐漸向二、四分區收攏,也就是說分布在一、二分區的坐標點逐漸漸少,而分布在二、四分區的坐標點逐漸增多,這種趨勢繼續發展下去,所有的坐標點匯集于同一條下傾直線上,變量x、y之間表現為完全負相關的形態。由于我們分布在二、四分區的坐標點逐漸漸少,而分布在一、二分區的坐標點逐漸增多,可以清楚的看到∑(x-x)(y-y)的絕對值在這一過程里逐漸增大。
依據以上推論,我們可以以下結論:變量x、y之間的相關程度可以由∑(x-x)(y-y)的絕對值大小來進行標識?!?x-x)(y-y)越趨近于零,則變量x、y之間的相關程度越低;∑(x-x)(y-y)的絕對值越大,則變量x、y之間的相關程度越高。
2 分母部分
相關系數計算公式的分子部分∑(x-x)(y-y)其實已經可以獨立地用來測度相關關系的方向與程度。∑(x-x)(y-y)取值的正負表現決定相關的方向,∑(x-x)(y-y)的絕對值值大小決定相關的程度。但∑(x-x)(y-y)的功能卻絕非達到了完美的地步,∑(x-x)(y-y)的絕對值大小雖可以標示相關的程度,但標示的功能卻很粗糙,它即不能對完全線性相關起清晰的標示作用(也就是說無法通過∑(x-x)(y-y)的取值情況來判斷是否存在完全線性相關),也不能明確標示相關的程度(也就是說通過∑(x-x)(y-y)的絕對值只能得到絕對值大的相關程度會高一些,絕對值小的相關程度會小一些的結論,但無法通過絕對值明確地判斷相關的水平)。
為了完善∑(x-x)(y-y)的功能,我們引入相關系數計算公式的分母部分σxσy。σxσy是變量標準差的乘積,在相關系數的計算公式中引入σxσy可以彌補單獨使用∑(x-x)(y-y)(協方差)造成的疏漏,顯著提高相關系數測度相關程度的功能。其作用可以概括為以下幾點:
2.1 標示完全線性相關
相關系數計算公式其分子與分母在兩種情況下可以相等。
2.1.1 被測度相關程度的兩個變量是:變量與該變量本身??梢岳斫鉃槭菧y度兩變量
x、y過程中有函數式y=x成立的情況。
因為有y=x成立
所以 分子:
分母:
分子、分母相等,相關系數等于1。
2.1.2 被測度相關程度的兩個變量是:變量與該變量的線性函數??梢岳斫鉃樵跍y度兩變量x、y過程中有函數式y=a+bx成立的情況。
因為有y=a+bx成立
同時y=a+bx
所以 分子:
分母:
因為有│b│存在,所以結論分兩種情況來下:
如果b>0,由于變量x、y滿足y=a+bx,且y=a+bx為增函數,變量x、y完全正相關。此時相關系數 。
如果b<0,由于變量x、y滿足y=a+bx,且y=a+bx為減函數,變量x、y完全負相關。此時相關系數。
正是由于引入σxσy使得相關系數r在完全正相關的情況下等于1,而在完全負相關的情況下等于-1,通過相關系數的取值我們可以明確判斷變量間的相關類型。
2.2 界定相關系數的取值區間
引入σxσy后相關系數不僅可以清晰標示完全線性相關,而且取值區間也被界定。
我們做以下推導。
兩邊同乘2
所以2r+2≥0 r≥-1
上述過程中,若兩邊同乘-2 可得r≤1
最終可得-1≤r≤1
通過以上推導,證明相關系數取值的分布區間為[-1,1]。并且對于公式,-1≤r≤1成立即意味著∑(x-x)(y-y)的絕對值不大于 。本文前部我們已經論證在兩個變量的線性相關程度越高∑(x-x)(y-y)的絕對值也越大,隨著相關程度的增加∑(x-x)(y-y)的絕對值最終在完全相關的情況下等于,在變量相關程度逐步提高的過程中相關系數r的取值是逐漸增大的。翻過來講,我們可以根據相關系數r的取值大小來判斷變量間的相關程度。
2.3 將有量綱的量轉化為無量綱的量
變量間的協方差是一個有量綱的量,而除以σxσy后所構成的相關系數卻是一個無量綱的量。因為,
x-x與σx相比消除了x的量綱,y-y與σy相比消除了y的量綱,所以最后得到的相關系數是一個沒有量綱的量。
由于相關系數沒有量綱,所以在比較相關程度高低時有著比協方差更大的適用性。不但可以用于同量綱的比較情況,也可以用于不同量綱的比較情況。
3 結語
由于經濟現象之間相關關系總具有普遍性,而函數關系卻是各別的,并且對函數關系的認知總是從相關關系開始,經過研究分析最終確立具體的函數形式,所以相關關系有著更重要的意義和實際的應用價值。隨著相關關系的研究不斷加強、深入,相關分析的理論會更成熟,方法會更完善,成為研究社會問題、探討經濟現象的有效的、得力的、必備工具。
參考文獻:
[1]何曉群,現代統計方法與運用[M].中國人民大學出版社.
[2]柯惠新,調查研究中的統計分析方法[M].中國經濟大學出版社.