摘 要:通過對回歸分析進行嚴格的數學與哲學審視,論證回歸分析中的三個代表重要思想,即用函數關系代表隨機相依關系,用連續性代表離散性,用樣本代表總體。
關鍵詞:回歸分析;三個代表;函數關系
中圖分類號:F0 文獻標志碼:A 文章編號:1673-291X(2014)30-0272-03
眾所周知,回歸分析是現場統計分析和計量經濟分析中的核心理論與技術,其重要性不言而喻。本文通過對回歸分析進行數學與哲學的審視,我們發現,回歸分析中體現了三個代表重要思想:一是用函數關系代表隨機相依關系,二是用連續性代替離散性,三是樣本代表總體。
一、回歸分析是用函數關系代表隨機相依關系
回歸分析的本質是用函數關系代表隨機相依關系,但是其更深層的本質卻是用概率隨機性代替函數精確性。這種相互代表,相互提升,只有在馬克思主義唯物辯證法和三個代表重要思想的指導下才可能得到深刻理解。
1.用函數關系代表隨機相依關系
在自然界與社會經濟中的變量之間存在著兩種典型的相依關系,一是函數相依關系,二是隨機相依關系。
函數相依關系是一種確定性的相依關系,一個變量的取值確定之后,可以確定另一個變量的取值。比如在經典的牛頓力學中,宏觀物體的位移是時間的函數,于是只要知道初始時刻的位移、速度以及物體的受力狀況,就可以確切地推算出位移函數,從而任何一個時刻的位移和速度都能夠計算出來。
在自然界與社會經濟中,有些變量之間有一種相依關系,但是這種相依關系又不如函數相依關系那么準確。比如人類的身高和體重有某種正相關關系,即是說,一般情況下,身高越高,則體重也越重。但是這種關系并非精確的函數關系,即是說并非一個身高就精確地對應有一個體重。而是可能同一個身高對應于多個體重,或者多個身高對應于同一個體重。當然,可以把這種對應關系稱之為多值函數或集值函數。但是這種多值函數或集值函數很難寫出一個精確的解析表達式,本質上,難以通過身高(自變量)來精確預測體重(因變量)。這種關系在統計學上稱為隨機相依關系。
通常,人們總是有一種試圖用簡單代替或者代表復雜的傾向,用簡單的模型來表達復雜的問題。回歸分析,就是試圖用一種函數關系來代表或代替隨機相依關系,從而在總體上和概率統計上把握總體變量之間的隨機相依關系,簡化人們對于隨機相依關系的認識。回歸分析中,最簡單的是線性回歸,即用線性函數關系來代表線性的隨機相依關系。
但是我們下面將會看到,回歸分析是用函數關系代表隨機相依關系只是表面現象,更深層的代表方向卻相反,是用隨機相依關系代表精確的函數關系。
2.測量的近似性使得變量間的函數關系不可能
我們知道,一切實際的測量都只能是近似的、不精確的。按照馬克思主義哲學理論,世界上沒有完全相同的兩片樹葉,任何事情都有自己的特殊性。以某一時刻地球上所有人的身高與體重為例,① 世界上沒有兩個人的身高絕對相同,也沒有兩個人的體重絕對相同。或者說,所謂兩個人身高或體重相同,也只是從某一個測量精確度上來講的相同,但這種測量精度上的相同,并不能作為兩個人身高絕對相同的證明。
從上面的討論可以知道,從嚴格的角度考慮,不存在兩個人有相同的身高,也不存在兩個人有相同的體重,因而每個身高精確地只對應于一個體重。因此,身高與體重之間并不存在所謂的隨機關系,而是精確的函數關系。在以身高為自變量、體重為因變量的坐標系中,地球上每個人的身高與體重的數據都對應為一個點,而且這些點不會在同一條平行于坐標軸的直線上。即從身高集到體重集的映射中,同一個身高不可能對應于多個體重,因此這種實數子集之間的一對一映射,按照現代函數的定義,體重確實是身高的一個精確函數。
但由于在實踐中對于身高和體重的測量不可能絕對精確,因而才不得不容忍相同身高對應于多個體重或者相同體重對應于多個身高的情況,并采用概率隨機性的測度辦法來研究微觀上的測不準性。比如說,設現實中存在著某一個人的身高為米,但是人類測量身高或者說長度的儀器,不可能讀出這樣精確的數據,因此只能用比如說1.73202574369米來代替。假設還存在一個人的身高為+0.000000000000000000000032米,但是在測量儀器上,難以分辨這兩個人的身高,因此可能把他們的身高都測定為1.732米。這樣在身高與體重的坐標系上,就存在著同一自變量對應多個因變量,或者同一個因變量對應于多個自變量的情況。于是,在身高與體重的坐標系中,地球人所對應的身高與體重數據就成為通常教材上所描繪的隨機散點圖,人們用隨機相依關系來代替對精確函數關系的研究。
3.函數關系與隨機相依關系的相互轉化替代
從上面分析可知,在對身高和體重的關系分析中,人們首先由于微觀上的測不準性而用隨機相依關系來近似描述精確的函數關系,然后人們又為了簡化認識而用函數關系來近似描述隨機相依關系。因此,在回歸分析中,實際上存在著兩層代表關系(如圖1所示)。隨機相依關系與函數關系相互轉化的辯證法,與20世紀以來量子力學領域所揭示出的海森堡測不準原理非常類似。
二、回歸分析是用連續性代表離散性
接著上面的分析,讀者很容易發現,在回歸分析中,地球人的體重與身高之間的離散的精確函數通過測不準轉化為隨機相依關系,再從隨機相依關系轉化為連續函數關系,其實質是用連續函數來直接代表隨機相依關系,并進而間接代表離散函數關系。
在身高與體重坐標系里面,地球人全體的身高與體重之間構成離散的函數關系,其圖形是一個精確的散點圖,每個點與每個地球人相對應。自變量身高與因變量體重都是可數點集,其測度為零。隨機散點圖,也仍然是離散點,而不是連續統。從某種意義上可以說,從精確散點圖到隨機散點圖的轉化,是由于測不準而導致的集合不交分割,即把精確散點圖中無法在測量上進行區分的多個散點作為隨機散點圖的一個散點,這實際上是定義了精確散點集中的一個等價關系,因此隨機離散點集是精確離散點集的一個商集。因而如果取離散度量和離散拓撲,從精確散點圖到隨機散點圖的映射就是一個典型的商映射,隨機散點集上的拓撲是精確散點集拓撲的一個商拓撲。
在回歸分析中,我們進一步用連續函數來代替這種隨機離散點,以達到簡化認識的目的。連續性之所以能夠簡化對眾多離散關系的認識,是因為連續性中蘊含了鄰近點之間的一種相依性,這種鄰近點之間的相依性使得連續函數具有一種整體性。用這種整體性來處理眾多的離散點,就使得描述和運用十分方便。我們不僅使用連續函數,而且更多地使用可導函數,從而能夠使用微分工具來研究離散關系。
回歸問題與插值問題是不同的。插值問題是把定義在離散點集上的函數擴張成為一個定義在連續統上的函數。從精確離散圖到隨機離散圖再到連續函數,并不是把離散點集的函數擴張為一個連續統上的函數,因為回歸方程或回歸函數并不能滿足每一個散點的坐標。通常情況下,我們可以用嚴格的數學證明,全體地球人身高與體重的精確離散點表示的離散函數難以擴張為實數正半軸上的連續函數。因此,回歸分析中的連續函數代替離散點仍然帶有近似的含義。
三、回歸分析中通常用樣本代表總體
我們前面的討論都是基于總體的討論,并不涉及到樣本代表總體的問題。在統計實踐中,由于存在著調查費用,通常總體難以全部調查。因此,通過抽取樣本并用樣本來代表整體就成為統計學家的選擇。
在回歸分析中,用樣本代表總體有兩個方面。一是用樣本離散數據代表總體離散數據,二是用樣本回歸函數代表總體回歸函數。其關系(如下圖所示):
四、結論
把上述三個方面的討論結合起來,我們就得到了回歸分析的轉換路徑(見圖3)。
把握回歸分析中體現的三個代表重要思想,能夠使我們更為深刻地理解回歸分析的原理,并有助于運用。