徐靜安 徐淑惠
技術(shù)講壇
第四講回歸分析中的變量篩選技術(shù)及統(tǒng)計(jì)檢驗(yàn)
徐靜安徐淑惠
回歸分析中的變量篩選技術(shù)是回歸分析技術(shù)得到廣泛應(yīng)用的一個(gè)突破,它將方差分析中的F檢驗(yàn)和回歸分析技術(shù)進(jìn)行集成,形成一個(gè)新的算法,為工程應(yīng)用開拓了廣泛的前景。
在筆者藏書中,涉及回歸分析中變量篩選技術(shù)的專著有:《概率統(tǒng)計(jì)計(jì)算》(中國(guó)科學(xué)院計(jì)算中心概率統(tǒng)計(jì)組編著,科學(xué)出版社,1979);《回歸分析及其試驗(yàn)設(shè)計(jì)》(上海師范大學(xué)數(shù)學(xué)系概率統(tǒng)計(jì)教研組編,上海教育出版社,1978);《回歸分析方法》(中國(guó)科學(xué)院數(shù)學(xué)研究所數(shù)理統(tǒng)計(jì)組編,科學(xué)出版社,1974);《試驗(yàn)優(yōu)化技術(shù)》(任露泉主編,機(jī)械工業(yè)出版社,1987);《應(yīng)用回歸分析》(盛承懋、李慧芬、錢君燕編譯,上海科學(xué)技術(shù)文獻(xiàn)出版社,1989);《技術(shù)數(shù)理統(tǒng)計(jì)方法》(曾秋成編著,安徽科學(xué)技術(shù)出版社,1982);《均勻設(shè)計(jì)與均勻設(shè)計(jì)表》(方開泰著,科學(xué)出版社,1994);《正交與均勻試驗(yàn)設(shè)計(jì)》(方開泰、馬長(zhǎng)興著,科學(xué)出版社,2001);《生物統(tǒng)計(jì)學(xué)》(李春喜、姜麗娜、邵云、王文林編著,科學(xué)出版社,2005)。
上述專著討論變量篩選技術(shù)均采用逐步回歸法,從逐步回歸的基本思想、數(shù)學(xué)模型、線性代數(shù)、計(jì)算框架、源程序等不同角度加以描述,各有側(cè)重。對(duì)于非應(yīng)用數(shù)學(xué)專業(yè)的工程技術(shù)人員,其遇到的困難可能在線性代數(shù)方面。20世紀(jì)70年代末筆者自學(xué),初次接觸矩陣轉(zhuǎn)置、求逆……時(shí),也是“一頭霧水”。為了知道一點(diǎn)“所以然”,自行編寫程序,進(jìn)行工程應(yīng)用,花了不少時(shí)間、精力學(xué)習(xí)線性代數(shù)。
新世紀(jì),隨著數(shù)據(jù)處理軟件的推廣應(yīng)用,逐步回歸法篩選變量技術(shù)得到進(jìn)一步的普及應(yīng)用,現(xiàn)已不需要自行編寫計(jì)算程序,所以從應(yīng)用角度推薦水泥凝固放熱的案例,資料摘錄自《六西格瑪管理統(tǒng)計(jì)指南——MINITAB使用指導(dǎo)》(馬逢時(shí)、周暐、劉傳冰編著,中國(guó)人民大學(xué)出版社,2007)。
該案例是著名統(tǒng)計(jì)學(xué)家Hald于1952年給出的,被多本專著引用,采用不同的軟件計(jì)算,結(jié)果相同。該案例把逐步回歸的基本思想、自變量的篩選過(guò)程、回歸模型的評(píng)價(jià)等描述得比較清晰,所以本文僅作簡(jiǎn)單解讀。

計(jì)算響應(yīng)值y的發(fā)熱量。
13組不同成分組合水泥凝固時(shí)的發(fā)熱量數(shù)據(jù)見表1。首先要對(duì)自變量有專業(yè)的認(rèn)識(shí),自變量之間可能存在相關(guān)性。

表1 不同成分組合水泥凝固時(shí)散熱量數(shù)據(jù)記錄
方法一:采用一般的多元回歸分析方法
線性全回歸方程為:
散熱量=62.4+1.55x1+0.510x2+0.102x3-0.144x4回歸系數(shù)顯著性檢驗(yàn):

回歸總效果度量:

回歸方程顯著性檢驗(yàn):

從對(duì)回歸方程的顯著性檢驗(yàn)結(jié)果來(lái)看,P值=0<α=0.05,說(shuō)明回歸方程總效果是顯著的。但從回歸系數(shù)檢驗(yàn)輸出來(lái)看,自變量x1,x2,x3,x4的P值都大于α=0.05,都不顯著,這就牽涉到如何分析各回歸變量系數(shù)檢驗(yàn)結(jié)果的問題。在各回歸變量的系數(shù)檢驗(yàn)中,P>0.05為不顯著,相對(duì)應(yīng)變量x應(yīng)予刪除,而不進(jìn)入統(tǒng)計(jì)模型。本例先刪除x3,又刪除x4,修整后回歸方程為:
散熱量=52.6+1.47x1+0.662x2

方法二:采用逐步回歸法
逐步回歸分析方法的基本思想就是讓計(jì)算機(jī)參與多元回歸分析中的自變量篩選工作。篩選的方法有三種:
(1)“向前選擇法”。思路是:逐個(gè)引入自變量,先選入對(duì)y影響最大(P值最小)者,再?gòu)钠溆嘧宰兞恐袑ふ矣绊懘巫畲螅≒值次最小)者,直到無(wú)任何變量P值小于指定的“選入α值”可以被引入為止。在向前選擇方法中,自變量一旦被加進(jìn)回歸模型就不再被刪除。
(2)“向后消除法”。思路是:一開始引入全部自變量,對(duì)于P值大于指定的“刪除α值”者,進(jìn)行逐個(gè)刪除,直至不能再刪除為止(該方法就如同方法一的修整)。
(3)“逐步法(向前和向后)”。思路是:自變量逐個(gè)引入,邊引入邊檢查已引入自變量中最大的P值是否已大于指定的“刪除α值”,若大于,則從模型中刪除該項(xiàng),再重復(fù)上述過(guò)程。如果沒有任何自變量可以刪除,則會(huì)嘗試再加入一個(gè)新的自變量,重復(fù)上述過(guò)程,直至不能再引入乜不能再刪除為止。
分析證明,幾種方法的最終結(jié)果可能略有不同,以逐步法為最優(yōu)。該案例是采用MINITAB軟件進(jìn)行計(jì)算。
逐步回歸:散熱量與x1,x2,x3,x4
入選用Alpha:0.15;刪除用Alpha:0.15(計(jì)算機(jī)默認(rèn))
響應(yīng)為4個(gè)自變量上的散熱量,N=13

原案例采用多元線性(一次項(xiàng))回歸方法,對(duì)計(jì)算機(jī)輸出解讀非常重要、非常精彩,值得一讀,本文不重復(fù)。現(xiàn)對(duì)回歸方程顯著性檢驗(yàn)、回歸總效果度量、回歸系數(shù)、顯著性檢驗(yàn)的相關(guān)指標(biāo)進(jìn)行說(shuō)明(數(shù)據(jù)取自方法一線性全回歸模型)。
(1)P值一般和顯著性水平一致,取其值為α=0.05,0.01,P>0.05,不顯著。
(2)回歸方程的方差為:

按回歸方程變量自由度DFA=4,誤差自由度DFE=8,查F分布表,其相應(yīng)臨界值為:,高度顯著。

R(2決定系數(shù))是傳統(tǒng)回歸總效果變量值,其臨界值也可查相關(guān)系數(shù)臨界值表。
回歸方程自變量個(gè)數(shù)m=4,樣本量n=13,

查表得R=0.811,R2=0.652<0.982,回歸方程有顯著意義。

此處P為進(jìn)入模型的變量個(gè)數(shù)(包括常數(shù)項(xiàng))。當(dāng)前,度量回歸模型的擬合效果時(shí),很看重R2(調(diào)整)值,它能反映模型總項(xiàng)數(shù)的影響。

此處,S為回歸方程擬合殘差標(biāo)準(zhǔn)差。
概念上,在同類型回歸模型擬合時(shí),希望S越小越好;數(shù)量上,它是上述討論的各指標(biāo)中唯一沒有臨界值的一個(gè)指標(biāo)。但相對(duì)指標(biāo)還是有的,由于正態(tài)分布的誤差,在(y±2S)范圍內(nèi)包含95%的數(shù)據(jù);同時(shí)變異系數(shù),不同專業(yè)有不同的要求,本案例為CV=2%~4%,可以接受。
(6)該案例回歸總效果變量、回歸方程顯著性檢驗(yàn)均有顯著性意義,但自變量回歸系數(shù)顯著性檢驗(yàn)均不顯著,原因在于自變量之間存在相關(guān)性。相關(guān)分析:x1,x2,x3,x4

結(jié)果說(shuō)明:x1與x3,x2與x4都高度負(fù)相關(guān),原本在4個(gè)變量都包含在方程中時(shí),刪除任何一個(gè)變量對(duì)整個(gè)方程的影響都不大,但刪除x3之后,x1就是顯著的了;同理,刪除x4之后,x2可能就顯著了。
從案例的相關(guān)分析可以看出,X1與X3相關(guān)系數(shù)r=-0.824、P值=0.001<0.05;X2與X4的相關(guān)系數(shù)r=-0.973、P值=0,都是高度顯著負(fù)相關(guān)。相關(guān)分析結(jié)果和化學(xué)組分的專業(yè)認(rèn)識(shí)是一致的。
1從所有可能的變量組合中人工挑選最優(yōu)我們首先估計(jì)工作量,本案例有4個(gè)變量。如果按普適性的二次多項(xiàng)式考慮,可形成項(xiàng),可能形成的回歸方程有214-1=16 383個(gè)組合,事實(shí)上難以操作。案例根據(jù)經(jīng)驗(yàn)只考慮一次項(xiàng)的多項(xiàng)式回歸,可能形成24-1=15個(gè)回歸方程。計(jì)算結(jié)果見資料《回歸分析及其試驗(yàn)設(shè)計(jì)》、見表2。在15個(gè)方程中σ2=S2=MSE最小的為第12個(gè)方程,但b2有一定的影響,b4不顯著,經(jīng)過(guò)綜合檢驗(yàn),確定第5個(gè)方程為“最優(yōu)”。

2逐個(gè)刪除不顯著變量
案例方法一很清晰地演示、解讀了刪除過(guò)程,得到了:

這里需要強(qiáng)調(diào)指出的是,如果按普適性的二次多項(xiàng)式考慮,形成m=14大于實(shí)驗(yàn)樣本量n=13,就無(wú)法進(jìn)行逐個(gè)刪除。案例僅考慮一次項(xiàng)m=4,小于n=13,可逐個(gè)刪除不顯著變量。
由此可以看出,如果自變量較多,再考慮二次多項(xiàng)式,人工逐個(gè)刪除不顯著變量的工作量也是非常大的。

表2 考慮一次項(xiàng)的多項(xiàng)式回歸方程計(jì)算結(jié)果
3采用逐步回歸法
前進(jìn)法是“只進(jìn)不出”,后退法是“只出不進(jìn)”,在自變量相關(guān)性復(fù)雜的情況下,還是“有進(jìn)有出”的逐步法為優(yōu)選。
MINITAB軟件在逐步回歸計(jì)算結(jié)果輸出時(shí),有一個(gè)Mallows Cp值。該值以接近進(jìn)入模型的變量項(xiàng)數(shù)(包括常數(shù)項(xiàng))為好。
案例采用逐步回歸法,Mallows Cp值的變化為138.7→5.5→3.0→2.7,此時(shí)進(jìn)入模型的量有x1,x2及常數(shù)項(xiàng)共3項(xiàng),Cp值最為接近。Cp值可以輔助判斷變量的引入或刪除。
案例采用前進(jìn)法、后退法及逐步法時(shí),選用了不同的引入、刪除變量F檢驗(yàn)的顯著性水平α值,分別為0.25,0.10,0.15,事實(shí)上不同軟件設(shè)置的默認(rèn)值也不相同。但是不影響回歸方程顯著性及回歸系數(shù)顯著性檢驗(yàn)時(shí),公認(rèn)的標(biāo)準(zhǔn)為p=α≤0.05。
對(duì)于離散性較大的工程數(shù)據(jù)、宏觀統(tǒng)計(jì)數(shù)據(jù),也有α=0.10的報(bào)道。
逐步回歸法獲得模型y=52.58+1.47x1+0.662x2,結(jié)果見表3。
為了進(jìn)一步的討論,筆者和在讀研究生徐淑惠同學(xué)采用DPS軟件進(jìn)行計(jì)算、解讀。

表3 DPS逐步回歸法計(jì)算結(jié)果
點(diǎn)擊:多元分析——回歸分析——逐步回歸,計(jì)算輸出結(jié)果和MINITAB等計(jì)算結(jié)果一致。
需要說(shuō)明的是:
(1)DPS系統(tǒng)在逐步回歸計(jì)算時(shí),采用浮動(dòng)Fα臨界值的方法,計(jì)算軟件自動(dòng)調(diào)整Fα值以保證選入一個(gè)自變量因子。然后軟件在α=0.10條件下逐步引入或剔除變量。
如果入選的自變量數(shù)目不多,可以人為干預(yù)降低引入門檻,如在α=0.15等條件下篩選變量,反之亦然。
(2)DPS系統(tǒng)在逐步回歸計(jì)算輸出時(shí),除了①回歸系數(shù)顯著性檢驗(yàn);②回歸總效果變量;③回歸方程顯著性檢驗(yàn);還給出了④擬合誤差(殘差)表。在統(tǒng)計(jì)檢驗(yàn)具有顯著性意義的前提下,由擬合誤差表可以大致分析出是否存在可疑的異常點(diǎn)、特殊地位的杠桿點(diǎn),以免影響模型的穩(wěn)定性。本案例擬合誤差最大的樣本6擬合誤差的絕對(duì)值為4.047 5<2~2.5 S,且CV=s=2%~4%,相對(duì)于本模型觀察數(shù)據(jù)yˉ正常。如果不正常,則需要進(jìn)行進(jìn)一步的分析討論。
(3)DPS系統(tǒng)在逐步回歸計(jì)算輸出時(shí),還輸出了Durbin-Watson統(tǒng)計(jì)量d,這是當(dāng)前回歸分析統(tǒng)計(jì)檢驗(yàn)中殘差診斷的一個(gè)重要統(tǒng)計(jì)量(0<d<4)。如果d接近0,表示殘差存在正相關(guān);d接近4,表示殘差存在負(fù)相關(guān);d接近2,表示殘差相互獨(dú)立。本案例d=1.92,模型正常。如果不正常,就要對(duì)自變量進(jìn)行變換,修正模型,如選用高次方程等。結(jié)果見表4。
討論解讀至此,本文的重點(diǎn)是在多元回歸分析中如何采用一種較優(yōu)的方法——逐步回歸法篩選因子變量,獲得“最優(yōu)”的回歸統(tǒng)計(jì)模型。多項(xiàng)統(tǒng)計(jì)檢驗(yàn)證明,本模型是有顯著性意義的、正常的、合理的。這些討論解讀還只是局限在模型對(duì)實(shí)驗(yàn)觀察值的擬合效果范圍內(nèi)的。我們求取統(tǒng)計(jì)模型(求取理論模型、半經(jīng)驗(yàn)?zāi)P偷南鄳?yīng)系數(shù))的目的一是求得極值,二是將模型用于控制或仿真,這均涉及到模型預(yù)測(cè)結(jié)果的整體估計(jì)。

表4 擬合結(jié)果
擬合不好的模型,預(yù)報(bào)效果一定不好;擬合好的模型,預(yù)測(cè)效果可能好,也可能不好。對(duì)于模型預(yù)測(cè)結(jié)果的整體估計(jì)Press及驗(yàn)證實(shí)驗(yàn),另有案例討論。此外,本案例統(tǒng)計(jì)建模沒有混料配才約束∑xi=1,甚為可惜,另行專題討論。