◆俞鐘行 / 文
在質量管理中常使用回歸方法,譬如用excel畫個散點圖,就可以求出合適的回歸方程。當對多個因素建立數學模型時,可能要篩選因素,目前國內外常用的方法是逐步回歸,因其簡單易用、軟件易得。但實際上,國外文獻資料[3]已多見對逐步回歸法的批評,如“沒有程序保證任意大小的回歸模型的‘最佳’子集將被識別出來,并且缺乏經驗的分析者在經過這逐步的程序后,可能會認為找到了某種意義上最優的模型”。另外,可用于逐步回歸的工具如SAS軟件,也不是我國絕大多數企事業單位能實際應用的。本文提供了新的可操作思路。
假設某種水泥在凝固時所釋放的熱量Y(卡/克)與水泥中下列四種化學成分有關。
x1——3CaO?Al2O3的成分(%);
x2——3CaO?SiO2的成分(%);
x3——4CaO?Al2O3?Fe2O3的成分(%);
x4——2CaO?SiO2的成分(%)。
共觀測了13組數據(見表1)。試求出Y與x1,x2,x3,x4的回歸方程,并對該回歸方程和各個回歸系數進行檢驗。

表1 水泥數據

以SAS/STAT軟件中最常用的REG來完成逐步回歸的計算,得回歸方程:

復相關系數R=0.989293,

原例就是一系列試驗,現用已形成套路的因素趨勢法進行分析。
1.對表1中的數據,按正交試驗中的方法做“不等水平的極差分析”,具體如下。
對x1來說,它13次試驗只包含7個不同水平,分別是1、2、3、7、10、11、21。類似的x2含12個,x3含9個,x4含11個不同水平。在計算每一水平的Y值時,可應用excel的“sumif”語句。這里假設x1至x4的4列數據處于excel電子表格的B到E列,Y列數據處于I列,則對應表1中x1列的最低水平“1”的Y值得到:在相應的電子格中輸入“=sumif(B$2:B$14,1,$I$2:$I$14)/3”。式中“1”是x1的水平值,共出現3次,所以要除以3。按回車即可得到76.86667。相似操作得到x1的其余6個值:93.1、102.7、87.2、109.4、103.6、115.9,x1的極差值就等于組中最大值減最小值,為39.03333。“sumif”語句在不同位置加$是便于計算其余值時使用拖拉技術。用同樣方法繼續對x2~x4作極差分析。因為x1~x4各列的水平的個數不同,還要考慮“折算系數”。從任露泉“試驗優化技術”p21查到,當極差水平個數為7~10時,必須對原極差乘以系數0.35、0.34、0.32、0.31。本例x1至x4的水平個數為7~12。所以這個“折算系數”對本例的“極差分析”影響不大,暫不考慮。
2.根據x1~x4的極差分析結果,就可以依序(從左到右)畫出“因素趨勢圖”,如圖1。

圖1 因素趨勢圖
3.以因素趨勢圖“導航”做精準回歸,這個步驟要有一定的想象力和技巧性。圖1給出了4個因素變化趨勢的寶貴信息。首先,4個因素(變量)的強度是勢均力敵的。而且看到,前兩個因素x1和x2有向上的總趨勢;后兩個因素x3和x4有向下的總趨勢。我們知道,趨勢向上與趨勢向下的兩個因素之間容易產生交互作用。此外,x3的因素趨勢圖頗有三角函數cos的周期變化相貌。所有這些,讓我們對表1中數據如何實施“變項”和“插項”的策略有了設想。在excel的電子表格里,可以用“數據分析”中“回歸”模塊來分析表1中的數據。具體操作時可以分幾步做,比如先把表1中x3列數據改為cos(x3),于是數據第1行的cos(6)=0.96017,等等。然后做回歸分析,若發現得到的回歸方程性能指標有顯著的改進,就證明這步“變項”是正確的。接著又插了兩個“交互項”x2*cos(x3)和x2*x4,最后在excel的電子界面上,數據如表2。

表2 變項、插項后的excel電子表格界面
表2中x2*x4這列第1行的1560,就是x2第1行的26與x4第1行的60的乘積。依次類推。對表2再用excel的“回歸”分析,得出結果如圖2。

圖2 “變項”、“插項”后的回歸結果
從上圖的Coefficients列里,得知回歸方程為:

與用逐步回歸得到的方程(1)相比,方程(2)性能指標顯著改善了。
因為方程(1)只有2個因素,而方程(2)有6個因素,直接比復相關系數大小并不合理,因此按公式(參見文獻4的p56)Ru=1-(1-R)(n+k+1)/(n-k-1)來做比較。上式中,R:復相關系數;n:數據個數;k:excel回歸分析的“回歸自由度”即“因素個數”。當Ru是正數且數值最大時,回歸方程為優。
原例傳統經典的變量選取方法,意識到4個自變量間存在較強的相關性,如“當模型中只有x2時,它的最小二乘估計的效力是.789。模型里加進x4后,x2的效力是.311,縮減50%以上。再加入x3、x2的效力改變成-.923”[3]。在畫出因素趨勢圖后,則形象地顯示出因素(變量)之間存在的具體的交互作用。又如,“為了得到‘最優’回歸方程”,實際采取的方法是“從方程中刪除最不重要的自變量,如x3”[1]。但畫出因素趨勢圖后,不但看到x3這個因素并不弱,還看到它呈三角函數的周期性,并且它的向下趨勢,與趨勢向上的因素還形成交互作用。所以,因素趨勢圖能給出極有價值的情報,使分析者能通過“變項”、“插項”等技術手段,最后得到擬合優度明顯提高的回歸方程,如標準誤差下降20%、殘差平方和下降70%等。方程里有些項的p值超過5%,但根據經驗值得保留下來。

表3 回歸方程模型有關參數的比較
所謂“精準回歸”,就是根據正確畫出的因素趨勢圖,識別各因素的實際態勢和交互關系,通過“變項”、“插項”等手段,獲得最滿意的回歸方程。它往往不是原以為的普通線性方程,而是廣義的線性方程,更好地勾勒了各變量之間的關系。對這個經典案例,用精準回歸優于用逐步回歸。即使和其他變量篩選法相比,如向前引入法、向后剔除法及全子集法,精準回歸法也是更好的方法。因為它通過正確畫出的因素趨勢圖,可以識別出各因素的真實面貌和相互關系,然后有針對性地搭起數學模型的粗坯,最后用excel的“回歸”模塊來驗證和確認。其它方法,似乎難望其項背。
