于慧春 殷勇 李欣
回歸正交試驗設計把試驗規劃、數據處理以及實用、可靠回歸方程建立統一起來,不僅使得在每個試驗點上獲得的數據含有最大的信息量,并且大大減少試驗次數,使得數據的統計分析具有一些較好的性質。因而,在科學研究中應用非常廣泛。為了更深入的理解回歸正交試驗設計方法,本文對回歸正交試驗設計的原理及特點進行了較為詳細的分析,以期為廣大師生的學習及應用提供一定的幫助。
深入了解事物本質,找出不確定性變量之間的相互依存關系,常用的分析方法就是回歸分析。普通的回歸分析方法,只是被動的處理已有的試驗數據,而對試驗的規劃幾乎不提任何要求,并且對所獲得的回歸方程的精度也不做研究。這樣,不僅盲目的增加了試驗次數,而且試驗數據還存在不能提供充分信息的弊端,導致在許多多因子問題中達不到試驗目的。
為獲得高質量的回歸方程而按相應的要求安排試驗,稱為回歸試驗設計。其目的是為了減少試驗次數,簡化回歸計算,并使回歸方程實用、可靠。回歸正交設計,是指試驗方案的結構矩陣具有正交性的回歸設計。是在正交設計基礎上發展起來的,可建立方程,選擇最佳的方案。其突出優點是用很少的處理組合得出完全實施試驗相同項數的回歸模型,計算過
程極為簡單并已消除了回歸系數之間的相關性,統計性質得到了明顯改善。因而,回歸正交試驗設計在尋求最佳工藝及配方,以及建立生產過程的回歸數學模型,以用于控制和預測等研究中應用非常廣泛,因此,本文結合自己對回歸正交試驗設計方法的理解,對回歸正交試驗設計的原理及特點作一簡單的介紹。
進行回歸正交試驗設計,首先確定各因子的變化范圍,然后對其各因子進行編碼,編碼即對各因素進行線性變換。編碼的意義主要是:消除各因子單位及數值大小對結果的影響,使得各因子的研究區域由因素空間的多維長方體變為編碼空間的多維正立方體,且在編碼空間的取值范圍都是,從而保證各因素的不同水平都是“平等”的。
例如:以一個兩因子的研究為例,如圖1所示,因子的研究區域在因子空間是一個矩形,因子取值單位不同,數量級不同,會對回歸方程的可靠性產生不利影響,如因子本身與所研究指標間的相關性可能并不強,但是由于數量級不較大,導致結果傾向于該因子,而將實際與指標相關性較強,但數值較小的因子忽略掉。通過編碼,研究區域變成一個正方形,在編碼空間,兩個因子的取值范圍相同,“地位平等”, 從而避免了因素單位及數值大小對結果的影響。
一次回歸(一元或多元)在編碼空間選試驗點,每個因子都分別選其上下兩個水平,這樣就可以運用兩水平正交表來安排試驗,選用兩水平正交表時,用-1代換表中的2,代換后正交表中的-1,+1既表示因子水平的不同狀態(兩種狀態),也表示因子水平變化數量的大小(因素在編碼空間的取值范圍)。以比較常用的二水平正交表L8(27)為例,用-1代換表中的2后,正交表如表1所示。
很明顯,以兩水平正交表編制的這種試驗計劃,如以
表示在第
次試驗中第
個變量的編碼值,于是在試驗計劃中有
任一列的和
任兩列的內積
由此體現出這種設計具有正交性,所以這種設計稱為正交設計。
編碼空間中試驗點的分布情況,以三因子試驗為例,所選的試驗點在編碼空間的分布如圖2所示。所選試驗點正好是編碼空間一個正立方體的頂點。因此,回歸正交試驗設計所選的試驗點都分布在編碼空間的多維正立方體的各個頂點上,也體現了均勻分布的特點。
在編碼空間回歸的數學模型為:
N:試驗次數
:隨機誤差的方差
是p維編碼空間的一個球面,球心在原點,半徑為
。
的計算公式表明,當所選的試驗點到原點的距離相等時,即所選的試驗點位于同一球面時,其預測值的方差時相等的。N和
是一定的,所選的各試驗點的預測值的方差
只與
有關,
不變,
不變。預測值只與預測點的位置有關,與其方位無關,可提高預測的精度。回歸正交試驗的這一性質稱為“旋轉性”。
“旋轉性”對在最優工藝尋找過程中排除誤差干擾具有重要意義,因為同一球面上的點,其預測值的方差相等,所以可以通過直接比較預測值的好壞,來確定預測值相對較優的研究區域,而不必考慮誤差干擾的影響,并且獲得性能較佳的回歸方程。
此外,通過對圖2編碼空間試驗點的分布進行分析可知,在編碼空間,每個因子都只取其上下兩個水平,所構成的試驗點分布為多維空間的正立方體的頂點,每個試驗點到原點的距離相等,所以這些試驗點分布在編碼空間的一個球面上。增加任何一個水平,所構成的試驗點其分布都與這些試驗點不會落在同一個球面上,試驗設計“旋轉性”的特點就丟失了,所得到的回歸方程性能也會相應變差。因此,要使得回歸正交試驗設計具有“旋轉性”這一特點,即所選的試驗點在編碼空間分布在一個球面上,則每個因子只能選上下兩個水平(每個因子的研究區域范圍相同),不能增加任何一水平。
每個因子確定取上下兩個水平后,則只能利用相應的二水平正交表來設計試驗,設計方法具有“正交性”和“旋轉性”,既能用較少的試驗次數得到較優的回歸方程,且計算簡單。
回歸正交試驗設計首先確定各因子取值范圍,然后進行編碼,將原因素空間的回歸問題轉換為編碼空間中指標值對轉換后因子的回歸問題,從而消除了不同單位及量綱對結果的不利影響;選用二水平正交表,每個因子只選上下兩個對稱水平,保證試驗設計的“正交性”和“旋轉性”,從而保證了所獲得的回歸方程具有更高的精度及可靠性,同時也大大減少了試驗次數。
基金項目:“食品試驗設計”精品資源共享課程,研究生課程建設項目,校級,編號:2016YKJ-005。
(作者單位:河南科技大學食品與生物工程學院)