新疆農業大學交通與物流工程學院 董丹華 吐爾遜·買買提
投影尋蹤回歸對復雜系統的原始數據進行建模分析與預測具有重要意義。以經過簡化處理的波士頓房價數據集作為建模和預留檢驗的樣本數據,對自變量因子采用了線性降維技術、非線性擬合技術、迭代尋優方法,分別應用投影尋蹤回歸算法和神經網絡回歸算法創建房價趨勢預測模型,對波士頓房價進行預測。預測結果表明:投影尋蹤回歸算法具有較高的準確度,且投影尋蹤回歸算法具有較強的穩健性、抗干擾性,為回歸預測模型計算預測值,并對預測值進行綜合分析提供思路和方法。
投影尋蹤(Projection Pursuit)簡稱PP,是國際統計界于20世紀70年代中期發展起來的[1],是應用數學、統計學、計算機技術的交叉學科,主要用于處理、分析高維觀測數據,是非正態、非線性高維數據的一種新興統計方法[2],是將高維數據投影至低維子空間,并尋找出能反映原高維數據的結構、特征的投影,達到分析、研究原高維數據的目的。投影尋蹤統計方法具有抗干擾性、穩健性、準確度高等特點,因而被廣泛應用于很多領域[3]。
投影尋蹤統計方法主要涉及三方面內容,即聚類分析、回歸、學習網絡[4]。其中投影尋蹤回歸算法原理解決了傳統間隔方法(PCA等)的不足,通過極值化來選定投影指標,尋找最能反映數據特征的投影方向,將高維數據投影到低維空間,進行分析[5]。
本文所述的神經網絡是最傳統的BP(Back-propagation)神經網絡,即反向傳播神經網絡。反向傳播是指在模擬過程中收集系統所產生的誤差,并且返回這些誤差到輸出值,從而調整神經元的權重,此過程不斷重復,最終生成一個可以模擬出原始問題的人工神經網絡系統[6]。人工神經網絡(ANN,Artificial Neural Network)也叫多層感知機(MLP,Multilayer Perceptron),除了輸入輸出層,它中間可以有多個隱層,最簡單的MLP只含一個隱層,即三層結構[7]。
本文依據波士頓房價預測問題,采用了上述兩種回歸算法進行建模,對模型進行訓練和測試,通過對模型表現以及訓練過程的總結,探究神經網絡回歸算法和投影尋蹤回歸算法在這一具體問題中的應用。
投影尋蹤回歸算法(PPR)與神經網絡回歸算法(MLPR),都是對自變量因子采用了線性降維技術和非線性擬合技術,并進而通過迭代尋優的方法,創建回歸模型的[8]。
PPR技術是將投影尋蹤(PP)與回歸分析(RA)方法相結合的多因子建模技術,對統計數據不作任何假定和變換等人為干預,對數據的降維優化是借助計算機進行處理[9]。數據結構的審視較客觀,并以數值函數描述后再用于預測,非正態、非線性的有用信息獲取充分,其數學表達式描述如式(1)所示:

式(1)中:f(x)回歸方程可用嶺函數,進行逼近;
αjm第j個自變量因子的權重系數,或稱投影方向,自變量因子的維度=P;
βim第m個嶺函數的權重系數;
權重系數是按自變量因子x與目標y的相關程度計算出來的。
其算法流程如下:
(1)對y進行標準化處理→R(中間變量);
(2)循環創建最多M個嶺函數,步驟如下:
1)按(R,x)的主成分方向設置第一個嶺函數的投影方向數組A;
2)計算嶺函數的水平坐標值A×X→T;
3)用超級濾波器求解嶺函數值→F;
4)計算剩余值Y[j]-F[j]→R;
5)計算β系數=R[i,j]×F[j]/(F[j])×(F[j]),計算下一輪建模數據R=R[i,j]-B[LM-1,i]×F[LM-1,j];
6)檢查循環條件,創建下一個嶺函數;
(3)如果所建模型個數>MU,需進行全局優化,以保證模型個數≤MU。MU、M都是模型參數,通常為3,8;
(4)輸出回歸模型的結果數據。
神經網絡回歸(MLPR)是多隱層BP神經網絡(四層以上網絡),由輸入層、隱藏層、輸出層、節點(每一個節點就是一個神經元)組成,輸入層神經元個數與輸入數據的維數相同,輸出層神經元個數與需要擬合的數據個數相同,隱含層神經元個數與層數需要根據具體規則和目標設定[10]。如圖1、圖2所示分別是單隱藏層和多隱藏層模型。

圖1 單隱藏層模型Fig.1 Single hidden layer model

圖2 多隱藏層模型Fig.2 Multiple hidden layer models
其數學表達式描述如式(2)所示:

式(2)中:a是激活函數,w是權值,b是偏移量(截距)
其數學表達式描述如式(3)所示:

式(3)中:w1,w2,w3,w4和b1,b2,b3,b4為 權重和截距數組。
x→為訓練因子數組(X[N,P],N=27,P=4),w1為訓練因子權重,相當于PPR中的自變量因子的權重系數,在神經網絡算法中,它的初始值是隨機設定的。
f( )為神經元激活函數,相當于PPR中的嶺函數,在神經網絡算法中是按指定函數設定的。
其算法流程如下:
(1)當模型參數設定為hidden_layer_sizes=(10,5),activation= 'relu', solver='lbfgs',alpha = 0.01,max_iter = 200)時,用隨機數初始化權重矩陣W[w1[4,10],w2[10,5],w3[5,1]]和截距矩陣B[b1[10],b2[5],b3[1]];
(2)按最大迭代次數200,對權重矩陣和截距矩陣共111個數據進行殘差最小化尋優。每次迭代過程的流程如下:
1)按當前的權重和截距計算各層神經元數組;
2)計算回歸方程與目標Y的平均平方差(loss);
3)按loss反向計算權重和截距的更新值;
4)迭代循環1)~3)直到結束。
(3)輸出回歸模型。
部分實現核心代碼如下:


為了深入了解MLPR算法流程,并便于與PPR進行比較,本文使用經過簡化處理的波士頓房價數據集作為建模和預留檢驗的樣本數據,其值如表1所示。

表1 簡化處理的波士頓房價數據集Tab.1 A simplified Boston house price dataset
PPR模型是通過計算機程序運算不斷尋優的過程,使其滿足如下極小化準則,即按PPR(P4,N27,NN3,M4;MU2)建模,預報結果如圖3所示。

圖3 PPR模型回歸結果及預報檢驗Fig.3 PPR model regression results and forecast verification
按MLPR(P4,N27,NN3,(10,5))建模預報處理的結果數據與PPR對比如表2所示。

表2 MLPR與PPR建模處理預報結果數據對比Tab.2 Comparison of MLPR and PPR modeling and processing forecast data
表2數據用圖形表示如圖4所示。

圖4 PPR與MLPR預報結果比較Fig.4 Comparison of PPR and MLPR forecast results
預測結果驗證了回歸模型的可行性。同時,對投影尋蹤回歸算法和神經網絡回歸算法進行對比,結果表明兩者算法非常類似,都是通過對P維訓練因子,進行坐標轉換,構建回歸模型,再按回歸模型的殘差,對回歸模型參數進行迭代尋優處理。兩者的區別是回歸模型參數個數不同,投影尋蹤回歸算法的回歸模型參數個數=P訓練因子維數×MU+MU嶺函數最終個數。神經網絡回歸算法的回歸模型參數個數=P訓練因子維數×第1隱藏層節點數+……+第(n-1)隱藏層節點數×第n隱藏層節點數+輸出層節點數(即目標Y的維數)。當使用同一個樣本數據(波士頓房價數據集)進行建模預報比較時,PPR最后3個預留檢驗點的預報誤差比MLPR低。投影尋蹤回歸算法具有較強的穩健性和抗干擾性,神經網絡回歸算法的結果是不穩定的,原因是神經網絡回歸模型的初始參數是隨機的,導致模型不穩定。
引用
[1] 宋曉濤,孫海龍.基于神經網絡的自動源代碼摘要技術綜述[J].軟件學報,2022,33(01):55-77.
[2] 劉方愛,王倩倩,郝建華.基于深度神經網絡的推薦系統研究綜述[J].山東師范大學學報(自然科學版),2021,36(4):325-336.
[3] 白祉旭,王衡軍,郭可翔.基于深度神經網絡的對抗樣本技術綜述[J].計算機工程與應用,2021,57(23):61-70.
[4] 李舵,董超群,司品超,等.神經網絡驗證和測試技術研究綜述[J].計算機工程與應用,2021,57(22):53-67.
[5] 李炳臻,劉克,顧佼佼,等.卷積神經網絡研究綜述[J].計算機時代,2021(4):8-12+17.
[6] 張馳,郭媛,黎明.人工神經網絡模型發展及應用綜述[J].計算機工程與應用,2021,57(11):57-69.
[7] 梁苗.基于粒子群優化投影尋蹤模型的大型商場火災風險評價[D].武漢:武漢理工大學,2020.
[8] 李貝貝.基于投影尋蹤法的股權激勵對公司績效的影響研究[D].徐州:中國礦業大學,2019.
[9] 顧婷.基于RAGA的投影尋蹤模型的廣西資源環境承載力評價[D].武漢:武漢大學,2018.
[10] 蘇屹,姜雪松,張成功.投影尋蹤法在企業評價體系中的應用綜述[J].科技和產業,2013,13(11):104-107.