程毛林
(蘇州科技大學 數理學院,江蘇 蘇州 215009)
基于偏最小二乘法的組合S型增長曲線預測模型與應用
程毛林
(蘇州科技大學 數理學院,江蘇 蘇州 215009)
在許多時間序列預測中,常用S型曲線描述增長過程。由于S型曲線形式多樣,結構不同,對同樣觀測值預測,結果略有差別。為了增加預測精度,提高預測的可靠性,考慮不同增長曲線預測結果存在多重共線性,該文利用偏最小二乘法,建立組合S型增長曲線,實例表明組合S型增長曲線預測結果精度高。
增長曲線;非線性最小二乘估計;偏最小二乘法;預測精度;組合
在時間序列里,有些變量的增長量最初比較小,隨時間的增加逐漸增長而達到一個快速增長時期,爾后增長速度趨緩,最終達到穩定的總增長量,這一過程若用曲線來表示,則是一種拉長的S型曲線。這種S型曲線因變量增長特性的不同而呈現出多樣性變化。常用Richards、General Logistic、Von Bertalanffy、Morgan-Mercer-Flodin等生長模型來描述這種增長過程[1-7]。隨著計算機仿真技術的應用,對增長模型的研究更加深入。對同樣的數據,建立S型增長曲線的預測結果會略有差異,為了減小這種差異,筆者基于偏最小二乘法[8-12],給出組合S型增長曲線預測模型。
1.1 General Logistic模型
General Logistic模型形式為
或

式中,xt為t時刻某變量的觀測值;s、α、λ、γ為待估參數。s為飽和水平,α為增長速度因子,λ為形狀因子,γ為積分常數,ε為隨機誤差。當λ=1,λ=-1,λ→0時,可得到邏輯曲線、修正指數曲線、龔伯茲曲線。
與General Logistic模型結構相同的是Richards模型(可相互推導)。這一模型形式為
或

式中,參數α為飽和水平、β為初始值參數、r為增長速率參數、δ為曲線形狀參數,ε為隨機誤差。當δ=-1時為Mitscherlich模型,當δ→+∞時為Gompertz模型,當δ=1時為Logistic模型。因此,Richards模型對S型增長時間序列有很強的適應性。
1.2 Von Bertalanffy模型
Von Bertalanffy模型具體形式為

或

式中,α、θ、k、m為待估參數。ε為隨機誤差,α為飽和水平,k為增長速度因子,m為形狀因子,θ為積分常數。
當m=0時為修正指數曲線,m=2時為邏輯曲線,m→1時趨向于龔伯茲曲線。
1.3 Morgan-Mercer-Flodin模型
Morgan-Mercer-Flodin模型形式為
或

上式,待估參數為η=(β,r,α,δ)。顯然,當δ<0,t→+∞時,y→β;當δ>0,t→+∞時,y→α。
1.4 三角函數增長曲線模型
主要有正弦函數增長曲線模型和余弦函數增長曲線模型。正弦函數增長曲線模型形式為

其中,L、α、β、γ為待估參數。L為飽和水平,α為增長速度因子,β為形狀因子,γ為積分常數。顯然t→+∞時,y→L。
余弦函數增長曲線模型形式為

其中,L、α、β、γ為待估參數。L為飽和水平,α為積分常數,β為增長速度因子,γ為形狀因子。顯然t→+∞時,y→L。
1.5 Weibull模型
Weibull模型形式為

上式,待估參數為η=(L,α,β,γ)。L為飽和水平,α為增長速度因子,β為形狀因子,γ為積分常數。顯然t→+∞時,y→L。
2.1 S型增長曲線模型的參數估計
對線性模型的參數估計可直接使用最小二乘法,不需要確定參數初始值。但上面的5個S型增長曲線是本質上的非線性曲線。每個模型都含有4個參數,參數估計比較復雜,記某個S型增長曲線為

其中,f是自變量t以及個參數β1、β2、β3、β4的非線性函數。估計參數β1、β2、β3、β4的標準與線性回歸一樣,即誤差平方和最小化。如果具有x以及t的N個觀測,就讓

有最小值,即為非線性最小二乘估計[13-15]。一般利用軟件,如MATLB軟件求解。初始值的確定可用選點法,對含4個參數的非線性曲線,設選取的4個點為,代入得到一個非線性方程組

利用MATLB軟件可以求出初始值β1、β2、β3、β4[16]。
2.2 組合S型增長曲線模型
假設文中選擇5個S型增長曲線,分別為X1、X2、X3、X4、X5。顯然X1、X2、X3、X4、X5之間存在嚴重的多重共線性,筆者利用偏最小二乘回歸建立組合增長曲線模型。將X1、X2、X3、X4、X5視為5個自變量,因變量為Y,進行偏最小二乘回歸。該文這里給出一個簡潔的計算方法:
設自變量X=(X1,X2,…,X5)和因變量Y標準化處理后的數據為E0、F0。
(1)求矩陣E0TF0F0TE0最大特征根所對應的特征向量w1,求得成分得分向量,和殘差矩陣,其中
(2)求矩陣E1TF0F0TE1最大特征根所對應的特征向量w2,求得成分得分向量,和殘差矩陣,其中

把tk=wk1*X1*+…+wk5*X5*(k=1,2,…,r)代入Y*=t1β1+…+trβr,即得偏最小二乘回歸方程為

用原始變量表示的組合增長曲線模型為

根據中國互聯網信息中心提供的中國互聯網絡發展狀況統計報告,收集了自2008年6月至2015年每半年一次的網民人數數據(x),見表 1。分析可知數據呈S型增長。

表1 中國網民人數及相關結果
先分別建立5個增長曲線模型:

正弦函數增長曲線模型為

將X1、X2、X3、X4、X5視為5個自變量,因變量為Y,作偏最小二乘回歸,得預測模型

從檢驗量可以看出模型擬合精度很高。圖1給出了擬合圖,圖中星號為實際觀測點,實線為擬合曲線。

圖1 模型擬合圖
[1]LIN Zhaogang,LI Fengri.The generalized Chapman-Richards function and applications to tree and stand growth[J].Journal of Forestry Research,2003,14(1):19-26.
[2]PAN Jianxin,FANG Kaitai.Growth Curve Model and Statistical Diagnostics[M].New York:Springer-Verlag,2002.
[3]程毛林.Richards模型參數估計及其模型應用[J].數學的實踐與認識,2010,40(12):139-143.
[4]程毛林.二個四參數增長曲線模型參數初始值的確定方法與模型應用[J].數學的實踐與認識,2009,39(9):109-114.
[5]程毛林.邏輯思諦曲線的幾個推廣模型與應用[J].運籌與管理,2003,12(3):85-88.
[6]劉舒燕,艾書超.基于增長曲線模型的高速公路發展研究[J].武漢理工大學學報(交通科學與工程版),2004,28(3):365-368.
[7]劉磊.邏輯增長曲線模型的一種參數估計方法[J].湖北工業大學學報,2008,23(1):83-85.
[8]馬麗,呂成文,唐炎.基于偏最小二乘法的土壤有機碳高光譜預測研究[J].安徽師范大學學報(自然科學版),2016,39(2):164-167.
[9]盧鵬,何杰,彭叢笑.基于偏最小二乘法的PM2.5相關因素分析研究[J].四川理工學院學報(自然科學版),2015,28(1):71-75.
[10]司守奎,孫璽清.數學建模算法與應用[M].北京:國防工業出版社,2012.
[11]陳章華,陳磊,紀洪廣.基于偏最小二乘法的地應力場擬合[J].北京科技大學學報,2013,35(1):1-7.
[12]鄭鳴,段梅,陳福生.我國金融發展與外資企業自主創新——基于偏最小二乘法的實證研究[J].軟科學,2012,26(8):1-5.
[13]李海奎,王雪峰.基于符號運算和信賴域方法的非線性最小二乘法[J].計算機應用,2004,24(7):22-24.
[14]陳忠,黃惠.求解非線性最小二乘問題的迭代法[J].武漢大學學報(理學版),2003,49(1):14-16.
[15]XIAO Ailing.Some algorithms of nonlinear least squares[J].Mathematical Theory and Applications,2004,24(2):86-90.
[16]薛西峰,邢志棟,孟紅云.求解非線性方程組的信賴域方法[J].西北大學學報(自然科學版),2001,31(4):289-291.
Prediction model and application of combined S-type growth curves based on partial least squares
CHENG Maolin
(School of Mathematics and Physics,SUST,Suzhou 215009,China)
In many time series prediction,researchers commonly use S-type curves to describe the growth process.Because of the diversity of S-type curves and the differences in their structures,the results are slightly different out of the same observation.In order to improve the prediction accuracy and reliability,the author,taking into consideration the prediction results of different growth curves with multicollinearity,established the combined S-type growth curves with partial least squares.The illustrations show that the prediction accuracy of the combined S-type growth curves is high.
growth curve;nonlinear least squares estimation;partial least squares;prediction accuracy;combination
責任編輯:謝金春
O212MR(2010)Subject Classification:62J02
A
:2096-3289(2017)02-0008-04
2016-11-06
國家自然科學基金資助項目(11401418)
程毛林(1965-),男,安徽安慶人,副教授,碩士生導師,研究方向:應用統計。