孫 峰,周雪玉
(重慶工商大學a.旅游與國土資源學院;b.國家智能制造服務國際科技合作基地,重慶 400067)
灰色預測模型[1]是研究和解決小數據不確定性問題的一種常用方法。經過三十余年的發展,灰色預測模型已由最初的GM(1,1)模型拓展出GM(1,N)模型、DGM(1,1)模型、Verhulst模型、DGM(2,1)模型[2-4]等;建模對象也由最初的實數序列拓展至區間灰數序列、離散灰數序列及灰色異構數據序列[5-8]。上述研究成果的不斷涌現,豐富了灰色預測模型理論體系,改善了灰色預測模型的建模能力與適用范圍,促進了灰色預測模型與現實問題的有效對接,解決了生產和生活中的大量實際問題。
謝乃明對經典GM(1,1)模型進行了非常深入的研究,認為GM(1,1)模型中利用離散形式的差分方程進行參數估計,利用連續形式的微分方程進行擬合和預測,而離散形式和連續形式由于構造方式不同是不能精確等同的,這兩種形式之間的跳躍是造成模型誤差的根本原因,在此基礎上提出了離散灰色預測模型DGM(1,1)[9,10]。DGM(1,1)解決了經典GM(1,1)無法實現齊次指數序列無偏擬合的不足,在灰色預測模型體系中具有十分重要的地位。
為了進一步優化DGM(1,1)模型的模擬及預測精度,研究人員從初始值、背景值、累加階數、非齊次序列模擬、模型性質、區間DGM(1,1)模型等方面[11-15]對DGM(1,1)進行了大量研究,促進了該模型的發展和完善。然而,當建模序列具有一定的波動性特征時,傳統的DGM(1,1)及其優化模型,其模型精度仍然較差。這主要是因為DGM(1,1)在建模時,僅考慮了β1(k) 對x?(1)(k+1) 的影響,當β1(k)為異常值并導致序列呈現出波動特征時,將直接對(k+1)的模擬及預測值造成干擾,導致模型精度不理想。這就是DGM(1,1)模型在面對具有一定波動特征的建模序列時,即使其參數最優而預測效果仍不理想的根本原因。
本文在傳統DGM(1,1)的基礎上,提出了一種三參數的離散灰色預測模型(簡稱DGM(1,1)3模型),該模型充分考慮了序列滯后項對模擬及預測結果的影響,能在一定程度上改善建模序列光滑性,較好地規避了序列中的極端奇異值對的模擬及預測值可能造成的干擾,從而提高離散灰色預測模型性能。本文通過對波動序列模擬及預測誤差的比較和分析,驗證了DGM(1,1)3模型具有比傳統的DGM(1,1)及經典GM(1,1)更好地模擬及預測性能。最后將該模型成功地應用于安徽省萬人有效發明專利數的模擬及預測。
定義1:設非負原始數據序列X(0)=(x(0)(1),x(0)(2),…,x(0)(n) ),其中x(0)(k)≥0,k=1,2,…n,序列X(1)是序列X(0)1-AGO[2]序列,即:

其中:

則:

被稱為是含參數β1,β2及β3的離散灰色預測模型,簡稱DGM(1,1)3模型。在該模型中,x(1)(1)及x(1)(2)被稱為DGM(1,1)3模型的初始值。顯然,當β2=0,DGM(1,1)3模型即為傳統的DGM(1,1)模型。
本文將應用最小二乘法(OLS)及克萊姆法則來估計DGM(1,1)3模型的參數β1,β2及β3。確保x(1)(k+1)的模擬值x?(1)(k+1)最小模擬誤差S需滿足:

根據最小二乘法,可得:

則:

根據克萊姆法則,可得:

參數β1,β2及β3的計算表達式,如下:

根據定義1,當k=2:

當k=3:

將公式(3)帶入公式(4),得:

當k=4:

將公式(4)、公式(5)帶入公式(6),得:

從上面的推導過程可以發現,DGM(1,1)3模型的時間響應函數的推導過程是非常復雜的,很難發現其演變規律。實際上,本文構建DGM(1,1)3模型的目的是模擬或預測數據(k) 及(k),k=2,3,…,4,在這個意義上而言,DGM(1,1)3模型的時間響應式并不重要。根據定義1可知,DGM(1,1)3模型滿足迭代算法,因此可以通過一個MATLAB程序來實現數據(k) 的計算,在此基礎上,根據累加生成的逆過程求解最終還原值(k)。
設隨機序列X(0)(x(0)(1),x(0)(2),…,x(0)(n)),其中40≤x(0)(k)≤80,k=1,2,…,n。分別構建序列X(0)DGM(1,1)3模型,DGM(1,1)模型及GM(1,1)模型,并對上述三個模型對序列X(0)的模擬及預測誤差進行比較和分析。

為了同時比較不同模型的模擬及預測性能,本文將隨機序列X(0)分成兩個部分。其中,第一部分(k=1,2,…,10)用來建立DGM(1,1)3模型,DGM(1,1)模型及GM(1,1)模型,并計算模型模擬誤差;第二部分(k=11,12,…,15)用來測試模型的預測性能。
運用MATLAB軟件計算各模型參數,結果如下所示:
(1)DGM(1,1)3模 型 :β1=1.5969;β2=-0.5710;β3=22.6016
(2)DGM(1,1)模型:β1=1.0884;β2=35.6882
(3)GM(1,1)模型:a=-0.0854;b=33.9309
根據模型的參數,可計算上述三個模型對隨機序列X(0)(k=1,2,…,10)的模擬值及模擬誤差,計算結果如表1所示。

表1 GM(1,1)、DGM(1,1)及DGM(1,1)對隨機序列 X(0) 的模擬值及模擬誤差3
類似地,當k=11,12,…,15時,可以計算三個模型對隨機序列X(0)的預測值及預測誤差,結果如表2所示。

表2 GM(1,1)、DGM(1,1)及DGM(1,1)對隨機序列 X(0) 的預測值及預測誤差3
在表1及表2中,符號x(0)(k),x?(0)(k),Δk(%),MAPE(In) andMAPE(Out)含義如下:
(1)x(0)(k)序列X(0)的第k個元素。
(2)x?(0)(k)對應x(0)(k)的模擬或預測值。
(3)Δkx?(0)(k)的模擬或預測絕對百分誤差。
(4)MAPE(In)平均絕對模擬百分誤差。
(5)MAPE(O ut)平均絕對預測百分誤差。

根據表1、表2不難發現,相對于GM(1,1)與DGM(1,1),本文所構建的DGM(1,1)3對隨機序列X(0),其模擬及預測誤差最小,這表明對于相同序列,DGM(1,1)3具有相對更優的模擬及預測性能。這主要是因為在DGM(1,1)3模型中增加了滯后項β2x(1)(k-1),表示x(1)(k+1)的值不僅僅受到β1x(1)(k)的影響,同時還受到滯后項β2x(1)(k-1)的影響,從而避免了β1x(1)(k)的極端值對x(1)(k+1)可能產生的沖擊,起到了抑制極端值及改善序列平滑性的效果。
萬人有效發明專利數是指每萬人擁有經國內外知識產權行政部門授權且在有效期內的發明專利件數,是衡量一個國家或地區科研產出質量和市場應用水平的國際通用綜合指標,主要體現一個國家或地區自主科技創新能力。安徽省2010—2015年的萬人有效發明專利數,如表3所示(數據來自《安徽省統計年鑒》)。本文將構建安徽省萬人有效發明專利數的DGM(1,1)3模型,并對該省2016—2020年的萬人有效發明專利數進行預測。

表3 安徽省2010—2015年萬人有效發明專利數 (單位:件)
根據表3可知:

則序列X(0)的1-AGO序列X(1)為:

應用MATLAB程序可計算序列X(0)的DGM(1,1)3模型,如下:


則安徽省萬人有效發明專利數的DGM(1,1)3模型為:應用公式(8),可計算安徽省2010—2015年萬人有效發明專利數的模擬值及模擬誤差:

則:

根據灰色預測模型誤差等級參照表[2],可知該模型的誤差等級為II,可用于中短期預測。
根據公式(8),預測安徽省2016—2020年萬人有效發明專利數,結果如表4所示。

表4 安徽省2016—2020年萬人有效發明專利數 (單位:件)
根據表4可知,安徽省2016—2020年萬人有效發明專利數預計呈現快速增長的趨勢,到2020年,其數據規模將達到14.71件,是2010年的6倍多。這主要得益于近年來安徽省大力推進科技創新型省份的建設,出臺了支持科技創新的“1+6”政策和“1+10”政策。扶持高層次科技人才團隊在皖創新創業、促進科技成果轉化、大型科學儀器共享共用、市創新能力評價5項實施細則,同時研究制定科技重大專項、科技保險試點、實驗室建設、專利權質押貸款4項實施細則,加上已出臺的高新技術產業投資基金實施細則,形成覆蓋創新驅動全過程的“1+10”政策體系。
本文在傳統DGM(1,1)的基礎上,提出了一種三參數的離散灰色預測模型DGM(1,1)3,該模型充分考慮了序列滯后項對模擬及預測結果的影響,能在一定程度上改善建模序列光滑性,較好地規避了序列中的極端奇異值對(k+1)的模擬及預測值可能造成的干擾,從而提高離散灰色預測模型性能。通過對波動序列模擬及預測誤差的比較和分析,驗證了DGM(1,1)3模型具有比傳統DGM(1,1)及經典GM(1,1)更好的模擬及預測性能。最后將該模型成功地應用于安徽省萬人有效發明專利數的模擬及預測。如何對DGM(1,1)3模型的初始條件、背景值、建模條件、累加階數等內容進行系統研究,是項目組下一步的將要研究的主要內容。