丁 松, 黨耀國, 徐 寧, 王俊杰, 耿率帥
(1. 南京航空航天大學經濟與管理學院, 江蘇 南京 211106;2. 南京審計大學管理科學與工程學院, 江蘇 南京 211815)
針對經濟社會生活中廣泛存在的多變量非線性系統建模問題,眾多學者對其展開了深入研究,主要方法是采用以概率論為基礎的多元統計分析技術[1],而該方法受限于大樣本的原始數據(樣本量大于30),而對于小樣本量的經濟社會問題則難以有效解決。為了解決“貧信息、少數據”多變量不確定系統的分析、建模、預測與控制問題,文獻[2]提出了多變量灰色GM(1,N)預測模型。GM(1,N)模型本質上是描述一個系統行為特征變量受到N-1個影響因素作用的因子分析模型,能夠對受到多因素影響的貧信息系統趨勢進行預測,因此學者對其進行優化與拓展,并成功應用到交通、農業、能源、管理等多個領域。
文獻[3]將驅動項視為灰常量,為解決傳統模型的模擬預測問題提供了一種有效方法,并在后續研究中得到廣泛應用;文獻[4]研究了數乘變換對GM(1,N)模型參數的影響;針對GM(1,N)模型的時間響應函數和背景值不精確,以及建模精度不高等問題,已有學者對其參數進行了優化,取得一些有價值的成果;文獻[5]利用殘差修正技術和新型背景值優化方法,提出了具有全適性的GM(1,N)模型,能夠適應多種特征序列建模;文獻[6]發現傳統GM(1,N)模型的近似時間響應式會產生難以接受的實驗誤差,通過引入灰色控制參數和利用卷積積分技術求解出模型的精確解,隨后,提出兩種改進模型[7-8],增強了新模型對多種特征序列的建模效果;文獻[9]利用Simpson公式構造GM(1,N)模型的新算法,探究估計參數的新思路。在對驅動因素改善方面,文獻[10]研究虛擬驅動變量對系統行為的作用效果,構建了基于虛擬驅動項的多變量離散模型;文獻[11]對驅動因素變化趨勢進行建模,并將其與系統行為變量建模相融合,實現對我國糧食產量趨勢的直接預測;文獻[12]通過引入驅動控制函數反映各因素在不同階段對系統變量的差異化作用效果;文獻[13]在驅動項中加入灰作用量和線性控制項,增強傳統模型對線性序列的適應性。
另外,部分學者將GM(1,N)模型與其他模型相結合,提出了新的拓展模型,進一步豐富多變量灰色模型體系。文獻[14]將單變量離散模型拓展到多變量,并與傳統GM(n,h)對比分析,研究其相關性質;文獻[15]構建時滯多變量離散灰色預測模型,并利用灰色擴維技術和灰色關聯分析方法對時滯參數進行估計;文獻[16]提出了分數階累加模型,并在武漢市科技投入與經濟增長的時滯關系研究中取得較好應用效果;文獻[17]提出了多變量灰色GM(1,N)冪模型及其派生模型,提升對多變量非線性系統特征序列的建模效果。文獻[18]從建模機理、參數估計和模型結構3個角度分析傳統GM(1,N)存在的缺陷,并通過引入線性修正項和灰作用項到模型構建中,克服傳統模型缺陷,并在材料張力的預測中驗證模型效果。文獻[19]優化GM(1,N)模型的時間響應函數,并預測我國未來CO2的排放量。
現有文獻對灰色多變量模型參數優化及其拓展進行了較為深入的研究,一定程度上提升了多變量模型的建模效果,但實際應用中,優化模型及傳統模型依然會存在較大的建模誤差,產生上述問題的原因主要包括兩個方面:①模型結構與系統行為特征的不匹配,灰色GM(1,N)模型及其改進模型在結構上均屬于線性結構,而對于絕大多數實際問題系統的結構均呈現非線性特征,因此,利用線性結構模型解決非線性問題往往會產生不合理誤差;②驅動因素作用的復雜性和不確定性,傳統模型默認了驅動因素自始至終對主系統產生相同強度的作用效果,而實際系統運行過程中,隨著系統自身及驅動因素的演化發展,各驅動因素在系統的不同發展階段所發揮的作用不盡相同,不對各階段驅動因素作用機制進行分析必然會導致較大的模型誤差;因此,基于以上問題,作者在灰色建模機理基礎上,提出多變量離散灰色冪模型,以非線性結構模型解決復雜的非線性預測問題,并基于各驅動因素在不同階段對系統行為變量的差異化作用效果,構建多階段驅動控制的多變量離散灰色冪模型,最后通過對我國糧食產量進行預測的案例,說明本文模型在解決非線性、多變量、少數據系統建模問題時的優越性和有效性。

(1)
為多變量離散灰色冪模型,記為DGPM(1,N),其中b1,b2,…,bN+1為DGPM(1,N)模型的參數。


則參數列的最小二乘法估計滿足:




(2)
(2) 模型的還原值為
(3)
上述新模型實現了差分形式與微分形式的統一,能夠有效避免傳統模型中二者間轉換的跳躍性誤差,并且依靠自身動態特性,反映驅動因素序列對系統行為變量的同步作用效果。若白化信息充分,即冪指數已知時,可以利用模型進行非線性建模預測。該模型能避免離散與連續模型轉換時的誤差,并利用非線性冪模型結構解決非線性問題。但從模型結構上看,該模型默認各驅動因素在系統運行過程中時刻對主系統行為序列產生同強度的影響,未考慮各階段驅動因素作用效果的差異性。事實上,隨著系統的演化發展,各時間階段起主導作用的驅動因素可能會發生變化,各驅動因素作用時效和強度也不盡相同。因此,本文在DGPM(1,N)模型基礎上,構造多階段驅動控制的多變量離散灰色冪模型。

(4)
為多階段驅動控制的多變量離散灰色冪模型,記為MDGPM(1,N),其中di+1(k)=μ(k-di+1,1)-μ(k-di+1,2),0≤di+1,1≤di+1,2為驅動因素Xi的控制項,μ(k)為階躍函數,di+1,1,di+1,2分別為驅動因素Xi+1的開始和結束作用時間;γ=(γ2,γ3,…,γN)為冪指數,反應驅動因素對系統行為的非線性作用關系。
從定義2可以看出,MDGPM(1,N)模型為原DGPM(1,N)模型中的每個驅動因素添加了相應的驅動控制項di+1(k),di+1(k)為矩形函數,包含始末兩個點參數di+1,1,di+1,2,通過對始末點參數的識別,能夠判斷該驅動因素對主系統行為的作用機制,真實反映建模意義。

證明當di+1,1=0且di+1,2→+∞時
di+1(k)=μ(k-di+1,1)-μ(k-di+1,2)=μ(k)
證畢
定理3表明,系統運行過程中,若所有驅動因素從開始至結束始終對系統行為序列產生強度相當的影響,則MDGPM(1,N)模型與DGPM(1,N)模型等價。進而表明本文模型是在驅動因素作用機制信息不斷白化條件下對多變量模型的進一步拓展與豐富。


則參數列的最小二乘法估計滿足:




(5)
(2) 模型的還原值為
(6)
證明(1)利用數學歸納法當k=1時,
結論成立。
假設當k=m時結論成立,即可得
根據定義2中的式(4)可以得到

因此,當k=m+1時結論也成立,故定理得證。
證畢

(1) 對于DGPM(1,N)型,可以通過以下非線性規劃模型求解冪指數
(7)
(2) 對于MDGPM(1,N)模型,可以通過以下非線性模型求解冪指數
(8)
對于DGPM(1,N)模型,可以借助LINGO軟件或者粒子群、遺傳算法等智能算法求解最優冪指數γ=(γ2,γ3,…,γN),然后利用定理2進行建模預測。而對于MDGPM(1,N)模型,需要先對驅動控制項進行識別,之后才能進行冪指數優化,再利用定理5進行建模預測。關于多階段驅動因素控制項識別方法,將在下節進行詳細闡述。
從上面的建模過程可以看出,驅動因素作用機制是影響MDGPM(1,N)模型精度的重要因素之一。在實際建模過程中,各驅動因素的始末作用時期和強度是未知的,需要通過不斷增加白化信息來對各參數進行估計。因此,本文模型基于對已有白化信息的充分分析,探討驅動控制項參數的識別路徑。
鑒于認知水平和理論有限,本文僅討論了白化信息較為充分情況下驅動因素控制項的參數識別方法,而對于缺乏白化信息的情況,文獻[12]則利用非線性優化建模,結合智能算法算法加以信息補全和參數識別,但該思路缺乏論述和理論依據,并且未在實例中加以討論,實用性和有效性有待商榷。因此,本文將先對系統結構較為清晰狀況下的驅動參數識別方法進行研究,后續將進一步探索信息匱乏情況下驅動參數識別。
當已知系統行為狀態或驅動因素作用的白化信息,我們可以根據歷史經驗事先給出驅動因素作用信息。這類白化信息主要包括主導影響因素在不同時間階段對主系統作用效果的變化,如不同時間階段對糧食產量的影響主導因素變化、不同階段對CO2排放影響的主導能源消費種類差異等等。這類影響因素作用效果發生變化的數據類型,本文提出的MDGPM(1,N)模型更有優勢。針對這類數據類型,將主系統行為序列和驅動因素序列分為若干子序列,通過分析系統行為序列子序列與各驅動因素序列子序列間的相關性,確定主導驅動因素的作用機制。
定義3設點集P={P1,P2,…,Pm|1≤Pi≤n,},Pi為整數,將主系統行為序列和驅動因素序列Xi(i=1,…,N)劃分為m+1個子序列,分別記為
(9)

di(k)=μ(k-pj-1-1)-μ(k-pj)
若Xi為第j,j+1,…,j+q時段的主驅動因素序列,則di(k)=μ(k-pj-1-1)-μ(k-pj+q)
定義3根據掌握的白化信息,利用灰色關聯分析方法,確定各時段上對主系統行為序列影響作用較大的主驅動因素,進而利用定義2獲得的驅動因素控制函數,然后利用MDGPM(1,N)模型進行預測。當主系統行為信息較為充分,驅動因素作用機制較為明確時,該方法行之有效,具有較準確的實際應用意義。
大量研究表明,槐耳具有抗腫瘤活性,可以抑制血管及腫瘤形成、抗腫瘤耐藥、抑制癌轉移、激活免疫系統以及誘導凋亡等[10,11]。最近也有研究報告,槐耳清膏能誘導乳腺癌細胞發生自噬及凋亡,其機制可能是通過抑制MTOR/S6K通路有關[12],另有研究結果表明,槐耳清膏對胃癌MKN-45細胞增值及凋亡均有影響[13],但能否影響her-2陽性胃癌細胞自噬尚未見相關報道。

綜上所述,MDGPM(1,N)模型的建模與預測過程可以分為以下步驟:

步驟2若系統運行的白化信息較為充分,則根據定義3識別驅動因素控制項的時間參數和確定主要驅動因素,然后利用式(8)對冪指數進行優化求解。
步驟3根據定理4求解模型參數b,再依據定理5計算主系統行為序列的模擬值,并進行精度效果檢驗。若誤差超出許可范圍,轉入步驟1,重新分析驅動因素及控制參數。


對我國糧食產量進行準確高效地預測,有利于實現新常態下我國經濟的穩定增長。通過研究我國糧食產量現有歷史數據可以發現,我國糧食產量的發展由于經歷了多種因素的影響,呈現出波動增長的態勢。為了能準確分析近階段我國糧食產量發展的趨勢,我們主要研究2003年以后我國糧食產量的變化。2003年以后,由于中央認識到以前政策措施存在的不足,積極調整政策,使得我國糧食產量一直保持穩定增長。尤其是以2008年為轉折點,當年我國全面取消農業稅,9億中國農民的種糧積極性收到極大鼓舞。并且,中央財政還持續加大強農惠農支持力度,實行糧食生產補貼等一系列惠農政策。因此,建立模型時,充分考慮我們糧食產量增長的特點,選擇2003-2015年數據為模擬預測數據,并以2007年為分界點對我國糧食產量進行建模研究。
為了檢驗本文模型的效果,以2003-2013年數據作為建模數據,2014-2015年數據作為檢驗數據,數據來源為《中國統計年鑒》。通過對歷史文獻資料的研究發現,對糧食產量產生影響的因素及其測量值如表1所示,記糧食產量(萬噸)、耕地灌溉面積(千公頃)、農業機械總動力(萬千瓦)、化肥施用量(萬噸)、糧食播種面積(千公頃)分別為X1~X5。為了避免不同指標數據數量級差異帶來的模型建模誤差,在建模前需對數據進行初值化變換,所有建模過程均采用變換后的數據,獲得模擬預測結果后,再進行數據還原處理。初值化后數據如圖1所示,從中可以看出糧食產量與各影響因素間呈現典型的非線性特征,因此比較適合本文模型進行建模。根據定義2建立MDGPM(1,N)模型為

(10)

圖1 系統行為變量和驅動因素初值化后的趨勢圖Fig.1 Initialized values of system behavior variable and driving factors
通過上述分析可知,糧食產量序列和各驅動因素序列的白化信息比較充分,可以利用定義3識別主驅動因素及其作用控制項函數。因此,以2007年為分界年,分別研究2003-2007年、2008-2012年各驅動因素對糧食產量的影響程度,計算各驅動因素與糧食產量的關聯度見表2。

表2 各驅動因素與糧食產量的關聯度計算結果
關聯度閾值選為r=0.75。根據定義5可知,2003-2007年間對糧食產量影響較大的驅動因素為X3和X4,而2008-2013年的主驅動因素為X2和X4。驅動因素作用機制分析結果表明,2003-2007年間農業機械化和化肥使用程度的提升是糧食產量增加的主要影響因素,而2008年之后,農業機械化達到一定規模后,隨著農業機械化程度達到一定水平后會出現邊際效應遞減現象;隨著我國人口的快速增長對糧食需求的增加,以及伴隨著工業化和城市化的不斷推進,造成灌溉水資源出現短缺,使得耕地灌溉面積成為新時期影響糧食產量的重要因素。而作為化肥使用,一直是我國糧食產量保持增長趨勢的基礎,隨著化肥技術和品質的不斷提升,土地貧瘠現象的加重,糧食產量對其依賴程度也不斷提高,這與我國當前農業種植現狀是比較吻合的。根據以上分析,可以得到各驅動因素的控制函數為
因此,式(10)所示模型轉化為
(11)
根據定理4求得模型參數為
b1=-1.027 2,b2=-0.014,b3=-0.001,
b4=0.002 2,b6=1.067 6
γ2=0.357 9,γ3=1.995 3,γ4=1.144 4
MDGPM(1,N)模型為
(12)
根據上述拓展模型模擬2003-2013年糧食產量結果如表3所示,再利用2014-2015年的X2和X4數據,代入式(12)進行糧食產量預測。為了對比模型的性能,本文還選取了DGPM(1,N)、GM(1,N)和DGM(1,N)建模,所得模型分別為
DGPM(1,N)模型為
GM(1,N)模型的白化方程為
DGM(1,N)模型為

表3 4種模型模擬和預測結果
4個模型的建模效果對比如圖2所示。
從各模型的建模效果來看,本文提出的多變量離散灰色冪模型在模擬和預測階段均取得了較好的精度,在充分分析驅動因素對糧食產量作用機制的基礎上,進一步提高了建模精度。離散DGPM(1,N)模型的兩項誤差分別為2.35%和5.72%,實現了高精度的平穩模擬和預測。在對驅動因素進行多階段劃分后,識別兩階段的主導因素并建模,取得了模擬和預測誤差分別為0.65%和3.39%的良好效果,遠高于其他3種模型。鑒于本文在通過均值化處理建模數據后,數據變動幅度不大,使得傳統GM(1,N)模型也取得了不錯的預測效果,但對于影響因素變幅較大的數據序列GM(1,N)模型難以適應,不滿足其建模假設條件,這些在以往文獻中已得到驗證[20]。而多變量離散模型,雖然一定程度上能克服模型轉化誤差,但其未充分考慮驅動因素的多階段特征,并且適合具有固定增長速度的序列建模,對于呈現非線性特征的序列建模性能較差,因此建模平均誤差為10.27%,預測誤差為9.87%,不適合用于糧食產量預測。另外,從圖2的誤差分布圖可看出,兩種傳統多變量模型精度波動程度大于本文的兩種多變量離散冪模型,預測效果不穩定。因此,綜合對比4種模型模擬預測效果和誤差分布圖,通過分析糧食產量驅動因素的多階段作用機制,構建非線性結構的多變量灰色冪模型,能夠持續降低建模和預測誤差,本文方法更適合用于我國糧食產量的未來預測。

圖2 4種模型模擬和預測誤差分布圖Fig.2 Error analysis of the four competing models
多變量灰色預測模型是解決多變量少數據系統預測問題的重要途徑,通過不斷白化系統信息,找到系統行為趨勢規律,進而通過微分方程進行模擬和預測。針對現實生活中廣泛存在的非線性多變量系統預測問題,本文將傳統的多變量灰色離散模型拓展為含有冪指數項的離散模型,并探索冪指數及模型參數的求解路徑,克服過去利用線性結構模型解決非線性問題的局限。通過對系統行為序列和驅動因素序列的多階段劃分,明晰各階段驅動因素的作用機制,并且在利用平均相對誤差最小條件下非線性約束模型對參數進行識別,求解驅動控制參數和體現非線性作用的最優冪指數。最后,通過對我國糧食產量的數據進行建模,發現本文MDGPM(1,N)模型能夠有效識別不同階段主導因素作用效果差異,更精確描述我國糧食產量與各影響因素間的非線性作用關系,進而顯著改善對我國糧食產量模擬和預測效果。未來,可以開展對信息缺乏時驅動因素作用項的識別研究,將灰度信息白化或結合其他智能手段確定驅動參數,進一步拓展新模型的應用范圍。
參考文獻:
[1] 黨耀國,米傳民,錢吳永.應用多元統計分析[M].北京:清華大學出版社,2012.
DANG Y G. MI C M. QIAN W Y. Applied multivariate statistical analysis[M]. Beijing: Tsinghua University Press, 2012.
[2] DENG J L. The control problem of grey systems[J]. System Control Letter, 1982, 1(5): 288-294.
[3] 劉思峰,黨耀國,方志耕.灰色系統理論及其應用[M].北京:科學出版社,2010.
LIU S F, DANG Y G, FANG Z G. Grey system theory and its application[M]. Beijing: Science Press, 2010.
[4] 肖新平,宋中民,李峰.灰色技術基礎及其應用[M].北京:科學出版社,2005.
XIAO X P, SONG Z M, LI F. Grey technology and its application[M]. Beijing: Science Press, 2005.
[5] GUO H, XIAO X P, FORREST J. A research on a comprehensive adaptive grey prediction model CAGM(1,N)[J]. Applied Mathematics and Computation, 2013, 225(1): 216-227.
[6] TIEN T L. The indirect measurement of tensile strength of material by the grey prediction model GMC(1,N)[J]. Measurement Science Technology 2005, 16(16): 1322-1328.
[7] TIEN T L. Forecasting CO2 output from gas furnace by grey prediction model IGMC(1,N)[J]. Journal of the Chinese Society of Mechanical Engineers, 2010, 31(1): 55-65.
[8] TIEN T L. The indirect measurement of tensile strength by the new model FGMC(1,N)[J].Measurement, 2011, 44(10): 1884-1897.
[9] 何滿喜,王勤.基于Simpson公式的GM(1,N)建模的新算法[J].系統工程理論與實踐,2013, 33(1): 199-202.
HE M X, WANG Q. New algorithm for GM(1,N) modeling based on Simpson formula[J]. Systems Engineering-Theory & Practice, 2013, 33(1): 199-202.
[10] ZHANG K. Multivariate discrete grey model base on dummy drivers[J].Grey Systems:Theory and Application,2016,6(2): 246-258.
[11] 丁松,黨耀國,徐寧.基于驅動變量增長趨勢的TGM(1,N)預測模型[J].系統工程,2015,33(3):149-153.
DING S, DANG Y G, XU N. TGM(1,N) prediction model based on trends of driving variables[J]. Systems Engineering, 2015, 33(3): 149-153.
[12] 張可.基于驅動控制的多變量離散灰色模型[J]. 系統工程理論與實踐, 2014, 34(8): 2084-2091.
ZHANG K. Multi-variables discrete grey model based on driver control[J].Systems Engineering-Theory & Practice,2014,34(8):2084-2091.
[13] ZENG B, LUO C, LIU S, et al. A novel multi-variable grey forecasting model and its application in forecasting the amount of motor vehicles in Beijing[J]. Computers & Industrial Engineering,2016,101:479-489.
[14] 謝乃明,劉思峰.多變量離散灰色模型及其性質[J].系統工程理論與實踐,2008,28(6): 143-150.
XIE N M, LIU S F. Research on the discrete grey model of multi-variables and its properties[J]. Systems Engineering-Theory & Practice, 2008, 28(6): 143-150.
[15] 張可, 曲品品. 時滯多變量離散灰色模型及其應用[J]. 系統工程理論與實踐, 2015, 35(8): 2092-2103.
ZHANG K, QU P P. Delay multi-variables discrete grey model and its application[J]. Systems Engineering-Theory & Practice, 2015, 35(8): 2092-2103.
[16] 毛樹華,高明運,肖新平. 分數階累加時滯GM(1,N,τ)模型及其應用[J]. 系統工程理論與實踐, 2015, 35(2): 430-436.
MAO S H, GAO M Y, XIAO X P. Fractional order accumulation time-lag GM(1,N,τ) model and its application[J]. Systems Engineering-Theory & Practice, 2015, 35(2): 430-436.
[17] WANG Z X, YE D J. Forecasting Chinese carbon emissions from fossil energy consumption using non-linear grey multivariable models[J].Journal of Cleaner Production, 2017, 142: 600-612.
[18] ZENG B, LUO C, LIU S, et al. Development of an optimization method for the GM(1,N) model[J]. Engineering Applications of Artificial Intelligence, 2016, 55: 353-362.
[19] DING S, DANG Y G, LI X M, et al. Forecasting Chinese CO2 emissions from fuel combustion using a novel grey multivariable model[J].Journal of Cleaner Production,2017,162:1527-1538.
[20] PAI T, CHIOU R, WEN H. Evaluating impact level of different factors in environmental impact assessment for incinerator plants using GM(1,N) model[J].Waste Management,2008,28(10): 1915-1922.