祝雅潔 張瑜 陳曦若 宋楠



【摘? 要】“互聯網+大數據”背景下,搜索引擎為預測提供了多源瞬時信息。現有的組合預測模型通常是建立在歷史數據的基礎上,無法體現搜索指數等多源信息融合的特點。因此,論文為提高預測的精度,充分利用多源信息,根據信息來源的不同,從不同視角構建了3種單項預測模型。最后,為降低預測的風險,從合作對策的角度出發,構建組合預測模型。實證結果表明,論文提出的模型從預測穩定性和精度方面都有顯著提高。
【Abstract】In the context of "internet + big data", search engines can provide multi-source instantaneous information for prediction. Current combined prediction model is usually constructed based on historical data, which cannot reflect the characteristics of multi-source information fusion such as internet search index. Therefore, in order to improve the prediction accuracy and make full use of multi-source information, this paper constructs three single prediction models from different perspectives according to different information sources. Finally, in order to reduce the risk of prediction, a combined prediction model is constructed from the perspective of cooperative game. The empirical results show that the prediction stability and accuracy of the proposed model are improved significantly.
【關鍵詞】多源信息;搜索指數;組合預測;合作對策
【Keywords】multi-source information; search index; combined prediction; cooperative game
【中圖分類號】O211.67;TP277? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)08-0078-04
1 引言
在“互聯網+”大數據時代,大數據預測作為大數據核心應用之一,主要依賴大數據的來源[1]。例如,新冠肺炎出現以來,在短短時間內迅速傳播。預測病情的蔓延程度成為公共衛生組織和專家學者們做好預防的核心工作。研究人員利用谷歌搜索引擎和百度搜索引擎,搜集了與武漢新冠肺炎相關關鍵詞的大量數據,并根據大數據和智能預測方法預測疫情的拐點,為政府和相關管理部門制定管控措施提供了科學依據。事實上,在2009年美國甲型H1N1流感病毒出現前,谷歌的數據分析師就在《自然》雜志上發表論文[2],正是根據人們在谷歌上的搜索記錄,成功預測了病情的蔓延程度以及流感出現的區域。可見大數據預測能夠充分利用網絡搜索獲得的多源信息對預測目標進行準確的預測。
近年來,隨著計算機網絡技術的廣泛和深入發展,移動互聯網、云計算和智能手機等不同傳感器的廣泛使用,為人們提供了海量的數據。搜索引擎使用的頻繁,為人們了解信息提供了新的渠道。在復雜系統預測中,預測信息往往呈現多源化,可以從不同視角解釋預測目標,它們并不是獨立的,而是存在交互影響的,在預測過程中可以通過不同來源信息的互補來提高預測的精度。如何有效地融合多源信息成為專家學者們研究的熱點課題之一。信息融合是將獲取的各種信息進行歸納整合,以獲取更精確、更適用的信息的集成技術[3]。信息融合可以將不同信息源的數據進行集成,能夠使信息之間起到互相補充的作用,因此被廣泛地應用到軍事、工業工程以及醫療等領域。隨著“互聯網+”時代的來臨,專家學者們發現,預測的結果不僅受到歷史數據等相關結構化數據的影響,基于網絡搜索的非結構化數據也會在某種趨勢上影響預測的精度。網絡搜索的非結構化數據可以從人類行為學視角提供相關信息,這些信息為學者們研究預測問題提供了一個新的思路,受到了廣泛的關注。
基于網絡搜索的預測模型與傳統預測方法相比要更為靈活與及時。Yu L. A.等基于谷歌趨勢的在線大數據驅動預測方法對全球石油消費量進行實證預測,結果表明,利用網絡搜索的預測結果要在方向精度和誤差上都明顯優于沒有使用谷歌趨勢的傳統預測方法[4]。Ling Tang等利用網絡搜索多種影響原油價格因素的數據從多個時間尺度上預測了布倫特原油價格的波動情況,實證表明基于網絡搜索數據預測模型可以改進預測的精度[5]。Wang J.等考慮原油市場及相關事件的網絡關注度,利用谷歌搜索數據并結合機器學習方法對原油價格進行多尺度預測,結果表明互聯網搜索是一種量化投資者關注度的實用方法,有助于預測短期原油市場的價格波動[6]。Jingjing Li等考慮到網絡搜索關鍵詞數據時只使用一種語言,提出了一種全球視角下的新型多語言驅動預測方法對原油價格進行預測,實踐表明新的模型具有更強的魯棒性[7]。Vosen等從人類的消費行為學視角,將谷歌搜索消費關鍵詞數據用于私人消費預測中,提高了預測的精度[8]。董倩等以百度搜索指數為基礎,對二手房與新房的價格進行預測,發現網絡搜索指數對預測房價的趨勢起到重要作用[9]。
基于以上分析,本文以碳價格預測為例,考慮到與碳價格的歷史數據以及相關影響因素指標等多源數據,首先構建適合的單項預測模型,其次將單項預測模型的預測結果看作合作對策中的方案,通過Shapley值計算權重系數,構建基于多源信息融合的組合預測模型,得到組合預測值,并對預測的結果進行有效性檢驗。
2 基于多源信息融合的組合預測模型
2.1 模型構建的基本思路
本文首先通過數據庫和網絡搜集到與預測目標相關的結構化數據和非結構化數據,其次根據不同的數據源構建相應的單項預測方法,最后融合各單項預測方法的長處,構建基于多源信息融合的組合預測模型,建模思路如圖1所示。
2.2 基于多源信息融合組合預測模型構建的基本過程
2.2.1 基于網絡搜索指數流形學習的最小二乘支持向量回歸(LSSVR)預測模型
收集與預測目標相關的非結構化數據,考慮到數據的冗余性,首先利用流形學習方法對數據進行降維處理,繼而構建LSSVR預測模型,給定一組訓練樣本{zt,yt},其中zt=(zt1,zt2,…,ztd,yt-1)為數據預處理后得到的序列即輸入變量,yt為第t時刻歷史數據實際值序列即輸出變量。基于流形學習的LSSVR預測模型可構建如下:
minJ(ω,b,ζ)=||ω||2+ζ? ? ? ? ? ? ? ? ? ? (1)
s.t.ω·?覬(xt)+b+ζt=yt,t=1,2,…,N
其中,b是偏置,ζt是容忍誤差,C為懲罰參數,為了對式(1)進行求解,引入拉格朗日乘子,此時式(1)轉化為:
L(ω,b,ζ,λ)=J(ω,b,ζ)-λt{[ω·?覬(xt)+b]+ζt-yt }
=||ω||2+ζ-λt{[ω·?覬(xt)+b]+ζt-yt }? ? ?(2)
對式(2)中未知參數進行求偏導,可得:
=0,=0,=0,=0? ? ? ? ? ? ? ? ?(3)
從而可得LSSVR預測模型如下:
yt=λt ·K(x,xt)+b,t=1,2,…,N? ? ? ? ? ? ? ? ?(4)
其中,K(x,xt)=?覬(x)·?覬(xt)為核函數,根據式(4)可得基于流行學習和非結構化數據的時間序列預測值1t。
2.2.2 基于相關影響因素的偏最小二乘(PLS)預測模型
針對預測目標相關影響因素的數據源,由于系統的復雜性,影響預測對象的因素一般較多,為了消除不同影響因素變量之間的多重共線性,本文采用PLS回歸預測模型對預測目標時間序列進行預測。
假設因變量為實際值時間序列,記作Y=(y1,y1,…,yN)T,自變量為預測目標相關的影響因素所形成的結構化數據,記作X=[X1,X2,…,Xq],則相應的單因變量PLS回歸預測模型可建立如下:
Y=Xβ+? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
其中,β為所有解釋變量的回歸系數,為隨機誤差項,服從正態分布。
在PLS回歸預測模型的實踐過程中,解釋變量和被解釋變量的原數據都要先進行標準化處理,繼而在解釋變量中提取成分,必須要最大程度包括X中的變異信息,并且要對被解釋變量的解釋能力要好,接著判斷是否達到建模的標準,如果達到則模型構建完成,否則,繼續在剩余信息中提取其他成分,直到達到模型的終止準則,可通過交互驗證確定PLS回歸預測模型中回歸的成分數量。根據式(5)可得基于預測目標影響因素的PLS回歸預測值為2t。
2.2.3 基于變模式分解(VMD)多尺度分解的廣義回歸神經網絡(GRNN)預測模型
考慮到預測對象歷史數據可能是不平穩、非線性的,為提高預測的精度,首先利用VMD分解算法對原始時間序列進行多尺度分解,VMD分解算法過程如下。
變模式分解過程:
① 初始化xt=(t=1,2,…,T)
②? ?set{ },{ },1 ←0
③? ? ? 迭代
④? ? ? n←n+1
⑤? ? ? for? k=1到N? do
⑥? ? ? ? ?對全部的v≥0更新k
⑦? ? ? ?g←
⑧? ? ? ? ? 繼續更新vk:
⑨? ? ? ? ?v←
⑩? ? ? ? ? end for
{11}? ? ? for v≥0
{12}? ? ? ?n+1(v)←n(v) +τ((v)- (v))
{13}? ? ? ? 直到g達到收斂:<ε
{14}? ? ? ?得g,k=1,2,…,M
根據VMD分解得到一組平滑的時間序列后,再利用GRNN對每一列序列進行預測,最后將所有的序列簡單集成得到最后的多尺度分解預測值。GRNN的預測過程如下:
假設預測對象的歷史數據利用VMD分解后得到第k個模態,現根據GRNN模型對此模態進行預測,即將第k個模態作為輸入變量Gt(k)=(gt-3(k),gt-2(k),gt-1(k)),其輸出變量為(gt(k))T ,t=1,2,…,N。GRNN中,各層如下。
①輸入層。
在輸入層中,神經元的數量與輸入變量的維數是相同的,此時將輸入變量傳到下一層。
②模式層。
在模式層中,神經元的數量與設定訓練樣本的維度相同,此時,第t個神經元的輸出為:
pt(k)=e,(t=1,2,…,N)? ? (6)
③求和層。
求和層傳遞函數分別為算術求和與加權求和:
Ss=pt (k)? ? ? ? ? ? ? ? ? ? ? ?(7)
Swt=wt (k)pt(k),t=1,2,…,N? ? ? ? ? ? ? ? ? ? ?(8)
④輸出層。
在輸出層中,神經元的數量與訓練集中輸出變量的維度要相等,此時,第個k模態的預測結果為:
yt(k)=,t=1,2,…,N? ? ? ? ? ? ? ? ? ? ? ? ?(9)
類似地,對每個模態的預測值進行簡單集成,可得基于多尺度分解的GRNN預測值3t:
3t=yt(k),t=1,2,…,N? ? ? ? ? ? ? ? ? ? ? ?(10)
2.2.4 Shapley值與多源信息融合組合預測模型
組合預測模型可以有效地融合各單項預測模型的優勢,達到降低預測誤差,同時還能夠分擔預測的風險。組合的實質是將各單項預測的信息進行有效的信息集成,其核心問題就是求各單項模型的權重系數,本文從博弈論視角出發,將各單項模型當成合作對策中的備選方案,根據各單項預測方法對組合預測模型的貢獻度,計算Shapley值,具體計算過程如圖2所示。
根據上述3種單項預測方法得到的單項預測值以及Shapley值計算的各方法的權重系數,可得組合預測值為:
t=wiit,t=1,2,…,m? ? ? ? ? ? ? ? ? ?(11)
3 實例仿真與結果分析
3.1 數據來源與處理
本文選取了深圳市碳市場2015/01/05到2018/06/29共844個碳價格歷史數據作為樣本,為預防在預測的過程中出現過擬合問題,我們將樣本分成訓練樣本(2015/1/5-2017/12/29)、驗證樣本(2018/1/2-2018/2/28)與測試樣本(2018/3/1-2018/6/29)。數據來源于中國碳交易網。同時我們還在百度指數上收集了與碳價格相關非結構化數據,本文選取了碳匯、碳交易、碳排放、低碳經濟、減排和、低碳生活、碳足跡、碳關稅、碳中和以及減排和10個關鍵詞來反映人們對碳價格的關注程度,最后我們還選取了與碳價格相關的滬深300指收盤價、天然氣價格、歐盟碳排放配額結算價、WTI原油價格、煤炭價格、WTI原油價格和核證減排量結算價作為碳價格其他相關影響因素指標,并對數據進行預處理,統一樣本維度。
此時,我們可得基于多源信息融合的組合預測模型結果如圖3所示。
3.2 預測的評價指標
為驗證本文所提模型的有效性,計算誤差平方和(SSE)和平均絕對百分比誤差(MAPE)來度量預測的總體誤差與相對誤差,計算公式如下:
SSE=(yt-t)2? ? ? ? ? ? ? ? ? ? ? ? (12)
MAPE=? ? ? ? ? ? ? ? ? ? ? ? ?(13)
同時,我們為了驗證所提模型的穩定性,引入預測有效度,計算了預測精度的均值和方差,該指標能夠從預測誤差的分布角度來評價預測的穩定性,第i種方法二階預測有效度公式如下:
Mi=E(ai)(1-σ(ai))? ? ? ? ? ? ? ? ? ? ? ? (14)
其中,E(ai)為第i種預測方法預測精度的期望,σ(ai)表示第i種預測方法預測精度的標準差,可計算如下:
E(ai)=Qt·ait,σ(ai)=Qt(ait-E(ai))2,ait=1-(yt-it)/yt
一般地,Qt先驗信息是未知的,通常取Qt=1/T。
根據式(12)~(14)計算各預測方法的預測如表1所示。
通過表1來比較模型3種單項預測模型與本文提出的組合預測模型對應的誤差評價指標,結果表明本文模型的3種誤差評價指標無論從總體誤差、相對誤差,還是預測有效度表現都是最好的。從實踐證明,引入多源信息對提高預測的精度是有積極作用的,因而引入多源信息融合的組合預測模型是有必要的。
4 結論
本文根據信息來源的不同,為充分利用這些信息,從多個角度構建預測方法,同時為分散預測的風險,以及將不同單項預測方法根據其自身特點和預測效果,利用Shapley值計算各單項方法的權重,進而得到最終的組合預測結果,實踐結果表明,本文所提的方法,無論從精確性還是穩定性都要高于單項預測方法。在將來的研究中,我們還將繼續考慮網絡輿情對預測對象的影響,使得模型適用性更強。
【參考文獻】
【1】呂本富,陳健.大數據預測研究及相關問題[J].科技促進發,2014(1):60-65.
【2】Ginsberg J.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012.
【3】王耀南,李樹濤.多傳感器信息融合及其應用綜述[J].控制與決策,2001,16(05):518-522.
【4】Yu L. A., Zhao Y. Q., Tang L., Yang Z. B., Online big data-driven oil consumption forecasting with Google trends[J]. International Journal of Forecasting,2019,35(1):213-223.
【5】Ling Tang et al. A multi-scale method for forecasting oil price with multi-factor search engine data[J].Applied Energy,2020,257.
【6】Wang J., Athanasopoulos G. Hyndman R. J., Wang S. Y., Crude oil price forecasting based on internet concern using an extreme learning machine[J].International Journal of Forecasting,2018,34(4):665-677.
【7】Jingjing Li and Ling Tang and Shouyang Wang. Forecasting crude oil price with multilingual search engine data[J].Physica A: Statistical Mechanics and its Applications,2020,551.
【8】Vosen S., Schmidt T., Forecasting private consumption: survey-based indicators vs. Google trends[J].Journal of Forecasting,2011,30(6):565-578.
【9】董倩,孫娜娜,李偉.基于網絡搜索數據的房地產價格預測[J].統計研究,2014,31(10):81-88.