唐瑋怡,張大洋
(安徽財經(jīng)大學(xué) a.財政與公共管理學(xué)院,b.科研處,安徽 蚌埠 233030)
2020年的全球疫情對世界各國經(jīng)濟(jì)的沖擊仍在繼續(xù)發(fā)酵,貿(mào)易保護(hù)主義抬頭等國際問題嚴(yán)重阻礙了各國的經(jīng)濟(jì)復(fù)蘇。在經(jīng)濟(jì)全球化的時代背景下,如何判斷我國的經(jīng)濟(jì)形勢,防范疫情可能帶來的經(jīng)濟(jì)衰退風(fēng)險具有重要的現(xiàn)實意義。消費(fèi)者信心指數(shù)(Consumer Confidence Index, CCI)是一個經(jīng)濟(jì)先行指標(biāo)[1],用來衡量消費(fèi)者消費(fèi)信心變化程度,能夠綜合反映出國家或地區(qū)的物價水平、居民消費(fèi)意愿及經(jīng)濟(jì)發(fā)展形勢等[2]。本文對消費(fèi)者信心指數(shù)的精準(zhǔn)預(yù)測有利于豐富對消費(fèi)者信心指數(shù)內(nèi)涵的理論研究以及預(yù)測模型的探索,具有重要的理論意義;同時,該預(yù)測研究還有助于對居民的消費(fèi)趨向以及國家或地區(qū)未來的經(jīng)濟(jì)走勢進(jìn)行科學(xué)判斷,為政府部門對經(jīng)濟(jì)周期變化監(jiān)測和對國家經(jīng)濟(jì)決策制定提供重要參考依據(jù),具有重要的現(xiàn)實意義[3]。
目前,有關(guān)消費(fèi)者信心指數(shù)的預(yù)測多采用單變量數(shù)據(jù),由于其預(yù)測指標(biāo)體系較為單一,沒有納入更多反映居民群體消費(fèi)的微觀信息,因此,該類預(yù)測方法的預(yù)測精度并不理想[4]。近年來,國內(nèi)學(xué)者將全國網(wǎng)民的互聯(lián)網(wǎng)檢索數(shù)據(jù)作為反映居民群體消費(fèi)傾向的微觀信息,并基于該類數(shù)據(jù)開展了豐富的研究。張濤和劉寬斌認(rèn)為[5],城鎮(zhèn)登記失業(yè)率不能精準(zhǔn)反映當(dāng)前實際就業(yè)情況,而網(wǎng)絡(luò)搜索數(shù)據(jù)能夠反映勞動力市場就業(yè)波動,將其納入失業(yè)率的統(tǒng)計體系有助于更真實的失業(yè)率測算;張玲玲等[6]則將百度搜索數(shù)據(jù)用于旅游業(yè)的客流量,相對于單一使用客流量歷史數(shù)據(jù)或搜索指數(shù)數(shù)據(jù)進(jìn)行預(yù)測的方法,將兩類數(shù)據(jù)共同納入建模體系有助于大幅提高模型的預(yù)測準(zhǔn)確度。
一直以來,有關(guān)消費(fèi)者信心指數(shù)的預(yù)測研究方法多種多樣,如陳雪嬌[7]運(yùn)用ARIMA模型擬合了我國消費(fèi)者信心指數(shù)序列,對消費(fèi)者信心指數(shù)進(jìn)行了事前預(yù)測;黃昶生和喻洪仙[8]運(yùn)用VAR模型分析了國際油價對我國消費(fèi)者信心指數(shù)的影響效果。這一類計量模型通過具體形式的時間序列方程刻畫時間序列數(shù)據(jù)的變化,具有良好的適用性,但這些模型具有諸如平穩(wěn)性假設(shè)、線性關(guān)系假設(shè)等前提的局限性。近年來,一類針對大數(shù)據(jù)的建模理論相繼被提出并得到驗證,最為著名的是機(jī)器學(xué)習(xí),其中針對時間序列數(shù)據(jù)構(gòu)造的長短期記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-term Memory)能夠在長序列中自動搜尋高維變量之間的非線性、動態(tài)交互性特征,因此,LSTM模型在處理高維時間序列數(shù)據(jù)預(yù)測問題時,更能刻畫不同變量之間潛在的函數(shù)關(guān)系,預(yù)測精度也更高。Singh等[9]利用LSTM模型對標(biāo)普500指數(shù)波動率進(jìn)行預(yù)測,發(fā)現(xiàn)LSTM模型對金融時間序列的預(yù)測效果顯著優(yōu)于傳統(tǒng)GARCH模型;楊青和王晨蔚[10]對全球股票指數(shù)進(jìn)行預(yù)測,結(jié)果表明LSTM神經(jīng)網(wǎng)絡(luò)相比SVR、MLP和ARIMA三種模型具有優(yōu)秀的預(yù)測精度且預(yù)測效果穩(wěn)定;唐曉彬等[11]基于網(wǎng)絡(luò)搜索數(shù)據(jù)(US)構(gòu)建LSTM & US模型以預(yù)測消費(fèi)者信心指數(shù),結(jié)果表明引入微觀層面的網(wǎng)絡(luò)數(shù)據(jù)后,LSTM模型的預(yù)測精度有了明顯提升。
盡管將網(wǎng)絡(luò)搜索數(shù)據(jù)用于宏觀經(jīng)濟(jì)分析已有先例,但現(xiàn)有研究多是簡單結(jié)合機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)搜索數(shù)據(jù)對宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測,對于網(wǎng)絡(luò)搜索數(shù)據(jù)為何可用于消費(fèi)者信心指數(shù)預(yù)測這一關(guān)鍵問題缺乏深入探討。此外,將網(wǎng)絡(luò)搜索數(shù)據(jù)作為網(wǎng)民搜索熱度的量化指標(biāo)直接用于宏觀經(jīng)濟(jì)預(yù)測具有噪聲,而這一問題也是現(xiàn)有研究常常忽視的。
基于已有研究存在的不足,本文開展了以下研究:梳理網(wǎng)絡(luò)搜索數(shù)據(jù)和消費(fèi)者信心指數(shù)的機(jī)理關(guān)系,闡述網(wǎng)絡(luò)搜索數(shù)據(jù)的選取及合成過程,并在此基礎(chǔ)上進(jìn)行實證檢驗,首先基于經(jīng)驗?zāi)B(tài)分解算法(EMD)對網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行模態(tài)分解,從而剔除其中的高頻噪聲;其次,基于向量誤差修正模型(Vector Error Correction Model,VECM)檢驗修正的百度綜合指數(shù)(RBI)與消費(fèi)者信心指數(shù)(CCI)之間的引導(dǎo)關(guān)系;最后,將RBI與CCI的歷史數(shù)據(jù)作為LSTM模型的輸入,從而對CCI進(jìn)行預(yù)測建模。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)憑借其記憶單元(Memory Cell)的結(jié)構(gòu)優(yōu)勢,保證了RNN可以學(xué)習(xí)時間序列數(shù)據(jù)中存在的“記憶性”,并將學(xué)習(xí)到的“記憶”予以存儲,從而基于已有“記憶”作出預(yù)測。在RNN的基礎(chǔ)上,Hochreiter和Schmidhuber[12]共同提出了長短期記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM),該模型在RNN的記憶單元內(nèi)部增加3種門控機(jī)制,有針對性地丟棄或保存部分信息,避免了模型過分學(xué)習(xí)長期數(shù)據(jù)[12]。正因如此,深度學(xué)習(xí)LSTM模型被谷歌、微軟等高科技公司廣泛用于各自的AI業(yè)務(wù),并在經(jīng)濟(jì)、金融預(yù)測分析中得到學(xué)術(shù)界的推廣[13]。

圖1是LSTM神經(jīng)網(wǎng)絡(luò)的隱層結(jié)構(gòu),圖中每個矩形稱為一個記憶單元,而每個記憶單元分別對一個時刻的數(shù)據(jù)進(jìn)行處理。在每一個時刻t,記憶單元將對3類輸入的數(shù)據(jù)進(jìn)行訓(xùn)練:即t-1時刻記憶單元的狀態(tài)Ct-1和實際輸出ht-1,t時刻的輸入特征向量Xt。3類信息將通過記憶單元內(nèi)部的3種門控機(jī)制(遺忘門、輸入門、輸出門)加以運(yùn)算,3種門控機(jī)制的計算過程如下:


式中,θ為LSTM模型權(quán)重參數(shù)的集合,Lθ(xi)是模型對xi處理后輸出的預(yù)測值,yi是被解釋變量(因變量)的真實值,i表示第i個樣本。
本文針對百度搜索數(shù)據(jù)這類微觀數(shù)據(jù)展開研究,反映全國大部分消費(fèi)者的消費(fèi)傾向。為探究網(wǎng)絡(luò)搜索數(shù)據(jù)對消費(fèi)者信心指數(shù)的預(yù)測能力,本文借鑒唐曉彬等[11]的方法,分別從東方財富網(wǎng)、百度指數(shù)網(wǎng)獲得了消費(fèi)者信心指數(shù)數(shù)據(jù)與網(wǎng)絡(luò)搜索數(shù)據(jù),數(shù)據(jù)樣本區(qū)間為2011年1月至2020年6月。由于百度搜索指數(shù)每日更新發(fā)布,而消費(fèi)者信息指數(shù)為宏觀月度數(shù)據(jù),故將日度的百度搜索指數(shù)通過加總集成的方式轉(zhuǎn)換為月度序列,使得解釋變量與被解釋變量之間頻率對齊。
根據(jù)消費(fèi)者行為理論,自身欲望是消費(fèi)者消費(fèi)產(chǎn)品或服務(wù)的動機(jī)來源,欲望性則是人的內(nèi)在生理和心理本性,而特定的產(chǎn)品或服務(wù)恰好具有滿足特定消費(fèi)人群欲望的能力[14]。作為理性人的消費(fèi)者在消費(fèi)之前會先產(chǎn)生信息需求,以了解所要消費(fèi)的產(chǎn)品或服務(wù),從而實現(xiàn)消費(fèi)行為的最優(yōu)化選擇,在此基礎(chǔ)上將會產(chǎn)生信息行為,消費(fèi)者的信息行為則體現(xiàn)在為實現(xiàn)其消費(fèi)產(chǎn)生的信息需求從而進(jìn)行的針對產(chǎn)品或服務(wù)的信息查詢、信息選擇和信息使用行為[15]。
互聯(lián)網(wǎng)與移動設(shè)備的普及,也為消費(fèi)者進(jìn)行信息行為提供了全新的途徑——互聯(lián)網(wǎng)檢索。劉偉江和李映橋[16]認(rèn)為消費(fèi)者在互聯(lián)網(wǎng)中檢索的信息可劃分為保險需求、信貸需求、耐用品需求、企業(yè)狀況、能源成本和債務(wù)負(fù)擔(dān)6個部分。消費(fèi)者關(guān)注熱點(diǎn)的變動趨勢均可以通過搜索引擎的關(guān)鍵詞搜索量予以體現(xiàn),不同的關(guān)鍵詞組合能較為全面地反映出不同消費(fèi)群體對某類產(chǎn)品或服務(wù)的滿意度以及對未來經(jīng)濟(jì)形勢的預(yù)期。由于互聯(lián)網(wǎng)數(shù)據(jù)的即時存儲特性,因此該類數(shù)據(jù)具有實時性,有效的關(guān)鍵詞組合可作為預(yù)測消費(fèi)者信心指數(shù)的先行指標(biāo)。
消費(fèi)者信心指數(shù)由多個二級指標(biāo)編制而成,綜合反映了消費(fèi)者對收入水平、消費(fèi)支出、就業(yè)、股市等多個方面的預(yù)期,因此,搜索關(guān)鍵詞的選取不僅應(yīng)符合消費(fèi)者信心指數(shù)的編制原則,還應(yīng)具備全面性、有效性,在多個經(jīng)濟(jì)周期內(nèi)均可作為預(yù)測消費(fèi)者信心指數(shù)的敏感指標(biāo)。
百度公司在中國搜索引擎市場中處于行業(yè)龍頭地位,市場份額占比超過70%。百度公司2019年一季度財報顯示,截至2019年3月份,百度APP日度活躍人數(shù)為1.74億,同時,百度的移動業(yè)務(wù)擴(kuò)展至每月11億部活躍設(shè)備。因此,百度公司提供的網(wǎng)絡(luò)搜索數(shù)據(jù)(即百度指數(shù))完全可以代表全國絕大多數(shù)網(wǎng)民的信息檢索行為。目前,基于網(wǎng)絡(luò)搜索數(shù)據(jù)的宏觀經(jīng)濟(jì)預(yù)測研究中,學(xué)術(shù)界尚未在關(guān)鍵詞選取上達(dá)成統(tǒng)一意見,很難從千萬個關(guān)鍵詞中篩選出最具影響力的組合。參考唐曉彬等[11]對與消費(fèi)者信心關(guān)聯(lián)的搜索關(guān)鍵詞的選取與歸類方法,本節(jié)從5個方面進(jìn)行搜索關(guān)鍵詞的選取:宏觀經(jīng)濟(jì)因素、商品供給、個人財務(wù)狀況、就業(yè)形勢和金融環(huán)境,同時借助百度搜索的關(guān)鍵詞推薦算法,整理得到如表1所示的關(guān)鍵詞庫。

表1 網(wǎng)絡(luò)搜索數(shù)據(jù)初始關(guān)鍵詞庫
以上日度關(guān)鍵詞數(shù)據(jù)進(jìn)一步加總得到月度關(guān)鍵詞數(shù)據(jù)。為進(jìn)一步篩選出有效的關(guān)鍵詞,以皮爾遜相關(guān)系數(shù)±0.6為閾值剔除與消費(fèi)者信心指數(shù)相關(guān)性較低的關(guān)鍵詞,最終保留的關(guān)鍵詞如表2所示。


表2 保留的關(guān)鍵詞
為分析Index與CCI之間的影響關(guān)系,首先從東方財富網(wǎng)獲取了月度消費(fèi)者信心指數(shù)數(shù)據(jù),時間跨度從2011年1月至2020年6月,百度綜合指數(shù)與消費(fèi)者信心指數(shù)的趨勢如圖2所示。Index與CCI呈現(xiàn)高度相關(guān)性,二者的相關(guān)系數(shù)高達(dá)0.88。為進(jìn)一步分析Index是否有助于預(yù)測CCI的未來走勢,本文采取兩類統(tǒng)計預(yù)測模型來驗證這一猜想:首先,采用向量自回歸模型(VAR)或向量誤差修正模型(VECM)分析二者的引導(dǎo)關(guān)系,若Index對CCI存在引導(dǎo)關(guān)系,則可認(rèn)為前者有助于預(yù)測后者的未來趨勢;其次,基于深度學(xué)習(xí)-LSTM神經(jīng)網(wǎng)絡(luò)模型,驗證加入Index后,CCI的預(yù)測精度是否得到提高,若是,則可認(rèn)為Index是預(yù)測CCI的有效因子。

為有效剔除Index的冗余噪聲,選擇Huang等[17]提出的EMD分解方法對序列進(jìn)行分解,便可得到多個彼此正交且平穩(wěn)的子序列IMF,這些子序列代表了原序列在不同時間尺度下的分量,通過將高頻分量予以剔除,則剩余分量是序列中的有效成分。本文使用Python編程語言的PyEMD程序包實現(xiàn)對Index序列的EMD分解過程,分解結(jié)果如圖3所示,序列經(jīng)EMD分解得到了4個分量(IMF1、IMF2、IMF3和趨勢項),4個分量的波動頻率依次遞減。通常認(rèn)為,在使用EMD分解得到的各個分量中,高頻分量是具有噪聲成分的,應(yīng)予以剔除。因此,將IMF1這一最高頻分量剔除,而將其余分量加總集成得到修正的百度綜合指數(shù)(RBI),RBI與CCI的相關(guān)系數(shù)達(dá)到0.91。

檢驗RBI與CCI的引導(dǎo)關(guān)系,即領(lǐng)先或滯后關(guān)系,可采用VAR或VECM模型,檢驗步驟為:對RBI和CCI進(jìn)行ADF平穩(wěn)性檢驗;對RBI和CCI進(jìn)行協(xié)整性檢驗,如E-G協(xié)整檢驗;分別以RBI和CCI作為被解釋變量,驗證二者之間的引導(dǎo)關(guān)系。
若兩個序列均不平穩(wěn)且不存在協(xié)整關(guān)系,則選擇VAR模型;若兩個序列均不平穩(wěn)但存在協(xié)整關(guān)系,則選擇VECM模型。表3給出了RBI和CCI的平穩(wěn)性檢驗結(jié)果。從表3可以看出,RBI和CCI均在5%顯著性水平上拒絕了平穩(wěn)性假設(shè),即二者均為非平穩(wěn)序列;RBI*和CCI*則在5%顯著性水平上接受了平穩(wěn)性假設(shè),故RBI和CCI均為一階單整序列。進(jìn)一步對二者進(jìn)行協(xié)整檢驗,E-G協(xié)整檢驗統(tǒng)計量為-4.1984,P值為0.003,故認(rèn)為二者存在協(xié)整關(guān)系,考慮選取VECM模型驗證RBI和CCI的引導(dǎo)關(guān)系,VECM模型的一般形式如下:

表3 各序列ADF檢驗結(jié)果
其中Δ為一階差分,yt為被解釋變量,p-1為滯后階數(shù),Φ=αβT為2×2維系數(shù)矩陣,Φ的秩決定協(xié)整向量個數(shù),βTyt為誤差修正項,Γj為2×2維系數(shù)矩陣,擾動項εt服從期望為零的條件正態(tài)分布,Ωt是εt的條件方差—協(xié)方差矩陣,α=(α1,α2)T是調(diào)整系數(shù)矩陣,β=(β1,β2)T是協(xié)整系數(shù)矩陣,調(diào)整系數(shù)α1、α2分別反映出CCIt和RBIt偏離長期均衡狀態(tài)時調(diào)整回均衡狀態(tài)的速度及方向,進(jìn)而判斷出CCIt與RBIt之間的引導(dǎo)關(guān)系:
1)當(dāng)α1=0且α2=0,說明CCIt和RBIt不存在價格引導(dǎo)關(guān)系;
2)當(dāng)α1=0且α2≠0,說明CCIt為弱外生變量,CCIt引導(dǎo)RBIt;
3)當(dāng)α1≠0且α2=0,說明RBIt為弱外生變量,RBIt引導(dǎo)CCIt;
4)當(dāng)α1≠0且α2≠0,說明CCIt和RBIt存在雙向價格引導(dǎo)關(guān)系。
VECM模型的最優(yōu)滯后階數(shù)選擇是影響檢驗結(jié)果的關(guān)鍵因素,本文綜合考慮多個信息準(zhǔn)則,確定VECM模型的最優(yōu)滯后階數(shù)為4。VECM模型的定階結(jié)果如表4所示,根據(jù)AIC、FPE和HQIC信息準(zhǔn)則的最優(yōu)階數(shù)均為4,故使用VECM(4)模型檢驗變量之間的引導(dǎo)關(guān)系,誤差修正項的檢驗結(jié)果如表5所示。表5的檢驗結(jié)果分別表示CCI和RBI偏離時,將其調(diào)整回長期均衡的速度及方向,其中CCI方程的誤差修正項系數(shù)為-0.220,在1%顯著性水平下顯著,可認(rèn)為修正的百度綜合指數(shù)RBI對消費(fèi)者信心指數(shù)CCI具有領(lǐng)先關(guān)系,即RBI引導(dǎo)CCI;而RBI方程的誤差修正項系數(shù)為929.211,在1%顯著性水平下不顯著,因此認(rèn)為CCI不引導(dǎo)RBI。

表4 VECM模型的定階結(jié)果

表5 誤差修正項的檢驗結(jié)果
為了分析RBI對預(yù)測CCI是否有效,本文通過對比RBI加入LSTM模型前后的預(yù)測精度是否提高來判斷其有效性。
3.3.1 數(shù)據(jù)處理
在構(gòu)造LSTM的輸入數(shù)據(jù)集時,需要設(shè)定數(shù)據(jù)的時間步參數(shù),鑒于VECM定階為4,故本文設(shè)定該參數(shù)也為4,構(gòu)造新的數(shù)據(jù)格式{x1,t-4,x1,t-3,x1,t-2,x1,t-1,x2,t-4,x2,t-3,x2,t-2,x2,t-1:yt}。由于引入滯后項會導(dǎo)致缺失值的出現(xiàn),故剔除缺失樣本,最終得到110個完整樣本,時間跨度從2011年2月至2020年3月,并將前90個數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練LSTM模型的權(quán)重參數(shù),后20個數(shù)據(jù)作為測試集,用于篩選出預(yù)測性能最好的模型。此外,為消除數(shù)據(jù)量綱差異性,故對數(shù)據(jù)集進(jìn)行歸一化處理:x*=(x-xmin)/(xmax-xmin),其中,x*是歸一化后的結(jié)果,xmin為變量x的最小值,xmax為變量x的最大值[18]。
3.3.2 模型評價指標(biāo)
LSTM模型在訓(xùn)練完成后,需要借助相關(guān)評價指標(biāo)評測其擬合及預(yù)測效果,分別有:擬合優(yōu)度R2、平均絕對誤差MAE和均方誤差MSE[19]:

3.3.3 模型訓(xùn)練

基于Python編程語言的Tensorflow框架建立雙隱含層的LSTM深度學(xué)習(xí)模型,該模型設(shè)置每層節(jié)點(diǎn)數(shù)為200個;所有權(quán)重都基于高斯分布隨機(jī)生成,而偏置項初始值設(shè)為零;所有激活函數(shù)都選用Relu函數(shù);學(xué)習(xí)率的初始值為0.001且以指數(shù)形式衰減;在對參數(shù)進(jìn)行迭代更新時,選擇Adam優(yōu)化函數(shù),β1=0.9,β2=0.999,ε=10-8,迭代次數(shù)為2000。此外,為了避免LSTM模型參數(shù)過多導(dǎo)致過擬合的發(fā)生,選擇在每個隱含層后添加失活率為0.5的Dropout機(jī)制,這是一種對神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行隨機(jī)斷開的機(jī)制,可有效防止模型在訓(xùn)練集、測試集中的預(yù)測效果出現(xiàn)較大差異。圖4展示了加入歷史RBI、CCI的數(shù)據(jù)后,LSTM模型迭代過程的誤差變化趨勢。如圖4所示,在未對LSTM模型進(jìn)行迭代之前,訓(xùn)練集損失與測試集損失差異較大,但隨著迭代過程的進(jìn)行,約在600次迭代后,訓(xùn)練集與測試集的損失便開始收斂,這說明模型已經(jīng)達(dá)到“穩(wěn)健”狀態(tài),并未出現(xiàn)模型嚴(yán)重過擬合的問題,可將該模型用于樣本外預(yù)測。
圖5和圖6分別展示了在加入RBI前后,LSTM模型對CCI的預(yù)測結(jié)果。圖5中,垂直虛線左側(cè)部分展示了對90個月的訓(xùn)練樣本進(jìn)行擬合的結(jié)果,可以發(fā)現(xiàn):在未加入RBI之前,盡管LSTM模型已經(jīng)較好地擬合出CCI的整體走勢,但并未準(zhǔn)確預(yù)測出CCI的突變點(diǎn)(如2011—2015年);在20個月的測試期內(nèi),若LSTM模型僅僅利用歷史CCI預(yù)測當(dāng)期CCI,其預(yù)測結(jié)果也是不夠“穩(wěn)健”的,即并未準(zhǔn)確預(yù)測出CCI的轉(zhuǎn)折點(diǎn)。圖6中,在加入百度綜合指數(shù)RBI后,LSTM模型對當(dāng)期CCI的預(yù)測效果得到顯著提高,無論在訓(xùn)練集、測試集中,RBI指數(shù)都有效地幫助了LSTM模型定位CCI轉(zhuǎn)折點(diǎn),預(yù)測效果更高,這一結(jié)果也說明了網(wǎng)絡(luò)搜索數(shù)據(jù)是消費(fèi)者信心指數(shù)的有效先行指標(biāo)。

表6給出了加入RBI前后,LSTM模型在測試集中的各項預(yù)測性能指標(biāo)。從表中可以看出,將RBI引入CCI的預(yù)測,大幅提高了模型一的擬合優(yōu)度,這一表現(xiàn)與圖5展示的結(jié)論一致;在加入RBI后,模型二相較于模型一,其平均絕對誤差下降了45.57%,均方誤差下降了73.33%。實證結(jié)果表明,互聯(lián)網(wǎng)搜索數(shù)據(jù)可以作為CCI的先行指標(biāo),該類微觀信息可有效提高CCI的預(yù)測精度。

表6 加入RBI前后LSTM模型在測試集中預(yù)測性能
本文使用EMD分解算法針對百度指數(shù)高噪聲的問題進(jìn)行降噪處理,并運(yùn)用VECM模型檢驗了修正的百度綜合指數(shù)RBI與消費(fèi)者信心指數(shù)CCI之間的引導(dǎo)關(guān)系,在VECM檢驗結(jié)論的基礎(chǔ)上使用深度學(xué)習(xí)方法構(gòu)建LSTM和RBI & LSTM模型,并對CCI進(jìn)行預(yù)測。本文主要研究結(jié)論如下:
第一,剔除噪聲信號的百度綜合指數(shù)與CCI的統(tǒng)計相關(guān)性更強(qiáng)。本文將具有高噪聲的最高頻分量剔除,將其余分量加總集成得到修正的百度綜合指數(shù)RBI,修正后的RBI指數(shù)與消費(fèi)者信心指數(shù)CCI的相關(guān)系數(shù)達(dá)到0.91。
第二,百度指數(shù)引導(dǎo)CCI,但CCI并不引導(dǎo)百度指數(shù)。CCI和RBI偏離時,將其調(diào)整回長期均衡的速度及方向,前者的誤差修正項系數(shù)為-0.220,在1%顯著性水平下顯著,因此認(rèn)為百度綜合指數(shù)RBI對消費(fèi)者信心指數(shù)CCI具有領(lǐng)先關(guān)系。
第三,加入百度指數(shù)后,RBI & LSTM模型對CCI的預(yù)測精度更高,相較于LSTM模型,前者預(yù)測時的平均絕對誤差下降了45.57%,均方誤差下降了73.33%。
首先,互聯(lián)網(wǎng)搜索關(guān)鍵詞的選取還有待完善。本文從宏觀經(jīng)濟(jì)因素、商品供給、個人財務(wù)狀況、就業(yè)形勢和金融環(huán)境5個維度選取互聯(lián)網(wǎng)搜索關(guān)鍵詞,還可進(jìn)一步擴(kuò)大關(guān)鍵詞搜索范圍,以豐富預(yù)測模型的數(shù)據(jù)維度。同時,還需進(jìn)一步降低互聯(lián)網(wǎng)搜索關(guān)鍵詞選取的主觀性,關(guān)鍵詞選取的數(shù)量大小、類別是否單一等因素都會影響此類微觀數(shù)據(jù)的測度方式,因此對于互聯(lián)網(wǎng)搜索關(guān)鍵詞選取方面的研究仍有很多改進(jìn)的空間。
其次,互聯(lián)網(wǎng)搜索引擎的選擇還有待進(jìn)一步豐富。本文使用的網(wǎng)絡(luò)搜索引擎是百度搜索,未包含互聯(lián)網(wǎng)搜索平臺,例如:神馬搜索、搜狗搜索等。這部分搜索引擎所占市場份額較低,但其搜索數(shù)據(jù)同樣對消費(fèi)者信心指數(shù)的預(yù)測分析產(chǎn)生一定影響。因此,未來對于互聯(lián)網(wǎng)搜索數(shù)據(jù)的研究方向不應(yīng)該僅限于某一特定搜索引擎的數(shù)據(jù),要對各種搜索引擎的數(shù)據(jù)進(jìn)行綜合,這將有益于提高消費(fèi)者信心指數(shù)的預(yù)測精度[20]。
最后,研究數(shù)據(jù)來源的選擇同樣有待豐富完善。本文的研究僅包括互聯(lián)網(wǎng)搜索數(shù)據(jù),還可進(jìn)一步將論壇交流主題、新聞咨詢?yōu)g覽及網(wǎng)民社交媒體發(fā)表動態(tài)的話題等互聯(lián)網(wǎng)信息的數(shù)據(jù)應(yīng)用于對消費(fèi)者信心指數(shù)的預(yù)測分析。因此,將多種類平臺的消費(fèi)者互聯(lián)網(wǎng)行為數(shù)據(jù)指標(biāo)引入消費(fèi)者信心指數(shù)的預(yù)測研究也是未來的方向之一。