王書平 盧子晗 冀承秀
摘 要:網絡搜索數據是研究我國宏觀經濟現象的重要微觀信息依據。本文從需求、供給與政策三方面選取和篩選關鍵詞合成網絡搜索指數,并與我國GDP進行相關性研究。結果表明:網絡搜索指數與GDP的相關性較高,且兩者存在長期均衡關系與短期誤差修正機制,當GDP逐漸偏離均衡,將會以1~2個月的調整速度從非均衡態過渡到均衡態;網絡搜索指數的增長對我國GDP有促進作用。
關鍵詞:網絡搜索數據;GDP;VAR模型;主成分分析;宏觀經濟
本文索引:王書平,盧子晗,冀承秀.<變量 2>[J].中國商論,2024(06):-118.
中圖分類號:F123 文獻標識碼:A 文章編號:2096-0298(2024)03(b)--04
GDP(國內生產總值)是體現一國宏觀經濟運行情況的重要指標。當前,我國經濟已由高速增長階段轉向高質量發展階段,但國內外制約其發展的不確定因素增多,給宏觀經濟帶來了較大的下行風險,因而亟需高效準確的宏觀經濟預警數據幫助研判對策。網絡搜索數據是近年來新興的一種能夠準確記錄網民在互聯網上搜索活動的指數化數據源。第50次《中國互聯網絡發展狀況統計報告》顯示,截至2022年6月,搜索引擎利用率為78.2%,可以看出互聯網用戶是我國目前經濟活動中最主要的參與者,也是宏觀經濟的微觀基礎,網絡搜索量則是其把信息當作決策基礎的一種數據表現。基于互聯網數據實時更新的特點,將這些網絡搜索數據利用起來,可以及時有效地了解經濟運行狀況,分析我國所處的經濟周期狀態,同時其作為一種新型的數據資源,還可為國家戰略發展和其他各領域的研究提供思路。
利用網絡搜索數據來研究宏觀經濟問題已成為學者們關注的熱門課題,主要體現在消費指標預測、社會事件監測等領域,側面反映出運用網絡搜索數據開展研究的可行性(Fu, Dong, 2018)[1]。在網絡搜索數據預測GDP的研究中,部分學者同時運用官方統計數據和網絡搜索數據,構建包含有兩種數據的混頻預測模型(G?tz, Knetsch, 2019;張偉等,2020)[2-3],也有部分學者采用兩步法原則,先通過官方統計數據選擇最優模型,再加入網絡搜索數據從而得到最終預測模型(劉濤雄和徐曉飛,2015)[4]。關于網絡搜索數據與經濟指標的關系,張崇等(2012)揭示了網絡搜索數據與CPI存在協整關系 [5]。現有文獻大多集中于研究網絡搜索數據對GDP的預測作用,較少文獻探討GDP與網絡搜索數據的關聯機制。本文以我國季度GDP為研究對象,分析網絡搜索數據與GDP的變化趨勢和相互作用,說明用戶的網絡信息搜索對GDP造成的影響,為更高效預測GDP走勢提供參考意義。
1 理論分析
GDP構成因素的分析可從需求側和供給側兩方面展開。需求側從“拉動國民經濟的三駕馬車”——消費、投資和凈出口入手,三者分別體現內部需求、財政投入和外部需求。供給側以經濟增長理論和柯布-道格拉斯生產函數為基礎,從勞動力、資本、技術三個方面反映國民經濟增長動力。由此可見,需求側體現GDP的靜態構成,供給側體現GDP的動態增長,故有必要將兩方面結合進行分析。
基于網絡搜索數據監測并分析社會經濟活動的研究在國內外已取得了較多成果,該方法的主要原理是捕捉消費者對微觀經濟活動的關注行為,通過對蘊含用戶意圖的關鍵詞搜索數據匯總分析形成對宏觀指標的監測與預測。百度作為我國最大的搜索引擎,記錄了我國網民行為數據,形成了以百度指數為核心的數據共享平臺。
宏觀經濟形勢影響著搜索引擎用戶對經濟活動熱點的關注,消費者或生產者在開展經濟活動前,需要結合宏觀經濟形勢和行業經濟特征為實施購買或投資決策提供判斷依據。以投資為例,城鎮住房價格水平的波動或住房政策調整將吸引投資者在網絡上進行搜索活動,了解相關政策和行業形勢變化;同時,搜索引擎用戶自身對微觀經濟活動的關注也將產生對宏觀經濟發展的影響。消費者或生產者通過搜索活動作出的購買或生產決策將影響相關行業的發展動力,從而影響未來走勢。以勞動力市場為例,用戶對就業市場不同職位關注的偏好將影響相關行業的人才流入和未來發展,從而對宏觀經濟的總量和結構造成潛在影響。
目前,利用網絡搜索數據進行對GDP的相關性分析的研究還較少,對關鍵詞的篩選依據也沒有公認的標準。此外,由于時代背景差異,我國經濟在十九大以來進入高質量發展階段,宏觀經濟增速變慢,宏觀經濟結構也不斷改善。供給側結構性改革、經濟發展雙循環戰略等的提出將作為選取政策環境維度關鍵詞時的部分參考依據。
2 實證分析
2.1 數據來源與預處理
本文旨在研究網絡搜索數據與我國GDP的相關性,采用的數據主要分為兩部分:一部分是我國季度GDP值,該數據選自國家統計局;另一部分為網絡搜索關鍵詞,該數據選自百度指數官方網站。為了獲取更為全面的網民搜索行為數據,本文所選取的關鍵詞的搜索指數,既包括PC端搜索指數(2006年開始),也包括移動端搜索指數(2011年開始),因而樣本跨度為2011Q1-2022Q4。
網絡搜索關鍵詞的選取按照以下步驟進行:
(1)選取核心網絡搜索關鍵詞。根據現代經濟學的基本思路,對一國或一地區的宏觀經濟發展狀況可以從供需兩方面進行分析。基于國民經濟核算與經濟增長理論,宏觀經濟發展狀況在需求端主要受居民消費、投資和凈出口的影響,在供給端主要受勞動力、資本和技術的影響,且考慮到上文中采用的數據樣本為2011年至今的數據,我國經濟從該時期逐步進入新常態的發展時期,宏觀經濟增速變慢,經濟結構也不斷調整,所以在選擇關鍵詞數據上也充分考慮到我國宏觀經濟增長的政策條件。因此,本文將從需求、供給與政策三方面來選取網絡搜索關鍵詞。
(2)拓展網絡搜索關鍵詞。根據核心網絡搜索關鍵詞的分類,對各類關鍵詞進行拓展以獲得更全面且豐富的信息,結合百度指數的關鍵詞推薦功能和需求圖譜,最終將初選關鍵詞擴充到148個。
(3)數據預處理。首先,排除未被百度收錄和指數較低的關鍵詞;其次,由于百度指數關鍵詞數據是日度數據,而國家統計局公布的是GDP季度數據,需要把日度搜索數據轉換成季度平均搜索數據;最后,為消除短期波動,采用三期移動平均對百度指數數據進行平滑處理。
(4)篩選網絡搜索關鍵詞。利用時差相關分析法計算各個關鍵詞與GDP之間的時差相關系數,考慮到后續建模時樣本容量與變量個數的關系,本文剔除掉與GDP相關系數小于0.7且滯后于GDP數據變化的關鍵詞指標。最終選取關鍵詞42個。部分關鍵詞如表1所示。
2.2 網絡搜索指數的合成
為解決在使用網絡搜索數據進行綜合指標合成過程中共線性較難消除、指標權重不能合理確定等問題,本文基于數據降維的思想,引入主成分分析方法來構建綜合指數。
首先,對原始數據進行KMO和Bartlett檢驗,發現KMO值為0.680,Bartlett球形度檢驗的顯著性值p<0.001,表明數據的內關聯性很高,有助于進一步開展主成分研究。其次,運用特征值大于1的提取方法,提取5個主成分,其方差累計貢獻率為91.802%,即5個主成分能表示原來42個指標91.802%的信息。最后,以每個主成分所對應的特征值和得分矩陣為基礎,得出各個主成分和綜合主成分值,從而編制出網絡搜索指數F(見式(1))。主成分得分如表2所示。
通過比較合成的網絡搜索指數F和我國各季度GDP的真實數值(見圖1),發現 F的變化趨勢和GDP的變化趨勢基本一致,經皮爾遜相關系數檢驗,GDP和網絡搜索指數F之間的相關性達到0.944。基于此,本文建立向量自回歸(VAR)模型,深入探討兩者之間的關系。
2.3 網絡搜索指數與我國GDP相關性的實證研究
(1)平穩檢驗及協整檢驗。本文選取的網絡搜索數據和GDP數據的長度均為2011Q1-2022Q4,考慮到直接使用非平穩的時間序列數據進行實證分析會造成偽回歸,因此利用ADF方法對樣本的平穩度進行單位根檢驗,并以此來確定序列單整階數。研究發現,所有變量都在5%的顯著性水平下二階差分平穩,即二階單整,均滿足協整檢驗的條件。
為了進一步驗證網絡搜索指數F與GDP之間的長期穩定性,利用Engle和Granger 共同提出的兩步協整檢驗法。首先建立了網絡搜索指數F與GDP之間的回歸方程,并對所生成的殘差序列進行了單位根檢驗。結果表明,殘差單位根檢驗的t統計量為-3.7743,其相應的p<0.001,即殘差序列為平穩序列。由此可以得出,網絡搜索指數F與GDP之間存在著協整關系,協整向量為(1,-13031.95),協整方程為:
式(2)刻畫了序列F與序列GDP的長期均衡關系。為了考察網絡搜索指數F與GDP之間的動態關聯,構建誤差修正模型。研究結果表明,模型估計結果的F統計量相應的p<0.001,從而說明了模型估計整體上是顯著的。誤差修正項ECM(-1)的系數估計值為-1.7495,也就是存在反方向的誤差修正機制,對應的P值為0.000<0.05,即在5%的檢驗水平下是顯著的。因此,為了保持網絡搜索指數F與GDP之間的長期均衡狀態,當期會用1~2個月的時間來修正上一時期兩者間的不平衡,使之回歸到均衡態(1/1.7495≈0.57季度)。
(2)構建VAR模型。要探討網絡搜索指數F和GDP之間的動態影響,還需要通過脈沖響應函數來分析兩者之間的沖擊效應。在進行脈沖響應之前,首先要建立VAR模型,然后確定最優的滯后階。以信息準則為依據,考察LR、FPE、AIC、SC、HQ值,得出最優滯后階數為3,即建立VAR(3)模型。滯后檢驗結果見表3。
對VAR模型做3次滯后階的AR特征多項式逆根圖,結果顯示單位根全部在單位圓內,表明所建立的VAR(3)模型已經相當穩定。
(3)脈沖響應函數分析。在圖2中,橫坐標指沖擊作用的滯后時間,縱坐標指脈沖響應函數的幅度值,圖2中間的實線指脈沖響應函數,上下的兩條虛線指兩倍標準差的偏離值。如圖2所示,當給網絡搜索指數F一個正向沖擊后,前4期GDP會有一個正向效應,即在這個期間網絡搜索指數的增長會對我國GDP有促進作用。究其原因,生產者和消費者出于滿足決策需要而進行的網絡信息搜索行為,可以直接反映出市場主體對GDP的預期,預期越高,各市場主體對GDP信息的需求越大,其搜索的動機也就越大。如圖3所示,當給GDP一個正向沖擊后,同樣地,在前4期網絡搜索指數F的沖擊始終是正向的,并在以后時期趨于在零值上下波動。
3 結語
本文首先對網絡搜索數據與我國GDP的相關性進行了理論分析,并揭示了基于網絡搜索數據監測GDP的內在機理,進而通過實證對其相關性進行了檢驗。得出以下結論:網絡搜索指數F與我國GDP之間關系密切,相關系數高達0.944,且兩者既存在長期均衡關系,又存在短期誤差修正機制,即為保持網絡搜索指數F與GDP的長期均衡狀態,當期會用1~2個月的時間來修正上一時期兩者間的不平衡,使之回歸到均衡態。此外,當給網絡搜索指數F一個正向沖擊后,前4期GDP會有一個正向效應,即在這個期間網絡搜索指數的增長會對我國GDP有促進作用。
本文通過理論與實證分析表明,關鍵詞數據所構成的網絡搜索指數F與GDP存在高度相關性。因此,可以利用網絡搜索指數來預測GDP,從而提高GDP預測的時效性。
參考文獻
Fu L, Dong Y. Research on internet search data in Chinas social problems under the background of big data[J]. Journal of Logistics, Informatics and Service Science, 2018, 5(2): 55-67.
Thomas B. G?tz and Thomas A. Knetsch. Google data in bridge equation models for German GDP[J]. International Journal of Forecasting, 2019, 35(1): 45-66.
張偉, 田金方, 曹燦. 基于混頻大數據的宏觀經濟總量實時預測研究[J]. 宏觀經濟研究, 2020(2): 15-29.
劉濤雄, 徐曉飛. 互聯網搜索行為能幫助我們預測宏觀經濟嗎?[J]. 經濟研究, 2015, 50(12):? 68-83.
張崇, 呂本富, 彭賡,等. 網絡搜索數據與CPI的相關性研究[J]. 管理科學學報, 2012, 15(7): 50-59+70.
何強, 董志勇. 利用互聯網大數據預測季度GDP增速的方法研究[J]. 統計研究, 2020, 37(12): 91-104.