●曹亞芳
國內外研究表明網絡搜索數據與社會經濟行為存在較強的相關性。網絡搜索數據可以準確地反映真實經濟情況。用戶在關注某一經濟現象,或在進行某一經濟行為前,會針對性地在搜索引擎上進行搜索,以了解關注點的各方面信息。這種自發的搜索行為,對應著即時、準確的需求,而搜索痕跡則以一些網絡搜索關鍵詞的形式表現出來。每個人在搜索相應關鍵詞的同時,反映出關鍵詞背后的經濟學發展態勢。關鍵詞的搜索量即是我們所要使用的網絡搜索數據。
使用搜索引擎記錄的關鍵詞進行預測具有預測精度較高、數據獲取及時、樣本統計意義明顯等優勢。然而作為非結構數據,搜索數據存在維度較大、信息噪音大等缺點。關鍵詞之間也存在較強的共線性,直接利用搜索數據做分析存在數據處理和模型選取上的復雜性,效果也不理想,因此需要對數據進行合成并構建指數。通過大數據技術,利用網絡搜索數據,構建宏觀經濟大數據指數進行分析和預測,有效提高宏觀經濟預測預警的效果。
同理,通貨膨脹的信息會通過利率調整、消費品價格上漲等現象,以及報紙、廣播電視、互聯網等媒介渠道傳播。關于通貨膨脹信息搜索反映了主體對通貨膨脹的預期。在預期較高時,市場主體對通貨膨脹的信息需求也就越旺盛,搜索動機也就越強烈。因此,通貨膨脹的關鍵詞搜索頻率可作為度量通貨膨脹預期的直接指標。
鑒于網絡搜索指數的特性以及指數的成熟性,本文將以百度指數來衡量網絡搜索行為。百度指數是以用戶搜索量和媒體檢索量作為基礎數據,以關鍵詞為統計對象,同時通過防作弊等算法的過濾,分析計算出各個關鍵詞在百度網頁搜索頻次的加權和,經過標準化處理,形成的以每日為頻率的指數。百度指數與搜索人數及次數高度相關。
基于百度指數,通過搜索引擎相關詞條,根據目標指數的影響因素及構成從宏觀形勢、微觀供求等方面選取初始關鍵詞,利用百度需求圖譜推薦等關鍵詞搜索功能,精確選擇與初始關鍵詞相關的詞。對這些關鍵詞進一步搜索整理,篩選出重復的、不相關的、無意義的關鍵詞。確定時間范圍、采集區域、采集設備,采集這些關鍵詞的搜索指數。百度搜索指數均為日度數據,需要根據實際月份對數據進行預處理,將數據合并為月數據,利用三項移動平均法進行平滑,消除季節影響。根據目標指數的數據類型對搜索數據進行轉化。
此時,獲取的關鍵詞極為龐雜,需要選用合適有效的方法對其進行挑選。計算獲得的關鍵詞的搜索數據與目標指數的皮爾遜相關系數,或進行時差相關分析、K-L 信息量計算、峰谷對應等方法進行相關性分析,選取相關系數大于0.3 的關鍵詞作為核心關鍵詞。
本文擬采用主成分分析法對指數進行構建。核心關鍵詞不可避免地存在相關性,其搜索數據龐大且存在共線性。主成分分析法可以對數據進行降維合成,將相關性很高的變量轉化為相互獨立或不相關的變量,并用少數幾個變量來解釋數據中的大部分變異。
首先,根據通貨膨脹的經濟含義及影響因素選取反映經濟的初始關鍵詞。通貨膨脹是指經濟中的大多數商品和勞務的價格在一段時間內連續普遍上漲,我們選取如“貨幣,財政收入、利息,農產品價格,蔬菜”等關鍵詞。在百度指數中輸入相應的初始關鍵詞,點擊需求圖譜,根據相關性的強弱,得到CPI,財政赤字,貨幣貶值、通貨緊縮,存款準備金率,金融危機,物價上漲、大蒜等關鍵詞共計100 個。
其次,對初始關鍵詞進行搜索及整理,刪除重復的、數據獲得困難的、無意義的關鍵詞。經篩選,剩余關鍵詞30 個。以2015年1 月至2019 年12 月為時間維度,獲取30 個關鍵詞的山西地區百度搜索日數據,并按照月份整理為月數據,利用三項移動平均對數據進行平滑消除其周期性影響,再將數據進行同比轉化。轉化后,時間維度縮小為48 個月度。
計算各關鍵詞與山西省居民消費價格指數的皮爾遜相關系數。該系數可反映二者之間相關關系的密切程度,其絕對值越接近1,表示線性關系越強。經計算,最終選取相關系數大于0.3 的先行關鍵詞共9 個(見表1)。

表1 核心關鍵詞相關系數表

圖1 居民消費價格指數

圖2 美國經濟
從圖1、圖2 可以看出居民消費價格指數和美國經濟的搜索數據的走勢關系。

表2 解釋的總方差

表3 成分矩陣a

表4 成分得分系數矩陣
主成分分析法可以實現降維的作用,將多指標轉化為少數幾個合成指標。該方法可以消除網絡搜索數據間存在的共線性問題,剔除變量的多元共線性影響。利用SPSS 軟件,得到各因子的貢獻率、累計貢獻、成分矩陣和得分矩陣,選取特征值大于1的成分為主成分。如表2 所示。
以各主成分所對應的特征值占所提取主成分總的特征值之和的比例作為權重,計算主成分綜合模型,如下式。根據得分矩陣獲得各主成分和綜合主成分值,得到網絡通貨膨脹指數F。
F=0.56F1+0.28F2+0.16F3
將居民消費價格指數(Ct)和網絡通貨膨脹指數(Ft)取對數,分別為LnCt和LnFt,檢驗平穩性。經單位根檢驗,兩序列均不平穩,差分后的ADF 檢驗結果平穩,說明兩序列均為一階單整序列,結果見表5。

表5 單位根檢驗結果
用協整關系檢驗法檢驗二者之間是否存在長期穩定的關系,建立一階自回歸時間序列模型:
lnCt=c+αlnFt+μt
回歸系數等均通過檢驗。取得殘差序列,經單位根檢驗,殘差序列平穩。

從結果來看,說明二者存在協整關系。建立差分模型dlnFt前一期與dlnCt 當期回歸結果良好,說明網絡通貨膨脹指數對通貨膨脹有預警作用。