黃蓉 陳曉衛

摘 要:網絡搜索數據包含了社會各個領域的興趣和關注點,本文根據支出法中的微觀經濟要素來研究網絡搜索數據與我國國內生產總值(GDP)之間的相關性,以及兩者之間的先行滯后關系。關鍵詞數據與GDP數據均為季度數據,先對兩者進行季節調整;再對參與分析的21組網絡搜索關鍵詞數據做主成分分析,共提取出三個主成分,占關鍵詞總方差的86.94%;然后根據三個主成分構建網絡搜索綜合指數。將網絡搜索綜合指數與標準化之后的GDP數據做分析發現兩者存在長期穩定的協整關系,Granger因果關系檢驗的結果說明網絡搜索綜合指數是標準化之后的GDP數據的Granger原因,對于GDP的預測有一定的幫助。
關鍵詞:網絡搜索數據;GDP;季節調整;主成分分析;協整關系
1 引言
根據2014年1月中國互聯網絡信息中心(CNNIC)公布的《2013年中國網民搜索行為研究報告》指出:2013年,國內搜索行業呈現多元化的發展趨勢,新進入的搜索引擎和現有搜索競爭較為激烈,不斷細分的搜索市場和性能持續提升的終端設備正改變著用戶的搜索習慣。綜合搜索仍然是最基本的搜索工具,過去半年,搜索網民使用過的綜合搜索網站的比例達98.0%,此外,通過購物網站、視頻網站、微博進行過搜索的網民比例也在50%以上。CNNIC每半年對網民數量進行統計,結果顯示,截止2014年6月30日,我國網民數量達到6.32億,接近總人口的50%。從中國互聯網絡信息中心2013年出版的《第33次中國互聯網絡發展狀況統計報告》可以得到,我國網民年齡結構中,10-59歲的階段占據了總人口的絕大部分,這部分人群不僅是網絡的常客,也是社會經濟發展的主力軍,他們擁有很強的生產能力及消費能力,因此通過網絡搜索數據探討網民的消費活動,研究其消費方式及主要消費內容,通過產品形態來驗證網絡搜索數據行為與GDP的相關性分析是具有現實意義的。
2 概念框架的構建
本文主要把生產者生產及居民消費過程劃分為需求、信息搜尋、決策三個過程,生產者有投資需求之后,通過網絡搜索投資相關信息,對其生產決策將產生一定的影響,同樣地,消費者有消費需求之后,通過網絡搜索消費相關關鍵詞,能夠對其消費決策產生一定的影響,然而生產和消費影響市場價格,消費者與生產者也可通過網絡搜索信息來了解當期市場價格。
總的來講,不論是消費還是生產,不論是市場價格體系還是宏觀經濟體系,均與網絡搜索有很強的相關性,因此通過網絡搜索關鍵詞,分析關鍵詞的指數變化與GDP的變化是否具有相關關系是具有一定的理論基礎的。
3 研究方法及流程
主要對網絡搜索數據與我國GDP的相關性進行研究,通過用戶運用搜索引擎搜索相關關鍵詞這一方式,來分析其能夠對國家GDP產生什么樣的影響。
簡單來講,研究過程為:數據獲取、數據處理、數據分析三方面。
(一)數據獲取
獲取數據是分析的基礎,數據獲取首先要選用搜索引擎,縱觀全球,運用最多的引擎是谷歌,但在我國,由于網絡限制的影響,用戶運用最多的是百度引擎,因此運用百度搜索數據來對GDP的趨勢進行預測是更符合實際的。
第二,獲取數據需要對關鍵詞初選并進行挖掘。根據GDP的定義、作用、影響因素等,運用Google correlate 關鍵詞挖掘工具和SEO 關鍵字挖掘工具以及ICTCLAS 漢語分詞系統三者結合選出與GDP相關系數最大的關鍵詞,本文共初選關鍵詞33個。
第三,關鍵詞指標獲取。將第二步獲取的33個關鍵詞導入百度指數,搜索2011年初至2014年末的關鍵詞月度指標共48組。
第四,GDP季度數據獲取。在國家統計局公布的歷年數據中,查找2011年初至2014年末的我國GDP季度數據共16組。
(二)數據處理
由于國家統計局公布的GDP數據最小單位為季度數據,并且是相對數據,因此需要將前期獲取的48組關鍵詞月度數據數據轉化為季度數據,而且百度指數上的關鍵詞指標是絕對指標,所以還需將關鍵詞數據轉化為相對指標,才能夠與GDP數據進行分析。
(三)數據分析
由于GDP數據具有很強的時間性,因此運用Eviews對GDP及關鍵詞數據進行時間序列分析,但若將所選中的33個關鍵詞全部導入作為變量,可能會很復雜,因此運用SPSS軟件先對關鍵詞數據進行主成分分析,提取出具有代表性的幾個主成分,再與GDP進行相關性分析。
4 網絡搜索數據與GDP相關性實證分析
(一)關鍵詞選取與預處理
不同的網絡搜索關鍵詞在網絡上會有不同的關鍵詞信息,但選取關鍵詞不能僅僅靠平時的經驗和熟悉程度,而要選擇科學的取詞方法來進行關鍵詞挑選。前文已經提到,選取關鍵詞采用Google correlate 關鍵詞挖掘工具、SEO 關鍵字挖掘工具和ICTCLAS 漢語分詞系統三者結合來進行關鍵詞挖掘,從宏觀方面選擇了經濟發展形勢、企業投資、勞動報酬、就業率等關鍵詞,根據以上宏觀因素,再利用百度指數關鍵詞推薦功能,選擇與影響我國GDP的宏觀因素相關的關鍵詞共有1300多個,剔除重復及數據量較少的關鍵詞,組成初始關鍵詞組,共有101個。將初始關鍵詞組逐個導入百度指數之中,剔除百度指數中沒有收錄而且每月搜索指數較低的關鍵詞,最終選取了33個關鍵詞來進行分析。
(二)網絡搜索綜合指數和季節調整及標準化之后的GDP數據的協整性
1.序時圖判斷平穩性,對兩組數據做序時圖,發現兩者均存在明顯的線性趨勢,需進行單整檢驗。
2.對兩組數據進行單整檢驗,首先分別對GDP數據與X數據進行ADF檢驗,發現,兩者都是一階單整。
3.Johansen Cointegration Test檢驗兩者是否存在協整關系,結果發現不能拒絕存在一個協整關系,具體見下表:
(三)網絡搜索綜合指數和季節調整及標準化之后的GDP數據的Granger因果檢驗
經驗證GDP與X存在協整關系,對兩者做格蘭杰因果檢驗,發現X does not Granger Cause GDP的概率為0.037, GDP does not Granger Cause X的概率為0.9269說明網絡搜索綜合指數X是季節調整及標準化之后的GDP數據的Granger原因,對GDP預測有幫助。
5 結論與不足之處
本文先從理論上分析網絡搜索數據與GDP發展的相關性,進一步分析網絡搜索數據與GDP發展具有相同的增長趨勢,再通過實證分析對其相關性進行驗證,并且做了Granger因果關系檢驗,得到的相關結論如下:
(1)對GDP的分析基于居民消費為中心展開,消費者消費及生產者生產在互聯網上均有體現,消費者有消費需求,就會通過互聯網搜索相關信息,生產者有生產需求,也會通過互聯網了解生產渠道,生產品相等相關信息,以上變化在互聯網上表現為瀏覽指數的變化,在商品市場中則表現為GDP、CPI等指標的變化,兩者的變化都是對同一事物的反映,因此兩者具有一定的相關關系。
(2)實證分析結果表明:網絡搜索數據與GDP之間存在長期穩定的協整關系。
(3)Ganger因果檢驗的結果說明網絡搜索綜合指數X是季節調整及標準化之后的GDP數據的Granger原因,對GDP預測有幫助。
總的來講,用網絡搜索數據與GDP來進行相關性分析還存在一些問題,有待進一步改善。首先,本文選擇百度引擎來做相關分析是因為我國運用百度引擎的用戶占大多數,但是百度指數的相關數據是由2011年開始做記錄的,從2011年第一季度到2014年第四季度僅有16組數據,所能夠搜集的數據量較少,如今2015年第一季度才剛剛過去,因此模型預測僅有2015年第一季度作為對照,能夠驗證模型的數據較少,谷歌趨勢上的數據從2009年開始,但就我國來講,運用谷歌引擎來進行搜索的用戶僅有極少部分,因此用谷歌數據來進行分析是沒有依據的,若今后能夠運用各個引擎綜合分析,就能大大提高預測精度。其次,關鍵詞的選擇對模型的建立具有至關重要的作用,相關關鍵詞的選擇是否準確全面,將直接決定預測的結果,與GDP相關的關鍵詞頁并不是一層不變的,所以要建立科學的流動關鍵詞庫,使其能夠快速準確的反映居民消費的動態現象。
參考文獻
[1] 張崇,呂本富,彭賡,劉穎.網絡搜索數據與CPI相關性研究[J].管理科學學報,2012(07).50-58.
[2] 中國互聯網絡信息中心.《2013年中國網民搜索行為研究報告》[EB/OL],2013.
[3] 中國互聯網絡信息中心.2014年中國網民數量統計基本數據[EB/OL],2014.
[4] 樊國虎.網絡搜索數據與消費者信息指數的相關性研究[J].經濟與管理,2014.
[5] Askitas N,Zimmermann K F. Google econometrics and unemployment forecasting[J]. Applied Economics Quarterly,2009,(2).107 -120.
[6] Cho H i,Varian H. Predicting the Present with Google Trends[C]. Technical Report,2012,88.2-9.
[7] 劉穎,呂本富,彭賡.網絡搜索對股票市場的預測能力:理論分析與實證檢驗[J].經濟管理,2011(1).172-179.
[8] 袁慶玉,彭賡,劉穎等.基于網絡關鍵詞搜索數據的汽車銷量預測研究[A].管理學家,2011(01).13-22.
[9] 董倩、孫娜娜、李偉.基于網絡搜索數據的房地產價格預測[J].統計研究,2014,31(10).
[10] 朱輝. 淺析中國國內生產總值的核算,集團經濟研究[J]. 2006(33).
[11] 鄭佩楓. 試探微博公眾輿論場的新特征,魅力中國[J]. 2014(07).