摘要:無論是從社會管理還是從經濟發展的角度來考慮,失業均已成為目前各國十分關注的重點問題之一,學者們也一直在通過各種方法來預測失業率。近年來,隨著網絡的發展和搜索引擎的普及應用,學者們發展出一種利用網絡搜索數據來觀察和研究經濟及社會問題的方法。隨著這一方法的有效性被證明之后,它也被引入到失業率預測的研究領域中。文章利用Google推薦的關鍵詞搜索數據,采用改進的逐步回歸方法分層建立了三個模型預測失業率,并進行因果關系檢驗及有效性檢驗。實驗結果表明,三個模型的擬合優度分別達到0.930、0.935、0.936,三期預測值的MAPE分別為1.20%、0.89%、0.57%。文章認為,這種方法能有效的處理網絡搜索數據并進行相關的社會問題研究和經濟問題的預測。
關鍵詞:逐步回歸;失業率;失業初請人數;網絡搜索數據;協整分析;預測
一、 引言
本文以經濟復蘇時期美國失業率預測為例,從關鍵詞庫的構建、利用改進的逐步回歸的方法對關鍵詞進行篩選、合成綜合搜索指數、構建模型進行預測等方面進行系統介紹,并對該方法的有效性及預測效果加以驗證。
二、 文獻綜述
1. 利用搜索數據進行失業率預測的相關研究。作為反映經濟表現的指標之一,失業率一直受到非常廣泛的關注。在失業率的預測方面,學者們采用各種方法用以提高預測的準確性。在Ginsberg等人利用Google搜索數據成功的預測美國流感疾病趨勢以后,這一預測方法被迅速的引入到失業率預測中來。Askitas和Zimmermann等(2009)建立了搜索數據與德國失業率之間的關聯關系,并發現失業率發生變化時,網民對國家勞動局或失業保障機構、人事顧問、流行職位的搜索關注度會有所反應。D'Amuri和Marcucci等(2009)利用Google搜索數據建立了工作搜索指數來預測美國的失業率,并發現在加入了搜索指數修正之后的模型的預測效果顯著高于傳統模型。Suhoy(2009),Choi和Varian(2009)將網絡搜索數據加入到長期和短期的失業初請人數預測模型,發現模型的擬合度有較大的提高,并且在長期預測模型和短期預測模型中,過去24周的滾動預測值平均絕對誤差分別降低15.74%和12.90%。Wei Xu和Ziang Li等(2012)利用網絡搜索數據和神經網絡方法構建美國失業率預測模型,發現這種模型比其他的預測模型的效果要更好。
2. 搜索數據關鍵詞的選取。在利用網絡搜索數據進行社會和經濟研究方面,面對的都是海量的搜索數據和關鍵詞,如何從中篩選出有預測價值的關鍵詞是一個核心問題。對于這一問題,學者們處理方法各不相同。
第一種是采取技術取詞法,即利用高性能、大規模的計算設備將一切可能的關鍵詞都納入到研究范圍內,然后將相關統計模型編成程序運算選出核心關鍵詞。例如Ginsberg等人利用800余臺高速計算機在2003年~2008年間5 000萬個最為常用的搜索詞中選擇出45個與CDC 發布的流感病人就診量數據相關性最高的關鍵詞,作為預測關鍵詞的來源。
第二種是經驗取詞法,即由作者運用主觀經驗確定關鍵詞。例如Askitas在網絡搜索與失業率相關性時,認為與勞動局或失業機關機構、失業率、人事顧問和德國比較流行的幾個職業搜索引擎四類關鍵詞的搜索量將出現變化,因而以這四類關鍵詞為核心合成搜索指標。
第三種是范圍取詞法,即先確定一個選詞的范圍,然后在范圍內進行精選。例如Konstantin在研究網絡搜索與美國個人消費增長率的相關性時,首先收集了Google提供的27個分類中的前十大搜索詞,然后分別做出相關性分析后剔除與個人消費不相關的詞,利用剩下220個與消費相關的詞合成一個指標(Konstantin,2009)。Wei Xu和Tingting Zheng等從Google Trends中與失業相關的分類中“Local/Jobs”和“Society/Social Services/Welfare Une-mployment”類目中收集了500個左右的關鍵詞作為原始關鍵詞,從這500個關鍵詞中找出相關系數大于0.65的108個關鍵詞。然后利用神經網絡方法,從這108個關鍵詞中又篩選出少數幾個關鍵詞進行擬合
在現有取詞方法中,技術選詞法雖然精度較高,但是容易受到資源的限制而難以復制應用。而直接取詞法與范圍取詞法雖然降低了工作量但是主觀性較強,降低了學術研究的科學性(Ying Liu,Benfu Lv,2012)。
三、 理論分析與預處理方法
隨著網絡的興起與發展,人們越來越多的依靠網絡來尋找所需要的各種信息。對于面臨失業或是處于找工作的人而言,通過網絡搜尋相關的工作信息無疑是一種非常便捷的渠道。當經濟不景氣,在崗的人出于對未來失業的擔憂,會通過網絡了解失業保障政策以及尋找工作機會。未在崗的人也會通過網絡來了解經濟形勢及尋找工作機會,Google把這些與失業相關的搜索關鍵詞分成兩類,分別是“工作”及“福利/失業”。雖然這些關鍵詞的搜索數據量并不一定全是失業者或即將面臨失業者的搜索產生的,但從統計上來說,這類關鍵詞的搜索量與失業數據(這里的失業數據指的是初請失業人數數據,因為初請失業人數是美國失業率的非常好的先行指標-Choi and Varian(2009)),這兩者之間存在很強的相關性。以“un-employment compensation”或“unemployment insuran-ce”為例,其變化趨勢和失業人數變化趨勢存在很強的一致性。
1. 關鍵詞選取方法。本文的關鍵詞來源于Google Tr-ends(http://www.google.cn/trends/),Google Trends記錄了從2004年以來某個關鍵詞每一周被搜索的次數,并按照一定的算法將其標準化,并且,Google Trends還根據搜索的關鍵詞推薦與該關鍵詞熱門相關的一些關鍵詞。本文采取的關鍵詞選詞方法是先選一個和失業相關的關鍵詞作為初始關鍵詞,由該關鍵詞出發,Google Trends會推薦出與其熱門相關10個關鍵詞,我們進一步搜索這10個關鍵詞,Google Trends又從這10個關鍵詞出發又會推薦出其熱門相關的大約100個關鍵詞。如此往復,剔除重復的關鍵詞后,這些關鍵詞構成本文的基礎關鍵詞庫。
本文將“unemployment”作為初始關鍵詞,并且構成第一層的關鍵詞庫。第二層關鍵詞庫由第一層關鍵詞庫中的關鍵詞及與這些關鍵詞熱門相關的10個關鍵詞組成,去重后共11個,第三層關鍵詞庫由第二層關鍵詞庫的關鍵詞及與這些關鍵詞熱門相關的關鍵詞組成,去重后共90個,按照此方法,第四層關鍵詞庫共403個關鍵詞。
2. 數據來源。本文采用的失業數據來源于美國勞工部網站(http://www.ows.doleta.gov/unemploy/claims.asp)發布的經過季節調整后的每周初請失業人數,美國國家經濟研究局(NBER)發布報告稱從2007年12月份美國開始進入衰退期,2009年6月份衰退結束,進入恢復期。本文重點研究經濟恢復時期的美國失業率。所以,本文采用的數據跨度為2009年6月至2012年10月期間的175周,將前172周的數據作為訓練集進入模型用于參數估計,后3周的數據作為測試集用于評估預測效果。
3. 搜索指數合成的方法。
(1)逐步回歸法。在線性回歸模型中,通常會碰到兩個問題:一是如何從眾多的自變量中挑選出對因變量有顯著影響的解釋變量。二是如何消除自變量之間存在的多重共線性對回歸方程的影響。逐步回歸分析方法被認為是解決這兩個問題的有效方法之一。它的核心思想是在考慮的全部自變量中按其對因變量的貢獻程度大小,由大到小地逐個引入回歸方程中,如果發現先前被引入的自變量在其后由于某些自變量的引入而失去其重要性,可以從回歸方程中隨時予以剔除。直到既無不顯著變量從方程中剔除,又無顯著變量需要引入回歸方程為止。其主要步驟如下:
Step1:對所有的自變量和應變量進行標準化處理;
Step2:計算自變量和因變量之間的皮爾遜相關系數,并找出相關系數最大的因變量,并根據偏F檢驗來判斷該因變量是否應該被引入模型中;
Step3:在逐步引入新的因變量的同時,利用偏F檢驗刪除之前進入模型但其對因變量的貢獻降低的自變量;
Step4:重復Step2和Step3的過程,直到無顯著變量需要引入回歸方程為止。
(2)改進的逐步回歸法。在利用網絡搜索數據進行多元回歸分析中,也需要從大量的關鍵詞中篩選出對因變量有顯著影響的自變量。不同的是,網絡搜索的關鍵詞和真實經濟量變化之間存在先行或滯后的關系。由于要利用網絡搜索數據進行預測,而因此必須找到那些搜索趨勢變化領先于因變量變化的關鍵詞(劉穎等,2011)。本文將這類關鍵詞稱為先行關鍵詞。在運用逐步回歸法篩選自變量之前,需要先利用時差相關分析法確定關鍵詞的領先階數,然后再利用逐步回歸的思想合成綜合搜索指數,本文將這一系列的處理過程稱為改進的逐步回歸分析法,其主要步驟如下:
Step1:利用時差相關分析法分析關鍵詞的領先階數。時差相關分析法是利用時差相關系數來驗證經濟時間序列先行或滯后關系的一種方法,其公式如下:
rl=,(l=0,±1,±2…)
上式中,rl:時差為l的相關系數,y:因變量,y:因變量均值,x:自變量,x:自變量均值。l為x的領先階數。相關系數最大的時差階數為領先階數。此時的時差相關系數即為兩者之間的相關系數;
Step2:確定了領先階數后,將關鍵詞按照領先階數進行時差調整后與基準指標進行回歸。將擬合度最大的關鍵詞進入綜合搜索指數。并對該綜合搜索指數進行顯著性檢驗;
Step3:對其他的關鍵詞加入綜合搜索指數之后,與基準指標進行再次回歸,將對擬合度提升最大的關鍵詞加入合成指數,形成新的綜合搜索指數,并進行顯著性檢驗;
Step4:對進入綜合搜索指數的其他關鍵詞再次進行顯著性檢驗,如果不通過,則刪除該關鍵詞數據;
Step5:重復Step3和Step4,直至擬合度不再提高時停止,我們將此時的綜合搜索指數記為Qit(i=1,2,3,4分別代表第一、二、三、四層關鍵詞經過上述操作步驟后最后合成的綜合指數)。這樣就能持續地將能夠顯著提高搜索綜合指數擬合度的關鍵詞選取出來。
四、 實證分析
1. 模型建立。本文將失業初請人數Yt作為被解釋變量,以提前一期的失業初請人數Yt-1作為解釋變量一,以搜索數據綜合指數Qit(i=2,3,4)作為解釋變量二分別建立三個模型來驗證本文提出的關鍵詞選取方法及搜索數據預處理方法的有效性(由于單個關鍵詞的選取帶有很大的隨機性,所以不建立i=1時的模型)。為增進平穩性,降低異常數據的影響,本文分別對以上變量取對數,分別表示為LogYt,LogYt-1,LogQit。
在建立模型之前,需要對各變量進行平穩性檢驗,本文采用ADF檢驗法對以上變量進行平穩性檢驗,檢驗結果如下:
從ADF檢驗結果來看,原變量序列均為非平穩序列。而一階差分后的變量序列均為平穩序列。所以,以上變量均為一階單整序列。
根據前面建立的理論框架,按照第二、三、四層的關鍵詞綜合指數,我們建立了如下模型。
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ2t+ut(1)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ3t+ut(2)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ4t+ut(3)
模型回歸結果及檢驗如表2所示。
在上述的三個模型中,各解釋變量前的系數在1%的水平上均顯著不為零,說明本文建立的模型是合理的。搜索數據綜合指數LogQit的系數?茁2顯著為正,說明失業初請人數和失業相關的搜索關鍵詞指數之間有顯著的正相關關系。
進一步的,本文對構建的三個模型的殘差進行平穩性檢驗,發現殘差序列在1%的水平上均具有平穩性。因此,解釋變量和被解釋變量之間存在一階協整關系。
2. 因果關系檢驗。Granger因果關系檢驗能檢驗解釋變量的前期變化是否能有效的解釋被解釋變量的變化。因此,Granger檢驗可以作為考察模型的預測能力的一個指標。本文對變量LogYt和LogQit進行了一階Granger因果關系檢驗。檢驗結果如表3。
由表3可知,在三個模型中,解釋變量 均可以顯著地Granger引起被解釋變量LogQit,表明搜索綜合指數確實能夠對失業初請人數具有良好的預測效果。
3. 模型預測效果比較。為進一步考察模型的預測能力,本文運用以上3個模型,分別預測了2012年10月份后3周的失業初請人數,并以平均絕對百分誤差MAPE和均方根誤差RMSE作為衡量預測能力的指標。設n為預測值的個數,實際值為yi,預測值為yi,則MAPE=/nRMSE=預測結果如表4所示。
從表4可知,三個模型均取得很好的預測結果。這說明,本文采取的基于Google推薦的熱門相關關鍵詞并利用改進的逐步回歸法合成綜合搜索指數的方法進行建模和預測是非常有效的,并且隨著關鍵詞層級的增加(即關鍵詞庫中關鍵詞數的增加),模型的預測效果越好。
五、 結論及展望
本文采用了一種新的網絡搜索數據的處理方法進行美國失業率預測。在這種處理方法中,本文根據Google推薦的熱門相關關鍵詞構成關鍵詞庫,進而利用改進的逐步回歸的方法合成搜索綜合指數。從關鍵詞的選擇上來看,相較于技術選詞法、經驗選詞法及范圍選詞法,本文中的選詞方法更為簡單和客觀。從合成搜索綜合指數的方法上來看,這種合成方法使得解釋變量和被解釋變量之間的皮爾遜相關系數非常高,平穩性也高。從實驗結果來看,根據這種處理方法建立的模型和預測的效果都非常好,三個模型的預測平均絕對百分誤差MAPE分別為1.20%、0.89%和0.57%,均方根誤差RMSE分別為4.82、4.73和2.69。綜上,這種對網絡搜索數據進行處理和預測研究的方法能夠顯著有效地提高失業率預測的準確性。
目前,基于網絡搜索數據進行經濟和社會行為預測的研究都是關于應用方面的研究。對于網絡搜索數據和經濟與社會行為方面的內在機理進行探討的文章不多,尚未形成系統的理論框架。在利用網絡搜索數據進行失業率預測方面,處于經濟的不同時期,人們進行搜索的行為模式是否會發生變化?網絡搜索數據與傳統的市場數據結合進行預測是否能取得更好的預測效果?此外,在所有采用搜索數據進行研究的相關文章中,搜索數據大部分都來源于Google,而在一些發展中國家,Google搜索引擎的市場份額較小,如何利用當地主流搜索引擎如百度的搜索數據進行經濟和社會問題研究?以及基于這些數據進行的研究是否可以和基于Google的搜索數據進行的研究一樣有效?這些問題,都是我們下一步的研究的內容與重點。
參考文獻:
1. Ginsberg, Mohebbi, Patel, Brammer, Smolinski and Brilliant, Detecting influenza epidemics using search engine query data, Nature,2009,(457):1012-1014.
2.N Askitas, and KF Zimmermann, Google Econometrics and Unemployment Forecasting.Applied Economics Quarterly,2009,55(2):107-120.
3. H Choi, H Varian, Predicting the Present with Google Trends, Technical Report, Google Inc,2009.
4. 劉穎,呂本富,彭賡.互聯網搜索數據預處理方法及其在股市分析中的應用.情報學報,2011,10(10):1028-1036.
作者簡介:彭賡,中國科學院大學管理學博士,中國科學院大學管理學院副教授;蘇亞軍,中國科學院大學管理學院碩士生;李娜,中國科學院大學管理學院碩士生。