【摘要】近年來,由于互聯網的快速發展,搜索引擎已經成為網民普遍使用的工具。百度指數記錄了用戶的搜索關注與需求,為研究互聯網搜索行為與實際的市場需求之間的關系提供了必要的數據基礎。本文基于百度指數,利用計量經濟學中的協整理論和格蘭杰因果關系分析了互聯網搜索量與國內大眾途觀汽車實際銷售量之間的關系,建立了引入互聯網搜索量的市場需求預測模型;并且通過建立對比模型,比較加入百度關鍵詞搜索量前后的預測模型的精度,結果表明加入百度指數后的模型精度有了很大的提高,這對于企業進行產量決策具有重大的指導意義。
【關鍵詞】汽車產業 百度指數 時間序列 大數據 預測
一、前言
汽車工業是我國國民經濟的支柱產業,是我國賴以實現現代化、城市化的基礎和保障。近日,國內最大汽車互聯網企業易車發布的易車指數顯示:數據分析2014車市,國人偏愛SUV。在2014年,SUV在國內用戶關注市場的占比超越緊湊型車,成為最搶眼的細分市場。對于SUV在中國的前景不論是其一枝獨秀的銷量,還是頻頻推出的新車,都表明消費者已經進行了投票。而當下,我國的汽車產業也正面臨著重重危機,產能過剩,就是最大風險之一。是故汽車生產企業能否做好產能規劃就顯得極為重要。本文選取了近幾年在國內SUV市場上面,銷量一直穩居前茅的大眾途觀為例進行探索研究。
隨著大數據時代的來臨,搜索引擎的普遍使用,用戶進行信息獲取的同時也將自己的搜索痕跡留在了搜索引擎中,大量的搜索記錄信息匯聚在一起,便包含了用戶現實生活中的行為意圖,更能反映出群體用戶的社會性、經濟性規律的發展趨勢。最近幾年出現了大量運用網絡搜索數據進行預測的研究。基于網絡搜索數據的流感預測、失業率監測、旅游及房地產銷售預測都擁有較高的準確度,網絡數據的即時性可以很好的彌補傳統預測方法的滯后性。因此,可以利用網絡搜索數據對網民的在線活動進行監測,它能從大量搜索數據中獲取新的關聯信息,能從復雜數據背景中通過數據分析創建合成指數,找出解決問題的有效途徑。因此,依托網絡搜索數據的時效性,挖掘用戶對汽車的需求,對于汽車生產企業制定產能規劃具有極為現實的意義。
二、國內外相關研究
Ginsberg等(2008)[1]發現基于Google搜索引擎端的搜索數據,預測到了流感的爆發,這比急病防控中心的預測提前了兩周;Askitas等(2009)[2]運用搜索數據,對德國的失業率進行了研究,發現上月第三四周的網絡搜索量與本月失業率相關性最強。在國內,利用網絡搜索量數據進行的研究還不多,但也取得了一定的突破,主要是在CPI、旅游業、汽車行業、股票市場預測方面有了比較大的突破:梁志峰(2010)[5]從谷歌搜索引擎端得到的數據,對我國湘潭地區的網絡關注度進行了研究,主要是針對一些熱點關鍵詞的搜索量做了時間以及空間上的比較。劉穎等(2011)[6]運用經濟含義,將搜索數據整理為股民行動指數、市場行情指數以及宏觀形勢指數三種,并通過實證證實了搜索指數對于股票市場具有顯著地預測能力。
三、實證分析
(一)數據的選取
本文通過一些關鍵詞挖掘工具,選取了“途觀”、“大眾途觀”兩個搜索量最多的關鍵詞(此二者的搜索量遠高于其他關鍵詞搜索量),利用百度指數可以合并的特點,采取“途觀+大眾途觀”的合成檢索,利用其得到的百度指數作為原始數據,以2012年1月到2014年12月作為樣本數據,數據量滿足計量經濟學建模的要求,以2015年1月到2015年6月的數據作為檢驗數據,由圖示法展示2012到2014年實際銷售量與百度關鍵詞搜索量的曲線圖,可以發現百度搜索指數與實際銷售量的走勢基本一致。
(二)互聯網搜索量數據與實際數據的關系
通過對兩組數據進行單位根檢驗以及協整檢驗發現:原時間序列的自相關系數不是很快的趨近零(如滯后期K=2,3),表明序列是非平穩的。然后對其進行對數處理并進行差分運算再進行ADF檢驗,其自相關與偏相關系數很快的趨近零,可初步表明該序列為平穩序列。由此判定兩組數據為一階單整序列,滿足協整檢驗前提。其次對兩組變量進行普通最小二乘回歸,對其殘差進行單位根檢驗,由于檢驗統計量為-8.81,小于顯著性水平0.01時的臨界值-4.25,可認為估計殘差序列為平穩序列,進而得到序列xs1(銷量)與zs1(指數)具有協整關系。
(三)預測模型的對比分析
通過逐步比較定階確定原時間序列分析模型為ARMA(3,2)模型,運用此模型對2015年1月到6月的銷量進行預測,然后加入百度指數重新進行模型的預測,對比分析結果(表1)
表1 實際銷量與加入指數前后的模型預測值對比
單位:萬輛
對比實際值與預測值,我們發現,較之上述ARMA模型的預測結果,預測精度有了很大程度的提高,改進后的模型預測誤差更小。
四、結論
本文基于百度指數,利用計量經濟學中的協整理論和格蘭杰因果關系分析了互聯網搜索量與大眾途觀類型汽車實際銷售量之間的關系,建立了引入互聯網搜索量的市場需求預測模型;并且通過建立對比模型,比較加入百度關鍵詞搜索量前后的預測模型的精度,結果表明加入百度指數后的模型精度有了很大的提高,這對于企業進行產量決策具有重大的指導意義。
參考文獻
[1]Ginsberg, Mohebbi, Patel, Brammer, Smolinski and Brilliant, 2009, Detecting influenza epidemics using search engine query data [J]. Nature 457: 1012-1014.
[2]Askitas N, Zimmermann K F. 2009. Google econometrics and unemployment forcasting[J]. Applied Economics Quarterly, 55(2):107-120.
[3]劉穎,呂本富,彭賡.網絡搜索對股票市場的預測能力: 理論分析與實證檢驗[J].經濟管理,2011, 33(1):172-180.
作者簡介:孔令頂(1989-),男,漢族,河南衛輝人,現就讀于蘭州交通大學,碩士研究生,研究方向:運營管理、數據挖掘。