彭若弘+宋佳
【摘 要】隨著近幾年互聯網金融的快速發展,具有操作便捷、收益率高等優點的P2P網絡借貸成為投融資關注的重點。伴隨著眾多優點,P2P網絡借貸也因其存在的風險和監管問題讓投融資者望而卻步。本研究引入百度指數,通過建立不含P2P網絡搜索量和含P2P網絡搜索量的ARIMA對比模型預測P2P網絡借貸的交易規模。對比研究發現,包含P2P關鍵詞搜索量數據的預測模型比不包含P2P關鍵詞搜索量數據的預測模型預測結果更好,該變量的引入有利于提高模型的預測準確度。
【關鍵詞】互聯網搜索量;百度指數;P2P網絡借貸交易額;ARIMA模型
一、引言
國外網絡借貸平臺模式引入中國以來,讓很多敢于嘗試互聯網投資的投資者認識了P2P網絡借貸模式。P2P網絡借貸作為互聯網金融的重要組成部分,發展迅速。但由于我國P2P發展的年限較短,監管和制度法規還在逐步完善,仍存在很多風險和隱患,使得部分用戶因為看不到其未來的發展,所以面對操作簡單,收益可觀的P2P網絡借貸望而卻步。許多學者研究發現互聯網搜索量與實際的市場需求之間具有顯著的相關關系,并且在預測模型中引入互聯網搜索量有助于提高預測模型的精度。為幫助用戶合理預估借貸風險與P2P網絡借貸市場的發展趨勢,本文引入百度指數,通過預測P2P網絡交易規模給用戶提供決策參考。
二、研究理論與模型建立
隨著谷歌公司谷歌趨勢和百度公司百度指數的推出,對于某一關鍵字的互聯網搜索量數據不再難于獲取,兩類產品的推出為互聯網環境下預測模型研究的發展奠定了基礎。
Yan Carrière-Swallow ,Felipe Labbé(2010)[1]在智利運用谷歌指數構建一個谷歌汽車趨勢指數,以普通自回歸移動平均模型為基準,建立了加入谷歌汽車指數的對比模型,通過對模型的研究得出ARMA3b(2,2)模型最優,帶有Google參數的擬合度更好。
在宏觀經濟預測方面,Simeon Vosen ,Torsten Schmidt(2011)[2]在預測私人消費時引入了互聯網搜索變量谷歌指數。學者以自回歸模型為基準模型,以加入了谷歌指數的模型作為對比模型,比較兩類模型的擬合優度。通過對比兩類模型,發現在0.01置信水平下,加入谷歌指數的模型較基本模型擬合優度(R2)提高了0.03。
(一)不含互聯網搜索量的預測模型建立
本文選取的數據是以月為跨度的P2P網絡借貸成交額數據,也稱P2P網絡借貸成交額的時間序列數據。所謂時間序列就是按照時間的順序記錄的一系列有序數據,通過對時間序列進行觀察、研究,尋找其變化發展的規律,預測未來走勢[3]。在時間序列的預測中,對于存在波動的時間序列的預測方法有自回歸模型,移動平均模型和自回歸移動平均模型等。以自回歸模型為例,本文構建的基本模型如下:
其中:
y為產品或服務的市場需求量;
t為時間;
表示隨機變量;
(二)引入互聯網搜索量的預測模型建立
時間序列除了在模型上擴展外,在模型的變量上也有所拓展。在一些研究中,學者們在基本模型中引入外生變量,通過探討變量之間的相關性,提高預測的準確度。謝蒙萌(2013)[4]在研究多元線性回歸模型在ETC客戶發展的預測中,引入了本地區ETC網點數量、本地區高速公路入口流量、本地區GDP和本地區機動車新增車輛數等解釋變量,研究結果發現結合引入變量能夠更好的實現預測效果。隨著互聯網的不斷發展,互聯網中蘊含的信息越來越得到學者們的重視。在2006年,谷歌公司推出谷歌趨勢后,一些學者的注意力開始轉向了互聯網搜索量,分析互聯網中某個關鍵詞的搜索量與現實社會行為之間的關系。研究發現互聯網中用戶的相關關鍵詞搜索量數據與客流量、股票價格等存在顯著的相關關系[5]。
基于以上學者的研究成果,本文將探索互聯網搜索量與P2P網貸成交額之間的關系,并在預測模型(1)式中引入互聯網搜索量,比較其與基本模型的預測效果,建立對比模型如下:
其中:
y為產品或服務的市場需求量;
t為時間;
s為該產品或服務的搜索量數據;
表示隨機變量;
三、實證研究
(一)樣本數據
1.P2P網貸成交額
(二)P2P網貸成交額數據分析
根據圖1的散點圖,可以發現P2P的百度搜索量越高,其實際網貸成交額越大,說明二者之間相關性較強,所以本文我們選用百度指數來預測P2P網貸成交規模。
1.平穩性分析
根據圖1的散點圖可以看出,P2P網貸成交額沒有穩定的均值和方差,大體呈現上升趨勢,說明該時間序列不具有平穩性,需要對其進行差分變換。
2.自相關與偏自相關分析
運用SPSS對P2P網絡借貸成交額進行一階差分自相關和偏自相關分析后可發現,自相關系數和偏自相關系數的值都比較小,沒有超過±0.5的置信上限和置信下限,說明一節差分后的數據具有平穩性,可以在此基礎上建立預測模型。
(三)時間序列預測模型分析
1.不含互聯網搜索量的預測模型擬合
根據擬合結果表2可以看出,R方的值為0.722,說明ARIMA(1,1,0)模型用于預測P2P網貸成交額的擬合結果較好,可以解釋實際數據的72.2%。預測模型的均方根誤差RMSE為128.570,說明該模型的觀測值和真值之間有一定偏差,模型擬合的準確度有待提升。
根據表3中的參數可以得出不含互聯網搜索量的預測模型如下:
根據P2P網貸成交額數據預測得出的擬合曲線如下:
2.引入互聯網搜索量的預測模型擬合
從擬合結果表4可以看出,加入互聯網搜索量的P2P網貸預測模型R方值為0.794,高出不含互聯網搜索量的R方值0.722,說明加入互聯網搜索量的預測模型比不加互聯網搜索量的預測模型的擬合效果更好,解釋度更優。MAPE為5.333,說明原始數據中的誤差占比低,從誤差角度說明P2P預測模型擬合效果較好。
預測模型的均方根誤差RMSE為100.661,說明該模型的觀測值和真值之間有一定偏差,分析原因是2015年7月出臺的《關于促進互聯網金融健康發展的指導意見》,由此才將P2P的地位合法化。同年8月,最高法出臺的《最高人民法院關于審理民間借貸案件適用法律若干問題的規定》中明確指出P2P平臺作為提供媒介服務的中介平臺,無須履行擔保責任。這類良性政策的推出致使2015年7、8月“P2P”互聯網搜索量大量增加,影響了預測模型的參數值。
從表5的參數估計表中得到預測模型的系數為-0.014,P2P網貸月關注度系數為0.001,檢驗顯著性值為0.032,小于0.05,模型系數顯著。
引入互聯網搜索量的P2P網貸成交額預測模型如下:
引入互聯網搜索量的預測模型的擬合曲線如下:
3.模型擬合效果分析
根據表6,我們可以發現:
在模型擬合優度(R方),平均絕對誤差百分比(MAPE),平均絕對誤差(MAE)的對比中,包含互聯網搜索量的預測模型的統計量都比不包含互聯網搜索量的預測模型的統計量小,因此包含互聯網搜索量的預測模型擬合效果更優。在貝葉斯信息準則(BIC)檢驗中,包含互聯網搜索量的預測模型比不包含互聯網搜索量的預測模型小0.272,這說明變量的引入并不影響模型的有效性。
根據上述對比分析結果,可以得出加入互聯網搜索量(百度指數)的P2P網貸成交額預測模型比不含互聯網搜索量(百度指數)的P2P網貸成交額預測模型擬合效果好,預測的有效性高。
四、研究結論
本研究以國內搜索引擎百度搜索提供的百度指數為基礎,以P2P網絡借貸成交額為研究對象,探索互聯網搜索量與市場需求之間的關系。研究發現:
1.互聯網搜索量與產品的市場需求之間存在顯著相關關系。在對P2P網絡借貸成交額的研究中,其與互聯網搜索量之間的相關系數為0.769,關系顯著。投融資者很可能在有相關投融資需求之前先上網了解P2P網絡借貸的平臺、產品和政策等信息,形成一種潛在需求,以確保在信息對等的條件下作出決策。
2.包含百度指數數據的預測模型比不包含百度指數數據的預測模型預測準確度更高。通過對P2P網絡借貸交易額的數據分析,我們發現包含百度指數預測模型的平均百分比誤差(MAPE)、平均絕對誤差(MAE)都顯著低于不包含百度指數的預測模型,這說明傳統的預測存在的干擾因素及誤差,有一部分可以被包含互聯網搜索量數據的預測剔除,因此該變量的引入有利于提高模型的預測準確度,幫投融資決策者降低風險,提供更好的決策參考。
【參考文獻】
[1]Yan Carriere-Swallow, Felipe Labbe Central Bank of Chile, Santiago, Chile.Nowcasting with Google Trends in an Emerging Market[J]. Journal of Forecasting, J. Forecast, 2013, (32): 289–298.
[2]Simeon Vosen, Torsten Schmidt Rwi, Essen. Forecasting Private Consumption: Survey-Based Indicators vs. Google Trends[J]. Journal of Forecasting J. Forecast, 2011, (30): 565–578.
[3]張金艷, 郭鵬江. 確定性時間序列模型及ARIMA模型的應用[J]. 西安郵電學院學報, 2009, (3): 128-132.
[4]謝蒙萌. 多元線性回歸模型在ETC 客戶發展預測中的應用研究[J]. 公路交通科技, 2013, (11): 405-408.
[5]劉穎, 呂本富, 彭賡. 網絡搜索對股票市場的預測能力: 理論分析與實證檢驗[J]. 經濟管理, 2011, (1): 172-180.