金悅奇 柏昌順 朱杰
[摘要]通過采集和挖掘互聯網大數據,以舟山普陀山景區為例,研究網絡關鍵詞搜索量、網上酒店預訂率、網絡氣象預報等大數據與景區旅游客流量的數據相關性。采用Lasso回歸算法構建預測模型,并提出基于大數據的景區客流量預測系統設計。
[關鍵詞]大數據;客流量預測;Lasso回歸;數據挖掘
[DOI]1013939/jcnkizgsc201716322
隨著國內旅游需求的不斷提升,快速有效地預測旅游景區客流量已經成為提高旅游景區服務品質和建設智慧旅游景區的重要課題。傳統的旅游客流量預測主要是基于靜態的歷史數據進行預測分析,通常會忽視或者不能及時反映一些重要因素對客流量的影響,如天氣變化、互聯網熱點。而借助互聯網大數據技術可以通過實時數據采集、跟蹤研究目標景區游客在互聯網上產生的大量行為數據,進行挖掘分析,使得在實際景區客流量預測應用中具有動態響應及時等優越性。本文以舟山普陀山景區為例研究基于互聯網大數據的景區客流量短期動態預測及其系統設計。
1景區客流量有關大數據分析
11景區客流量數據探索分析
本文以普陀山景區為例對影響客流量因素進行大數據分析,首先對互聯網大數據按照是否適合計算機自動采集進行抽取,將抽取的數據作為基礎數據來源; 其次再根據舟山景區的特點篩選相關性強的因素。初步選取以下因素作為自變量,包括天氣因素:氣溫(x1)、風力(x2);OTA酒店預訂率(x3);關鍵詞搜索指數(x4);節假日因素(x5):包括一般節假日和特定宗教節日;經濟因素:經濟景氣指數(x6)、消費者信心指數(x7)等,分析它們與景區客流量(y)之間的關系。
根據以上選定因素對舟山普陀山景區2015—2016年數據進行描述性統計分析,獲得主要變量數據的統計描述如表1所示。
在描述性統計分析了解數據的整體情況后,然后進行相關分析,通過Pearson相關系數初步判斷應變量與自變量之間的線性相關程度。其中,經濟因素:經濟景氣指數(x6)、消費者信心指數(x7)與景區客流量(y)之間線性相關不明顯,而且變化幅度很小。因此,篩去經濟景氣指數(x6)、消費者信心指數(x7)兩個變量。
12模型構建
在以上數據分析的基礎上,建立回歸預測模型,算法上主要采用Lasso回歸方法,Lasso方法較傳統的最小二乘法等更利于參數估計和變量選擇。Lasso回歸優化問題可以表示為:
2景區客流量預測系統設計方案
21預測系統框架與流程
景區客流量預測系統由網絡數據采集子系統、數據庫存儲與處理子系統和預測輸出子系統等組成。其中,網絡數據采集子系統負責自動化采集互聯網相關大數據;數據庫存儲與處理子系統負責將網絡數據采集子系統收集的互聯網相關大數據進行規范化并存儲處理;預測輸出子系統負責將數據庫存儲與處理子系統處理好的數據應用回歸預測模型計算并按照需要的方式輸出結果。整個景區客流量預測系統的基本框架與流程如下圖所示。
景區客流量預測系統流程
上圖中系統主要流程可以分為:
(1)數據導入:從互聯網大數據中初步選取預測模型所需數據,然后導入預測系統數據輸入接口。
(2)數據預處理:將導入的數據統一處理成規范化格式,以便數據庫存儲及預測模型處理。
(3)機器學習:將預處理的數據進行挖掘、分析對回歸預測模型參數進行驗證和調整。
(4)多元回歸預測:根據回歸預測模型計算未來若干期的景區客流量預測數據。
(5)預測輸出:將預測模型計算結果通過需要的方式如可視化等進行輸出。
22預測系統功能設計
系統主要核心功能包括互聯網數據采集、數據處理及存儲、自適應的預測輸出三部分功能。其中,互聯網數據采集功能的實現主要通過兩類途徑:一是通過互聯網絡大數據平臺,如百度、APIStore等提供的互聯網大數據API接口,主要采集的相關數據格式為JSON。例如,天氣預報、節假日、搜索指數等。二是對互聯網特定相關網站網頁進行抓取通過DOM分析取得對應數據。例如,OTA酒店預定、景區等數據則采用HTMLParser等網頁分析工具實現對指定網頁相關數據抓取。
數據預處理及存儲功能主要采用PDO+TinyDB+Rserve組合。其中,PDO是訪問數據庫的一個輕量級的、一致性的接口,它提供了一個數據訪問抽象層。TinyDB是一種適合存儲JSON格式的輕量級面向文件的數據庫。Rserve是R語言與其他語言如Java/PHP/Python等進行通信的服務程序,支持基于TCP/IP的遠程連接,支持遠程執行R腳本。
預測模塊功能設計采用以adaptive LASSO回歸為基礎的自適應算法。首先根據adaptive LASSO算法先確定一組回歸系數,然后通過這組回歸系數進行疊代演進。最終的預測結果通過基于JS的異步模塊輸出,該功能主要采用XMLHttpRuquest對象技術,在創建的XHR對象上注冊回調方法來實現異步輸出。
3預測有效性驗證
景區客流量預測系統的主要作用是為相關決策提供依據,所以預測數據的誤差是評價預測系統有效性的重要指標。為能夠較準確地驗證評價景區客流量預測系統的有效性,選擇最近5期的系統預測數據與舟山普陀山管委會統計的實際值進行誤差分析,主要采用平均絕對誤差、均方根誤差和平均絕對百分誤差三個統計量指標從不同角度來驗證客流量預測系統的有效性。預測結果的各項評價指標值如表2所示。
根據表2的預測統計量指標數據,各項誤差值均在實際需求可接受的合理范圍內。因此,該客流量預測可以被視為是有效的。
4結語
本文分析了互聯網大數據與旅游景區客流量之間的相關性,挖掘了大數據中影響景區客流量的主要因素,并且基于Lasso回歸構建了景區客流量預測模型。在預測模型的基礎上設計了包括互聯網數據采集、存儲、分析輸出等功能的客流量預測系統,通過對舟山普陀山景區客流量的實際數據預測,驗證了基于大數據的旅游景區客流量預測的有效性。
參考文獻:
[1]ThomasWMiller預測分析中的建模技術:商務問題與R語言解決方案[M].北京:電子工業出版社,2016
[2]Lawrence SMaisel,Gary Cokins大數據預測分析[M].北京:人民郵電出版社,2014
[3]類興彪,韓興勇氣候舒適度與年內客流量逐月變化相關性分析——以舟山為例[J].旅游論壇,2010,3(1):106-111
[4]胡曉虹舟山旅游氣候舒適度與客流量年相關性研究[J].北方經濟,2012(24):76-77
[5]蘇培培風景區旅游客流量短期預測方法研究[D].合肥:合肥工業大學,2013
[6]沈振,王捷基于灰色預測模型的長三角水運量預測[J].中國航海,2010,33(3):101-104
[7]宋國峰,梁昌勇,梁焱,等改進遺傳算法優化BP神經網絡的旅游景區日客流量預測[J].小型微型計算機系統,2014,35(9):2136-2141