那欣蘭,石培基,高栓成
(西北師范大學 地理與環境科學學院,蘭州 700730)
基于LS-SVM的甘肅省國際旅游客流量預測
那欣蘭,石培基,高栓成
(西北師范大學 地理與環境科學學院,蘭州 700730)
旅游客流量是決定旅游業經濟效益持續發展的重要因素,游客流量預測也因此成為旅游發展規劃的重要內容。文章基于最小二乘支持向量機(LS-SVM)算法,建立了一種新的旅游人數預測模型,對甘肅省2007年的國際旅游客流量進行預測,并將其結果與神經網絡模型預測結果相比較。結果表明,基于LS-SVM的游客預測模型能較準確對旅游人數進行預測,并且避免了如神經網絡由于陷入局部最優而過學習的問題,從而為客流量預測提供一種新思路與方法。
最小二乘支持向量機;旅游客流量;預測
旅游人數預測是一個國家和地區旅游建設項目可行性研究的重要組成部分,是旅游資源開發及賓館等接待設施建設的重要依據。旅游人數預測的準確性,是一個國家和地區成功運作所開展的旅游項目,并為投資者帶來利潤的重要前提。旅游人數預測與分析水平的高低,將直接影響到旅游項目決策的科學性。
支持向量機(SVM)是由Vapnik等人提出來的一種建立在統計學習理論的VC維理論和基于結構風險最小化(SRM)原則的分類與預測方法[2],它可以在高維空間中構造較低VC維的函數集,從而能夠根據有限的樣本信息在模型的復雜性(即對特定樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,獲得好的推廣能力[3-7]。SVM的數學模型中樣本僅以點積形式出現,使得這種方法很容易推廣到非線性,SVM在分類與預測方面得到了廣泛應用。
標準SVM訓練樣本時需要求解二次規劃問題,訓練速度較慢[7-9]。在標準SVM的基礎上,通過采用最小二乘價值函數和等式約束,將標準SVM需求解的二次規劃問題轉變為線性問題,得到最小二乘支持向量機(LS-SVM),從而加快建模速度。
旅游客流量與當地旅游硬件及軟件設施建設、各種交通設備的完善程度有著密切的關系。基于LS-SVM方法,采用1996年以來甘肅省歷年年末旅客周轉量、星級飯店數、旅行社數、旅行社職工數,以及國際旅游人數,預測甘肅省旅游人數。
選擇誤差的二階范數作為損失函數,LS-SVM算法的目標優化函數為[9]:

其中:φ(·):Rn→Rnf為核空間映射函數;w∈Rnf為權矢量;ei∈R為誤差變量;b為偏置量;正實數γ是調節常數,它能夠使訓練誤差和模型復雜度之間取一個折衷以便使所求的函數具有較好的泛化能力,并且γ值越大,模型的回歸誤差越小。為求解優化函數(1)的最小值,構造Lagrange函數:

通過求解式(4)可得到α和b,則用于函數估計的LSSVM為:

其中常用的核函數K(xi,x)有:

旅游人數受到多方面因素的影響,一個旅游地的交通設施完善程度決定了該景區的可進入性以及客源地到旅游地的時間距離,直接影響該景區游客量。此外,景區建設情況及旅游接待設施的建設情況決定著景區的吸引力。景區所擁有的旅行社數量和旅行社的職工數量也決定了該景區的招徠及接待游客的能力。依據歷年甘肅省的旅客周轉量、星級酒店數、旅行社數、旅行社職工數以及歷年的入境旅游人數來預測甘肅省的旅游人數。需要指出的是,由于信息傳達的特性,游客數量對景區旅游相關條件改善的反應具有延遲性的特點。
甘肅省歷年旅客周轉量、星級酒店數、旅行社數、旅行社職工數,以及國際旅游人數如表1所示。

表1 甘肅省歷年國際旅游統計數據
其中入境旅游人數包括報告期內來我國觀光,度假,探親訪友,就醫療養,購物,參加會議或從事經濟、文化、體育、宗教活動的外國人、港澳臺同胞等入境游客。統計時,外國人、港澳臺同胞每入境一次統計1人(甘肅旅游年鑒)。旅客周轉量是指在一定時期內,由各種運輸工具運送的旅客數量,與其相應運輸距離的乘積之和。該指標可以反映運輸業的生產的總成果,也是計算運輸效率以及核算運輸單位成本的主要基礎資料(甘肅省年鑒)。星級飯店是指根據《中國人民共和國旅游涉外飯店星級標準》評定出星級(共分一星至五星五個等級)的旅游涉外飯店(甘肅省年鑒)。
由于積累的歷年統計數據有限,并且客流量的影響因素高度非線性,傳統的預測方法難以準確預測客流量的變化。將歷年的甘肅省國際旅游人次看做由甘肅省客運周轉量、星級飯店數、旅行社數量和旅行社職工數決定的時間序列,{X(t),t=1,2,…,n}建立基于徑向基核函數的LS-SVM預測模型,以2006年之前的統計數據為基礎,預測2007年的甘肅省國際旅游人次。在LS-SVM模型中正則化參數γ用于權衡擬合誤差和擬合函數的光滑度,σ2為LS-SVM擬合函數中的帶寬。如圖1所示,通過參數優選,當γ=600,σ2=60時預測效果最優。
采用基于徑向基函數的神經網絡對甘肅省國際旅游人次進行預測,與LS-SVM預測結果對比,分布密度為1,全局誤差限制為0.02。
如圖1所示,在樣本很少的情況下,神經網絡擬合誤差明顯比LS-SVM擬合誤差小,但由于神經網絡在訓練過程中出現了過學習問題,即把各個訓練樣本的細節都保存下來,難以區分噪聲和真實信號。LS-SVM模型通過正則化參數的調整,一方面使誤差盡可能小,另一方面使預測回歸函數盡可能光滑,從而提高了泛化能力,因此LS-SVM的預測效果好于神經網絡。
LS-SVM和神經網絡在數據擬合中都不能排除偶然因素的影響,如圖1所示,受2003年SARS的影響,甘肅省入境旅游人數發生突變,LS-SVM和神經網絡擬合誤差都很大。

通過將LS-SVM應用于甘肅省國際旅游人次預測,并與基于徑向基函數的神經網絡預測模型進行對比,結果表明:
(1)LS-SVM是建立在結構風險最小化原則基礎上的機器學習方法,當訓練樣本數目有限時,LS-SVM可以提供很好的泛化能力,將其應用于旅游人數的預測是可行的。
(2)LS-SVM算法最終轉化為二次規劃問題,通過對正則化參數的調整,理論上可以得到最優解,從而避免了如神經網絡由于陷入局部最優而過學習的問題。
(3)盡管LS-SVM在旅游人數的預測中效果較好 ,但也不排除偶然因素對其預測趨勢的較大影響。如2003年,受SARS的影響,甘肅省入境旅游人數發生突變,通過LS-SVM誤差較大。
[1]Cortes,C.,V.Vapnik.Support-Vector Networks[J].Machine Learning,1995,20(3).
[2]Vapnik,V.Learning Hidden Information:SVM[C].in 2006 IEEE International Conference on Granular Computing.2006.
[3]Vapnik,V.Universal Learning Technology:Support Vector Machines[J].NEC Journal of Advanced Technology,2005,2(2).
[4]Muller,K.R.,et al.An Introduction to Kernel-based Learning Algorithms[J].IEEE Transactions on Neural Networks,2001,12(2).
[5]Vapnik,V.,O.Chapelle.Bounds on Error Expectation for Support Vector Machines[J].Neural Computation,2000,12(9).
[6]Vapnik,V.SVM Method of Estimating Density,Conditional Probability,and Conditional Density[J].In Proceedings-IEEE International Symposium on Circuits and Systems,2000.
[7]Hsu,C.W.,C.J.Lin.A Comparison of Methods for Multiclass Support Vector Machines[J].IEEE Transactions on Neural Networks,2002,13(2).
[8]Suykens,J.A.K.,et al.,Weighted Least Squares Support Vector Machines:Robustness and Sparce Approximation[J].Neurocomputing,2002.
[9]Suykens,J.A.K.,J.Vandewalle.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3).
(責任編輯/易永生)
F590.3
A
1002-6487(2010)18-0094-02
西北師范大學科技創新項目(NWNU-KJCXGU-03-20);甘肅省重大軟科學項目(4RS054-A65-111)
那欣蘭(1982-),女,遼寧沈陽人,碩士研究生,研究方向:旅游規劃與開發。
石培基(1961-),男,甘肅臨洮人,博士生導師,研究方向:區域旅游規劃。
高栓成(1983-),女,甘肅靖遠人,碩士研究生,研究方向:區域旅游規劃。