王賽蘭,楊振之
(1.四川大學 旅游學院,成都 610065;2.四川大學錦城學院,成都 611731)
基于旅游微觀數據平臺的旅游消費類型預測模型研究
王賽蘭1,2,楊振之1
(1.四川大學 旅游學院,成都 610065;2.四川大學錦城學院,成都 611731)
利用旅游微觀數據平臺中獲取的大量旅游消費類數據,建立了一個旅游者消費類型預測模型,在部分缺失旅游消費數據的情況下可以對旅游者的消費類型進行預測和判斷。該模型基于監督性學習理論,首先針對已有的完整的消費數據進行學習,使用學習算法不斷降低模型的判斷誤差,直到可以進行比較準確的數據預測;再根據數據缺失情況的不同,采用BP神經網絡和均值插補的方式進行補足;然后通過K-means聚類分析方法,對已經補足的數據進行聚類,從而達到預測判斷旅游者消費類型和層次的效果,進而達到在已知部分旅游數據的情況下能對旅游者的消費類型進行預測判斷的效果。
旅游消費;旅游微觀數據平臺;旅游消費類型預測模型;監督性學習理論
消費行為一直是國外消費經濟學領域研究的熱點問題,學術界廣泛認為消費行為隨消費者個體特征不同而存在著差異,對不同群體消費行為的類型和差異研究,可以使營銷策略的制定和實施更具有針對性。然而,由于微觀數據的匱乏,國內關于消費行為研究的成果并不多見,對不同群體消費行為進行研究的成果更為鮮見[1]1。旅游行業中旅游者的個體消費問題研究也存在微觀數據缺乏的問題,所以成果較少。本文的前期研究已經建立了一個基于移動互聯網以獲取旅游微觀數據為核心的數字化平臺[2]。從旅游微觀數據平臺上線至2016年10月10日,收集的數據包括游客社會學統計數據、游客時空數據和旅游消費數據。相對于其他兩種數據而言,旅游消費數據比較完整系統,實時性高,所以本文選擇旅游消費數據作為研究對象。經過對這些數據進行歸納整理,去除一些殘缺度高的數據之后,還余下3萬余組較為完整的數據。旅游消費具有前置性消費特征??紤]到前置消費分析對于游客服務推薦、消費喜好挖掘等具有重要意義,本文著力于建立一個游客消費類型預測模型,在已知旅游者的部分消費,特別是前置消費的情況下,實現其消費水平和消費類型的預測。
在旅游微觀數據平臺中,旅游消費的原始數據特征設計參考了國家旅游局統計標準,本文系統提取得到的數據可以分為十個維度,分別是長途交通、住宿、餐飲、景區游覽、娛樂、購物、市內交通、郵電通訊、旅游天數和旅行人數。
根據已有數據分析,本文通過數據清洗、缺失值插補和聚類方法將旅客聚集到不同的簇中,從而實現游客消費類型預測。本文算法的主要流程為:首先采集游客的前置消費數據,對于存在缺失的數據,根據游客缺失數據量的多少,將采取不同的方法進行處理;然后通過聚類方法形成不同的游客簇;最后實現游客消費層次的預測。
從20世紀70年代國外就開始對旅游消費進行了研究,并積累了豐碩的成果,總的來說旅游消費研究中有三個比較重要的模型:需要—動機—行為模型(Gilbert,1991),旅游消費者購買過程模型(Mathieson and Wall,1982),旅游消費者行為的刺激-反應模型(Middleton,1994,2001)。這三個模型研究的角度不同,但都是基于已有的消費數據,而并非預測性研究。
近年來,如何拓展旅游市場成為旅游學者關注的焦點。而要拓展旅游市場,就離不開對旅游消費問題的研究。從本文的研究來看,國內外學者對旅游消費的研究主要集中在消費結構、旅游者消費行為、消費對旅游目的影響等方面。
在消費結構方面,周文麗等從邊際消費傾向、消費投向、收入彈性及價格彈性四個方面對我國城鄉居民國內旅游消費中的食、住、行、游、購、娛等9類消費的結構進行了實證分析[3]。王媛等以南京市為例,針對具體區域的國內旅游消費結構現狀及存在的問題進行定性和定量分析,找出影響國內旅游消費結構的因素,并提出對策[4]。還有針對四川省[5]、河南省[6]或者其他具體區域的類似研究。
消費行為方面的研究主要包括旅游者對旅游決策行為過程、消費行為的完整過程、消費心理和消費滿意度的研究。Fang Meng等從行為學上對游客旅游消費是沖動、計劃還是體驗進行了研究[7]。有學者對影響旅游消費內、外影響因素進行研究,認為內因包括旅游者自身行為動機、文化背景、旅游偏好等,而外因則包括來自廣告的刺激、家庭和朋友圈的影響等等。如在對旅游中的奢侈品消費行為研究中,Park等針對奢侈品旅游消費從內外因兩個方面對其進行了研究,外因有奢侈品的購物場所、奢侈品本身的影響力等等,而內因則是游客本身對待奢侈品不同的態度[8]。還有針對旅游者本身情況的研究,包括旅游者本身經濟能力、旅游經驗、文化背景、心理特征、年齡性別等等。Myung-Ja Kim等基于性別差異對韓國網絡旅游消費影響問題進行了研究[9]。
在旅游消費與旅游目的地之間的關系研究方面,旅游消費、旅游購物是很多旅游目的地能夠成功吸引旅游者的重要因素。Henderson等研究了旅游購物對新加坡作為旅游目的地的影響,對新加坡作為旅游目的地的成功經驗進行了總結,也通過調查分析,對零售業和旅游業中的經驗教訓進行了反思[10]。還有針對迪拜進行的類似研究[11]。
綜上所述,無論是哪一種類型的研究,多是以消費結果作為研究基礎,而針對旅游消費個體的相關研究還比較少見。所以,本文計劃運用旅游微觀數據平臺已經獲取的大量數據以及機器學習的方法,建立一個對旅游者消費類型預測判斷的模型,在部分數據缺失的狀況下對旅游者的消費類型進行預測。
目前針對缺失數據的預測方法主要有均值插補、中位數插補、多值插補以及回歸預測法。針對本文提出的問題,我們提出回歸預測法和插值填補法相結合的缺失數據填補法。即根據數據缺失的情況,采用不同的數據預測方法,實現缺失數值的插補。
(一)數據預處理
針對數據項:旅行人數、天數、長途交通、住宿、餐飲、景區游覽、購物、娛樂、郵電通訊、市內交通費用,可以對后八項數據求取人均每天的消費金額,從而形成本文所需的消費特征。
(二)當缺失數據僅為一項
當原始數據項缺失僅為一項時,本文通過已有的數據項建立回歸分析預測模型,即通過游客的大部分消費數據預測缺失待插補的數據,并運用神經網絡算法預測缺失數據,從而進行填補。
當原始數據中某項數據成為缺失量時,可以將其作為因變量,其他已知數據作為自變量。我們不妨假設存在這樣一個模型:hθ(xz,x2,…,xn),能夠反映這些隨機量之間的關系。于是,可以建立相應的回歸模型,如公式2.1所示:
y=hθ(x1,x2,…,xn)+ε
(2.1)
其中,ε為誤差項,y表示缺失量的值,x1,x2,…,xn表示各個非缺失變量,此模型即為多元回歸模型。
我們采用神經網絡算法,通過訓練完整數據集來得到相應的模型h,在網絡權重收斂穩定之后,含有缺失數據的特征向量也就得到確定。BP(back propagation)神經網絡是目前應用最廣泛的一種神經網絡。它是一種基于誤差反向傳播的多層前饋網絡,由信息的正向傳播和誤差的反向傳播兩部分組成,是一個包括輸入層、隱含層以及輸出層的神經網絡[12]。
BP神經網絡按監督性學習方式完成訓練。當預期輸出和實際輸出不符時,誤差按照梯度下降的方式由輸出層經過各個隱含層,最終返回至輸入層,以達到逐層修正各個連接權重的目的,因此被稱為“誤差逆傳播算法”[13]28-29。
為了使BP神經網絡確保樣品實際輸出與預期輸出之間存在的誤差能夠被控制在較小區間之內,需要對不同層之間的連接權重以及節點閾值做出調整[14]。一般地,將BP網絡算法的學習過程描述為以下步驟:首先將原始數據進行數據預處理,去除重復、殘缺數據,然后通過建立神經網絡模型,對完整數據集進行網絡訓練、仿真,最終通過仿真結果與樣本進行對比,從而確定神經網絡模型[13]32。
(三)當缺失數據為多項時
當特征數據中存在大量缺失值時,不易對缺失數據進行預測。因此,針對多項數據缺失的情況,可以采用以下方式:將關聯性較強的數據進行人工神經網絡的預測填補,而對其余關聯性較弱的數據可以采用均值插補的方式進行??梢栽O計如下算法流程:
(1)輸入原始數據并進行數據的預處理,去除不一致、重復、含噪聲的無效數據;
(2)對數據進行歸一化處理,在數據分析之前,通常需要先將數據進行標準化處理,利用標準化后的數據進行數據分析;
(3)網絡訓練,通過不斷調節權值,使網絡的輸出與預期值相符;
(4)對訓練后的網絡進行數據仿真;
(5)將仿真結果與樣本進行對比,檢查數據的擬合度;
(6)根據收斂情況,確定學習類型。
(一)確定聚類特征量及所屬類別
原始數據中,長途交通是一個比較重要的特征量;而數據中旅行天數和旅行人數是不同的,無法直接按照數據進行聚類,而且無法得到以“元/公里”為單位的長途消費數據。因此,按照各項消費類目占據總消費的比例處理數據比較合適。所以,首先需要計算得到各項消費類目占據總消費的比例,然后根據消費比例進行聚類分析。
根據消費的重要性,旅游消費分為基本旅游消費和非基本旅游消費兩類,其中基本旅游消費中“食、住、行、游、購、娛”尤為重要。在本次數據獲取的八個類別數據中,長途交通、住宿、餐飲消費在一次旅游活動中是不可缺少的消費,屬于基本消費;而景區游覽、娛樂、購物、市內交通、郵電通訊則是彈性的,是選擇性比較大的消費類別,屬于非基本消費。
基本旅游消費支出可以較明顯地反映出旅行者的消費情況水平。通過分析基本旅游消費支出,最終可以得到:在總的旅游消費中,基本旅游消費支出所占比例越高,該旅行者消費水平越低。
由于基本旅游消費支出(Basic)這一特征量是長途交通、住宿、餐飲這三項消費占據總消費的比例,是衡量消費層次的主要的標準,可以直接表征基本消費,所以將其作為一個特征量。第二個特征量為景區游覽、娛樂、購物三項消費之和占總消費的比例,用來表征購買力(Purchase)。因為首先這三個類目在旅行過程中比較普遍,選擇的自由性程度比較大,所以用來表征購買力是合理的;其次,購買力也是衡量消費層次的另一個重要的特征量。第三個特征量是郵電通訊(Phone),第四個特征量是市內交通(Short_trans)。這兩項消費類目比較邊緣,將單獨列出,由此形成數據分量(表1所示)。通過對數據進行歸一化處理,可以得到新的特征(表2所示)。

表1.各變量所屬類別表
在Matlab中繪制橫軸為Basic、縱軸為Purchase的散點圖,發現散點分布較為集中,證明這一組變量的關聯性較強,并且可看出基本旅游消費支出越高,購買力越低。而將其他變量兩兩組合后發現,其余的兩兩變量的組合都是散亂分布的,并沒有什么明顯的關系。所以我們可以Basic和Purchase為標準,劃分旅游時消費者的層次,消費者基本旅游消費越低,購買力越高,消費層次越高。而Phone和Short_trans可以表征消費習慣,而對于消費層次的劃定意義不大。
因此,從游客消費數據中得到基本旅游消費支出(Basic)、購買力(Purchase)、郵電通訊(Phone)、市內交通(Short_trans)四個特征量,然后根據特征量再進行聚類分析。表2中的數值為每個特征量在總消費數據中占據的比例。

表2.特征值提取后數據形式
(二)聚類過程及結果
聚類分析的目的是將數據劃分到不同的簇中。首先,平臺能夠獲得用戶記錄的游客消費數據,如果用戶的消費數據存在缺失項,則根據上節介紹的缺失數據預測方法進行預測,得到預測值后用于填充缺失數據;然后,根據所得到的完整數據與幾個聚類中心的距離,確定用戶所屬的消費層次。下面將使用k-means算法對預處理過的數據進行聚類分析,從而得到聚類中心。k-means算法將n個向量xi(i=1,2,…,n)劃分成c個簇,計算每個簇的聚類中心,確保非相似性指標的價值函數能夠控制在最低值。k-means聚類算法目標函數為:
‖xi-cj‖2
(3.1)
式3.1中,Jm是目標函數,m是大于1的實數,uij是xi屬于類別j的隸屬度(0或1),xi是第i個測量到的數據,cj是類j的聚類中心,‖*‖表示任一測量數據與聚類中心的相似度。
通過下列兩式的更新迭代來使上述目標函數達到最小:
(3.2)
(3.3)
利用Matlab中的k-means算法的相關函數,得到的聚類中心結果如表3所示。

表3.算法得到的聚類中心
(一)缺失值預測模型實驗
針對八項預處理后的數據,根據上述神經網絡算法,分別對八個數據依次取為缺失項,利用BP神經網絡算法進行求解。下面以景區游覽消費費用為缺失項的例子進行說明。圖1表示訓練參數變化過程也就是計算過程;圖2表示通過不斷訓練殘差值的變化,可以看出當景區游覽消費費用為缺失項時曲線顯示出較好的收斂性,證明算法有效;圖3表示樣本點在高維空間基于模型的擬合情況。
同理,當住宿、餐飲、購物、娛樂數據缺失時,通過BP神經網絡擬合得到的結果,與圖1-3類似,均具有較好的收斂效果。而當長途交通、郵電通訊、市內交通費用數據缺失時,BP神經網絡訓練所得的經驗誤差無法收斂,說明回歸預測處理該問題并不合適,選擇用均值差補的方法進行缺失數據填補。
本文通過交叉驗證法,先將數據集D劃分為10個大小相等的互斥子集,每個子集都盡可能保持數據分布的一致性,即從D中通過分層采樣得到。然后,每次用9個子集的并集作為訓練集,余下的那個子集作為測試集,這樣就可以獲得10組訓練/測試集,從而可以完成“k-折交叉驗證”。本文定義誤差在10%以內,即可認為缺失數據填補合理有效。表4為在測試集中各個數據填補的正確率。

圖1.當景區游覽消費費用為缺失項時的求解過程

圖2.經驗誤差變化

圖3.擬合結果

缺失數據長途交通住宿餐飲購物娛樂市內通訊景區游覽預測準確率33.5%86.8%90.2%87.4%93.4%54.3%85.6%
Basic:0.67
Purchase:0.2769
Phone:0.0057
Short_trans:0.0474
(二)聚類分析
為了確定各層次游客的消費水平和特征,我們需要與游客消費水平的平均數據進行比較,以得到較為合理的分析。下面為我們得到的游客消費水平的平均數據。
在用戶的旅游消費數據中,平均的基本旅游消費為總消費的67%,購物消費比例占據27.69%,郵電通訊占0.57%,市內交通占據4.47%。把這個數據作為旅游消費比例的標準,可以衡量得到其他游客的消費層次和消費水平。在對各層次消費結構進行比對中,基本消費是比對的重點,該項占的比例越高,說明該層次的消費能力越低;而購買力項與消費能力呈正向關系,也就是說,購買力占有比例越大游客消費能力越強。根據基本旅游消費和購買力可以直接分出五個消費層次。將表3中各層次聚類中心與平均數據進行比對,可以獲得各層次的消費特征。
第一類:高消費旅游者
這個消費層次屬于整體中消費水平最高的層次,基本旅游消費占到總消費的54.15%,在基本消費的平均水平中是較低的。購買力這一特征量達到了37.63%,高于平均水平9.94%。從整體來說,這一層次的消費者消費能力很強。
第二類:較高消費旅游者
本消費層次屬于整體中消費水平較高的,基本旅游消費占到總消費的60.03%,低于平均水平6.97%;購買力這一特征量達到了33.92%,高于平均水平6.23%,購買能力較強。
第三類:中等消費旅游者
這個層次的消費者消費水平屬于中等偏下?;韭糜蜗M為65.71%,比平均水平67%的標準低1.29%;購買力達到29.42%,低于平均水平1.73%。這一層次的消費者市內通訊占到0.57%,市內交通占據4.30%,均略低于平均水平。
第四類:偏低消費旅游者
本層次消費者基本旅游消費達到了72.29%,高于平均水平將近5%,購買力低于平均4.61%,消費水平較低。郵電通訊與市內交通也略低于平均水平。整體消費相較于平均水平,屬于偏低。
第五類:低消費旅游者
這一消費層次屬于消費水平最低的,基本旅游消費為87.45%,高于平均水平20%;購買力低于平均17%。其消費基本針對長途交通、住宿和餐飲。郵電通訊與市內交通略低于平均水平,表明消費水平很低。
(三)實例分析
下面給出兩個實例來說明預測游客消費層次的整個過程。例如,用戶在行程規劃中提前提交了旅行人數、旅行天數、長途交通費和預訂住宿費用四項數據,具體如表5所示。

表5.已有的部分數據
第一步:缺失數據填補
根據上文中所給出的分析,長途交通、市內通訊由于數據之間關聯性不強,或者可以說其他數值大小對這兩項數據沒有影響,因此采用均值插補的方式對這兩項數據進行填補。對于此處的實例,由于長途交通數據已經知道,因此只需對市內通訊費用進行均值插補,得到的數值填入表6。
對于餐飲、旅游、購物、娛樂,由于缺失量過多,因此對缺失量中部分采用均值插補,對娛樂項目費用采用神經網絡算法進行插補(充分利用已經知道的長途交通和住宿等信息),具體算法流程如上文所述,可以得到兩組數據結果如表6所示。

表6.完成補足后數據
第二步:聚類層次分析
1.通過對實例1層次分析得到各特征量占據總消費比例:
Basic=(長途交通+住宿+餐飲)/總消費
Purchase=(景區游覽+購物+娛樂)/總消費
Phone=郵電通訊/總消費
Short_trans=市內交通/總消費
Basic:0.6240
Purchase:0.3204
Phone:0.0062
Short_trans:0.0494
參照表4給出的聚類中心,計算得到的數據與各個聚類中心的距離。
距離的計算公式如式4.1所示:
D=dist(data1,center)2+dist(data2,center)2
+dist(data3,center)2+dist(data4,center)2
+……dist(datan,center)2
(4.1)
將第一類別的聚類中心與得到的各特征量帶入式4.1可得到:
D1=(0.6240-0.5415)2+(0.3204-0.3763)2+(0.0062-0.0074)2+(0.0494-0.0749)2=0.01058269
同D1的計算方式相同,我們可以得到該數據與其他聚類中心之間的距離:
D2=0.00092907
D3=0.00182326
D4=0.01785891
D5=0.11110778
在所有的找到距離中,找到最小的距離值。此例中D2值最小,所以該數據屬于D2所示聚類中心,即第二類較高消費旅游者。
由于該項數據是通過后期處理得到的缺失數據,因此可以根據原始數據,進行類別預測。其原始數據和各簇中心的距離為:
D1=0.0088
D2=0.0006
D3=0.0033
D4=0.0218
D5=0.1202
由上述結果可知,D2值最小,所以該數據屬于D2所示聚類中心,即第二類較高消費旅游者。這與本文算法所得到的結果一致,所以可以證明本文所提出的算法具有較好的缺失數據預測能力。
2.實例2聚類分析
各特征量占據總消費比例
Basic:0.5516
Purchase:0.3495
Phone:0.0078
Short_trans:0.0911
同樣參照表3給出的聚類中心,計算得到的數據與各個聚類中心的距離,得到以下數據:
D1=0.00108285
D2=0.00393711
D3=0.01650636
D4=0.04577511
D5=0.1704715
找到D值最小的值,該實例中D1值最小,所以該數據屬于D1所示聚類中心,即第一類高消費旅游者。
由于該項數據是通過后期處理得到的缺失數據,因此可以根據原始數據,進行類別預測。其原始數據和各簇中心的距離為:
D1=0.0004
D2=0.0055
D3=0.0207
D4=0.0538
D5=0.1862
由上述結果可知,D1值最小,所以該數據屬于D1所示聚類中心,即第一類高消費旅游者。這與本文算法所得到的結果一致,所以可以證明本文所提算法具有較好的缺失數據預測能力。
旅游數據的研究是目前國內外學界研究的熱點,而與互聯網、大數據相結合的旅游數據研究在國內外都處于起步階段,有大量的工作可以開展,也有很多的空白需要填補。本次研究建立了一個旅游者消費類型預測模型。該模型對于存在缺失的數據,用回歸預測法和插值填補法相結合的方法進行預測,將缺失數據填充之后,對旅游者消費數據進行聚類分析。經過聚類,得到了五種消費者類別,即高消費旅游者、較高消費旅游者、中等消費旅游者、偏低消費旅游者、低消費旅游者。最后,給出了兩組數據進行實例分析,通過計算數據到聚類中心的距離判斷出這兩組數據應屬哪個消費層次。最后通過實例分析證明,本文所提模型具有較好的缺失數據預測能力。
本文的理論價值主要體現在對旅游個體消費行為的研究中。現有的旅游消費行為的理論多數起源于營銷和消費動機理論,對消費感知、消費態度、消費行為與收入的關系的問題研究較為深入,但對于游客個體的旅游消費行為的預測性研究很少。其原因主要是獲取數據較難,而且研究方法沒有跳脫出傳統統計研究的范疇。本文運用了移動互聯網平臺采集數據,建立一個預測游客消費行為、消費層次的模型,直接針對旅游者個體,這對于旅游消費行為學理論的完善有很好的補充意義。
在實踐價值方面,在大數據的時代背景下,傳統數據獲取方式受到了強烈的挑戰,迫切需要利用新技術新方法對數據進行有效的收集和利用。本文利用BP神經網絡、均值差補、聚類分析等數學方法,可以在獲取旅游者前置消費數據以后預測該旅游者的消費類型。本文采用了以預測為核心的大數據方法,為后來的研究者提供了可供參考的研究思路。
本文仍存在一些需要改進的地方,由于本文提出的模型中所運用的數據全部來自自研平臺,導致數據來源比較單一。為增強本文提供方案的外部效度,本文在此處提供一種替代方案。即:由于本文通過實際數據集得到的預測適用于旅游過程中旅客各項消費之間的關聯預測,因此當系統獲取數據較弱時,可以采用關系向量替代本文中提出的特征向量(各項數據為消費金額占總消費金額的比例),或者設計相似的手工特征算子進行相似的做法。此外,未來工作也將基于關系學習預測進行,希望能夠獲取更廣泛的數據來增加該模型的典型性與代表性。
[1]郝東陽.中國城鎮居民消費行為的經驗研究[D].長春:吉林大學,2011.
[2]王賽蘭,楊振之.面向大數據的旅游微觀數據信息平臺研究[J].四川師范大學學報(社會科學版),2015,(1):54-61.
[3]周文麗,李世平.基于ELES模型的城鄉居民國內旅游消費結構實證分析[J].旅游科學,2010,(3):29-38.
[4]王媛,黃震方.國內旅游者消費結構及相關行為因素分析——以南京市為例[J].南京師大學報(自然科學版),2005,(4):123-126.
[5]鄧清南.四川省國內旅游消費結構探析[J].成都電子機械高等專科學校學報,2005,(2):57-62.
[6]曹新向.河南省國內游客旅游消費變動的分析[J].旅游論壇,2009,(4):583-588.
[7]MENG F,XU Y L,et al.Tourism Shopping Behavior: Planned,Impulsive,or Experiential?[J].International Journal of Culture,2012,(3):250-265.
[8]PARK K,REISINGER Y,NOH E.Luxury Shopping in Tourism[J].International Journal of Tourism Research,2009,(2):164-178.
[9]MYUNG-JA K et al.Investigating the Role of Trust and Gender in Online Tourism Shopping in South Korea[J].Journal of Hospitality&Tourism Research,2013,(3),377-401.
[10]HENDERSON J C,et al.Shopping,Tourism and Retailing in Singapore[J].Managing Leisure,2011,(16):36-48 .
[11]ZAIDAN E A.Tourism Shopping and New Urban Entertainment: A Case Study of Dubai[J].Journal of Vacation Marketing,2015,(22) :29-41.
[13]王小彬.基于機器視覺的SMT焊點自動光學檢測系統研究[D].蘇州:蘇州大學,2009.
[14]王燕.一種改進的BP神經網絡手寫體數字識別方法[J].計算機工程與科學,2008,(4):50-52.
[責任編輯:鐘秋波]
The Prediction Model of Tourism Consumption Type Based on Tourism Micro-data Platform
WANG Sai-lan1,2,YANG Zhen-zhia1
(1.School of Tourism,Sichuan University,Chengdu,Sichuan 610065;2.The Jincheng institute of Sichuan University,Chengdu,Sichuan 611731,China)
This paper builds a tourist consumption type prediction model by applying the abundant data of tourism consumption acquired from tourism micro-data platforms,which is capable of predicting and identifying the types of tourist consumption with partial data absence.Based on the theory of supervised learning,this model first learns from some existing complete consumption data and continually reduces judgment errors through learning algorithm until the model can conduct accurate prediction.According to different data missing,BP neural network and mean value interpolation is applied to replenish them.The resulting data are clustered by K-means clustering and thereby the types and levels of tourist consumption can be predicted.Finally,this model is able to predict the types of tourist consumption even with partial data absence.
tourism consumption;tourism micro-data platform;tourism comsumption type;prediction model;the theory of supervised learning
2016-10-12
四川省教育廳人文社科研究項目“面向大數據的旅游微觀數據信息平臺研究”(15SB0323)。
王賽蘭(1981—),女,湖北武漢人,四川大學旅游學院博士生,四川大學錦城學院副教授,研究方向為智慧旅游、文化遺產與旅游開發;
楊振之(1965—),男,重慶人,博士,四川大學旅游學院教授、博士生導師,主要從事休閑與旅游規劃、旅游目的地管理等理論與實踐。
F592.3
A
1000-5315(2017)01-0067-08