彭淑珍,陶玉國,和澤海
(江蘇師范大學 歷史文化與旅游學院,江蘇 徐州 221116)
隨著中國旅游業進入休閑度假時代,度假旅游已經成為休閑旅游的重要方式[1],其大眾化趨勢越發明顯。旅游度假區是我國旅游行業除5A級景區外又一個金字招牌,對建設和完善旅游產品體系具有重要意義[2]。省級旅游度假區憑借其品質和品牌,成為我國度假經濟的主要承載區,游客接待量和旅游收入在國內旅游中的地位已相當突出。長三角區域旅游業正加速從傳統觀光向休閑度假轉變,目前成為人們外出度假旅游受歡迎度較高的目的地。因此如何滿足游客不斷升級和趨于個性化的度假旅游需求,是長三角區域度假旅游發展面臨的新課題,對全國也具有一定示范作用。
互聯網的迅速發展推動了旅游大數據的廣泛應用,旅游大數據具有成本低、信息海量和可進入性良好等優勢[3]。網絡口碑在各種網絡旅游信息中對游客決策的影響最為顯著,依靠網絡口碑可在出游前獲取旅游目的地有關的信息,有利于增強旅游體驗。但是網絡口碑海量的數據造成了信息過載,網絡潛在游客想在海量的信息里作出合適的決策存在障礙,因此催生了旅游目的地的推薦研究。同時僅靠人工判斷對旅游目的地網絡評論進行分析已經變得很困難,因此隨著在線數據采集技術的進步以及文本情感分析方法的成熟,針對網絡口碑的情感分析技術應運而生。盧竹兵等針對傳統協同過濾算法存在數據稀疏性與冷啟動的問題,提出改進的引入情感分析信任模型的推薦方法,實驗驗證了推薦的準確性得到了有效提高[4]。鑒于此,本文從微博的游客在線評論信息入手,利用相關情感分析方法對長三角省級旅游度假區的網絡口碑進行研究,為潛在游客推薦高評價的度假旅游目的地,提供個性化的服務,為旅游者更加高效地做出旅游決策提供參考。
雖然國家級旅游度假區在規模、區域范圍和影響度方面高于省級旅游度假區的,但是考慮到全國僅45家,且分布范圍分散,而省級旅游度假區分布范圍更密集,數量龐大,類型豐富,對普通游客吸引力更大,因此本文選擇長三角區域省級旅游度假區為研究對象。長三角地處我國東部沿海,屬于我國經濟發達區域,蘊藏著得天獨厚的自然及人文旅游資源,為度假旅游的發展提供了基礎。本研究依據2016年5月國務院批準的《長江三角洲城市群發展規劃》把長三角區域定為上海、江蘇、浙江、安徽3省1市的26個地級市。截至2019年12月,該區域省級旅游度假區總量已達到約124個,其中江蘇58個、浙江51個、安徽15個,是我國省級旅游度假區擁有數量最多的區域。
微博不僅在中國社交網絡中占據領先地位,更是中國最具影響力的社交媒體之一[5],已經成為口碑傳播的一個重要渠道,具有研究價值。李巍等[6]指出非營利性平臺的口碑信息對消費者的購買意愿和行為的影響作用高于營利性平臺,故本研究選取新浪微博作為數據獲取平臺,搜集了2015年10月至2020年10月長三角區124個省級旅游度假區微博游客口碑數據作為基礎研究數據。目前采集微博數據的方法有三種:調用微博官方應用程序編程接口、借助網絡采集器采集數據以及直接編寫爬蟲代碼抓取評論數據。其中,通過python爬蟲代碼抓取操作方便、采集效率高、可進行并行采集以及個性化獲取所需數據。考慮到本研究數據的規模和時效性,采用python爬蟲代碼抓取評論數據。
為了保證樣本數據的真實性和有效性,需對網絡口碑文本內容進行進一步篩選。刪除明顯判斷是商家廣告、旅游地宣傳、惡意評論等內容;刪除評論中的表情符號及圖片內容,只保留文字部分;刪除文字低于5字或重復評論的內容。在微博搜索后,共爬取得到符合限定條件的省級旅游度假區家78家,其中江蘇省39家,浙江省26家,安徽省13家,經過篩選得到有效的網絡口碑數據18626條。
網絡口碑是游客度假選擇的重要信息來源,其所含信息量越大,被消費者選擇的可能性就越大[7]。孫春華等[8]證明了網絡口碑長度對消費者信息有用性感知有顯著作用,還反映發送者的涉入程度與滿意/不滿意程度。從而影響購買決策。因此,網絡口碑越長,所含的信息越具體,對消費者的幫助越大[9]。如圖1所示,本研究所獲取的有效的網絡口碑長度字數主要集中于150左右,微博網絡口碑長度較長,其內容豐富。口碑長度還會刺激消費者細致瀏覽,加深甚至改變原有的態度,提高對產品或服務的認知度,減少消費者的不確定性[9]。因此本研究數據有效性較高,具有較好的口碑傳播效果。

圖1 微博網絡口碑評論長度
本文以有效的網絡口碑基礎數據為研究內容,對樣本數據進行了統計,采用情感分析法對口碑內容進行深入分析,本文所采用的情感分類模型是卷積神經網絡(CNN),是目前常用的深度學習模型之一,它在計算機視覺、自然語言處理等領域有著重要應用。
本研究通過Python深度學習工具包Keras實現卷積神經網絡。CNN的結構模型主要包括輸入層、卷積層、池化層、全連接層以及輸出層5部分,如圖2所示。首先在輸入層將原始數據載入模型,其次通過卷積層進行卷積運算得到特征圖。在通過池化層優化輸出參數,得到對應的特征映射圖。接下來,再利用下一層卷積層對這些映射圖進行卷積操作得到特征圖,然后對特征對進行池化操作,得到新的特征映射圖,通過降采樣,將其輸入全連接層。依次逐層訓練上述訓練過程就可以得到原始數據的特征向量。將這些特征向量通過全連接層輸入分類器就可進行最后的分類結果輸出。

圖2 CNN結構
CNN模型每次輸入一條評論的特征矩陣,就會將所有評論的矩陣輸入訓練為一次迭代,一般需要多次迭代計算才能得到性能良好的情感分類模型,本模型每次訓練經過100次迭代。在訓練結束以后,保存訓練好的模型,并利用測試集對該模型進行評估,模型的Precision(精度)、Recall(召回率)和F1-measure(綜合評價指標)分別是0.831、0.816和0.823。情感極性分類模型評估結果較為準確,使用該模型將所有微博評論放入分類模型進行情感極性分類,最后將情感值存入數據庫中。
游客對長三角區域省級旅游度假區的整體情感為0.8963,正面極性非常明顯,游客的長三角區域度假情感值較高。對長三角區域78家省級旅游度假區進行情感值排名,如圖3所示,選取排名前20的旅游度假區,其類型是湖泊型度假區、山地森林型度假區和溫泉型度假區。推薦情感值排名前3的度假區分別是江蘇省蘇州西部生態旅游度假區、浙江泰順廊橋-氡泉省級旅游度假區和浙常熟虞山尚湖旅游度假區。蘇州西部生態旅游度假區網絡口碑情感值是0.9844,排名最高,它擁有優質生態環境,傳統蘇繡文化和成熟度假項目,為游客帶來沉浸式度假體驗,是長三角首選度假目的地。

圖3 情感值排名前20省級旅游度假區
游客網絡口碑情感的時間分析主要以季節和月為單位,研究在不同時間尺度下游客情感所表現出的特征。度假旅游者開展度假活動是為了達到休閑和保健的目的,在度假目的地停留時間較長,因此度假旅游的季節性相對于觀光旅游及其他各種類型的旅游形式來說,表現得更為明顯。本研究按照一般意義上的季節劃分將月份劃分為四季,春季為3~5月份、夏季為6~8月份、秋季為9~11月份、冬季為12~2月份。首先分別計算整個長三角區域度假區的各季節游客情感值,游客夏季度假旅游的情感值為0.9183,排名最高;春秋次之,情感值分別為0.9068和0.9109;冬季游客情感值為0.9050,排名最低,可見游客夏季在長三角區域度假體驗滿意度更高,因此更推薦夏季開展度假活動。
計算每個省級旅游度假區各季節的情感均值,選取排名前10的旅游度假區,結果如圖4~7所示,可觀察到,春季推薦情感值排名前3的度假區分別是安徽省黃山太平湖旅游度假區、浙江省嘉善大云溫泉省級旅游度假區、江蘇省吳江汾湖旅游度假區;夏季推薦情感值排名前3的度假區分別是安徽省黃山太平湖旅游度假區、江蘇省蘇州西部生態旅游度假區、江蘇省揚州鳳凰島生態旅游度假區;秋季推薦情感值排名前3的度假區分別是浙江省嘉善大云溫泉省級旅游度假區、安徽省黃山太平湖旅游度假區、江蘇省常熟虞山尚湖旅游度假區;冬季推薦情感值排名前3的度假區分別是安徽省黃山市雨潤國家旅游度假區、江蘇省宿遷洋河旅游度假區、江蘇省泗洪洪澤湖生態旅游度假區。

圖4 春季情感值

圖5 夏季情感值

圖6 秋季情感值

圖7 冬季情感值
安徽省黃山太平湖旅游度假區在春季和夏季網絡口碑情感值最高,春季的太平湖度假區春暖花開,白鷺悄然而至,有著剛睡醒的朦朧美,夏季的太平湖度假區素有“中華翡翠”之美譽,它是海南島到長白山中間優質的水景度假養生避暑圣地;浙江省嘉善大云溫泉省級旅游度假區在秋季網絡口碑情感值最高,它擁有得天獨厚的溫泉資源,又有江南水鄉的恬靜之美,秋季在此泡溫泉可以入境養生舒身;安徽省黃山市雨潤國家旅游度假區在冬季網絡口碑情感值最高,它位于長三角最美的冬日童話——黃山腳下,古樸優雅,別具一格的生活空間使游客體會冬日里的精致溫暖。
計算長三角區域每個月份的情感均值,如圖8所示,可觀察發現,在5、6、9三個月份網絡口碑的情感值最高。而這三個月是長三角區域開展度假旅游的最佳時期,同時也正是我國旅游的黃金季節,因此推薦游客開展度假旅游活動。

月份圖8 月份情感值
將5月、6月和9月這三個月的情感值進行計算排序,抽取各月排名前3的省級旅游度假區,滁州市白鷺島國、無錫太湖和嘉善大云溫泉三個省級度假區在5月份排名中位列前三;黃山太平湖、無錫陽山和余姚四明山三個省級度假區在6月份排名中位列前三;嘉善大云溫泉、余姚四明山和溧陽天目湖三個省級度假區在9月份排名中位列前三。安徽省滁州市白鷺島國際旅游度假區在5月的網絡口碑情感值最高,它的森林覆蓋率90%,上榜“最美旅游度假村”;安徽省黃山太平湖旅游度假區在6月的網絡口碑情感值最高,它是一處有山有水的“天然氧吧”;浙江嘉善大云溫泉省級旅游度假區在9月的網絡口碑情感值最高,它不僅帶給游客愜意的溫泉體驗,還具有絢麗的夜景氛圍和特色的文旅體驗。
從擁有省級旅游度假區的數量上來看,江蘇省居第一,其次是浙江省、安徽省。三省份情感值均值為0.8963,總體較高,但也存在差異,網絡口碑情感值從高到低依次江蘇省0.9041、浙江省0.9013、安徽省0.8835,可見游客對江蘇省的度假體驗滿意度較高,江蘇省和浙江省情感值比較接近,而安徽省差距相對較大。江蘇省是我國七大重點旅游大省之一,也是我國金融、傳統文明、科學技術和對外開放中最富足的省份之一,其正在大力發展旅游產業及推廣相關產業,旅游度假最早在江蘇生根發芽[10],發展建設比較成熟,因此江蘇省為長三角區域最佳休閑度假推薦地區。
長三角省級旅游度假區立足自身資源優勢,打造相應旅游度假區。從資源類型數量所占比上分析,如表1所示,省級旅游度假區資源包括湖泊,山地森林,溫泉、海洋和鄉村田園五大類,度假區類型呈現多元化,能夠涵蓋自然資源和人文資源類型。其中湖泊型旅游度假區數量占42%,所占比重最多,其次是山地森林型,可見山水旅游度假區占了絕對優勢,是長三角區域省級旅游度假區中最重要的類型,這也是長三角旅游度假區的一大特點,旅游度假市場更傾向于山水避暑勝地。

表1 資源類型分析
從不同資源類型旅游度假區情感值上分析,網絡口碑情感值從高到低依次湖泊型,山地森林型,溫泉型、鄉村田園型、海洋型。五個類型的旅游度假區情感值排名與其數量一致。長三角區域湖泊星羅棋布,各種大小不一、成因不同的湖泊遍及此處,依據湖泊自身的特征,長三角地區開發出豐富多樣、特色鮮明的湖泊型度假區旅游產品[11],湖泊型省級旅游度假區是游客出游度假最佳推薦。
對各類型度假區情感值從高到低進行排序,將情感值最高的前3名推薦給游客作為選擇參考。湖泊型排名前3的省級度假區分別是蘇州西部生態旅游度假區、揚州瘦西湖旅游度假區、常熟虞山尚湖旅游度假區;山地森林型排名前3的省級旅游度假區分別是滁州白鷺島國際旅游度假區、紹興會稽山旅游度假區、六安霍山縣大別山主峰旅游度假區;鄉村田園型情感值排名前3的省級旅游度假區分別是高淳國際慢城旅游度假區、黃山雨潤國家旅游度假區、松陽田園風情省級旅游度假區麗;溫泉型情感值排名前3的省級旅游度假區分別是泰順廊橋-氡泉省級旅游度假區、嘉善大云溫泉省級旅游度假區、南京湯山溫泉旅游度假區。連云港海濱旅游度假區是長三角區域為數不多且微博網絡口碑情感值較高的海洋型省級旅游度假區。
本研究以游客情感為研究對象,依托長三角區域78家省級旅游度假區游客微博網絡口碑,采用CNN情感分析方法進行研究分析,具體結論如下。
(1)本研究利用情感分析方法進行情感推薦研究,為旅游情感研究提供了新的研究視野。采用CNN情感分析方法具有一定創新性,同時也提高了推薦的準確率,對游客出行選擇具有較好的參考價值。因此基于情感分析的長三角省級旅游度假區推薦研究為度假旅游目的地研究提供了一個兼顧宏觀尺度和微觀尺度的新的全方位視角。
(2)游客對長三角區域的省級旅游度假區旅游體驗整體滿意度較高,該區域擁有獨特的人文生態旅游資源及高消費能力,因此度假游發展水平較高,吸引力非常強勁,深受游客喜愛。其中網絡口碑情感值最高的江蘇是我國擁有歷史文化名城和優秀旅游城市最多的省份,度假旅游業發展起步相對較早,其旅游產業基礎雄厚[9],滿足游客的度假需求,是度假旅游最佳省份。
(3)長三角區域省級旅游度假區網絡口碑季節情感值雖然有差異,但是差距不大,可見該區域旅游度假區已打造反季節度假旅游產品,各省級旅游度假區逐漸成為四季型旅游目的地,具有長季節性的特點。
(4)從月份來看,5月、6月和9月是開展度假活動的最佳月份。湖型、山地森林型和溫泉型的省級旅游度假區更受游客喜愛,湖泊型旅游度假區在市場供給和游客滿意度兩方面都占據優勢,是推薦前往度假的勝地。
本研究尚存在一些不足之處。由于微博評論數據除來源于游客以外還包含非游客,并且數據爬取于單一平臺的文本內容,所以結果缺乏全面性和科學性,未來可嘗試將多平臺、多形式的數據結合來研究游客情感特征,比如對游客分享的圖片數據內容進行分析、對基于社交媒體數據與傳統統計數據進行交叉驗證等。本文是采用深度學習的情感分析對省級旅游度假區推薦的探索性研究深度學習采用深層神經網絡,其模型較傳統機器學習模型復雜,對數據集的要求高,大規模訓練數據缺乏已經成為深度學習在情感計算中的瓶頸,同時,多層神經網絡的結構、內部運行規則難以理解,對計算結果的解釋性較差。游客的情感是在“非慣常狀態”下的活動產生的情感,游客情感分析是在旅游這一特殊情境下進行的,未來考慮嘗試多種方法的組合使用來進行游客情感計算。