肖文杰 張艷芳



摘 要:從微觀尺度出發,利用在線評論大數據對景區的網絡口碑進行研究。選取張家界國家森林公園為研究對象,從大數據視角入手,以新浪微博和馬蜂窩等平臺為信息中介,抓取并研究案例相關評論數據,構建樸素貝葉斯情感分類器對張家界國家森林公園的網絡口碑進行分析。結果表明,與近幾年相比,研究案例在2018年的網絡口碑有一定程度的下降,與現實情況吻合;此外評論的分類準確率、召回率以及F值等評價指標均在90%左右,研究結果和研究方法對分析景區的網絡口碑具有參考價值。
關鍵詞:在線評論;網絡口碑;旅游景區;情感分類器
0 引言
互聯網的發展經歷了Web1.0到Web2.0的轉變,信息傳播方式由被動接收轉變為如今的雙向互動。雙向互動的信息傳播方式促使一大批互動交流平臺如雨后春筍般出現,為互聯網用戶通過網絡表達自己的意見和觀點提供了有效渠道。微博和微信就是典型。以新浪微博為例,截至2019年3月底,微博活躍用戶數達4.65億,日活躍用戶數達2.03億,大規模用戶評論體現了用戶群體的觀點。在大數據時代,深入挖掘大數據的內在價值,是開展相關研究的新途徑和新思路,可為決策提供客觀、理性的參考依據。
旅游目的地的網絡口碑關系到旅游目的地的旅游形象,影響到游客的旅游決策,因此旅游目的地的網絡口碑成為旅游研究熱點之一。所謂網絡口碑(internet word-of-mouth,IWOM)[1],是指客戶在網上發布、借助互聯網傳遞給其他潛在消費者的與企業產品以及服務等有關的各種評價[2],而將網絡口碑引入旅游學科最早由林巧等[3]完成。國外學者對于旅游行業的網絡口碑主要聚焦于酒店領域,具體而言涉及酒店網絡口碑傳播[4]、酒店網絡口碑滿意度[5]和網絡口碑預測[6]等方面。國內不少學者關注旅游城市的旅游網絡口碑,主要從網絡口碑的影響力[7-11]和形象感知[12-13]進行研究。通過網絡口碑對潛在赴藏游客產生從眾心理進而間接影響潛在赴藏游客的購買行為是網絡口碑影響力的表現之一[11]。網絡口碑也可對一個旅游城市產生正反兩面的旅游形象感知,如朱翠蘭[13]通過AHP方法以福建省廈門市為研究對象,研究了網絡口碑文本,分析出廈門市旅游形象感知的正反兩方面因素。上述文獻雖然涉及到網絡口碑評價,但是相關文獻較少,主要采用內容分析等方法進行定性研究。
近幾年,網絡口碑評價獲得了較多關注,學者們從不同角度對其進行定量研究。張若愚[14]利用LTP語言云分析句子之間的依存關系,形成景區特征與情感詞的關聯詞對,然后采用LDA主題模型將景區相關的在線評論劃分為18個主題,并將與主題相關的詞語歸類,構建網絡口碑評價指標體系,接著將之前得到的情感詞并入指標體系并根據情感詞數量賦予指標權重,最終對情感詞進行情感傾向判斷后采用層次分析法得出網絡口碑的綜合得分;邱燕[15]則根據旅游要素理論構建了網絡口碑指標,并利用層次分析法(AHP)為每個關鍵詞賦予相應的權重,最后以網絡爬蟲技術獲取有關景區的網絡輿情信息為數據源,計算每個景區的網絡口碑指數。
上述文獻的研究思路都是通過構建網絡口碑指標體系后采用層次分析法評價網絡口碑。然而,研究過程主要采用層次分析方法(AHP),學者在賦予評價指標權重時,所參考的依據主要是網絡爬蟲數據中與指標相關的詞匯量。而網絡爬蟲得到的數據不一定全面,也即網絡爬蟲的詞匯量并不一定具有代表性。因此,研究結論的科學合理性不可避免地受到影響。
本文創新之處在于利用樸素貝葉斯算法分析游客的情感傾向后,結合詞頻工具分析游客網絡口碑中正負面因素,最終給出提升網絡口碑的建議。雖然在網絡口碑研究領域,有不少學者利用樸素貝葉斯、神經網絡、Kmeans等機器學習算法研究情感傾向[16-20],但是聚焦到旅游行業的相關文獻較少,并未發現有依據新浪微博、馬蜂窩等OTA網絡平臺評論數據進行張家界國家森林公園網絡口碑相關研究。
本文選取典型旅游景區作為微觀尺度的研究案例,從大數據視角入手,以新浪微博及馬蜂窩等OTA網絡平臺的評論數據為數據源,采用樸素貝葉斯方法對景區網絡口碑評價進行研究。
4.3 進一步實驗與討論
根據上述結論,除2018年外,近幾年張家界國家森林公園的網絡口碑整體屬于良好狀態,但還有提升空間。對在線評論作進一步實驗分析和討論,過程如下:在對所有在線評論進行情感分類后,形成“好評”和“差評”兩個數據集,通過Python應用Jieba工具的詞頻統計接口統計兩個數據集中出現的高頻詞匯,對高頻詞匯進行歸納總結,即可得出張家界國家森林公園網絡口碑的正負面因素,深入分析正負面因素,為提升張家界國家森林公園的網絡口碑提出相應建議。
(1)張家界國家森林公園網絡口碑正面因素。在線評論中“好評”數據集出現頻率較高的詞匯有“風景”“優美”“漂亮”“美不勝收”“巧奪天工”“性價比高”“值得”等。歸納起來,游客對張家界國家森林公園的“好評”集中在風景美、性價比高這兩個因素上。風景美在山有山的奇特、水有水的清秀;性價比高在景區內景點多,可游玩時間長,一張門票有效期可達3天。
(2)張家界國家森林公園網絡口碑負面因素。在線評論“差評”數據集中出現頻率較高的詞匯有“排隊”“等待”“人多”“亂”“累”“熱”等。游客對張家界國家森林公園的“差評”主要表現在人多排隊現象嚴重,造成了游客在旅游過程中出現擁擠、線路混亂等現象,進而嚴重影響了旅游體驗。
(3)提升張家界森林公園網絡口碑的建議。以揚長避短為原則,加大宣傳正面因素、有效改進負面因素。具體而言,有如下建議:加強與游客在微博等新媒體上的互動頻率,對游客的評論及時給予反饋,對優秀的評論可給予獎勵并以多種渠道進行宣傳;在旅游旺季限制游客流量,一方面限制每日的售票數量,為提高游客體驗,提前以多種方式公布每日已售票數和剩余票,并開通多種訂票渠道,另一方面在景區內對人流較多的景點和路線采取分流措施;景區內增加相應公共設施減少因天氣變化對游客造成的不便,如階梯處增設防滑墊、景點增設躲雨或遮陽之處、在公共區域提前告示天氣變化。