曹宛如
河北地質(zhì)大學(xué),河北石家莊 050031
近年來(lái)旅游業(yè)實(shí)現(xiàn)開(kāi)放式發(fā)展,在線訂閱旅游行程成為一種人們追捧的新時(shí)尚,在線旅游APP用戶(hù)規(guī)模穩(wěn)步增長(zhǎng)。在線旅游APP推出的旅游行程根據(jù)游客的不同需求推薦各類(lèi)的方案,游客從推薦中根據(jù)個(gè)人的不同需求選取自己喜歡的產(chǎn)品自助訂閱。
盡管各類(lèi)在線旅游APP滿(mǎn)足大眾對(duì)旅游的多種個(gè)性化需求,但是存在的問(wèn)題仍屢見(jiàn)不鮮,在線訂閱的旅游行程后評(píng)價(jià)是游客分享旅游體驗(yàn)的主要渠道,評(píng)價(jià)的內(nèi)容已經(jīng)成為影響潛在游客的訂閱在線旅游行程重要因素,逐漸成為旅游行業(yè)研究的對(duì)象之一,因此通過(guò)網(wǎng)絡(luò)評(píng)論的內(nèi)容分析游客對(duì)于在線訂閱的旅游行程的滿(mǎn)意度尤為重要。本文從網(wǎng)絡(luò)環(huán)境下游客旅游評(píng)論的角度,對(duì)游客旅游滿(mǎn)意度進(jìn)行分析,以適應(yīng)當(dāng)前迅速變化的社會(huì)環(huán)境以及人們的消費(fèi)心理的改變[2]。
本文文本分析涉及到的理論及方法包括結(jié)巴分詞、決策樹(shù)構(gòu)建和LDA模型等。
根據(jù)游客對(duì)在線訂購(gòu)的旅游行程產(chǎn)品的評(píng)價(jià),基于文本分析對(duì)旅游行業(yè)游客滿(mǎn)意度進(jìn)行分析,具體地,研究工作包含以下幾個(gè)方面:
首先,通過(guò)結(jié)巴分詞的方法進(jìn)行分詞處理[3]。根據(jù)前綴建立游客滿(mǎn)意度評(píng)論詞庫(kù),將處理過(guò)的評(píng)論內(nèi)容進(jìn)行分詞處理,并進(jìn)行詞頻統(tǒng)計(jì),繪制詞云圖。
其次,采用分類(lèi)回歸決策樹(shù)(CART),構(gòu)建決策樹(shù)衡量模型好壞。構(gòu)造特征空間和標(biāo)簽,將樣本數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,隨機(jī)選取滿(mǎn)意度影響因素與對(duì)應(yīng)的情感綜合評(píng)價(jià)多維數(shù)據(jù)矩陣中的75%作為測(cè)試集,其余25%作為驗(yàn)證集,詞轉(zhuǎn)向量后即可構(gòu)建決策樹(shù)。
然后,采用情感分析,利用詞典資源、情感語(yǔ)集對(duì)分詞的各詞語(yǔ)的詞性進(jìn)行判斷,建立情感詞庫(kù),對(duì)詞語(yǔ)的感情極性進(jìn)行分析,即判斷某個(gè)體對(duì)客體的感情傾向的方向,將評(píng)論內(nèi)容進(jìn)行分詞、量化為數(shù)值型數(shù)據(jù),根據(jù)權(quán)重匹配得到情感值,做出正面和負(fù)面詞云圖,分析結(jié)果。
最后,使用Python中的Genism庫(kù)來(lái)構(gòu)建LDA主題模型對(duì)評(píng)論內(nèi)容進(jìn)行分類(lèi),它可以以概率分布的形式給出每篇文檔的主題,從而依據(jù)主題分布進(jìn)行主題聚類(lèi)或者是文本分類(lèi)。需要建立詞典及語(yǔ)料庫(kù),利用函數(shù)功能定義余弦相似度函數(shù)做出正面評(píng)論和負(fù)面評(píng)論LDA主題數(shù)尋優(yōu)圖,根據(jù)主題尋優(yōu)圖選取余弦相似度接近于零的主題數(shù),基于每個(gè)主題下生成的最有可能詞語(yǔ)分別對(duì)正面評(píng)論和負(fù)面評(píng)論進(jìn)行兩個(gè)潛在主題的特征詞提取并分析。
由收集的樣例數(shù)據(jù)3990條評(píng)論,數(shù)據(jù)分為訓(xùn)練樣本集和測(cè)試樣本集兩部分。首先需要對(duì)各網(wǎng)站評(píng)論內(nèi)容進(jìn)行去重和數(shù)據(jù)清洗處理,去重后評(píng)論有3814條,并刪除評(píng)論中會(huì)含有對(duì)文本分析沒(méi)用價(jià)值的詞。
本文運(yùn)用結(jié)巴分詞對(duì)3814條評(píng)論內(nèi)容進(jìn)行分詞處理,對(duì)每條評(píng)論的分詞數(shù)量的分布情況進(jìn)行分析。利用python做出分詞后的詞云圖,用于呈現(xiàn)出現(xiàn)頻次處于前100的高頻詞匯,在詞云圖中,字號(hào)最大的是“酒店”,說(shuō)明作為游客在旅游中最關(guān)心的因素是酒店。其次是“廈門(mén)”“不錯(cuò)”“同程”“導(dǎo)游”“鼓浪嶼”“服務(wù)”等,詞云圖中大部分的高頻詞都是偏積極或者中性的,說(shuō)明大多數(shù)游客對(duì)于旅游體驗(yàn)持滿(mǎn)意態(tài)度,并對(duì)酒店、導(dǎo)游、服務(wù)、時(shí)間、安排、早餐幾方面比較看重。
通過(guò)構(gòu)建決策樹(shù)可實(shí)現(xiàn)對(duì)評(píng)論內(nèi)容的情感分類(lèi),利用從訓(xùn)練集的評(píng)論內(nèi)容中自動(dòng)學(xué)習(xí)到的信息,對(duì)測(cè)試集評(píng)論的情感方向進(jìn)行預(yù)測(cè)。經(jīng)過(guò)處理后的2844個(gè)樣本中,差評(píng)、中評(píng)和好評(píng)的數(shù)量分別為383條、342條和2119條。決策樹(shù)計(jì)算結(jié)果顯示,訓(xùn)練樣本集上的準(zhǔn)確率為78%,測(cè)試樣本集上的準(zhǔn)確率為78%。正面情感詞匯的F1-score較高為87%,精確率為78%,召回率為99%。負(fù)面情感詞匯的F1-score較低為36%,精確率為70%,召回率為24%。平均的F1-score為71%,總體來(lái)說(shuō)構(gòu)建模型的效果不錯(cuò)[4]。
采用知網(wǎng)發(fā)布的情感語(yǔ)集,并在詞庫(kù)中加入新詞“贊”“推薦”“好評(píng)”等,以提高情感分析的準(zhǔn)確性。接著對(duì)于不同的情感方向詞語(yǔ)進(jìn)行權(quán)重分配,然后利用表連接的方式將情感詞庫(kù)的權(quán)重匹配到前面處理過(guò)的評(píng)論分詞中,正面詞權(quán)重為1,負(fù)面詞權(quán)重為-1。對(duì)于在評(píng)論中出現(xiàn)否定詞或者雙重否定的情況,修正情感影響。
根據(jù)每條評(píng)論得到的的情感得分對(duì)評(píng)論內(nèi)容重新打上情感方向的標(biāo)簽,情感得分大于零的評(píng)論為“正”,得分小于零的為“負(fù)”,等于零的為“中”,得到帶有情感方向的評(píng)論共3251條。在分析評(píng)論的情感方向時(shí),主要分析的是游客對(duì)旅游感受的正負(fù)面情感方向,因此我們主要分析機(jī)器學(xué)習(xí)方法在正負(fù)面的準(zhǔn)確率,計(jì)算得出總體判斷準(zhǔn)確率約為72%。
由正負(fù)面的情感詞云圖的對(duì)比可清晰看出,正面的情感詞云圖詞語(yǔ)分布較為密集,負(fù)面詞云圖分布較為稀疏。說(shuō)明對(duì)于自己的旅游體驗(yàn)感覺(jué)良好的游客占了絕大多數(shù),只有很少一部分游客對(duì)于自己的行程不滿(mǎn)意。主要的負(fù)面詞包括“投訴”“失望”“難吃”“無(wú)聊”“貴”“不合理”“不負(fù)責(zé)任”等。由此反映出商家應(yīng)在食物、服務(wù)、價(jià)格等方面做出相應(yīng)改善,以減少游客在這些方面的不滿(mǎn)[5]。
基于LDA模型的主題分析,它的優(yōu)點(diǎn)能夠精確的反映出他們的主題[1]。本文使用python的genism庫(kù)來(lái)構(gòu)建LDA主題模型對(duì)評(píng)論內(nèi)容進(jìn)行分類(lèi)。本次分析中當(dāng)主題數(shù)為2時(shí)余弦相似度幾乎接近于零,因此將正面和負(fù)面評(píng)論的LDA主題數(shù)都定為2,同時(shí)每個(gè)主題下生成10個(gè)最有可能的詞語(yǔ)。
根據(jù)對(duì)游客旅游積極評(píng)論內(nèi)容的兩個(gè)潛在主題的特征詞提取,主題1的高頻特征詞如“酒店”“飛機(jī)”“房間”“接機(jī)”,說(shuō)明游客對(duì)于整個(gè)行程中對(duì)交通和住宿方面的滿(mǎn)意度較高。主題2的高頻特征詞如“行程”“導(dǎo)游”“廈門(mén)”“服務(wù)”。主要反映了游客對(duì)行程中導(dǎo)游的服務(wù)滿(mǎn)意度較高。
根據(jù)對(duì)游客旅游消極評(píng)論內(nèi)容的兩個(gè)潛在主題的特征詞提取,主題1的高頻特征詞如“差”“客服”“安排”“吃”,說(shuō)明游客對(duì)于行程中客服的安排以及食物方面的滿(mǎn)意度較低。主題2的高頻特征詞如“酒店”“導(dǎo)游”“飛機(jī)”“時(shí)間”“安排”“房間”。發(fā)現(xiàn)包含的范圍計(jì)較廣,無(wú)論是導(dǎo)游的服務(wù)、時(shí)間的安排還是住宿方面都沒(méi)有達(dá)到游客的滿(mǎn)意。說(shuō)明商家在行程安排和住宿方面仍有很大的提升空間[6]。
本文利用文本挖掘技術(shù)在評(píng)論內(nèi)容中獲取游客的實(shí)際體驗(yàn)信息,將非結(jié)構(gòu)化的評(píng)論內(nèi)容通過(guò)結(jié)巴分詞進(jìn)行分詞、量化處理,進(jìn)而轉(zhuǎn)化成結(jié)構(gòu)型數(shù)據(jù)。進(jìn)行決策樹(shù)模型的構(gòu)建,將原數(shù)據(jù)集細(xì)化區(qū)分為訓(xùn)練集和測(cè)試集,最后構(gòu)建的模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率為78%,預(yù)測(cè)結(jié)果總體上良好。情感得分與游客的滿(mǎn)意度呈現(xiàn)出正相關(guān)關(guān)系,總體準(zhǔn)確率為72%。最后利用LDA模型對(duì)評(píng)論內(nèi)容的主題進(jìn)行提取,主要得出以下結(jié)論:游客對(duì)于旅游的正面評(píng)價(jià)遠(yuǎn)遠(yuǎn)多于負(fù)面評(píng)價(jià),在對(duì)旅游體驗(yàn)進(jìn)行評(píng)價(jià)時(shí),游客往往會(huì)更關(guān)注兩大方面。一方面是旅游過(guò)程中的剛性需求,比如住宿需求、出行需求、餐飲需求等,如在住宿時(shí)游客對(duì)于住宿環(huán)境、住宿質(zhì)量以及酒店服務(wù)等方面十分看重,在選擇出行工具時(shí)也會(huì)綜合出行工具的性?xún)r(jià)比及舒適度加以考量。另一方面則是對(duì)行程安排、導(dǎo)游、景點(diǎn)客服非必選服務(wù)的抉擇,如行程安排的合理性影響了游客對(duì)于旅游行程的實(shí)際體驗(yàn)感,導(dǎo)游的服務(wù)質(zhì)量會(huì)影響游客對(duì)剩余行程的繼續(xù)與否,景點(diǎn)客服的服務(wù)態(tài)度會(huì)影響游客對(duì)該景點(diǎn)的回訪率等。