摘要:在旅游經濟時代下,游客更加關注旅游體驗,如何準確挖掘游客的情感和觀點成為研究熱點。然而,傳統的景區評論情感分析模型中,情感特征提取不全面,且評論主題挖掘不充分。文章以龍門石窟景點評論為對象,構建基于BERT-BiLSTM-Attention模型的情感分析模型,并利用LDA模型挖掘評論主題。實驗表明模型的有效性,并將結果進行可視化呈現,為景區優質服務和決策提供數據支持和理論支撐。
關鍵詞:景區評論;情感分析;BERT;BiLSTM
中圖分類號:TP391" " " 文獻標識碼:A
文章編號:1009-3044(2025)18-0116-03
開放科學(資源服務) 標識碼(OSID)
0 引言
隨著國民生活品質的穩步提升,旅游逐漸成為人們日常生活中重要的娛樂方式。隨著社交網站的蓬勃發展,越來越多的游客傾向于在攜程旅行等旅游網站上查詢景點信息、規劃旅游路線,并發表景點評價和分享旅游體驗。因此,如何準確挖掘游客的情感,輔助游客的旅游決策和管理者改進服務,成為重要的研究話題[1]。
近年來,國內外學者十分關注游客體驗研究,并取得了初步進展。郭栩東等[2]利用ROST CM6和情感詞典對肇慶市七星巖景區的游客評論進行情感分析。賈博婷等[3]利用SnowNLP對長白山評論進行情感分析,并基于LDA模型挖掘游客的主題。楊鑫等[4]通過情感詞典與SnowNLP對河南熱門景點進行游客細粒度情感分析,同時結合LDA模型分析了游客評論中的主題。楊秀璋等[5]提出一種融合領域詞典的LDA模型對貴州景點進行主題挖掘。陳玉姣等[6]提出一種融合注意力機制和BiLSTM的旅游評論情感分析模型。蔡汶興等[7]提出基于BERT模型對拙政園評論進行情感分析,同時對負面評論建立社會網絡和語義網絡。
然而,國內對石窟寺旅游體驗的情感分析仍不足,現有研究對評論細粒度情感特征與主題挖掘關注有限。石窟寺在我國分布廣泛且規模龐大,是我國文化遺產的重要組成部分。龍門石窟位居中國各大石窟之首,是全國首批5A級旅游景區,也是世界上造像最多、規模最大的石刻藝術寶庫,被聯合國教科文組織評為“中國石刻藝術的最高峰”。作為典型的石窟寺景區,如何提高游客體驗已成為龍門石窟景區發展的重要一環[8]。劉燕楠[9]使用Selenium爬取云岡石窟評論,并利用SnowNLP進行情感分析。邱亞鵬等[10]利用ROST CM6對龍門石窟評論進行情感分析和社交網絡分析。然而,上述相關工作[9-10]采用SnowNLP和ROST CM6進行淺層分析,尚未進行深層次特征挖掘,且缺乏對評論情感主題的深入挖掘。故本文爬取龍門石窟景點評論,預處理后進行情感分類,并進一步挖掘主題,得出研究建議。
本文以龍門石窟景區為研究對象,首先利用爬蟲采集知名旅游網站上的景區評論,并對數據進行數據清洗、中文分析和去停用詞等預處理操作;其次,構建BERT-LSTM-Attention模型對評論數據進行有效情感分析;最后,運用關鍵詞分析和LDA主題分析進一步挖掘評論的主題,得出相關的結論和建議。研究框架如圖1所示。研究結果可為景區管理者提供多維度的信息支撐,有助于優化景區服務質量并提升游客滿意度。
1 數據采集與預處理
本文選取攜程網和同程旅行作為數據來源,使用requests庫采集旅游網站關于龍門石窟景區的游客評論,經過去重操作后,共獲得評論數據10 571條,其中攜程網8 374條,時間范圍為2016年3月至2025年4月,同程旅行2 197條,時間范圍為2014年9月至2025年4月。
為保證數據質量,首先將繁體評論轉為簡體,去除景點無關和長度過短的評論,移除標點符號和特殊符號;然后,結合自定義詞典進行jieba分詞,利用哈工大停用詞表去除停用詞;最后,將評論數據的評分轉換為情感分類標簽。將攜程網中評分≥4的評論數據標記為正面,評分≤3的評論數據標記為負面,將同程網中的好評數據標記為正面,中評數據和差評數據標記為負面。經過數據預處理后,最終共得到有效評論9 939條。
2 情感分析
2.1 模型構建
本文提出情感分析模型BERT-BiLSTM-Attention,利用BERT預訓練模型獲取文本的向量表示,再使用雙向長短時記憶網絡BiLSTM結合注意力機制進行特征提取,最后將特征向量輸入全連接層,通過Softmax分類進行情感分析。該模型綜合了BERT的上下文語義捕捉能力、BiLSTM的雙向序列學習能力與注意力機制的重點捕捉特征,提升了情感分析效果。模型結構如圖2所示。
本文首先將預處理后的文本輸入BERT模型得到語句向量表示[xt]。BERT是Jacob D等[11]于2018年提出的一種基于自注意力的預訓練語言模型,BERT僅使用Transformer的編碼器作為基礎模型實現雙向編碼,能提取語句的上下文特征,同時實現并行處理,在文本分類、問答系統、命名實體識別等絕大多數自然語言處理任務中均取得顯著效果。本研究采用哈工大發布的BERT-wwm-ext版本模型,BERT-wwm-ext采用全詞掩蔽策略(Whole Word Masking,WWM) 將詞的每個字全部掩蓋,增強BERT在中文自然語言處理任務中的性能。
然后,使用BiLSTM對文本向量進行深度特征提取。BiLSTM由前向和后向兩個方向相反的LSTM組成,分別學習文本的上文表示和下文表示,并將上文表示和下文表示進行拼接得到輸出。計算公式如下:
[ht=LSTM(xt,ht-1)]" " " " " "(1)
[ht=LSTM(xt,ht-1)]" " " " "(2)
[ht=Wtht+Vtht+bt]" " " "(3)
式中:[ht-1]和[ht-1]分別表示t時刻前向隱狀態表示和后向隱狀態表示,[ht]和[ht]分別表示t時刻前向LSTM和后向LSTM的輸出狀態表示,[Wt]和[Vt]表示權重矩陣,[bt]表示偏置向量。
為突出評論文本的情感信息,將BiLSTM模型的輸出輸入注意力機制,使模型關注重要信息,忽略不重要信息,進一步提高情感分析的準確率。為BiLSTM的輸出[ht]分配權重矩陣[Wa]和偏置向量[ba],得到注意力權重[uit]:
[uit=tanh(Waht+ba)]" " " " " (4)
通過Softmax函數對[uit]進行歸一化,得到注意力得分[ait]:
[ait=softmax(uit)]" " " " "(5)
然后將[ht]和[ait]加權求和,得到情感突出的特征表示[st]:
[st=i=1Taitht]" " " " "(6)
通過Softmax函數得到情感極性[y]的預測結果:
[y=softmax(Wsst+bs)]" " " " (7)
式中:[st]表示特征向量,[Ws]表示權重矩陣,[bs]表示偏置向量。
2.2 參數設置
為提高訓練效率,同時避免過擬合,本文將訓練次數(epoch) 設置為20次,學習率(learning_rate) 為0.000 02,dropout為0.3,批大?。╞atch_size) 為32,序列最大長度(max_length) 為128,隱藏層尺寸(hidden_size) 為128,具體參數如表1所示。
2.3 評價指標
為評估模型的綜合性能,本文選取準確率(Accuracy) 、精確率(Precision) 、 召回率(Recall) 和F1值(F1_score) 作為評價指標。準確率是評估模型在所有樣本中預測正確的比例,衡量模型的整體分類能力,是最常用的評估指標。精確率是評估模型預測為正類別的樣本中實際為正類別的比例,關注模型在正類別預測中的準確性。召回率(又稱查全率) 是評估實際為正類別中模型預測為正類別的比例。F1值是精確率與召回率的調和平均數,綜合考慮精確率和召回率來評估模型性能。
具體計算公式如下:
[Accuracy=TP+TNTP+TN+FP+FN]" " " (8)
[Precision=TPTP+FP]" " " " "(9)
[Recall=TPTP+FN]" " "(10)
[F1_score=2×Precision×RecallPrecision+Recall]" " "(11)
式中:TP(True Positive) 表示模型正確預測正類別的樣本數量;TN(True Negatives) 表示模型正確預測負類別的樣本數量;FP(False Positive) 表示模型錯誤將負類別預測為正類別的樣本數量;FN(False Negatives) 表示模型錯誤將正類別預測為負類別的樣本數量。
2.4 實驗結果分析
為全面驗證模型的性能,本研究選擇將傳統機器學習模型(SVM、NB、KNN) 與深度學習模型(LSTM、BiLSTM、BERT等) 進行對比實驗,情感分析結果如表2所示。
由表2可知,BERT-BiLSTM-Attention在各個指標上均超過了其他模型,準確率達到0.928,精確率達到0.924,召回率達到0.926,F1值達到0.925,表明本文提出的模型在景區評論情感分析上展現出較好的性能,驗證了模型的有效性。與基礎BERT相比,本文提出模型準確率提升了4.98%,精確率提升了4.88%,召回率提升了4.99%,F1值提升了4.88%,說明Attention機制在評論情感特征提取方面有效提升了模型表現。
3 主題挖掘
3.1 關鍵詞提取
基于TF-IDF對消極評論提取前20個關鍵詞,結果如表3所示,提取前5 000個關鍵詞后,并使用WordCloud生成詞云圖,結果如圖3所示。由表3和圖3可看出,“講解”“導游”出現的頻率較高,反映游客對景區講解質量或導游服務的不滿;“佛像”“大佛”“盧舍那”表明大佛破壞嚴重,游客在景區體驗未達到預期;“很多”“人很多”“電瓶車”“停車場”等表明游客在游客疏散和交通管理等方面存在不滿。
3.2 主題分析
本文通過LDA模型對消極評論進行主題分析,迭代次數設置為200,選用困惑度較低且一致性較高的主題值作為主題數候選,結合PyLDAvis可視化效果,確定消極評論的最佳主題數為3,提取每個主題的前10個特征詞,主題分析結果如表4所示。
由表4可知,景區消極評論的主題體現在交通環境、大佛破壞和服務管理三個方面。交通環境包含“沒有”“電瓶車”“西山”“停車場”“東山”等主要特征詞;大佛破壞包含“佛像”“石刻”“大佛”“盧舍那”“破壞”等主要特征詞;服務管理包含“講解”“導游”“人太多”“門票”“取票”等主要特征詞。
通過對龍門石窟景區消極情感的主題挖掘研究,建議景區管理者結合交通環境、大佛破壞、服務管理等問題進行改善。在節假日限流方面,可借鑒故宮博物院實施的預約系統策略,提高游客分流效果;在講解服務方面,可提供AR增強現實和知識圖譜導覽,打造沉浸式服務。
4 結論
針對當前旅游分析模型沒有充分挖掘情感特征的問題,本文以龍門石窟景區評論為研究對象展開深入研究。本文使用網絡爬蟲獲取旅游網站的評論數據并進行預處理,構建BERT-BiLSTM-Attention模型進行情感分析,性能最優。然后對消極評論進行關鍵詞提取及主題挖掘,并對景區存在的問題提供建設性建議。下一步,本研究將嘗試融合多模態數據,以深入挖掘旅游評論背后的意圖、態度和需求,為更全面的景區決策提供參考。
參考文獻:
[1] 王新宇.基于情感分析技術的景區游客網絡評價研究[J].科技風,2024,26:154-156.
[2] 郭栩東,胡綠,李茂強,王怡.在線評論數據挖掘視角下游客情感分析模式構建:以肇慶市七星巖景區為調研對象[J].科技創新與應用,2024,14(13):9-13.
[3] 賈博婷,馬鋮.基于情感分析的旅游體驗研究:以長白山風景區為例[J].旅游縱覽,2022(2):87-91,96.
[4] 楊鑫,楊典,蘇慧慧,等.基于情感分析的景點評論主題挖掘[J].圖書情報導刊,2020,5(8):59-65.
[5] 楊秀璋,宋卓遠,趙凱,等.基于LDA模型和情感分析的貴州景點輿情分析研究[J].現代計算機,2021,27(25):36-43.
[6] 陳玉嬌,陳崇成,呂貴杰,等.融合注意力機制和Bi-LSTM的旅游評價情感分析模型[J].軟件導刊,2022,21(2):43-47.
[7] 蔡汶興,李興東.基于BERT模型的景區評論情感分析[J].貴州大學學報(自然科學版),2021,38(2):57-60.
[8] 徐子涵,肖雨馨.龍門石窟數字化保護現狀與實踐路徑研究[J].貴州大學學報(藝術版),2024,38(6):78-89.
[9] 劉燕楠.基于爬蟲技術對云岡石窟景區評論的情感分析與可視化展示[J].電腦知識與技術,2024,20(21):74-76.
[10] 邱亞鵬,梁留科,蘇小燕,等.文旅融合背景下石窟寺景區的游客情感分析:以洛陽龍門石窟為例[J].河南大學學報(自然科學版),2022,52(1):34-42.
[11] JACOB D,MING-WEI C,KENTON L,KRISTINA T.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C].Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies,2019:4171-4186.
【通聯編輯:謝媛媛】