郭凌云 羅宇婷 劉昕鑫
隨著經濟的快速發展,人民生活水平不斷提高,民宿作為一種新型住宿業態,受到了大量游客的青睞。但目前民宿行業仍然面臨著諸多困境,其經營規范性、安全性等問題日益凸顯。同時,在設施、衛生和安全等方面的運營管理也飽受爭議。因此,如何有效提高用戶滿意度和增加用戶黏性成為當前民宿行業發展的重要問題。
越來越多的在線預定平臺如雨后春筍般快速成長,同時消費者在購買商品后被鼓勵在網站上發布關于產品的在線評論信息。這些信息會通過網絡的快速傳播特性影響潛在消費者的態度,進而影響在線民宿的預訂量。因此,營銷者需綜合考慮用戶偏好及體驗,為平臺和商家提供有效的管理策略。然而,民宿領域的用戶滿意度研究相對較少,現有研究大多基于問卷調查,缺乏準確高效的分析方法。并且針對民宿領域用戶滿意程度的評價與細致劃分的相關研究較為匱乏,同時也尚未考慮不同文化背景下用戶文化差異的影響。
基于此,本文運用文本挖掘和多屬性決策相結合的方法對在線評論數據進行研究,深入探索民宿用戶滿意度影響因素的重要性排序問題。本文旨在通過LDA主題模型和Word2Vec模型,實現對民宿領域特征指標的擴充與豐富;通過情感分析評價用戶滿意程度,構建評價標度;借助隨機占優準則,對比中國和美國民宿用戶的滿意度影響因素排序,提升消費者滿意度,從而為促進民宿行業的發展提出建議。
用戶滿意度是指用戶在購買產品和服務后,對產品和服務所提供的各個屬性的主觀感受,其根據自身的需求是否得到滿足而做出評價。
隨著文本挖掘技術不斷進步,越來越多的學者選擇通過文本挖掘技術來研究用戶的滿意度。近年來國內外眾多學者通過數據挖掘技術對用戶滿意度進行了研究,其中大多數研究是從用戶滿意度影響因素分析。也有部分學者利用情感分析方法量化了虛擬社區中在線評論對用戶滿意度的影響。而針對民宿領域探討在線評論對用戶滿意度影響的研究仍較為匱乏。為此,本文以在線短租平臺的用戶評論數據為研究對象,利用文本挖掘和隨機占優準則方法,對中美民宿用戶的滿意度影響因素進行排序研究,使平臺與商家能夠及時了解商品或服務的優缺與用戶的偏好,進而幫助平臺實現精準營銷。
本研究綜合考慮了中國和美國民宿預定平臺的熱度和平臺用戶評論數據量,以及數據獲取的可行性,最終確定從途家網和攜程網上獲取中國民宿的用戶評論數據,從Airbnb網站和繽客網上爬取美國民宿的用戶評論數據?;谥袊尘斑x取了北京、成都、麗江、三亞、廈門五所城市的民宿數據進行爬取,基于美國背景選取華盛頓、波士頓、舊金山、圣地亞哥和芝加哥五所城市。對用戶名、民宿地點、民宿名稱、評級、評論時間和評論內容六方面進行數據采集,評論數據的時間跨度為2019—2022年??傆嫬@得中國用戶評論數據36330條,美國用戶評論數據27560條。采用Python對清洗后的數據進行分詞、去停用詞等預處理工作。
對完成預處理后的數據進行主題聚類,本文采用LDA主題模型進行聚類。首先,通過計算困惑度來評價模型。在本研究中,中文數據主題數取22時,困惑度的值最低,聚類效果較好,因此中文評論數據的最優主題個數取22個。英文數據主題個數取25時,困惑度的值最低,聚類效果較好,所以英文評論數據的最優主題個數為25個。確定最佳主題個數后,進行LDA主題分析?;贚DA主題聚類結果,并結合現有的研究成果,本文將中英文數據處理結果中相似的主題進行合并整理,最終歸納得到設施、設備、客房用品、服務接待、餐飲、推薦解答、地理位置、周邊環境、交通出行、衛生舒適、房屋風格、誠信態度、價格、人身安全、財產安全、隱私安全十六個主題。結合相關專家意見,通過定性分析將設施、設備、客房用品歸為設施設備一類;將服務接待、餐飲、推薦解答歸為服務一類;將地理位置、周邊環境、交通出行歸為位置一類;將人身安全、財產安全和隱私安全歸為安全一類。最終得到八個一類主題。在此基礎上,借助機器學習的方法訓練語料集,獲取每個主題的高頻相詞。
根據已確定的主題對評論內容進行細粒度的情感分析。首先根據主題-特征關鍵詞表對評論進行分句。分句將長句拆分為短句,并提取出來每個短句中的關鍵詞,將短句根據關鍵詞進行主題歸類,最終篩選得到中文評論133003條特征句,英文評論54365條特征句。借助情感詞典對分句后的文本進行情感打分,正數代表積極情感、負數代表消極情感,0代表中性情感。
在情感打分的基礎上將短句進行情感極性分類,進一步對積極和消極短句進行詞頻統計。其中,中文的“干凈”“整潔”和英文的“clean”“comfortable”等詞直接表達國內外用戶對于民宿衛生舒適狀況的滿意程度,中文的“衛生間”“裝修”“位置”和英文的“place”“location”等詞反映國內外用戶對于民宿提供的某些特征的滿意程度。借助Python的pandas包對中英文評論數據針對特征級的情感打分短句進行匯總,最終得到中文和英文情感得分矩陣。
首先,將一類主題作為用戶對民宿滿意度的影響因素進行研究。根據特征主題的確定,獲得了設施設備、服務、位置、衛生舒適、房屋風格、誠信態度、價格和安全八個一類主題,此時N=8,按照書寫順序與編號一一對應。將每個主題 作為與之對應的民宿用戶滿意度影響因素 ,通過計算中美兩國間各影響因素下針對不同評價標度的概率分布。其次,計算不同商品類別中各影響因素針對滿意度的評價標度的累積概率分布函數。然后分別構建不同國家類別中各影響因素評價標度的期望向量。根據隨機占優準則構建中國k1和美國k2中兩兩影響因素間的隨機占優關系矩陣。最終計算不同國家類別的偏好閾值分別為:

接下來,構建不同商品類別中的影響因素隨機占優程度矩陣。最后,可得不同國家類別中各影響因素的排序值,如表1所示。

表1 中美兩國間用戶滿意度影響因素的排序值
若排序值 越大,則其對應的影響因素 的滿意度越高,根據 的數值大小,可得國家類別 下各影響因素滿意度的排序結果,如表2所示,并作相應的折線圖。

表2 中美兩國間民宿用戶滿意度影響因素的排序結果
由圖1可知,由于各個國家的文化不同,用戶的需求也不盡相同,中美兩國間用戶對各影響因素的滿意程度是不同的。在中國,用戶滿意度最高的影響因素是誠信態度、位置和房屋風格,而滿意度最低的影響因素是設施設備、安全和價格,在服務和衛生舒適的滿意度處于中等偏低。在美國,用戶滿意度最高的影響因素是衛生舒適、誠信態度和房屋風格,而滿意度最低的影響因素是服務、價格和設施設備,在位置和安全方面的滿意度處于中等偏低。

圖1 中美兩國間民宿用戶滿意度影響因素排序可視化結果
本研究提出的框架豐富了傳統的用戶滿意度研究視角,主要研究結果如下:
(1)獲取了在線民宿的特征指標,將特征指標作為用戶滿意度影響因素。
(2)通過基于情感詞典的情感分析方法對用戶滿意度進行評價。利用外部詞典和擴展詞典,對數據進行細粒度的情感程度分析。
(3)利用隨機占優準則對用戶滿意度影響因素進行排序研究,研究結果發現中美兩國間的用戶滿意度存在顯著不同,其與兩國間的文化差異有關。
本文通過對民宿用戶的在線評論文本進行分析,豐富了傳統的用戶滿意度分析視角,首次創新性對比研究了不同國家間的民宿用戶滿意度影響因素。本文利用文本挖掘的相關技術,并與定性分析方法相結合,分析結果豐富和擴展了民宿領域相關研究的評價指標。同時將隨機占優準則應用于民宿領域,對比分析中美兩國的民宿用戶滿意度影響因素的重要性排序。研究結果,為民宿領域中文化差異的相關研究提供了管理啟示。本研究所提出的方法,為民宿領域的用戶滿意度研究提供了新思路,也為其他產品或服務的用戶滿意度分析提供了參考和支撐。
本研究為在線民宿預定平臺提供了啟示,通過對在線評論的文本挖掘,研究中國和美國的民宿用戶滿意度影響因素的重要性排序,幫助平臺更加準確清晰地了解用戶對民宿各方面的滿意情況,促使兩國的民宿預定平臺能夠因地制宜,做出合理改進。并且預定平臺可以將用戶滿意度高的特征顯性地表現出來,幫助消費者及時了解民宿不同特征的滿意情況。
本研究為民宿商家對于民宿的優化與改進具有一定的管理啟示。通過對用戶滿意度影響因素的研究,為商家對民宿的優化與改進提供了參考。商家可以根據民宿所處的國家,有針對性地改進自家民宿所提供的服務特征,改善滿意度低的特征,保持并優化滿意度高的特征,以提升民宿的整體滿意度,從而幫助商家提高民宿的質量和服務水平。
當然,本文也存在一定的局限性。首先,本文收集的數據范圍有限,只針對兩個國家進行對比研究;其次,本研究只針對評論內容進行分析,并未考慮圖片和視頻等的影響;此外,情感詞典的情感分析雖然適用性較強,但是過于機械,準確率有待提高。對此,在未來研究中可以進一步探索。