王瑾璟
(無錫城市職業技術學院 江蘇無錫 214063)
DOI:10.19995/j.cnki.CN10-1617/F7.2022.23.060
在新冠疫情的沖擊下,酒店業深受重創。一方面,限制跨區域流動的防疫政策,造成酒店業整體需求迅速萎縮,RevPAR和入住率劇烈下滑;另一方面,禁止聚會、聚餐、堂食等聚集性活動的疫情管控措施,致使酒店無法承接各類宴席、商務會議等業務。五星級酒店的運營成本高,經營壓力大,為了最大化提升成本效用,外賣就成為極佳的新獲客模式。一些高端酒店餐廳率先探索數字化轉型,積極開展自救,主動放低姿態,嘗試在線外賣。后疫情時代,更多的五星級酒店相繼進軍外賣領域,如香格里拉、喜來登、希爾頓、萬麗、萬豪等。顧客可通過第三方外賣平臺、微信公眾號、微信小程序、在線社群或直接致電酒店等多種渠道點餐下單,餐食由平臺騎手、酒店直送或專門的外賣提取區域自提等方式無接觸配送,以滿足周邊公司復工和社區居民用餐的需求。
近年來,外賣市場呈加速上升態勢,國家信息中心發布的《中國共享經濟發展報告(2022)》顯示:2021年在線外賣人均支出在餐飲消費支出中的占比繼續提高,達到21.4%,較2020年提高4.4%;2021年在線外賣收入占全國餐飲業的收入比重約為21.4%,同比提高4.5%。由此可見,以外賣為代表的隔離經濟正加速發展,未來在懶人經濟的帶動下,五星級酒店應針對線上消費市場的龐大需求進一步擴大外賣市場,優化數字化發展戰略。
目前,對于在線外賣評價的研究主要有三個方面:
其一,探討用戶對外賣平臺的關注點,借此尋找其更好的互動模式,優化外賣平臺用戶體驗。例如,劉夢月(2020)采集了市場占有份額前三位的綜合類外賣App在App Store中的在線評論數據,基于keras框架訓練TextCNN情感二分類模型,計算出用戶對每個外賣App的綜合評分。
其二,對在線外賣的評價進行情感傾向分析,揭示外賣消費體驗滿意度的影響因素,以提高外賣平臺的商家服務質量。例如,王升盈(2019)利用Charles抓取美團外賣評論數據,把數據庫接入百度AI接口進行評論文本的情感分析,得到用戶評論的情感值大小和下單時間無關,但和配送時長有關的結論。
其三,優化外賣評論情感分析的算法模型,提出新的思路。例如,劉子豪(2021)提出雙向LSTM外賣評論數據情感分類網絡,利用fast Text和BERT-MRC模型,實現對外賣評論數據情感傾向的多粒度識別分類,最終設計并實現自動情感分析原型系統。
綜上所述,目前學者對在線外賣評價的分析和研究較多,但是就五星級酒店的在線外賣評價領域而言,尚未有文本挖掘方法的應用。本文對五星級酒店在線外賣的評論數據進行詞頻和文本共現網絡分析,并訓練模型進一步分析評價的情感傾向,最后提出可行性建議。
2.1.1 數據獲取方式本文所用到的數據均是通過爬蟲軟件從網絡平臺上抓取的,主要采用八爪魚采集器采集相關數據,選取餓了么和美團外賣作為五星級酒店在線外賣評論數據的來源。
2.1.2 數據采集
本文選取餓了么平臺上海、蘇州和無錫五星級酒店的在線外賣評論作為數據來源,因無錫的五星級酒店在餓了么平臺的評論樣本量有限,故加入了美團外賣平臺的相關點評。所采集的評論均為截止到2022年7月31日的數據,最后共爬取到1849條評論數據,評論數據數量如表1所示。

表1 爬取評論條數統計
2.2.1 數據清洗
為了保證后續分詞和詞頻統計的正確率和情感分析模型的有效性,本文對爬取的評論信息作了以下清理:首先,刪除存在缺失值的數據,共刪除無意義的空白評論140條;其次,經觀察發現存在多條數據的用戶名及評論內容完全相同的情況,極有可能是為了刷單,為保證數據的有效性,將共計100條這類重復的數據刪除;最后,去除與外賣點評毫無關系的評論,共刪除14條。此時觀察數據發現,爬取的評論中存在詞語重復出現湊字數的情況,如“非常好非常好非常好……”等,為保證詞頻統計的正確率,對該類評論的重復詞語進行精簡,最后提取有效數據1595條。
2.2.2 文本分詞
本文采用的是基于詞典的中文分詞方法,使用python中的jieba中文分詞工具將評論語句分詞。
首先,構建停用詞表。過濾分詞后對分析無用的助詞及標點符號等停用詞。當前,常用的停用詞表主要有百度停用詞表、哈工大停用詞表、四川大學停用詞庫及中文停用詞表,將這四個停用詞表合并去重后共有2305個停用詞。通過觀察,表中含有一些文章需要的情感詞,分別為“好”“良好”“小”“大”“很少”“很多”等,將其從停用詞典中剔除,最后共獲取2284個停用詞。
其次,構建自定義詞典。在分詞時出現某些詞被錯誤分割的情況,故添加自定義分詞詞典,以彌補錯誤分詞的缺陷。例如,“保溫袋”被分割為“保溫”“袋”,還有一些重要的詞語沒有分出,將提取的269個新詞添加到自定義詞典中,并對評論信息進行進一步的分詞操作。
最后,構建同義詞詞典。將含義相同的詞語合并,同時將與其相對應的詞頻數求和。
2.2.3 詞頻分析
對1596條評論作分詞、去停用詞和合并同義詞處理后,得到各自的分詞結果,為了解顧客評論的關注點,對其作詞頻統計。
將分詞后的詞頻結果生成詞云圖,忽略詞頻較高但沒有實際意義的詞語,如“沒有”,結果如圖1所示。

圖1 詞云圖
由圖1可以看出,“美味”“口味”“不錯”“很棒”“包裝”“份量足”“套餐”“干凈衛生”等詞出現的頻率很高??傮w來看,大多數顧客對五星級酒店的外賣認可度較高,但也有少部分人認為難吃,表示失望。在評論時,注重餐食的口味、包裝、份量、性價比、衛生、送餐速度等,售出的外賣類型以套餐為主,菜類主要是中餐。
雖然通過詞頻統計和詞云圖能反映出五星級酒店外賣顧客關注的主要領域,但無法反映各分詞在意義上的聯系,以及評價文本中深層的網絡關系。故本文將基于PMI計算詞語間的語義相似度,以構建文本共現網絡。
點間互信息(PMI:Pointwise Mutual Information)主要用于計算詞語間的語義相似度,統計兩個詞語在文本中同時出現的概率。詞語w1與詞語w2的PMI值計算公式如下:

式(1)中:P(w1,w2)表示兩個詞語w1與w2共同出現的概率,即這兩個詞語共同出現的文檔數與總文檔數的比值;w1與w2分別表示這兩個詞語單獨出現的概率,即w1或w2單獨出現的文檔數與總文檔數的比值。兩個詞語在數據集的某個小范圍內共現概率越大,表明其關聯度越大;反之,關聯度越小。
本文通過Python將之前完成分詞的數據構建共現矩陣,計算PMI和網絡,最終將結果生成gexf文件。
通過Gephi 軟件平臺將計算生成的共現網絡文件可視化,選取前200個詞語構建文本共現網絡圖,刪除個別意義不大的詞語節點,最終效果如圖2所示。

圖2 文本共現網絡圖
通過Gephi軟件中提供的模塊化算法,即社區探測算法,將該網絡圖劃分為5個模塊,模塊化分辨率為0.206,圖密度為0.217,網絡直徑為3,平均路徑長度約為1.788。由圖2可知,與“好評”關聯度較高的詞語主要有“菜品”“新鮮”“推薦”“包裝”“鰻魚”“實在”“不愧”“菜量”“配菜”“送來”等,這說明食材新鮮、菜量實在、配菜豐富、包裝精致、配送及時,以及菜品的口味都是讓顧客給出好評的主要因素。與“太差”關聯度較高的詞語主要有“外賣”“外賣小哥”“收到”“送達”“小時”“冷了”“打開”“菜品”“品質”“失望”“不推薦”“難吃”“餐盒”“不新鮮”等,可見顧客對五星級酒店的外賣期望值很高,然而因配送不及時、餐盒簡陋不保溫、菜品不新鮮、不可口等問題讓顧客大失所望,導致負面評價。
樸素貝葉斯算法(Naive Bayes,NB)是一種簡單但極為強大的預測建模算法,可以進行二分類或多分類,屬于一種有監督的分類算法,也是應用最為廣泛的分類算法。它是基于貝葉斯定理與特征條件獨立性假設的分類方法。所謂樸素,是指在整個形式化過程中只做最原始的假設,這個假設使得樸素貝葉斯更加簡單,可以簡化條件概率的求解,即:

則

本文使用多項式樸素貝葉斯分類器(Multinomial NB)分析情感,實現評論的分類。為了解決零概率問題,通常采用拉普拉斯平滑(Laplace Smoothing)方法,即加1法,在Multinomial NB中通過alpha設置拉普拉斯平滑系數。
首先,使用python導入1000條已完成手工標注情感傾向的評論數據,標注規則為:正面情感為“2”,中性為“1”,負面情感為“0”。采用前文中的方法完成分詞,利用sklearn工具包中的feature_extraction.text.CountVectorizer工具實現詞向量。其次,劃分數據集,按照訓練集80%、測試集20%的比例切分。再次,訓練模型,使用sklearn中的native_bayes工具包來構建樸素貝葉斯模型,通過Multinomial NB分類器分析情感并分類,計算該模型的準確率為0.91125。從次,測試模型,測試數據結果為0.835,說明該模型效果較好。最后,使用該模型分析其余的數據,以完成所有評論數據的情感分析,部分結果如表2所示。

表2 情感分析結果
從圖3來看,在這1595條有效評價數據中,正面情感評論占56.87%,中性情感評論占4.70%,負面情感評論占38.43%。由此可見,這些顧客認為其實際得到的產品、服務與自己的期望值之間還存在很大落差。雖然有超過一半的評論為正面情感,但這對以極致品質與高端體驗為賣點的五星級酒店而言,并不盡如人意。

圖3 情感類型比例
由圖4可知,上海的五星級酒店外賣評價的正面情感比例最高,其次是蘇州,無錫的五星級酒店外賣評價情況并不理想,但也不排除樣本量過少的原因。

圖4 各酒店情感類型比例
分析907條正面情感的評論數據發現,提到最多的是味道好、品質高、份量足、包裝完好、食材新鮮、衛生放心、送餐及時、性價比高;分析613條負面情感的評論可知,口味不穩定、廚藝不精、送錯餐、不看備注、太油膩、包裝撒漏、偷工減料、不新鮮、不更新菜品、不衛生、不安全、不如堂食、沒有餐具、不保溫、配送超時、漲價、沒開發票、服務態度差、網頁上菜品口味介紹不夠詳細是導致顧客負面情感的主要因素。
(1)通過統計分詞詞頻可見,用戶在選擇外賣時,考慮最多的是菜品的口味,是否美味是首要問題,其次才是包裝、份量、衛生、配速等,美觀和價格是次要考慮的。
(2)通過文本共現網絡圖可以發現,相較大眾餐飲,五星級酒店擁有過硬的品質、健康的食材和精湛的技藝,體現了五星級酒店一貫堅持的高水準,也符合顧客對五星級酒店高品質的預期。顧客普遍認為五星級酒店外賣在食品安全、餐食口味、外賣包裝和配送效率等方面應更有優勢,所以對此提出了更高的要求,一旦沒有達到他們的期望值,就會給出消極評價。
(3)在情感分析的結果中,負面情感評論超過了三分之一,諸如口味不佳、包裝撒漏、偷工減料、不新鮮、不衛生等低級錯誤是導致顧客負面情感的主要因素。由此可見,五星級酒店外賣產品的品質和服務細節還有很大的提升空間。此外,這些負面的體驗和評價都會影響口碑,“負面偏好”的心理現象還會直接或間接地影響到其他顧客的購買決策,所以管理者要重視并有針對性地處理好負面評價,及時改善外賣的產品及服務。
在新冠疫情影響下,高端餐飲的消費趨勢正在發生變化,數字化轉型成為五星級酒店的長期發展戰略。在這樣的形勢下,五星級酒店如何自驅創新、敏捷進化尤為重要。本文對于上述結果,提出以下幾點可行性建議:
(1)雖然此前五星級酒店上線外賣產品只是抵御風險的無奈之舉,但是現在很多五星級酒店意識到線上消費市場擁有的龐大需求,也是高端餐飲發展的必然趨勢。后疫情時代,五星級酒店餐廳需進一步重視線上消費市場的開拓,將數字化融入經營指導思想,可聘請專業的外賣運營公司或數字化技術人才指導在線外賣經營,通過數據分析以獲取更有針對性的運營建議。
(2)如今,隨著人們生活條件的提高,顧客需求升級,其對外賣也提出了健康、品質、社交、潮流、儀式感等更高的需求。因此,五星級酒店需全面加強質控,進一步提升服務管理水平,通過外賣的食材、口味、包裝、送餐、產品詳情頁設計一系列因素的共同作用,傳達五星級酒店的品牌形象,傳遞細致服務,使顧客獲得高端體驗。以外賣包裝為例,它代表了酒店品牌、產品品質和服務水平的延伸,其作用相當于餐廳的裝修設計,堂食出品時的裝盤。因此,包裝需精致,可使用有支撐設計的環保硬紙殼餐盤外加鋁膜保溫,或塑料密封、加熱包保溫。紙制打包袋、餐盒、餐具和打包絲帶上應印有酒店的Logo,餐盒上注明菜名,附上溫馨提示小卡片等??傊眯淖龊眉毠?,讓每個環節都能體現出五星級的品質和儀式感。
(3)從數據來看,一些五星級酒店在外賣平臺的銷售情況并不理想,可爬取的評論樣本很少。隨著Z世代成為消費市場的主力軍、外賣群體的主體,五星級酒店應針對年輕群體積極開展豐富的主題營銷活動。在了解他們需求和消費特點的基礎上,用高端的品質、精湛的廚藝、高顏值的包裝、貼心的服務、完美的體驗及心動的優惠活動,實現年輕顧客的社交裂變分享,進而成為線上社交話題,以激發更多顧客的購買欲望。例如,當今年輕人熱衷打卡的露營風就隱藏著餐飲外賣的新增長點,五星級酒店可以推出適合家庭或派對的高顏值、高品質的露營外帶餐食組合,敏感把握新風潮背后的市場需求,掘金露營經濟。
本文將文本挖掘的分析方法應用到五星級酒店的在線外賣評價領域,一方面,彌補了國內在五星級酒店在線外賣評價方面的研究缺失;另一方面,探索了導致消極評論的主要原因。然而,由于五星級酒店的在線外賣銷售只局限于第三方外賣平臺,在微信等渠道也有顧客購買,所以爬取的評論樣本量偏少且不夠全面。此外,研究樣本選取的是上海、蘇州和無錫五星級酒店的外賣評論數據,未考慮到地域性差異。就全國范圍內而言,樣本覆蓋面還不夠廣,未來可繼續擴大樣本量,驗證和提升研究結論的準確性和普適性。