999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso-LDA的酒店用戶偏好模型

2021-02-25 07:48:18趙志杰張艷榮周婉婷孟令躍
計算機應(yīng)用與軟件 2021年2期
關(guān)鍵詞:特征用戶方法

趙志杰 劉 巖 張艷榮 周婉婷 孟令躍

(哈爾濱商業(yè)大學(xué)計算機與信息工程學(xué)院 黑龍江 哈爾濱 150028)(哈爾濱商業(yè)大學(xué)黑龍江省電子商務(wù)與信息處理重點實驗室 黑龍江 哈爾濱 150028)

0 引 言

互聯(lián)網(wǎng)與新興信息技術(shù)的快速發(fā)展使得人們不再只是信息的傳遞者同時也是信息的創(chuàng)造者。互聯(lián)網(wǎng)海量數(shù)據(jù)的存在,使用戶難以高效地獲取自己感興趣的數(shù)據(jù),導(dǎo)致“信息過載”現(xiàn)象的存在。2018年年末在線旅游數(shù)據(jù)生態(tài)與治理峰會上八大OTA平臺聯(lián)合發(fā)布行業(yè)數(shù)據(jù)治理倡議書《在線旅游行業(yè)內(nèi)容和數(shù)據(jù)生態(tài)共建》。這一倡議書建議為消費者提供更真實可靠的旅游數(shù)據(jù),幫助用戶正確、高效地選擇和決策。隨著移動互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的不斷完善,互聯(lián)網(wǎng)的普及率急速上升,多元化、專業(yè)化的酒店顧客需求開始覺醒。中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截止到2018年12月,30.3%的網(wǎng)民在網(wǎng)上預(yù)訂酒店[1],這一舉措給酒店業(yè)的建設(shè)提出挑戰(zhàn)。由此可見,研究消費者的用戶偏好對如今的酒店業(yè)而言意義非凡。

本文以O(shè)TA巨頭“攜程網(wǎng)”上的五種類型酒店顧客產(chǎn)生的酒店評論為基礎(chǔ)數(shù)據(jù),運用文本挖掘技術(shù)、情感分析技術(shù)和機器學(xué)習(xí)算法分別對五類用戶評論數(shù)據(jù)進行分析處理,通過對文本數(shù)據(jù)進行特征聚類、權(quán)值計算、情感傾向性估計值計算、特征優(yōu)選,構(gòu)建基于Lasso-LDA的用戶偏好模型。采用LDA主題模型聚類,總體得出顧客對于酒店的一系列偏好因素;運用Lasso回歸進行特征篩選,基于每一類型的顧客剔除不重要的特征因素以達到特征優(yōu)選,最后得到用戶偏好模型。模型有助于顧客根據(jù)自己的需求精準(zhǔn)地選擇適合的酒店,而對于商家,也可以依此有針對性地打造出個性化服務(wù)和創(chuàng)新經(jīng)營方式,提升市場競爭力。

1 相關(guān)研究

1.1 LDA模型聚類

LDA是最先由Blei等在2003年提出的包含文檔-主題-詞3層貝葉斯文檔主題生成模型,LDA是一種無監(jiān)督的機器學(xué)習(xí)方法,用來識別隱藏在文檔集或語料庫中的主題信息。對于LDA在文本挖掘中的應(yīng)用,文獻[2]使用LDA對小紅書中的評價文本數(shù)據(jù)進行主題建模,將聚類得出的高頻詞劃分為8個主類目,構(gòu)建結(jié)構(gòu)方程模型研究小紅書用戶粘性形成的動態(tài)機制。文獻[3]將LDA這種半監(jiān)督方法與其他的半監(jiān)督方法和監(jiān)督分類方法對比,結(jié)果表明,在文本分類精度方面LDA方法遠優(yōu)于其他方法。同時,實驗證明LDA方法可適用于標(biāo)簽文本缺失的情況下。

隨著LDA模型的不斷完善,LDA被廣泛應(yīng)用于各行各業(yè)的文本分析。文獻[4]采用LDA模型對汽車保險欺詐索賠中的文字信息進行文本分析,結(jié)合深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行訓(xùn)練。實驗結(jié)果表明,結(jié)合深度神經(jīng)網(wǎng)絡(luò)和LDA的框架適用于判斷汽車保險欺詐問題。文獻[5]描述一個使用電子請愿數(shù)據(jù)訓(xùn)練和驗證LDA的框架,通過嚴(yán)格的訓(xùn)練和評估,87%的LDA生成的主題對法官了解請愿者的主要訴求有參考意義,發(fā)現(xiàn)LDA主題可以比通過手動內(nèi)容分析提取的主題更具一些優(yōu)勢。LDA能夠反映文本中表達的多個主題,提取人類編碼器未突出顯示的新主題,并且不易受人類偏見的影響。

1.2 Lasso特征優(yōu)選

Lasso是由Robert Tibshirani于1996年首次提出的一種基于壓縮估計的特征選擇方法并且應(yīng)用于各個行業(yè)領(lǐng)域。文獻[6]將Lasso框架應(yīng)用于虛擬金融上,把返回的21個潛在因素優(yōu)化替換為8個因素,找出影響強度最重要的兩種變量。文獻[7]將Lasso應(yīng)用于船舶業(yè)中,用以預(yù)測不同海況和天氣下船舶的燃油消耗,得到大量的特征變量,應(yīng)用Lasso實現(xiàn)特征選擇,提出一種新的預(yù)測模型。文獻[8]應(yīng)用Lasso研究與金融因素、市場驅(qū)動指標(biāo)和宏觀經(jīng)濟預(yù)測因素相關(guān)的市場隱含信用評級的決定因素,記錄了實質(zhì)性的預(yù)測能力,將Lasso選擇的模型與基準(zhǔn)有序概率模型進行比較,發(fā)現(xiàn)Lasso選擇的模型具有卓越的預(yù)測能力,在全部樣本預(yù)測中都優(yōu)于基準(zhǔn)有序概率模型。文獻[9]將Lasso應(yīng)用在醫(yī)藥行業(yè)上,提出一種新的藥物-靶標(biāo)相互作用預(yù)測方法,使用Lasso減少提取的特征信息維度,然后使用合成少數(shù)過采樣技術(shù)(SMOTE)方法處理不平衡數(shù)據(jù)。最后,將處理后的特征向量輸入隨機森林(RF)分類器以預(yù)測藥物-目標(biāo)相互作用。文獻[10]提出一種自適應(yīng)特征提取算法,預(yù)先生成各種大氣條件下的光譜特征,然后利用Lasso算法進行快速特征優(yōu)選,選擇出最優(yōu)目標(biāo)-背景組合重構(gòu)背景光譜,最后提取目標(biāo)特征。文獻[11]將Lasso應(yīng)用于金融領(lǐng)域,不同于以往常規(guī)的變量選擇,提出針對時間序列的改進自適應(yīng)Lasso方法,提高對未來的預(yù)測能力。

1.3 用戶偏好

新興信息技術(shù)推動著消費結(jié)構(gòu)從生存型消費向享受型、發(fā)展型消費轉(zhuǎn)變,消費者不再被動地接受來自商家提供的服務(wù),而是通過自身的參與和網(wǎng)絡(luò)生成內(nèi)容主動地發(fā)表自己的偏好。文獻[12]提出一種從一組評論中提取評論貢獻者偏好的方法。提取的偏好用于酒店推薦,使得貢獻者給出的具有類似于用戶偏好的評估值被賦予更大的權(quán)重,用此方法可以推薦符合用戶偏好的酒店。文獻[13]提出用于從評論文本中學(xué)習(xí)和表示用戶的偏好知識,利用所獲得的表示來支持評級預(yù)測的一種混合方法,并用此方法對亞馬遜產(chǎn)品數(shù)據(jù)集進行實驗,揭示用戶偏好知識表現(xiàn)的能力以及對評論預(yù)測的影響。文獻[14]利用用戶的評分與評論數(shù)據(jù),提出一種基于貝葉斯網(wǎng)絡(luò)的用戶偏好建模方法。利用隱變量確定模型的初始結(jié)構(gòu)約束和初始參數(shù)約束,使用亞馬遜電影評價數(shù)據(jù)集作為測試數(shù)據(jù),對用戶偏好模型進行驗證。文獻[15]針對高維、稀疏的評分?jǐn)?shù)據(jù)提出一種基于深度信念網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)的用戶偏好建模方法,分別利用深度信念網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)對評分?jǐn)?shù)據(jù)進行分類以及描述相關(guān)屬性間的不確定性,最后使用MovieLens和大眾點評數(shù)據(jù)對模型進行驗證。

CNNIC報告顯示,截止到2019年6月我國在線旅行預(yù)訂用戶占網(wǎng)民整體的48.9%。隨著中國經(jīng)濟發(fā)展加速,“人均GDP 1萬美金俱樂部”成員呈指數(shù)上升,越來越多的新人口進入旅游消費市場,使得酒店預(yù)訂需求進一步增長。Trustdata移動大數(shù)據(jù)監(jiān)測平臺于2019年8月29日發(fā)布的《2019上半年中國在線酒店預(yù)訂行業(yè)發(fā)展分析報告》顯示,主流在線酒店預(yù)訂平臺用戶粘性均超20%,其中攜程表現(xiàn)最優(yōu)達24.3%。因此,本文基于攜程網(wǎng)平臺進行調(diào)研,將本文所得情感傾向性估計值與之相比,發(fā)現(xiàn)存在評論與分值具有偏差的問題。本文利用AipNLP計算情感傾向性估值對存在偏差的數(shù)據(jù)進行剔除,以便得到實驗所需的真實數(shù)據(jù),本文構(gòu)建的模型進一步提升酒店的管理經(jīng)營模式。攜程有著自有的評價指標(biāo),分別是環(huán)境、設(shè)施、服務(wù)和衛(wèi)生四個方面,但分析大量的評論數(shù)據(jù)后,發(fā)現(xiàn)評論的文本與攜程自有的用戶偏好特征不能完全地進行匹配,評論文本本身包含更多和更詳細的信息。為了獲得更加客觀和細致化的用戶偏好特征,本文在評價指標(biāo)的獲取中使用LDA模型進行用戶偏好特征聚類,為使獲取的特征更理想,使用Lasso算法剔除掉聚類中不重要的特征,得以分辨出五種不同類型的顧客所關(guān)注的特征指標(biāo)的不同,使得不同類型的顧客個性化偏好存在差異。例如,假設(shè)用戶重視交通的便利程度,則對于這類顧客而言個性化偏好為交通方面,使用Lasso特征優(yōu)選盡可能地剔除與偏好特征不一致的特征,從而使商家有效地對不同類型的顧客提供不同的酒店服務(wù)。

綜上所述,目前國內(nèi)對酒店用戶偏好模型的構(gòu)建還有待完善,大多數(shù)學(xué)者只是從酒店本身總體的經(jīng)營情況進行建模,得出的一系列特征指標(biāo)是針對酒店總體性的,并沒有從酒店客戶群體進行考慮,未細分顧客群體,盲目地將總體的偏好強加于各類顧客上。因此,本文基于這一問題,首先使用LDA主題模型將所得到的數(shù)據(jù)進行總體聚類,得出一系列特征因素;然后針對每種類型客戶的TF-IDF權(quán)值計算每種類型客戶的個性化偏好屬性值;最后通過對比三類回歸方法,利用更為精準(zhǔn)的Lasso特征優(yōu)選得到每種類型客戶的優(yōu)選特征,構(gòu)建基于Lasso-LDA的用戶偏好模型,為酒店管理者隨時追蹤顧客認知和服務(wù)質(zhì)量提供客觀、真實、有效的信息,從而能快速有效地為不同的用戶群體提供其滿意的個性化服務(wù),而不再局限于現(xiàn)有酒店行業(yè)一成不變的服務(wù),為酒店提升行業(yè)競爭力。

2 模型設(shè)計

本文主要運用LDA模型對用戶偏好特征聚類,基于TF-IDF對用戶偏好權(quán)值進行計算,結(jié)合情感傾向性分析方法對酒店用戶評論進行統(tǒng)計分析,確定用戶偏好程度,最后運用Lasso算法對用戶偏好特征進行篩選,構(gòu)建出基于Lasso-LDA的用戶偏好模型。該模型按照信息處理的先后順序分為三個部分:數(shù)據(jù)的采集及預(yù)處理,基于LDA的用戶特征偏好的確定,基于Lasso-LDA的用戶偏好模型的構(gòu)建。本文的研究框架如圖1所示。

圖1 基于Lasso-LDA用戶偏好模型研究基本框架

2.1 數(shù)據(jù)來源及預(yù)處理

(1) 數(shù)據(jù)來源。攜程財報公布數(shù)據(jù)顯示,截至2018年12月31日,攜程全年住宿預(yù)訂收入為116億元人民幣,同比增長21%,全年旅游度假業(yè)務(wù)營業(yè)收入為38億元,同比增長27%,整體行業(yè)發(fā)展呈上升趨勢,行業(yè)優(yōu)勢明顯。因此,本文主要以攜程網(wǎng)上的酒店評論數(shù)據(jù)為數(shù)據(jù)源,借助網(wǎng)絡(luò)信息采集工具“八爪魚采集器”對數(shù)據(jù)進行采集,并將采集到的每一條記錄內(nèi)容通過八爪魚采集器以Excel表格形式導(dǎo)出。

(2) 基于AipNLP的反差評論數(shù)據(jù)剔除。由于在所收集的數(shù)據(jù)中會存在評論數(shù)據(jù)與評分?jǐn)?shù)據(jù)不一致的數(shù)據(jù),因此采用情感傾向性分析方法對這類數(shù)據(jù)進行排除,確保數(shù)據(jù)的有效性。本文采用百度自然語言處理平臺進行情感傾向性估值計算,該平臺可自動對包含主觀信息的文本進行情感傾向性判斷,為口碑分析、話題監(jiān)控和輿情分析等應(yīng)用提供基礎(chǔ)技術(shù)支持。同時,該平臺基于深度學(xué)習(xí)訓(xùn)練,在相對長的句子上仍能確保較高的效果,可得到整體精度很高的情感傾向性分析結(jié)果。此外,該平臺垂直類效果優(yōu),在酒店、汽車等多個垂直類上情感傾向性分析可達到95%以上的準(zhǔn)確率,并且已應(yīng)用于實際電商產(chǎn)品銷售分析中。在測試過程中本文應(yīng)用情感傾向分析接口對包含主觀觀點信息的文本進行情感傾向性類別(積極、消極和中性)的判斷,例如用戶評論:“前臺的服務(wù)意識沒有達到星級標(biāo)準(zhǔn),體驗超差!直接給安排的吸煙區(qū)房間,這季節(jié)根本不滿房,離店時又說沒提早和她說開發(fā)票,服務(wù)和體驗超差!”經(jīng)過AipNLP處理之后,可得到表1所示的結(jié)果,其中:positive代表積極類別的概率;negative代表消極類別的概率;confidence代表分類的置信度;sentiment代表情感傾向性分類結(jié)果。在測試過程中主要應(yīng)用post方式進行調(diào)用,JSON作為返回格式。由于攜程平臺上的酒店用戶評分采用5分制原則,為了便于對比,本文根據(jù)5×′positive′將得出的情感傾向性估值與酒店評分進行對比,將評論數(shù)據(jù)與評分?jǐn)?shù)據(jù)不一致的數(shù)據(jù)剔除。通過分析示例用戶評價內(nèi)容可知該評論為差評,而用戶給出的星級評分為5分,這明顯高于情感傾向性估值0.03分,為無效數(shù)據(jù),需剔除。在實驗數(shù)據(jù)處理中將采集到的每條評論數(shù)據(jù)運用AipNLP進行上述處理,將反差數(shù)據(jù)排除,由于AipNLP計算出的情感傾向性估值較攜程平臺上用戶星級評分值更加客觀和具體,因此,將得到的情感傾向性估值數(shù)據(jù)進行保存,方便后續(xù)建模使用。

表1 反差數(shù)據(jù)用例

(3) 數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是為了保證數(shù)據(jù)的有效性,是數(shù)據(jù)處理過程和分析過程中不可缺少的關(guān)鍵步驟。在本文數(shù)據(jù)預(yù)處理過程中主要對數(shù)據(jù)進行清洗、分詞、去停用詞及去噪處理。為了保證模型構(gòu)建的準(zhǔn)確度,采用中科院譚松波教授整理的酒店評論數(shù)據(jù)集作為本文模型構(gòu)建時數(shù)據(jù)處理的數(shù)據(jù)集。該數(shù)據(jù)集共10 000篇評論,將其80%的評論作為訓(xùn)練集,20%的評論作為測試集。在對所收集到的數(shù)據(jù)進行分析測試時發(fā)現(xiàn),需要清洗掉的數(shù)據(jù)主要包括:① 同一個用戶進行多次評論,且評論內(nèi)容相同,此時必須對重復(fù)數(shù)據(jù)進行刪除,否則會對所測試的真實的正負面評論產(chǎn)生“虛高”影響;② 有些用戶評論為無效評論,比如評論內(nèi)容全部為標(biāo)點符號或表情符號,這些數(shù)據(jù)需全部刪除。接下來針對清洗后的評論語句,在處理過程中運用jieba分詞工具進行分詞處理,同時加載哈工大的停用詞表,停用詞表會根據(jù)本文的需要剔除一些詞匯。最后利用過濾函數(shù)過濾如日期、英文等噪聲數(shù)據(jù),將經(jīng)過預(yù)處理后的數(shù)據(jù)保存進行后續(xù)處理。

2.2 基于LDA的用戶特征偏好確定

本文采用LDA(隱含狄利克雷分布)主題模型聚類方法面向處理過的數(shù)據(jù),聚類一定量的因素來確定用戶對酒店服務(wù)的特征偏好。LDA是判斷兩個文檔的關(guān)聯(lián)程度使用的方法,主要查看兩個文檔中出現(xiàn)相同單詞的個數(shù),一個文檔表示一些主題所構(gòu)成的概率分布,一個主題代表一些單詞所構(gòu)成的概率分布。同時,詞袋方法被應(yīng)用于LDA中,該方法使每篇文檔被看作一個詞頻向量,并將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。由于詞袋方法不考慮兩個詞之間的順序,因此問題的復(fù)雜性也就被簡單化。LDA概率圖模型如圖2所示。

圖2 LDA的概率圖模型結(jié)構(gòu)

圖2中,m表示文章序號;k表示主題個數(shù);n表示詞袋長度;Nm表示第m篇文章中單詞的總數(shù);α表示每篇文章的主題分布的先驗分布狄利克雷(Dirichlet)分布的參數(shù)(也被稱為超參數(shù),簡稱Dir);β表示每個主題的詞分布的先驗分布Dirichlet分布的參數(shù),是一個V維向量,V代表詞匯表里的所有詞的個數(shù);θm是一個K維列向量,表示第m篇文章的主題分布;θm~Dir(α)表示本文所需參數(shù);φk是一個V維向量,表示第k個主題的詞分布;φk~Dir(β)也為本文所需參數(shù);zm,n表示第m篇文章第n個詞被賦予的主題;wm,n表示第m篇文章第n個詞。主題分布表示為:

(1)

詞分布表示為:

p(w,z|α,β)=p(w|z,β)p(z|α)=

(2)

根據(jù)式(1)-式(2)結(jié)合代碼可知LDA工作流程為:① 將預(yù)處理后的數(shù)據(jù)集、關(guān)鍵詞數(shù)量、主題數(shù)量三個參數(shù)傳入主題模型函數(shù)中,并使用gensim接口,將文本轉(zhuǎn)為向量化表示,構(gòu)建詞空間,使用BOW模型向量化,根據(jù)TF-IDF算法對每個詞進行加權(quán)計算,得到加權(quán)后的向量表示;② 選擇加載的模型LDA,得到數(shù)據(jù)集的主題-詞分布;③ 對詞分布和文檔分布的相似度進行計算,將相似度最高的詞作為關(guān)鍵詞,再對輸入文本與每個詞的主題分布進行相似度計算;④ 取相似度最高的前8個詞作為用戶特征偏好影響因素。LDA實驗結(jié)果如表2所示。

表2 主題分布相似度

數(shù)據(jù)結(jié)果顯示,酒店用戶在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價格、服務(wù)和衛(wèi)生八個方面的主題分布相似度測試數(shù)據(jù)位于測試結(jié)果的前八位,其中:主題分布相似度最高的是服務(wù)屬性,設(shè)備設(shè)施屬性位于第二。因此可知酒店用戶通常會將入住酒店的服務(wù)作為首要關(guān)注點,其次為酒店提供的設(shè)備設(shè)施條件。毋庸置疑,好的服務(wù)水平和設(shè)備設(shè)施條件從感官上會直接帶給用戶舒適的入住體驗。同時,總體感受、交通、價格、餐飲、位置、衛(wèi)生這六個用戶特征偏好也會得到很高的用戶關(guān)注,因此,酒店管理人員應(yīng)及時調(diào)整各方面的服務(wù)水平,確保酒店良好運營。

2.3 模型構(gòu)建

(1) 基于TF-IDF的用戶偏好權(quán)值計算。TF-IDF是詞頻和反文檔頻率兩個算法的綜合應(yīng)用,利用TF-IDF算法結(jié)合情感傾向性分析方法對評論文本數(shù)據(jù)特征進行賦值,并將情感傾向性估計值作為用戶的偏好程度。一個文檔里的詞匯重要性計算式表示為:

(3)

(4)

式中:|D|表示語料庫中存在的文件總數(shù)。如果該詞不在庫中,則被除數(shù)為零,因此式(4)被除數(shù)由式子1+|{j:ti∈dj}|代替,最后得到TF-IDF值為:

tfidfi,j=tfi,j×idfi

(5)

由式(5)可知,一個文件內(nèi)的詞頻率乘以該詞在整個文件集合中的文件頻率,可得到TF-IDF值。一般來說,文本表示方式分為離散式和分布式兩種,結(jié)合本文的數(shù)據(jù)情況,采用離散式文本表示方法中的TF-IDF算法對評論數(shù)據(jù)進行權(quán)重計算以得到特征屬性表示值,具體執(zhí)行過程為:① 獲取總的文檔數(shù),記錄每個詞出現(xiàn)的文檔數(shù);② 按公式將其轉(zhuǎn)換為IDF值,然后進行拉普拉斯平滑處理,使用該方法目的是將分母加1,對于沒有在字典中出現(xiàn)的詞,將該詞默認為只在其中一個文檔中出現(xiàn)過,最后得到默認的IDF值;③ 按公式計算TF-IDF值,根據(jù)TF-IDF的排序,取排名前keyword_num個詞作為關(guān)鍵詞,在評論中每個因素如果有多個就進行TF-IDF值的求和運算,如果評論中未出現(xiàn)某影響因素,則賦值為0。例如評論:“位置距離哈站只有幾分鐘的車程,打車起步價。剛開業(yè)三個月大堂豪華,室內(nèi)干凈高檔完全不像這個價位的酒店,性價比極高,就是距離地鐵站有點小遠步行大概十幾分鐘,總之住宿體驗很好”,實驗結(jié)果如表3所示。

表3 TF-IDF實驗結(jié)果

(2) 基于Lasso的用戶特征偏好篩選。本文主要利用Lasso回歸,剔除相關(guān)性較小因素,得到Lasso預(yù)測模型,對用戶特征偏好進行篩選。Lasso是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計,它利用所構(gòu)造的懲罰函數(shù)確定相對精煉的模型,利用這個模型壓縮一些系數(shù),同時設(shè)定某些系數(shù)為零,通過這個方法能夠?qū)⒆蛹湛s的優(yōu)點保留下來。Lasso回歸又叫線性回歸的L1正則化,它通過對最小二乘估計加入L1范數(shù)作為罰約束,使某些系數(shù)估計為0,因此可以減少參數(shù)數(shù)量,Lasso回歸預(yù)測模型目標(biāo)函數(shù)表示為:

(6)

式中:RSS是實際值減去估計值的差的平方和;λ是調(diào)優(yōu)參數(shù);p為參數(shù)個數(shù)。根據(jù)式(6)可知,由于Lasso回歸模型的目標(biāo)函數(shù)包含懲罰項系數(shù)λ,因此在計算模型回歸系數(shù)前,需要得到最理想的λ值,λ值的確定可以通過定性的可視化方法和定量的交叉驗證方法。同時,Lasso作為一種λ特征選擇方法相比于嶺回歸,其在完成系數(shù)估計的同時就能夠完成特征的選擇,還能夠降低過擬合,是近幾年備受關(guān)注的特征選擇工具,綜合以上研究結(jié)果結(jié)合用戶偏好相關(guān)理論研究,可得不同類型用戶的偏好模型表示為:

(7)

式中:user_preferences代表用戶偏好;Intercept代表截距項;si代表用戶偏好特征因素;ωi代表對應(yīng)si的系數(shù)。

3 實 驗

3.1 總體方案

本文利用八爪魚數(shù)據(jù)采集器從攜程網(wǎng)的酒店社區(qū)共采集15 000條用戶評論數(shù)據(jù)作為數(shù)據(jù)源,在采集過程中主要以用戶類型為獨自出行、朋友出游、親子旅行、情侶出游、商務(wù)出差的五類人士,對酒店進行的評論以及對應(yīng)的酒店總評分和環(huán)境、設(shè)施、服務(wù)、衛(wèi)生四個方面的評分為采集數(shù)據(jù)。采集后利用AipNLP剔除評論反差數(shù)據(jù),對剩余有效數(shù)據(jù)再進行預(yù)處理,然后采用LDA主題聚類的方法提取用戶特征偏好,并通過TF-IDF統(tǒng)計特征值對評論文本數(shù)據(jù)特征進行賦值,利用情感傾向性估計值作為用戶的偏好程度,最后采用Lasso進行特征的篩選及預(yù)測。

3.2 實驗結(jié)果及分析

在篩選過程中針對用戶類型為獨自出行、朋友出游、親子旅行、情侶出游、商務(wù)出差這五類人士在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價格、服務(wù)和衛(wèi)生八個方面的數(shù)據(jù)利用Lasso回歸與線性回歸和嶺回歸做對比,以商務(wù)出差用戶評論數(shù)據(jù)為例,將80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,采用sklearn子模塊linear_model中的Lasso類及Ridge類對Lasso回歸和嶺回歸中目標(biāo)函數(shù)所包含的懲罰項系數(shù)進行計算,如圖3和圖4所示。

圖3 LASSO回歸結(jié)果圖

圖4 嶺回歸結(jié)果圖

可以看出,初始迭代的λ值落在10-5~102之間,圖中的每條曲線指代不同的變量。由于出現(xiàn)了喇叭形曲線,說明該變量存在多重共線性,圖3中λ值落在0.000 5附近,圖4中λ值落在0.05附近,此時絕大多數(shù)變量的回歸系數(shù)趨于穩(wěn)定,所以可以鎖定合理的λ值范圍。接下來分別采用sklearn子模塊linear_model中的LassoCV類及RidgeCV類,采用10重交叉驗證的方法分別得到Lasso回歸與嶺回歸的最佳的λ值,Lassoλ=0.000 8,Ridgeλ=0.074 1,與可視化方法確定的λ值范圍基本一致。最后基于最佳的λ值分別得到Lasso和嶺回歸的模型回歸系數(shù),采用statmdels子模塊api類對數(shù)據(jù)進行訓(xùn)練得到多元線性回歸模型的系數(shù)。基于以上回歸系數(shù)分別得到多元線性回歸、嶺回歸及Lasso回歸的表達式:

Y1=3.511 3+0.017 2X1-0.166 8X2+

0.708 5X3+0.403 5X4+0.125 0X5+

0.021 3X6+0.649 1X7-1.299 8X8

(8)

Y2=3.570 6+0.023 5X1-0.168 3X2+

0.646 7X3+0.369 6X4+0.111 6X5-

0.057 2X6+0.577 7X7-1.226 2X8

(9)

Y3=3.594 9-0.161 6X2+0.629 8X3+0.373 3X4+

0.052 4X5+0.580 4X7-1.258 2X8

(10)

利用上述回歸模型,分別在測試集上進行預(yù)測后,采用均方根誤差RMSE對模型的預(yù)測效果進行衡量,三種回歸的RMSE值如表4所示。

表4 Lasso回歸與線性回歸及嶺回歸比較數(shù)據(jù)

從商務(wù)出差類型用戶的三種回歸所對應(yīng)的RMSE值中可知使用Lasso回歸進行測試所得到的RMSE值最小,這表明使用Lasso回歸確定的特征值更接近實際特征值。對比式(8)、式(9)和式(10)發(fā)現(xiàn)在X1和X6兩個特征中,嶺回歸和線性回歸測試結(jié)果雖然很小,但還有其測試值,不能貿(mào)然對該特征偏好進行刪除。然而在Lasso回歸測試結(jié)果中,發(fā)現(xiàn)其值為零,這就更加直觀地反映出總體感受和價格對于商務(wù)出差用戶來講屬于相關(guān)性較小特征因素,因此根據(jù)式(10)可知在計算用戶特征偏好中X1和X6兩個特征因素不加以考慮。同理,對用戶類型為獨自出行、朋友出游、親子旅行、情侶出游的用戶進行計算分析可知X1為獨自出行用戶的相關(guān)性較小特征偏好,X4和X5為朋友出游用戶的相關(guān)性較小特征偏好,X2、X6和X7為親子旅行用戶的相關(guān)性較小特征偏好。

在對比剩余四類出行用戶的三種回歸方法中的RMSE值后發(fā)現(xiàn)四組數(shù)據(jù)中運用Lasso回歸方法進行剔除相關(guān)性較小特征值所產(chǎn)生的數(shù)據(jù)離散程度比嶺回歸及線性回歸方法產(chǎn)生的離散程度都要小,這進一步表明使用Lasso回歸方法進行測試產(chǎn)生的數(shù)據(jù)結(jié)果更接近真實情況。

分析實驗數(shù)據(jù)可知,用戶類型為獨自出行、朋友出游、親子旅行、情侶出游和商務(wù)出差這五類人士的特征偏好主要表現(xiàn)在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價格、服務(wù)和衛(wèi)生這八個方面,其中:用戶類型為獨自出行和朋友出游以及情侶出游的用戶在服務(wù)和飲食兩個特征方面表現(xiàn)出極高的興趣;用戶類型為親子旅行的用戶最為關(guān)注的是酒店位置及入住的總體感受;商務(wù)出差的用戶比較關(guān)注飲食及酒店服務(wù)。同時通過對五種類型用戶在八個特征方面運用Lasso回歸和嶺回歸以及線性回歸的方法進行測試,可知運用Lasso回歸方法對特征偏好進行過濾所產(chǎn)生的RMSE(均方根誤差)值相對較小,因此本實驗應(yīng)用Lasso方法進行特征偏好篩選是符合實驗要求的。

本文根據(jù)實驗結(jié)果及分析對酒店提出幾點建議:酒店作為服務(wù)行業(yè),不單單要注重客戶的總體感受、餐飲服務(wù)、酒店衛(wèi)生,對酒店內(nèi)的設(shè)備設(shè)施進行定期檢查,制定合理的住宿價格,良好的服務(wù)態(tài)度也是至關(guān)重要的。針對本文研究成果,酒店管理人員可針對不同類型的用戶提供不同的服務(wù)標(biāo)準(zhǔn)。面向獨自出行及情侶出游類型的顧客,酒店需提供優(yōu)質(zhì)的入住環(huán)境。面向朋友出游類型顧客,由于除位置和交通兩類特征偏好以外其余六種均為用戶關(guān)注的特征偏好,因此酒店人員可在定期檢查設(shè)備設(shè)施、及時滿足顧客要求、制定合理價格等方面進行優(yōu)化。面向親子旅行類型客戶需提供新鮮營養(yǎng)的餐飲服務(wù),同時酒店可規(guī)劃出足夠的停車區(qū)域等。面向商務(wù)出差類型的顧客,酒店可為其提供安靜的辦公區(qū)域、舒適的入住房間等。綜上,酒店管理人員可為不同類型的顧客制定不同的服務(wù)方案,有助于提高酒店的服務(wù)標(biāo)準(zhǔn)。

4 結(jié) 語

酒店在線評論反映了用戶對入住酒店的真實感受,如何分析用戶評論并從中挖掘用戶對酒店的需求是現(xiàn)如今酒店競爭情報研究領(lǐng)域的熱點問題,對酒店經(jīng)營領(lǐng)域具有重要的商業(yè)價值。本文根據(jù)酒店用戶評論的直接性和客觀性,將TF-IDF算法、LDA聚類算法、情感分析技術(shù)、Lasso特征優(yōu)選方法結(jié)合起來,構(gòu)建基于Lasso-LDA的用戶偏好模型。通過該模型能夠客觀地對不同類型用戶對入住酒店的影響因素進行量化打分,確定用戶特征偏好,彌補酒店經(jīng)營者和酒店住戶之間信息交流的延遲性。實驗結(jié)果表明:針對酒店用戶可應(yīng)用該方法對各酒店評論進行不同維度的情感傾向分析,并以此分析該酒店各項服務(wù)標(biāo)準(zhǔn)是否滿足自己的需求,最終做出合理決策。面向酒店經(jīng)營人員,能夠及時準(zhǔn)確地反饋用戶特征偏好程度,幫助其準(zhǔn)確地調(diào)整酒店經(jīng)營模式及設(shè)備設(shè)施建設(shè)。本文主要是利用酒店預(yù)訂系統(tǒng)中高星級酒店的用戶評價數(shù)據(jù)進行建模,使得應(yīng)用該研究模型分析出的用戶特征偏好更適用于高星級酒店的調(diào)查。在后續(xù)調(diào)查研究中會結(jié)合市場中低星級酒店用戶評價進行改進,為不同需求的用戶提供合理的住宿條件,合理分配酒店流動資源。

猜你喜歡
特征用戶方法
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何獲取一億海外用戶
主站蜘蛛池模板: 全部免费毛片免费播放| 欧美成人看片一区二区三区| 99无码中文字幕视频| 高清免费毛片| 国产a v无码专区亚洲av| 亚洲午夜国产精品无卡| 中文国产成人久久精品小说| 成年人免费国产视频| 又爽又大又黄a级毛片在线视频| 国产00高中生在线播放| 精品久久久久成人码免费动漫| 国产一区二区视频在线| 日本午夜精品一本在线观看| 色妞永久免费视频| 亚洲第一中文字幕| 中文字幕一区二区人妻电影| 国产精品v欧美| 99精品在线视频观看| 亚洲永久视频| a级毛片一区二区免费视频| 黄色在线不卡| 午夜啪啪福利| 国产成人a毛片在线| 丁香综合在线| 美女无遮挡免费网站| 女高中生自慰污污网站| 精品人妻AV区| 亚洲一区二区在线无码| 国产黄网永久免费| 国产成人精品午夜视频'| 国产欧美日韩精品第二区| 亚洲首页国产精品丝袜| 91久久偷偷做嫩草影院精品| www亚洲天堂| 亚洲国产看片基地久久1024| 亚亚洲乱码一二三四区| 成年片色大黄全免费网站久久| 欧美激情,国产精品| 免费看av在线网站网址| 国产精品第页| 国产欧美中文字幕| 国产乱人免费视频| 成人va亚洲va欧美天堂| 激情国产精品一区| 中文字幕在线观看日本| 欧美日本视频在线观看| 国产成人精品18| 在线观看国产黄色| 一级黄色片网| 日韩精品无码不卡无码| 久久久久中文字幕精品视频| 综合亚洲网| 亚洲无线国产观看| 永久免费精品视频| 精品一区二区三区水蜜桃| av免费在线观看美女叉开腿| 日韩午夜伦| 国产日韩av在线播放| 欧美成人免费午夜全| 嫩草国产在线| 91久久夜色精品国产网站| 欧洲成人在线观看| 97青草最新免费精品视频| 啪啪免费视频一区二区| 国产一级小视频| 在线不卡免费视频| 欧美成在线视频| 日本三区视频| 久久精品66| 成人福利一区二区视频在线| 国产成人久视频免费| 亚洲成网777777国产精品| 久久公开视频| 国产青榴视频在线观看网站| 亚洲精品在线影院| 亚洲中久无码永久在线观看软件| 超清无码熟妇人妻AV在线绿巨人 | 在线免费看片a| 亚洲侵犯无码网址在线观看| 中文字幕人妻av一区二区| 精品一区二区三区四区五区| 精品国产91爱|