史海燕 郭海玲
摘 要:在線旅游信息推薦是目前信息推薦的重要應用領域。在對已有旅游信息推薦方法進行梳理的基礎上,提出了一種基于文本挖掘的在線旅游信息推薦方法。該方法從文本信息中提取旅游景點的內容特征,基于內容特征構建用戶偏好模型,基于相似度計算實現旅游景點的推薦。實驗表明,提出的方法可以取得較優推薦效果。
關鍵詞:信息推薦;旅游信息;推薦方法
中圖分類號:F2 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.06.013
信息推薦是解決信息超載問題的有效方法之一,也是提供個性化信息服務的主要途徑。信息推薦技術或系統可以幫助用戶從動態變化的信息流中過濾更符合用戶需求的信息,降低用戶的信息獲取成本,減輕用戶信息負擔,滿足用戶個性化的信息需求。隨著社會經濟的發展,旅游成為人們經常開展的活動之一,而已有研究表明,網絡已成為用戶搜索和預定旅游服務的主要信息來源。網絡空間擁有豐富的旅游信息資源,如旅游線路信息、景點評論信息、游記、旅游攻略信息等,但從紛繁復雜的信息中提取用于旅游決策的信息需要花費大量的時間和精力,用戶需要有效的方法來解決這一問題,旅游信息推薦成為信息推薦重要的研究與應用領域。本文對國內外在線旅游信息推薦方法進行梳理,在此基礎上提出一種基于文本信息挖掘的在線旅游信息推薦方法。
1 國內外在線旅游信息推薦方法
信息推薦的基本方法可以分為基于內容的推薦、協作式推薦和混合式推薦。基于內容的推薦需要提取待推薦項目的內容特征,在此基礎上構建用戶偏好模型,基于用戶偏好模型實現推薦。協作式推薦可以分為基于用戶的協作式推薦和基于項目的協作式推薦,前者基于相似用戶推薦,后者基于相似項目推薦。混合式推薦是將基于內容的推薦和協作式推薦兩種方法進行整合。具體到旅游信息推薦領域,根據推薦對象的不同,在線旅游信息推薦可以分為三類。
1.1 旅游地點推薦研究
這一類研究面向特定的旅游地點或興趣點進行推薦。Xu等利用用戶社交網絡中照片的地理標簽獲取用戶的數字足跡,基于用戶在特定情境(季節和天氣)下旅游歷史的主題分布為用戶推薦旅游地點。Clements等基于同時訪問某一位置的用戶數量,利用位置在共現空間的高斯密度估計來聚類相關的地理標簽,以此計算兩個旅游地點的相似度,進而提供推薦。TREC(Text Retrieval Coference,文本檢索會議)的情境化建議任務(Contextual Suggestion Track)利用用戶偏好和時空情境(后期僅包括空間情境)推薦POI(興趣點)。
1.2 旅游套餐推薦
這一類研究面向組合成套的旅游產品進行推薦,如旅游公司提供的包含多個旅游景點、旅游天數、價格及配套服務的旅游套餐產品。Ge等考慮用戶的時間成本和經濟成本,為用戶推薦旅行套餐。Xie等構建的CompRec-Trip系統也是在考慮用戶時間成本和經濟成本的基礎上提供旅游套餐推薦服務。Yu等利用基于位置的社交網絡構建用戶和位置的模型,通過協作式過濾確定用戶的偏好,同時考慮用戶偏好和時空約束為用戶推薦旅游套餐。
1.3 旅游線路推薦
這類研究關注的是旅游地點間的序列關系。Tsai和Chung考慮用戶偏好和時間,為用戶提供主題公園路線推薦。Zheng和Xie通過對用戶歷史GPS軌跡的挖掘為用戶提供特定空間區域內景點及線路的推薦。
2 基于文本挖掘的旅游景點推薦方法
本文提出的方法是一種基于內容的信息推薦方法,推薦的對象是旅游景點信息。該方法首先從旅游景點的描述文本中提取文本特征,將文本特征作為旅游景點的內容特征。其次基于用戶對旅游景點的評分數據,計算用戶對不同景點特征的興趣度(即偏好程度),在此基礎上建立用戶偏好模型。最后基于用戶偏好與待推薦景點的相似度進行排序推薦。
2.1 文本特征的提取
在基于內容的信息推薦中,如何提取待推薦項目的內容特征是關鍵問題之一。對于旅游景點的推薦,已有研究中提取特征的方法大致分為基于類屬特征進行提取、基于研究者選擇的特征提取以及基于文本特征的提取。第一種方法是將旅游景點分類,以類目名稱作為旅游景點的內容特征,這一方法易于實現,但不能反映單個景點特有的屬性特征。第二種方法是由研究者選擇特定的屬性作為旅游景點的內容特征,如位置、價位、季節等,這一方法雖能凸顯景點的屬性特征,但通常研究者所選擇的屬性僅限于少數,因此對于景點特征的呈現也并不充分。本文擬采用第三種方法,即從旅游景點的描述文本中提取文本特征,將文本特征作為旅游景點的內容特征。網絡空間中分布著大量的旅游景點信息,為提取內容特征提供了豐富的語料,也可以從中提取更為多元的內容特征。
文本特征的提取有多種方法,如逆文檔頻率(TFIDF)、信息增益、互信息、N-Gram法、卡方統計等,本文選取逆文檔頻率法。TFIDF作為一種文本特征抽取的基本方法,具有簡單高效的特點,在文本信息處理領域有著廣泛的應用,其基本原理為:一個詞在某一文檔中出現的頻次越多,該詞對文檔內容的貢獻越大,權值越高;一個詞在某一文檔集合中出現在越少的文檔中,其對文檔的區分能力越強,權值越高。在對旅游景點的描述文本信息進行采集和預處理后,計算特征項的TFIDF值,將TFIDF值大于特定閾值的特征項提取為景點的內容特征。
2.2 用戶偏好建模
用戶偏好模型(user profile),也稱之為用戶模型(user model)、用戶個性化模型(user personal profile),通常描述的是用戶興趣和資源特征等概念節點和節點間的關聯。本文采用向量空間模型表示用戶偏好,具體如下:
興趣度的計算為這一方法的核心問題。本文將用戶ui對屬性ak的興趣度sk定義如下:
2.3 相似度計算
在構建了用戶偏好模型后,就可以基于用戶偏好模型進行旅游景點的排序推薦。將旅游景點表示為其內容特征的向量形式,通過計算景點向量與用戶偏好模型的相似度即可以實現排序推薦。相似度的計算方法有多種形式,本文采取較為常用的余弦公式。
3 實驗及結果
為驗證本文方法的有效性,研究者采集了數據并進行了計算機實驗。首先是實驗數據的準備。本實驗所需數據包括兩方面:一是旅游景點的描述文本語料庫;二是用戶的評分數據。描述文本語料庫通過自動采集與人工采集相結合的方式構建,最終得到5032條旅游景點及相應的描述文本。用戶評分數據通過問卷調查的方法獲得,調查了39位用戶對100個旅游景點的偏好信息。實驗基于Windows操作系統,利用Python編程實現文本信息特征提取、用戶偏好模型的構建及相似度的計算。選取查全率、查準率和F均值作為評價指標。實驗結果顯示,本文提出的基于文本信息挖掘的推薦方法取得了較好推薦效果。
參考文獻
[1]Xu Z.X.,Chen L.,Chen G..Topic based context-aware travel recommendation method exploiting geotagged photos[J].Neurocomputing ,2015 ,155(C):99-107.
[2]Clements M.,Serdyukov P.,Vries A.P.,et al..Personalised travel recommendation based on location co-occurrence[J].Computer Science,2011,June:1-30.
[3]Ge Y.,Liu Q.,Xiong H..,et al..Cost-aware travel tour recommendation[C]//Proceedings of the 11th KDD,San Diego,California,USA,2011:983-991.
[4]Xie M.,Lakshmanan L.V.S.,Wood P.T..CompRec-Trip:A composite recommendation system for travel planning[C]// International Conference on Data Engineering,Hannover,Germany,2011:1352-1355.
[5]Yu Z.,Xu H.,Yang Z.,et al..Personalized travel package with multi-Point-of-Interest recommendation based on crowdsourced user footprints[J].IEEE Transactions on Human-Machine Systems,2015,46(1):1-8.
[6]Tsai C.Y.,Chung S.H..A personalized route recommendation service for theme parks using RFID information and tourist behavior[J].Decision Support Systems ,2012,52(2):514-527.
[7]Zheng Y.,Xie X..Learning travel recommendation from user-generated GPS trajectories[J].CM Transaction on Intelligent Systems and Technologies,2011,2(1):389-396.