呂琳露+李亞婷



[摘要][目的/意義]針對在線旅游平臺,提出一種挖掘游記主題標簽,以代表性游記以及其中相關內容進行旅游信息推薦的新策略。[方法/過程]在利用文本挖掘技術,構建LDA主題模型,形成游記文本主題標簽的基礎上,通過游記代表度算法,篩選出針對相應標簽的高描述度與高忠誠度游記進行旅游信息推薦,以客觀表達文本聚類結果以及主題詞之間的語義關系,并以螞蜂窩旅游網中的“杭州游記”為例,加以驗證。[結果/結論]結果表明,這種方式能挖掘出旅游者在歷史旅游經歷中真實的旅游熱點及重點信息需求,針對高相似度游記的識別與聚類具有良好效果,對旅游信息細粒度推薦具有指導意義與實踐意義。
[關鍵詞]在線旅游平臺;游記;信息推薦;信息服務;文本挖掘
D0l:10.3969/j.issn.1008—0821.2017.06.010
[中圖分類號]G254 [文獻標識碼]A [文章編號]1008—0821(2017)06—0061—07
網絡游記作為人們獲取旅游信息的重要來源之一,已經成為一種傳遞旅游信息的網絡口碑,幫助并影響著旅游者的決策行為。在此背景下,游記資源的組織和整合對于在線旅游平臺中的信息序化以及信息推薦策略研究具有重要意義。如今,在線旅游平臺對于游記資源供用戶篩選的條件大都局限于人均花費、行程天數、出發時間、和誰出行等屬性,不足以滿足用戶對更具針對性游記的檢索需求,完善游記信息序化機制,提出更有效的信息推薦策略成為旅游網站發展過程中的一種切實需要。
由此,本文針對在線旅游平臺,提出一種借助文本挖掘技術來提取游記標簽,并篩選出代表性游記,提取相關內容以進行旅游信息推薦的新策略。研究利用LDA模型對游記文本進行主題識別與分析,然后將提煉出來的特征詞作為游記的主題標簽,根據從中自主選擇的標簽形成了游記文本的聚類,最后采用代表性游記客觀表達帶標簽文本的內容,實現科學推薦的目的。
1相關研究
回顧相關文獻,學者們對于網絡游記文本挖掘,主要將其應用在對旅游目的地的形象感知和情感分析、游客行為特征的發現以及旅游推薦系統的優化中。而以旅游信息推薦為中心的研究,除了對在線旅游平臺中旅游產品營銷策略的探索,學者們主要著眼于旅游信息推薦算法的改進,分析如何優化相關算法來提高推薦效率和準確率,重點集中在利用日志信息和交互信息以及用戶行為數據,包括訪問記錄、瀏覽與購買行為、時空數據、旅游游記等,以進行個性化旅游信息推薦。
到目前為止,針對在線旅游游記的推薦研究較少,存在很大的探索空間。相較有參考意義的有:Ji利用游記中的照片和地點信息,建立了一個包含“用戶一景點一照片”的層次化的圖結構,并對景點、用戶和照片進行排序,隨后又對其進行了延伸,在進行景點排序后,采用稀疏重構方法提取景點的代表性照片;Hao等采用概率圖模型對旅游游記進行建模,提出游記中的詞匯屬于背景話題模型和地點特有的話題模型兩大類,并以此進行游記特征詞的抽取;馬艷艷肯定了旅游網站中游記分享社區的現實價值,并通過對旅游網站中游記專輯制作和分享展示的具體功能設計,闡述了對游記資源進行組織與整合的基本方法;諸葛菲提出了在線旅游服務中的眾包信息推薦模型,該方法基于旅行者隱式行為,針對某一旅游需求,將所有眾包旅游方案中與需求相似度最大的方案作為最優結果推薦給用戶。
綜上,雖然學者們已經注意到了游記資源在旅游信息推薦中的重要性,部分研究實現了從游記中挖掘相關知識以創新旅游信息服務,但少數研究將研究重點直接立足于游記本身的推薦上,基于此,本文通過對網絡游記文本進行主題建模獲得游記主題標簽,根據標簽組合形成文本聚類,并篩選出代表性游記進行旅游信息推薦,即從游記文本出發最終回歸到游記進行信息表達,實現客觀、科學的推薦策略。
2研究設計與方法
本文通過網絡爬蟲獲取研究樣本區域的游記文本,然后對文本進行預處理,包括設定自定義詞表、分詞和去停用詞等,將文本向量化;隨后構建LDA主題模型,得到游記數據集中的主題概率分布,并對所識別發現的高頻特征詞進行人工分析與描述,形成文本主題的相關標簽;最后,通過對每篇游記于用戶根據需要設定的標簽的描述度、忠誠度和代表度的計算,得到相應標簽的代表性游記及相關內容。
2.1數據采集及預處理
本文采用MetaStudio和DataScraper網頁信息抽取工具,以螞蜂窩旅行網(http:∥www.mafengwo.cn)為例,在網站上用“杭州”作為目的地標簽搜集相關游記,采集的內容包括游記的全部文本以及相關屬性,采集時間為2016年10月13日至2016年10月14日,共計1005條數據。
由于游記中語義表達方式多樣,本文結合攜程旅游網、螞蜂窩旅行網和貓途鷹旅行社區提供的杭州地名信息以及其他相關詞匯信息,以最少匹配為原則,人工對詞表進行統一處理,最終得到杭州主題相關詞表(1433個)。基于此,通過正則表達式去除游記中的鏈接、表情符號等噪音信息后,采用Python的Jieba分詞包,對數據樣本進行分詞處理,保留各個游記的名詞、形容詞以及自定義詞表中的詞匯,并去除停用詞,最后得到表1所列數據集合。
2.2游記文本主題挖掘
借助Python工具,本文運用主題建模中最基本的模型LDA(Latent Dirichlet Allocation),挖掘隱藏在游記文本內的潛在主題,并對高頻特征詞進行人工分析與描述,以此得到文本主題標簽。在LDA建模過程中,采用MCMC(Markov Chain Monte Carlo)中的Gibbs算法對IDA模型的參數進行近似估計。其中,本文將狄利克雷函數的先驗參數α和β設置為經驗值,分別為α=50/K,β=0.01,而主題個數K則利用層次狄利克雷過程(Hierarchical Dirichlet Processes)進行分析確定。
2.3代表性游記及相關內容的選取
崔雷等在研究中以TF-IDF為方法學基礎,提出了選取代表性論文來表示某一學科主題高頻詞共現聚類分析結果的方法。基于此,本文通過計算Pi游記對標簽組Cj的描述度和對Cj內容表達的專指性,對每篇游記的代表度進行度量最后進行降序排列以得到相應的代表性游記。具體步驟如下:
最后,對所選定的代表性游記,提取含有標簽組合中主題詞的所有句子,得到關于各個標簽主題詞的針對性內容。
3游記主題詞提取
針對數據預處理得到的分析樣本,利用層次狄利克雷過程算法,采用Python的Gensim工具包,對LDA模型中的主題個數進行預判,得到K=149。進而構建LDA模型,抽取前10個聚類主題,每個主題下生成20個最有可能出現的詞語以及相應的概率。由于LDA模型為概率生成模型,每一次得到的識別結果有所差別,表2展示了其中一次實驗中的前5個聚類結果。綜合實驗結果得,不同主題聚類間的特征詞相似度高,且大多分布在旅游景點相關名詞。由于游記是旅游者基于自身旅游體驗主動發表的文本,主要描述了旅游過程與感受,蘊含著明顯的行程規劃信息,因此文本主題多為景點地名及其他相關名詞符合游記文本的語言特點。同時,也表明了游記文本的主題十分集中,實驗樣本之間的相似度很高,正鑒于此,需要對文本內容進行細粒度的識別和表達,才能更準確高效的從繁多的信息中篩選出對用戶而言價值更高的游記。
本文對上述LDA實驗過程重復10次,并對得到的高頻特征詞及其分布概率進行人工分析與判讀,過濾語義性弱以及重復的特征詞,得到文本的特征標簽詞表(共108個),如表3所示。其中,這些主題詞主要可分為4類:①相關城市名稱,如上海、蘇州、南京等,對包含這些城市名的游記進行探析發現,其語義關系多為游客行程安排中涉及的旅游出發地與目的地,也就是說一方面從這些城市到杭州旅游的游客居多;另一方面人們在游玩杭州時,常同時將這些城市也安排在旅行計劃中;②旅游景點名稱,如千島湖、西湖、靈隱寺以及河坊街等,旅游景點名稱作為占比最多的標簽主題詞匯,旅游景點名稱也是最重要的標簽,根據不同標簽的選取,可以有效地幫助用戶篩選出切合需求的游記;③景點特色相關詞匯,如古鎮、龍井、游船和索道等,這些特征是對旅游景點特色的進一步表達,加強了對旅游景點名詞的語義理解,同時,由于模型算法抽取出的主題詞都是相關性很強的詞匯,保證了這些景點特色相關詞匯的可靠性與準確性;④旅游信息要素相關特征詞,如門票、酒店、公交及餐廳等,這些主題都是旅行過程中的常見話題,也是旅游者信息需求中的重要組成部分。
4信息推薦的實現
4.1代表性游記推薦
根據得到的主題標簽詞表,選定標簽詞,計算得到對應的代表性游記,并對其進行了相關性分析以檢驗實驗結果的科學性與實效性,具體步驟與結果分析如下。
本文以標簽組“周莊、西塘、西溪、河坊街、機場”、“上海、西湖、花港觀魚、三潭印月、京杭大運河、河坊街、酒店、公交”和“靈隱寺、飛來峰、門票、民宿、龍井、中國茶葉博物館”為例,計算每篇游記對相應標簽的描述度、忠誠度和代表度。同時,根據代表度降序排列,得到前10篇游記作為代表性游記。對于同一組標簽,本文首先計算了游記的描述度、忠誠度與代表度的相關性(見表4)。
從表4可看出,針對1005篇游記,整體上三者之間存在顯著正向相關關系;對于代表性游記,游記的描述度與忠誠度呈負相關,而代表度與描述度、忠誠度相關性呈不確定狀,且三者之間相關關系的顯著性由標簽組合的改變存在差異。描述度高的游記表示了在該游記中標簽對應內容相較豐富,忠誠度高則表明該游記對于用戶指定的需求更具有針對性,專指性強。當游記作者對標簽涵蓋旅游內容進行了較為詳盡的描述時,根據游記作者的語言習慣往往對其他內容也有較長篇幅的記錄,因此在一定程度上描述度與忠誠度存在相互制約。而代表度算法綜合了游記對標簽主題的描述程度和忠誠程度,只有在游記作者以標簽主題內容為整篇游記的重點,對相關內容描述得多而其他內容記錄得少時,才能得到兩者均處于較高水平的狀態。這使得最終選取出的代表性游記在內容上有較豐富的展現,同時過濾掉了用戶沒有需求的冗余信息。
隨后本文對代表性游記進一步追蹤和檢驗,得到各游記字數、所包含圖片數以及對應游記的用戶互動行為數據,如表5所示。結果表明,所選取的代表性游記并不是簡單的數據集中字數和包含圖片數最多的游記,但其數目處在相較高的位置且在用戶互動指標上有較好的表現。與此同時,3組標簽共得到29篇代表性游記,分別來自29為作者,不同標簽組得到的代表性游記差異性顯著,初步證明了通過上述算法得到了對應不同需求的信息甄別結果,對于高相似度游記的識別與聚類具有良好效果。
與此同時,本文對抽取同一組標簽下的代表性游記內容進行人工分析以驗證,得到代表度更高的游記對于標簽涵蓋內容的描述與表達更加相關與細致,且在不同標簽組下均有較好的效果。例如,標簽組“周莊、西塘、西溪、河坊街、機場”中,對應編號為187的游記在字數、所含圖片數以及閱讀、點贊、評論、收藏和分享指標上均明顯高于其他代表性游記,但其代表度排列第7,并不靠前。具體探究可得該游記行程為“杭州-南潯-蘇州-周莊-錦溪-上海”,時間跨度10天,雖然內容豐富但范圍廣泛,針對性稍弱,而其他排名靠前的游記與標簽內容的相關性更強。在內容詳盡方面,例如標簽組“上海、西湖、花港觀魚、三潭印月、京杭大運河、河坊街、酒店、公交”中。對應編號為82、634、826的游記對三潭印月景點的相關描述;標簽組“靈隱寺、飛來峰、門票、民宿、龍井、中國茶葉博物館”中,對應編號為173、642游記對靈隱寺和飛來峰門票信息的表達,見圖1,隨著游記在組中代表度依次減弱,其相關記錄的詳盡程度依次減弱。
4.2針對性內容定位
根據數據樣本中對游記篇幅的統計結果可知,其平均字數達到4 500字以上,因此,為了更高效的給予用戶相關信息推薦,滿足用戶需求,本文進一步提取了代表性游記中包含標簽內容的相關信息。表6展示了對于標簽組“周莊、西塘、西溪、河坊街、機場”,部分代表性游記中針對“機場”的相關信息。
5結語
如今,很多用戶都傾向于從在線旅游平臺中獲取旅游經驗以完善自己的旅游計劃,而歷史旅游者融合自身體驗,分享與總結旅游經驗,撰寫旅游游記,對于潛在旅游者極具價值。本文以螞蜂窩旅游信息交流平臺中杭州旅行游記為例,利用LDA模型對游記文本集進行建模,得到文本主題分布與游記中心主題相關詞匯。隨后,設定相關標簽,通過每篇游記對標簽組合的描述度、忠誠度和代表度的計算,得到相應的代表性游記及相關內容,最后通過對代表性游記的追蹤與檢驗,結合游記內容和相關屬性,對研究算法進行了進一步剖析。
作為現實旅游者對自身旅游經歷的描述與情感表達,游記文本具有信息真實、反饋及時、內容豐富的特點,通過LDA主題模型從游記文本中識別出來的特征詞,切實代表了該旅游目的地中的熱門景點與特色以及用戶在旅游過程中關心的熱點,將其設為供用戶選取的標簽詞具有符合用戶需求的良好表現。隨后,本文提出以根據主題標簽選取代表性游記進行旅游信息推薦的新策略,具有很好的指導意義和實踐價值。一方面,當用戶設定一組標簽后,需要檢索系統尋找到這組標簽所代表的概念之間的語義關系,而這種關系往往就蘊含在用戶自發、自主撰寫的游記文本中。另一方面,當對游記文本數據集進行主題識別與文本聚類后,對這些知識發現的結果進行表達和解釋,然后呈現給用戶是信息服務的最后一道程序,通過篩選代表性游記,用客觀存在的游記文本來表現主題內容,實現旅游信息推薦的方法,使得對主題詞之間語義關系的判讀更為客觀與準確。
本文還存在一些不足以及可加以深入探討的內容,如本文僅以LDA模型為例抽取游記主題標簽,雖然LDA是主題挖掘模型中較為成熟與流行的聚類算法,但不代表其完全適應游記文本的語言特點。同時,用戶對于游記描述度與忠誠度的傾向方面是否存在側重等問題也有待商榷,因此,主題識別算法的優化以及代表性游記篩選策略的改進都將是以后的研究著眼點。