999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于游記主題挖掘與表達的旅游信息推薦研究

2017-07-17 15:23:59呂琳露李亞婷
現代情報 2017年6期
關鍵詞:文本挖掘

呂琳露+李亞婷

[摘要][目的/意義]針對在線旅游平臺,提出一種挖掘游記主題標簽,以代表性游記以及其中相關內容進行旅游信息推薦的新策略。[方法/過程]在利用文本挖掘技術,構建LDA主題模型,形成游記文本主題標簽的基礎上,通過游記代表度算法,篩選出針對相應標簽的高描述度與高忠誠度游記進行旅游信息推薦,以客觀表達文本聚類結果以及主題詞之間的語義關系,并以螞蜂窩旅游網中的“杭州游記”為例,加以驗證。[結果/結論]結果表明,這種方式能挖掘出旅游者在歷史旅游經歷中真實的旅游熱點及重點信息需求,針對高相似度游記的識別與聚類具有良好效果,對旅游信息細粒度推薦具有指導意義與實踐意義。

[關鍵詞]在線旅游平臺;游記;信息推薦;信息服務;文本挖掘

D0l:10.3969/j.issn.1008—0821.2017.06.010

[中圖分類號]G254 [文獻標識碼]A [文章編號]1008—0821(2017)06—0061—07

網絡游記作為人們獲取旅游信息的重要來源之一,已經成為一種傳遞旅游信息的網絡口碑,幫助并影響著旅游者的決策行為。在此背景下,游記資源的組織和整合對于在線旅游平臺中的信息序化以及信息推薦策略研究具有重要意義。如今,在線旅游平臺對于游記資源供用戶篩選的條件大都局限于人均花費、行程天數、出發時間、和誰出行等屬性,不足以滿足用戶對更具針對性游記的檢索需求,完善游記信息序化機制,提出更有效的信息推薦策略成為旅游網站發展過程中的一種切實需要。

由此,本文針對在線旅游平臺,提出一種借助文本挖掘技術來提取游記標簽,并篩選出代表性游記,提取相關內容以進行旅游信息推薦的新策略。研究利用LDA模型對游記文本進行主題識別與分析,然后將提煉出來的特征詞作為游記的主題標簽,根據從中自主選擇的標簽形成了游記文本的聚類,最后采用代表性游記客觀表達帶標簽文本的內容,實現科學推薦的目的。

1相關研究

回顧相關文獻,學者們對于網絡游記文本挖掘,主要將其應用在對旅游目的地的形象感知和情感分析、游客行為特征的發現以及旅游推薦系統的優化中。而以旅游信息推薦為中心的研究,除了對在線旅游平臺中旅游產品營銷策略的探索,學者們主要著眼于旅游信息推薦算法的改進,分析如何優化相關算法來提高推薦效率和準確率,重點集中在利用日志信息和交互信息以及用戶行為數據,包括訪問記錄、瀏覽與購買行為、時空數據、旅游游記等,以進行個性化旅游信息推薦。

到目前為止,針對在線旅游游記的推薦研究較少,存在很大的探索空間。相較有參考意義的有:Ji利用游記中的照片和地點信息,建立了一個包含“用戶一景點一照片”的層次化的圖結構,并對景點、用戶和照片進行排序,隨后又對其進行了延伸,在進行景點排序后,采用稀疏重構方法提取景點的代表性照片;Hao等采用概率圖模型對旅游游記進行建模,提出游記中的詞匯屬于背景話題模型和地點特有的話題模型兩大類,并以此進行游記特征詞的抽取;馬艷艷肯定了旅游網站中游記分享社區的現實價值,并通過對旅游網站中游記專輯制作和分享展示的具體功能設計,闡述了對游記資源進行組織與整合的基本方法;諸葛菲提出了在線旅游服務中的眾包信息推薦模型,該方法基于旅行者隱式行為,針對某一旅游需求,將所有眾包旅游方案中與需求相似度最大的方案作為最優結果推薦給用戶。

綜上,雖然學者們已經注意到了游記資源在旅游信息推薦中的重要性,部分研究實現了從游記中挖掘相關知識以創新旅游信息服務,但少數研究將研究重點直接立足于游記本身的推薦上,基于此,本文通過對網絡游記文本進行主題建模獲得游記主題標簽,根據標簽組合形成文本聚類,并篩選出代表性游記進行旅游信息推薦,即從游記文本出發最終回歸到游記進行信息表達,實現客觀、科學的推薦策略。

2研究設計與方法

本文通過網絡爬蟲獲取研究樣本區域的游記文本,然后對文本進行預處理,包括設定自定義詞表、分詞和去停用詞等,將文本向量化;隨后構建LDA主題模型,得到游記數據集中的主題概率分布,并對所識別發現的高頻特征詞進行人工分析與描述,形成文本主題的相關標簽;最后,通過對每篇游記于用戶根據需要設定的標簽的描述度、忠誠度和代表度的計算,得到相應標簽的代表性游記及相關內容。

2.1數據采集及預處理

本文采用MetaStudio和DataScraper網頁信息抽取工具,以螞蜂窩旅行網(http:∥www.mafengwo.cn)為例,在網站上用“杭州”作為目的地標簽搜集相關游記,采集的內容包括游記的全部文本以及相關屬性,采集時間為2016年10月13日至2016年10月14日,共計1005條數據。

由于游記中語義表達方式多樣,本文結合攜程旅游網、螞蜂窩旅行網和貓途鷹旅行社區提供的杭州地名信息以及其他相關詞匯信息,以最少匹配為原則,人工對詞表進行統一處理,最終得到杭州主題相關詞表(1433個)。基于此,通過正則表達式去除游記中的鏈接、表情符號等噪音信息后,采用Python的Jieba分詞包,對數據樣本進行分詞處理,保留各個游記的名詞、形容詞以及自定義詞表中的詞匯,并去除停用詞,最后得到表1所列數據集合。

2.2游記文本主題挖掘

借助Python工具,本文運用主題建模中最基本的模型LDA(Latent Dirichlet Allocation),挖掘隱藏在游記文本內的潛在主題,并對高頻特征詞進行人工分析與描述,以此得到文本主題標簽。在LDA建模過程中,采用MCMC(Markov Chain Monte Carlo)中的Gibbs算法對IDA模型的參數進行近似估計。其中,本文將狄利克雷函數的先驗參數α和β設置為經驗值,分別為α=50/K,β=0.01,而主題個數K則利用層次狄利克雷過程(Hierarchical Dirichlet Processes)進行分析確定。

2.3代表性游記及相關內容的選取

崔雷等在研究中以TF-IDF為方法學基礎,提出了選取代表性論文來表示某一學科主題高頻詞共現聚類分析結果的方法。基于此,本文通過計算Pi游記對標簽組Cj的描述度和對Cj內容表達的專指性,對每篇游記的代表度進行度量最后進行降序排列以得到相應的代表性游記。具體步驟如下:

最后,對所選定的代表性游記,提取含有標簽組合中主題詞的所有句子,得到關于各個標簽主題詞的針對性內容。

3游記主題詞提取

針對數據預處理得到的分析樣本,利用層次狄利克雷過程算法,采用Python的Gensim工具包,對LDA模型中的主題個數進行預判,得到K=149。進而構建LDA模型,抽取前10個聚類主題,每個主題下生成20個最有可能出現的詞語以及相應的概率。由于LDA模型為概率生成模型,每一次得到的識別結果有所差別,表2展示了其中一次實驗中的前5個聚類結果。綜合實驗結果得,不同主題聚類間的特征詞相似度高,且大多分布在旅游景點相關名詞。由于游記是旅游者基于自身旅游體驗主動發表的文本,主要描述了旅游過程與感受,蘊含著明顯的行程規劃信息,因此文本主題多為景點地名及其他相關名詞符合游記文本的語言特點。同時,也表明了游記文本的主題十分集中,實驗樣本之間的相似度很高,正鑒于此,需要對文本內容進行細粒度的識別和表達,才能更準確高效的從繁多的信息中篩選出對用戶而言價值更高的游記。

本文對上述LDA實驗過程重復10次,并對得到的高頻特征詞及其分布概率進行人工分析與判讀,過濾語義性弱以及重復的特征詞,得到文本的特征標簽詞表(共108個),如表3所示。其中,這些主題詞主要可分為4類:①相關城市名稱,如上海、蘇州、南京等,對包含這些城市名的游記進行探析發現,其語義關系多為游客行程安排中涉及的旅游出發地與目的地,也就是說一方面從這些城市到杭州旅游的游客居多;另一方面人們在游玩杭州時,常同時將這些城市也安排在旅行計劃中;②旅游景點名稱,如千島湖、西湖、靈隱寺以及河坊街等,旅游景點名稱作為占比最多的標簽主題詞匯,旅游景點名稱也是最重要的標簽,根據不同標簽的選取,可以有效地幫助用戶篩選出切合需求的游記;③景點特色相關詞匯,如古鎮、龍井、游船和索道等,這些特征是對旅游景點特色的進一步表達,加強了對旅游景點名詞的語義理解,同時,由于模型算法抽取出的主題詞都是相關性很強的詞匯,保證了這些景點特色相關詞匯的可靠性與準確性;④旅游信息要素相關特征詞,如門票、酒店、公交及餐廳等,這些主題都是旅行過程中的常見話題,也是旅游者信息需求中的重要組成部分。

4信息推薦的實現

4.1代表性游記推薦

根據得到的主題標簽詞表,選定標簽詞,計算得到對應的代表性游記,并對其進行了相關性分析以檢驗實驗結果的科學性與實效性,具體步驟與結果分析如下。

本文以標簽組“周莊、西塘、西溪、河坊街、機場”、“上海、西湖、花港觀魚、三潭印月、京杭大運河、河坊街、酒店、公交”和“靈隱寺、飛來峰、門票、民宿、龍井、中國茶葉博物館”為例,計算每篇游記對相應標簽的描述度、忠誠度和代表度。同時,根據代表度降序排列,得到前10篇游記作為代表性游記。對于同一組標簽,本文首先計算了游記的描述度、忠誠度與代表度的相關性(見表4)。

從表4可看出,針對1005篇游記,整體上三者之間存在顯著正向相關關系;對于代表性游記,游記的描述度與忠誠度呈負相關,而代表度與描述度、忠誠度相關性呈不確定狀,且三者之間相關關系的顯著性由標簽組合的改變存在差異。描述度高的游記表示了在該游記中標簽對應內容相較豐富,忠誠度高則表明該游記對于用戶指定的需求更具有針對性,專指性強。當游記作者對標簽涵蓋旅游內容進行了較為詳盡的描述時,根據游記作者的語言習慣往往對其他內容也有較長篇幅的記錄,因此在一定程度上描述度與忠誠度存在相互制約。而代表度算法綜合了游記對標簽主題的描述程度和忠誠程度,只有在游記作者以標簽主題內容為整篇游記的重點,對相關內容描述得多而其他內容記錄得少時,才能得到兩者均處于較高水平的狀態。這使得最終選取出的代表性游記在內容上有較豐富的展現,同時過濾掉了用戶沒有需求的冗余信息。

隨后本文對代表性游記進一步追蹤和檢驗,得到各游記字數、所包含圖片數以及對應游記的用戶互動行為數據,如表5所示。結果表明,所選取的代表性游記并不是簡單的數據集中字數和包含圖片數最多的游記,但其數目處在相較高的位置且在用戶互動指標上有較好的表現。與此同時,3組標簽共得到29篇代表性游記,分別來自29為作者,不同標簽組得到的代表性游記差異性顯著,初步證明了通過上述算法得到了對應不同需求的信息甄別結果,對于高相似度游記的識別與聚類具有良好效果。

與此同時,本文對抽取同一組標簽下的代表性游記內容進行人工分析以驗證,得到代表度更高的游記對于標簽涵蓋內容的描述與表達更加相關與細致,且在不同標簽組下均有較好的效果。例如,標簽組“周莊、西塘、西溪、河坊街、機場”中,對應編號為187的游記在字數、所含圖片數以及閱讀、點贊、評論、收藏和分享指標上均明顯高于其他代表性游記,但其代表度排列第7,并不靠前。具體探究可得該游記行程為“杭州-南潯-蘇州-周莊-錦溪-上海”,時間跨度10天,雖然內容豐富但范圍廣泛,針對性稍弱,而其他排名靠前的游記與標簽內容的相關性更強。在內容詳盡方面,例如標簽組“上海、西湖、花港觀魚、三潭印月、京杭大運河、河坊街、酒店、公交”中。對應編號為82、634、826的游記對三潭印月景點的相關描述;標簽組“靈隱寺、飛來峰、門票、民宿、龍井、中國茶葉博物館”中,對應編號為173、642游記對靈隱寺和飛來峰門票信息的表達,見圖1,隨著游記在組中代表度依次減弱,其相關記錄的詳盡程度依次減弱。

4.2針對性內容定位

根據數據樣本中對游記篇幅的統計結果可知,其平均字數達到4 500字以上,因此,為了更高效的給予用戶相關信息推薦,滿足用戶需求,本文進一步提取了代表性游記中包含標簽內容的相關信息。表6展示了對于標簽組“周莊、西塘、西溪、河坊街、機場”,部分代表性游記中針對“機場”的相關信息。

5結語

如今,很多用戶都傾向于從在線旅游平臺中獲取旅游經驗以完善自己的旅游計劃,而歷史旅游者融合自身體驗,分享與總結旅游經驗,撰寫旅游游記,對于潛在旅游者極具價值。本文以螞蜂窩旅游信息交流平臺中杭州旅行游記為例,利用LDA模型對游記文本集進行建模,得到文本主題分布與游記中心主題相關詞匯。隨后,設定相關標簽,通過每篇游記對標簽組合的描述度、忠誠度和代表度的計算,得到相應的代表性游記及相關內容,最后通過對代表性游記的追蹤與檢驗,結合游記內容和相關屬性,對研究算法進行了進一步剖析。

作為現實旅游者對自身旅游經歷的描述與情感表達,游記文本具有信息真實、反饋及時、內容豐富的特點,通過LDA主題模型從游記文本中識別出來的特征詞,切實代表了該旅游目的地中的熱門景點與特色以及用戶在旅游過程中關心的熱點,將其設為供用戶選取的標簽詞具有符合用戶需求的良好表現。隨后,本文提出以根據主題標簽選取代表性游記進行旅游信息推薦的新策略,具有很好的指導意義和實踐價值。一方面,當用戶設定一組標簽后,需要檢索系統尋找到這組標簽所代表的概念之間的語義關系,而這種關系往往就蘊含在用戶自發、自主撰寫的游記文本中。另一方面,當對游記文本數據集進行主題識別與文本聚類后,對這些知識發現的結果進行表達和解釋,然后呈現給用戶是信息服務的最后一道程序,通過篩選代表性游記,用客觀存在的游記文本來表現主題內容,實現旅游信息推薦的方法,使得對主題詞之間語義關系的判讀更為客觀與準確。

本文還存在一些不足以及可加以深入探討的內容,如本文僅以LDA模型為例抽取游記主題標簽,雖然LDA是主題挖掘模型中較為成熟與流行的聚類算法,但不代表其完全適應游記文本的語言特點。同時,用戶對于游記描述度與忠誠度的傾向方面是否存在側重等問題也有待商榷,因此,主題識別算法的優化以及代表性游記篩選策略的改進都將是以后的研究著眼點。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 国产精品无码AV片在线观看播放| 1024你懂的国产精品| 国产精品自在在线午夜区app| 香蕉国产精品视频| 国产精品三级专区| 第九色区aⅴ天堂久久香| 亚洲二三区| 国产一区二区精品福利| 91美女视频在线| 午夜啪啪福利| 欧美成人午夜视频| 天天综合网站| 国产精品免费久久久久影院无码| 免费看美女毛片| 精品久久久久久中文字幕女| 精品久久香蕉国产线看观看gif | 欧美精品啪啪一区二区三区| 伊人色天堂| 国产精品成人免费视频99| 综合网久久| a级毛片在线免费观看| 久久人人97超碰人人澡爱香蕉| 久久久黄色片| 丁香五月激情图片| 久久免费观看视频| 日韩a级毛片| 欧美高清日韩| 免费人成视频在线观看网站| 久久久精品国产SM调教网站| 久久国产精品麻豆系列| 波多野吉衣一区二区三区av| 超碰91免费人妻| 欧美一级专区免费大片| 国产精品毛片一区视频播| 天天综合网站| 国产毛片不卡| 久久久久国色AV免费观看性色| 国内精品久久九九国产精品| 午夜啪啪网| 日韩在线视频网站| 亚洲精品天堂在线观看| 国产在线自揄拍揄视频网站| 在线视频亚洲色图| 国产精品永久不卡免费视频| 人人看人人鲁狠狠高清| 又粗又大又爽又紧免费视频| 欧美中文字幕一区二区三区| 亚欧乱色视频网站大全| 国产成年女人特黄特色大片免费| 国产精品美女自慰喷水| 国产亚洲精品在天天在线麻豆| 99成人在线观看| 免费A级毛片无码免费视频| 国产精品黄色片| 激情六月丁香婷婷四房播| 88av在线| 色妞www精品视频一级下载| 欧美亚洲第一页| 欧美一区二区福利视频| 欧美日韩福利| 国产aaaaa一级毛片| 亚洲中文字幕23页在线| 九色91在线视频| 亚洲视频二| 亚洲AV人人澡人人双人| 成人91在线| 国产在线精品99一区不卡| 99视频在线看| 国产丰满大乳无码免费播放| 亚洲天堂区| 国产手机在线观看| 欧美日韩一区二区三区在线视频| 久久午夜夜伦鲁鲁片无码免费| 超级碰免费视频91| 2020久久国产综合精品swag| 欧类av怡春院| 欧美在线精品怡红院 | 亚洲日韩精品综合在线一区二区| 精品人妻无码中字系列| 91视频首页| 免费久久一级欧美特大黄| 久久久精品国产亚洲AV日韩|