999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標簽挖掘和聚類算法的新用戶快速興趣建模

2023-05-14 08:05:12黃宇浩顧得豪胡炎林周子楚朱津毅宋爽
計算機時代 2023年5期

黃宇浩 顧得豪 胡炎林 周子楚 朱津毅 宋爽

摘? 要: 旅游網站上有著數不勝數的景點信息,但是對新用戶來說,網站缺少他們的瀏覽記錄、旅游經歷等數據,因此很難從眾多景點中精確推薦出適合他們的景點。本研究提出了一種通過標簽挖掘和聚類算法快速構建新用戶興趣模型的方法,以提高旅游推薦系統中新用戶的用戶體驗感。

關鍵詞: 旅游推薦; 冷啟動; 網絡文本挖掘; 用戶聚類

中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-88-03

Fast user interest modeling for new users using tag mining

techniques and clustering algorithm

Huang Yuhao, Gu Dehao, Hu Yanlin, Zhou Zichu, Zhu Jinyi, Song Shuang

(Nanjing University of Technology,School of Computer Science and Technology, Nanjing, Jiangsu 211816, China)

Abstract: There are countless tourism information on various travel websites, however, the lack of user data such as browsing history or travel experience makes it difficult to recommend the right point of interest for new users. In this paper, a method to quickly build a new user interest model using tag mining techniques and clustering algorithm is proposed to improve the user experience of new users in the travel recommendation system.

Key words: tourism recommendation; cold start; online text mining; user clustering

0 引言

旅游業是一個熱門行業,但是由于缺少新用戶的數據,旅游網站往往只能根據景點名、評論數、用戶評分計算景點的陳列順序[1],導致推薦效果不理想,用戶體驗感差,不利于旅游服務的多樣化和個性化。

目前常見的新用戶興趣建模方法有兩種,第一種是問卷調查法,即采取問卷的形式獲取新用戶興趣,如提供由李克特五級量表構成的選項供用戶選擇[2]。但是,大量的文字題目會增加用戶的負擔,降低用戶體驗,所以不是最理想的手段。第二種是相關推薦法,即基于新用戶的個人信息和與其相似的老用戶的景點喜好實現推薦。這種方式無需用戶操作,但研究表明,如果年齡、性別等的人口統計學信息較為模糊,就不足以支持實現精細化、個性化推薦[3]。

綜合以上分析,本文提出一種基于標簽內容和聚類算法的快速興趣建模方法,通過讓新用戶選擇自己感興趣的景點,快速分析用戶的景點偏好,從而緩解新用戶的冷啟動問題。

1 系統設計

本系統總體分為用戶端和管理端,功能分類如圖1。

管理端實現了對用戶信息及景點信息的增刪改查操作;用戶端包括智能推薦模塊、熱門景點推薦模塊和景點評分模塊,可以查看景點推薦列表并對景點進行評分。用戶在注冊時,需要填寫個人信息,并在若干張預設圖片中選擇自己感興趣的景點,系統通過逆向挖掘相應景點的標簽,計算出新用戶的興趣。

2 初始化算法設計與實現

2.1 數據采集

本研究以南京市的旅游景點為對象,使用了Python語言,基于爬蟲技術從貓途鷹(www.tripadvisor.com)、去哪兒旅行網(www.qunar.com)、百度百科(www.baike.baidu.com)和攜程網(www.ctrip.com)采集所有相關數據。數據由三部分組成:①景點基本信息的文本數據,②景點評論及游記的文本數據,③景點的圖片數據。采集時間是2022年7月至9月,最終采集到295個有效景點,共計43531條評論和829張圖片。

2.2 標簽制作與提取

針對景點評論、景點簡介等文本數據,使用jieba分詞技術提取單詞后,去除停用詞,基于式⑴~式⑶計算TF-IDF值以構建景點-標簽庫[4]。

[TF-IDFi,t=TFi,t*IDFi,t]? ⑴

[TFi,t=ni,tnt]? ⑵

[IDFi,t=lgItI+1]? ⑶

其中,TFi,t表示景點i對標簽t的依賴程度,ni,t是景點i的文本數據中標簽t的出現次數,nt是標簽t在所有文本數據中的出現次數。IDFi,t表示標簽t的熱門程度,用于實現對出現次數過多的熱門標簽的懲罰,|I|是景點個數,|It|是包括標簽t的景點個數。最后,根據TF-IDF將標簽降序排列,并計算TF-IDF值的累積和,取累計和小于50%部分作為有效標簽。

2.3 基于聚類算法求初始化圖片

為了實現用盡量少的景點挖掘用戶對盡量多種類的標簽的依賴性,本研究采用如下方法對景點進行分類,并挑選每個類型的代表景點。

⑴ 對景點的每個標簽的TF-IDF值進行標準化和歸一化,使其值域為[0,1]。

⑵ 基于碎石圖決定景點類型數量k,具體步驟是:首先,基于K-means聚類算法[5]將景點分成k類(k=2,3,4,…),計算每種分類結果中,各景點到相應質心的距離,取最小值作為該分類的評價值,取所有類型評價值的平均值作為分成k類時的評價值,最后根據圖2中的坡度變化選取了k=9。

⑶ 基于k-means聚類算法將全部景點分成九類。

⑷ 選取每類的代表景點,該步驟設計思路如下:首先,用歐式距離公式計算每個景點i到對應分類c質心的距離sc,i;其次,對sc,i進行z-score標準化得到dc,i后,使用式⑷計算分類c中景點i的評價值rc,i;最后,取每個分類中評價值最高的景點作為代表。式⑷中,ni代表景點i所包含的標簽數。由于系統采用圖片展示景點,所以設置α值作為判斷景點是否具備圖片數據的權重,即若有圖片則置為1,否則為0。

[rc,i=α×nidc,i]? ⑷

3 算法效果評估

3.1 評估方法

本研究采用仿真實驗評估用戶興趣建模的效果。由于本實驗選出了九個景點并采用“喜歡”和“不喜歡”兩種選項,因此可以將用戶快速分成29=512種類型。本實驗分為以下兩個子實驗。

實驗1 考察不同類型用戶的推薦結果間是否存在差異,即:針對每種類型的用戶,基于標簽推薦算法計算出對應的景點推薦列表,在此基礎上,計算任意兩組推薦結果的斯皮爾曼順位相關系數;

實驗2 考察不同類型用戶的推薦結果是否合理,即:按照旅游網站上列舉的景點歷史評論數由高到低計算出景點的熱門度排序,計算任意推薦結果與熱門度排序間的順位相關系數。

3.2 結果與討論

本實驗使用了SPSS軟件對512種推薦結果進行雙變量相關性分析。

實驗1得到512×512組斯皮爾曼相關系數,并從中除去了自相關的512個數據和重復數據(如x和y的相關系數與y和x的相關系數),結果的平均值為0.718,方差為0.085。這說明任意組合的排序有一定的相似但是存在差異,即采用本方法可以實現多樣化的推薦。同時,結果中存在少量組合間的順位相關系數為1,這些組合對應的是僅有一個景點選擇不同的兩類用戶,造成該現象的原因可能是景點數量較少,沒有足夠的景點來體現少量標簽的差異,導致了標簽興趣不同的用戶獲得的推薦結果相同,后續可以嘗試增加景點數量加以應對。

實驗2得到512個相關系數,其平均值為0.827,方差為0.091,這說明本算法得出的推薦結果和熱門排序相具有一定的相似性,不是隨機推薦。同時,推薦結果與熱門度排序的差異體現了針對不同用戶可以獲得個性化的推薦結果。

雖然本方法能夠快速的將用戶分類,但本研究沒有檢查用戶興趣和每種分類間的映射關系,因此后續還需進行用戶評價實驗。此外,本系統采用了“喜歡”和“不喜歡”兩極化選項,若改為“喜歡-中性-不喜歡”等多級選項的話,可以實現更為細致的用戶劃分,對于選項設置對推薦結果的影響,還應進一步考察。

4 結束語

本文針對推薦系統無法快速、精準建立新用戶興趣模型的問題,提出了一種基于標簽挖掘和聚類算法的建模方法。經過多次測試評估推薦結果,本方法能夠有效的實現對用戶的快速分類,獲得多樣化的推薦結果,并且該結果可以兼顧個性化與熱門度。若將該方法運用在推薦系統中,可以在減少繁瑣的操作的同時獲得個性化的推薦景點,提升新用戶的使用體驗,有利于提升網站的用戶留存率和用戶評價。但是,本研究僅僅針對了新用戶的冷啟動問題進行了處理,若想要整體改善用戶間推薦結果雷同的問題,還可以進一步的加入協同過濾等推薦算法。

參考文獻(References):

[1] 劉艷,潘善亮.基于LBSN好友關系的個性化景點推薦方法[J].計算機工程與應用,2015,51(8):117-122

[2] 漆亞莉.城鎮居民鄉村文化旅游消費意愿影響因素研究——基于南寧市城鎮居民問卷調查數據[J].北京文化創意,2022(1):70-78

[3] 陳阿龍.推薦系統用戶冷啟動問題相關研究[D].碩士,國防科學技術大學,2016

[4] 熊中敏,郭懷宇,吳月欣.缺失數據處理方法研究綜述[J].計算機工程與應用,2021,57(14):27-38

[5] 李明媚.基于數據特征選擇的融合聚類方法研究[D].碩士,杭州電子科技大學,2022

主站蜘蛛池模板: 欧美一区二区自偷自拍视频| 欧美日韩一区二区三区四区在线观看| 毛片大全免费观看| 四虎亚洲精品| 亚洲伊人久久精品影院| 精品视频一区二区观看| 日韩av高清无码一区二区三区| 国产第一页亚洲| 国内精品小视频福利网址| 97久久精品人人| 亚洲福利视频一区二区| 国产福利不卡视频| 国产精品无码影视久久久久久久| 国产成人在线无码免费视频| 91在线播放国产| 亚洲天堂久久久| 九色在线视频导航91| 国语少妇高潮| 四虎免费视频网站| 免费又爽又刺激高潮网址 | 亚洲无码高清视频在线观看 | 亚洲国产看片基地久久1024| 精品国产毛片| 亚洲国产理论片在线播放| 黄片在线永久| 极品尤物av美乳在线观看| 日韩A∨精品日韩精品无码| Jizz国产色系免费| 91无码视频在线观看| 欧美精品xx| 在线观看国产精美视频| 精品一区二区久久久久网站| 手机看片1024久久精品你懂的| 国产精品xxx| 欧美性猛交xxxx乱大交极品| 日韩小视频网站hq| 尤物精品视频一区二区三区| 伊人久久影视| 农村乱人伦一区二区| 奇米精品一区二区三区在线观看| 亚洲午夜片| 在线看片国产| 欧美中文字幕在线播放| 亚洲床戏一区| 99re66精品视频在线观看| 色哟哟国产成人精品| 国产三级毛片| 欧美色亚洲| 国产成人免费观看在线视频| 国产在线欧美| 欧美午夜小视频| 亚洲国产看片基地久久1024 | 国产精品伦视频观看免费| 欧美精品v欧洲精品| 亚洲黄色激情网站| 国产全黄a一级毛片| 亚洲欧美成人综合| 欧美一级在线播放| 亚洲 成人国产| 精品色综合| 日韩av电影一区二区三区四区| 奇米精品一区二区三区在线观看| 婷五月综合| 中文成人在线视频| 国产成人凹凸视频在线| 麻豆国产精品一二三在线观看| 秋霞一区二区三区| 91午夜福利在线观看| 国产不卡网| 欧美午夜视频| 国产成人亚洲精品蜜芽影院| 亚洲第一成人在线| 国产又大又粗又猛又爽的视频| 中文字幕第4页| 偷拍久久网| 日韩福利视频导航| 在线五月婷婷| 青青草原偷拍视频| 国产精品色婷婷在线观看| 精品午夜国产福利观看| 18禁色诱爆乳网站| 欧美精品高清|