999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情景和瀏覽內(nèi)容的層次性用戶興趣建模①

2017-10-13 12:05:13孫海真謝穎華
計算機系統(tǒng)應(yīng)用 2017年1期
關(guān)鍵詞:用戶信息模型

孫海真, 謝穎華

?

基于情景和瀏覽內(nèi)容的層次性用戶興趣建模①

孫海真, 謝穎華

(東華大學信息科學與技術(shù)學院, 上海 201620)

用戶興趣建模是個性化服務(wù)的核心, 考慮到情景信息對用戶偏好的影響, 對融和情景信息的用戶行為日志數(shù)據(jù)進行深入研究, 提出了一種基于情景信息的用戶興趣建模方法. 該方法首先通過計算情景相似度來獲得用戶當前情景的近似情景集; 對“用戶-興趣項-情景”三維模型采用情景預(yù)過濾的方法降維處理. 然后根據(jù)用戶瀏覽內(nèi)容得到用戶興趣主題, 分析頁面內(nèi)容得到每種主題的興趣關(guān)鍵詞, 建立基于層次向量空間模型的用戶興趣模型. 實驗結(jié)果表明, 本文提出的基于情景信息的用戶興趣模型對用戶興趣的預(yù)測誤差控制在9%以內(nèi), 是有效的.

用戶興趣模型; 情景; 用戶瀏覽內(nèi)容; 文本聚類; TF-IDF

個性化服務(wù)利用用戶預(yù)先提供的數(shù)據(jù)或是利用數(shù)據(jù)挖掘等技術(shù)從用戶的歷史記錄中收集用戶偏好, 幫助用戶獲取感興趣的信息, 避免了用戶瀏覽大量無關(guān)資源而浪費時間. 用戶興趣模型的建立是個性化服務(wù)的核心, 資源推薦的準度和廣度, 完全取決于用戶建模表征用戶興趣的準確度和潛在用戶興趣的挖掘度.

用戶興趣建模一般包括兩方面內(nèi)容: 通過記錄和分析用戶瀏覽行為、瀏覽內(nèi)容及用戶反饋等收集用戶信息并從中挖掘用戶興趣; 用合適的方法表示用戶興趣, 即建立用戶興趣模型, 并隨用戶興趣變化動態(tài)更新用戶興趣模型[1].

傳統(tǒng)的基于用戶瀏覽行為的用戶興趣建模大部分只考慮用戶和項目兩個維度, 在一些融合諸如時間或位置情景的個性化服務(wù)中誤差較大, 而基于情景信息的用戶興趣建模可有效的提高大數(shù)據(jù)時代個性化服務(wù)的精準度. 例如, Koren提出一種融入用戶時間情景信息的推薦模型timeSVD++, 并將該算法在Netflix電影評分數(shù)據(jù)集上進行試驗, 結(jié)果表明該模型的推薦精確度較未融入時間用戶情境矩陣分解模型有了顯著的提高[2]. Si等人通過設(shè)定推薦系統(tǒng)服務(wù)中的用戶情景信息為在線時刻、位置及心情三種類型, 并結(jié)合用戶所感興趣的主題關(guān)鍵詞, 應(yīng)用矢量模型構(gòu)建了用戶偏好模式, 來研究手機終端上關(guān)于圖書的推薦服務(wù)問題[3]. Liu等采用本體模型來表示用戶情景信息, 并計算其用戶情景信息之間的距離[4]. Shi提出一種基于情緒特征的物品相似度的矩陣分解方法對情緒用戶特征進行用戶偏好建模[5]. 胡慕海對位置、時間、用戶心情等多種用戶情景信息, 提出了一個應(yīng)用信息熵提取用戶情景偏好特征的建模方式, 并通過超圖模型將用戶進行細分, 最后通過超圖分割技術(shù)對用戶偏好和用戶偏好漂移進行識別與建模[6]. 王立才專門對情緒這類情景結(jié)合認知心理學的知識通過基于張量和高階奇異值分解技術(shù)(Higher-order Singular Value Decomposition, HOSVD)進行用戶偏好建模[7].

綜上所述, 情景化機制已經(jīng)引起了國內(nèi)外學者的廣泛關(guān)注, 他們通過對用戶位置、時間、業(yè)務(wù)需求的情景化挖掘, 基于不同的資源對象和情景來探討用戶興趣的變化. 但這些研究主要集中在情景維度的某個方面, 缺少對用戶興趣表示及情景機制的完整描述. 本文的目的在于建立基于情景信息的用層次性戶興趣模型. 通過將用戶情景進行系統(tǒng)的分類和識別, 將情景影響因子加入到用戶興趣建模過程中, 改進用戶興趣度的計算方法, 最后根據(jù)訓(xùn)練集和測試集的興趣誤差來驗證模型的有效性.

1 融合情景的用戶興趣模型表示

1.1 用戶興趣三維建模

目前用戶興趣建模大多停留在二維上, 即用戶維和項目維[8], 最終的用戶興趣度由用戶和項目決定, 沒有涉及到情景, 如時間、地點等. 本文加入情景維度來描述用戶興趣, 三維模型如圖1所示.

圖1 用戶興趣三維模型

“用戶-興趣項-情景”三維模型是一個三維的向量空間, 每個維度分別由各自的屬性值組成的向量來表示, 圖中表示的就是在情景A下用戶101對于興趣項04的興趣度. 可將用戶興趣模型形式化的表示為一個三元組:

1.2 基于層次的向量空間模型

本文基于情景的用戶興趣模型表示方法主要是對向量空間模型表示法(VSM)[9]進行改進, 由于傳統(tǒng)的VSM表示方法是把所有種類的用戶興趣記錄在同一個向量里, 并且很少考慮到用戶所處的情景, 這樣會導(dǎo)致不同情景、不同類別的興趣特征項相互影響, 降低個性化服務(wù)的質(zhì)量.

針對上述出現(xiàn)的問題, 本文基于情景信息提出層次性向量空間模型來表示用戶興趣. 其基本思想是: 1)將用戶訪問日志根據(jù)情景屬性進行分類. 2)分別分析不同情景下的用戶訪問日志, 計算用戶瀏覽網(wǎng)頁的次數(shù), 按照新聞、視頻、調(diào)查、論壇、購物、社交、游戲給用戶興趣歸類, 得到用戶的興趣主題. 3)通過頁面URL獲取頁面內(nèi)容信息, 提取文檔中的關(guān)鍵詞作為特征項用VSM來描述用戶興趣.

具體如圖2所示, 底層是用戶興趣關(guān)鍵詞, 第二層是劃分的用戶興趣主題, 第三層是用戶所處的情景, 最上一層是用戶.

圖2 基于層次的用戶興趣模型表示結(jié)構(gòu)圖

如果用戶在情景A下有個不同的類別偏好, 即用戶有個興趣主題, 那么情景A下用戶興趣模型可表示為如下結(jié)構(gòu)的向量:

其中,T為第個主題特征向量,W為主題權(quán)重,n為第個主題包含文檔實例數(shù)量(),W初始化如下:

(2)

T類包含個興趣關(guān)鍵詞條, 則T可表示為:

2 用戶興趣建模方法

2.1 情景建模

2.1.1 情景模型定義及分類

情景維度模型是表示情景綜合信息的模型, 用戶偏好會隨所處情景(如時間、地點、環(huán)境、用戶狀態(tài)等)的不同而發(fā)生變化, 因此建立用戶興趣模型時需要考慮到用戶情景.

研究分析顧君忠[10]對情景信息的分類方法, 本文將情景信息劃分為3個情景維度, 表示為= {,,}.

(1) 用戶情景(User Context)指用戶的概要信息、社會地位等. 從用戶的信息表中我們可以獲得用戶的年齡、性別、職業(yè)等信息. 用戶維情景可以表示為={,,}.

(2) 時間情景(Time Context)指用戶與系統(tǒng)發(fā)生交互的時間, 可根據(jù)具體需要按照不同的分層粒度對時間情景進行組織. 時間維情景可以表示為= {,,,,,}. 其中={“”, “”, “”, “”, “”, “”, “”};= {“”, “”}.

(3) 空間情景(Spatial Context)指用戶與系統(tǒng)發(fā)生交互時所處地點的相關(guān)信息. 可以表示為={,}.

不同的情景信息對用戶興趣的影響程度不盡相同, 因此在建立模型之前需要分析與用戶興趣密切相關(guān)的有效情景, 在情境建模時可以視具體情況適當減少或增加一些維度.

2.1.2 情景預(yù)過濾

情景預(yù)過濾(contextual pre-filtering)是利用當前情景信息過濾掉與當前情景無關(guān)的用戶數(shù)據(jù), 從而構(gòu)建與當前情景相關(guān)的數(shù)據(jù)集合[11]. 簡單來說, 如果分析一個只在星期六上網(wǎng)的人的興趣, 則只需過濾出每周六的所有用戶的評測數(shù)據(jù)來構(gòu)造興趣模型即可, 然而這種方法存在缺點, 太精確的情景信息可能不夠?qū)嵱? 比如, 對于星期六或者星期日去看電影的用戶來說, 情景信息其實差別不大; 但與星期三(工作日)相比, 那就不同. 所以在過濾情景信息時, 不應(yīng)該把周日的數(shù)據(jù)也給過濾掉. 此外, 精確過濾后的數(shù)據(jù)量相對來說有所減少, 導(dǎo)致數(shù)據(jù)稀疏問題. 因此在實際興趣建模過程中會使用情景泛化處理來解決上述問題.

本文在建立用戶興趣模型前首先通過時間情景對用戶瀏覽行為的日志數(shù)據(jù)進行預(yù)過濾, 考慮到過度細化的缺陷, 時間維情景劃分方式為:= {“”, “”}.

2.1.3 情景后過濾

情景后過濾(contextual post-filtering)不會在輸入數(shù)據(jù)和建模時考慮情景信息, 而是在生成用戶興趣項列表時根據(jù)情景信息進行如下處理: 1)過濾掉不相關(guān)的興趣項. 2)調(diào)整列表中興趣項的排序.

例如采用傳統(tǒng)的用戶興趣建模方法得到用戶興趣列表, 假設(shè)用戶對新聞類的網(wǎng)站感興趣, 考慮到用戶所處的空間情景(如城市), 可以直接過濾掉與當前情景關(guān)聯(lián)概率小的項目, 得到情景優(yōu)化后的興趣列表.

2.2 基于PV提取用戶興趣主題

網(wǎng)頁瀏覽次數(shù) PV(Page View)[12]是統(tǒng)計互聯(lián)網(wǎng)用戶瀏覽網(wǎng)頁的次數(shù), 通過分析url的類別, 歸類得到用戶興趣主題.

url訪問頻率uf(url visit frequency): 表示url被用戶訪問的頻繁程度, 計算公式如下:

其中u表示第條url的值,為用戶訪問的所有url集合. uf大的url說明用戶訪問頻繁, 對這類網(wǎng)站的興趣度越高.

2.3 基于網(wǎng)頁內(nèi)容提取用戶興趣關(guān)鍵詞

2.3.1 文本特征項的提取

在對文檔進行特征提取之前, 需要先進行文本信息的預(yù)處理――特征詞條的選擇. 從自然語言理解的角度來看, 名詞及名詞短語、動詞及動詞短語是一個文本的核心, 它們的簡單組合可以作為整個文檔的簡單表示. 本文采用中國科學院計算機研究所研制的漢語分詞系統(tǒng)NLPIR進行分詞[13].

對頁面文檔進行處理并提取特征詞的步驟如下:

(1) 通過頁面URL獲取頁面內(nèi)容信息, 清除頁面中網(wǎng)頁標簽信息, 進行頁面清洗, 將其轉(zhuǎn)化為文本文檔;

(2) 調(diào)用字典模塊對文檔進行分詞, 將文檔轉(zhuǎn)化為詞序列;

(3) 根據(jù)停用詞表去除詞序列中的停用詞;

(4) 計算每一個詞的權(quán)重;

(5) 根據(jù)權(quán)值大小對詞進行降序排列, 選取前個詞作文檔的特征詞集合.

2.3.2 TF-IDF算法計算關(guān)鍵詞權(quán)重

一個文檔集中的某個文檔, 對于中的關(guān)鍵詞來說,在中除了之外的其它文檔中出現(xiàn)的次數(shù)越少,對于的區(qū)分度就越高. 因此, 如果中有兩個關(guān)鍵詞和, 它們在中出現(xiàn)在頻率一樣, 而在文檔集合中的其它文檔中出現(xiàn)地次數(shù)比少, 則對于文檔來說,的權(quán)重應(yīng)該大于的權(quán)重. 即: 一個關(guān)鍵詞的權(quán)重與它在一個文檔中出現(xiàn)的頻率(Term Frenquency)成正比, 與它在文檔集中其它文檔中出現(xiàn)的頻率(Inverse document frequency)成反比[14], 該計算方式表示為:

其中,(,)為詞在文本中的權(quán)重,(,)為詞在文本中的詞頻,為訓(xùn)練文本的總數(shù),為訓(xùn)練文本集中出現(xiàn)詞語的文本數(shù), 分母為歸一化因子.

2.3.3 改進的文本特征聚類算法

文言文中定語后置的這幾種形式,只要用心識記、揣摩,遇到實際問題時細心明辨,靈活處理,就不會被表面的形式蒙蔽,弄懂它的意思進而把它準確地譯成現(xiàn)代漢語。

在基于瀏覽內(nèi)容進行數(shù)據(jù)挖掘分析中, 由于用于挖掘的數(shù)據(jù)源是文本文檔集合, 而挖掘的目的是發(fā)現(xiàn)用戶的興趣類型及興趣濃度. 采用K-means 方法進行聚類分析時, 由于預(yù)先不知道用戶的興趣種類, 即不知道進行K-means 聚類的值, 因此無法直接采用. 而且K-means方法中初始聚類中心的選取直接影響到最后的聚類結(jié)果, 并且很容易陷入局部最優(yōu)解. 層次凝聚法能夠生成層次化的嵌套簇, 準確度較高. 但在每次合并時, 需要全局地比較所有簇之間的相似度, 并選出最佳的2個簇, 因此執(zhí)行速度較慢, 不適合大量文件的集合.

綜合考慮這兩種聚類方法的優(yōu)缺點, 提出一種改進的文本聚類方法, 具體過程如下:

(5) 選擇一個未聚類的單個成員簇, 重復(fù)步驟(3)和(4), 開始新一輪的聚類, 直到所有的單個成員簇都參與了聚類, 最終聚成類;

算法流程圖如下:

圖4 改進的文本聚類算法流程圖

3 實驗步驟及結(jié)果

3.1 實驗步驟

本文采用的數(shù)據(jù)集是CNNIC(http://cnnicdata. datatang.com/)數(shù)據(jù)堂提供的數(shù)據(jù)集. 該數(shù)據(jù)集包含用戶連續(xù)4周內(nèi)訪問電腦軟件及瀏覽網(wǎng)頁的行為日志. 實驗原始數(shù)據(jù)總時長為28天: 取前21天數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)(Training Data), 用以預(yù)測后7天(測試數(shù)據(jù), Test Data)用戶的興趣分布.

Step1. 情景信息預(yù)過濾: 將用戶瀏覽網(wǎng)頁的行為日志按時間情景分為工作日和周末兩類.

Step2. 數(shù)據(jù)預(yù)處理: 從用戶行為日志中過濾出用戶ID、瀏覽的網(wǎng)址及用戶瀏覽次數(shù).

Step3. 提取用戶興趣主題: 統(tǒng)計數(shù)據(jù)集合中域名級別的網(wǎng)站, 分析網(wǎng)站的類別, 過濾掉搜索網(wǎng)站、導(dǎo)航網(wǎng)站等不能明確反映用戶興趣愛好的網(wǎng)站, 得到新聞、視頻、調(diào)查、論壇、購物、社交、游戲七大興趣主題.

Step4. 提取興趣關(guān)鍵詞: 將每種主題的url轉(zhuǎn)化為文本文檔, 采用NLPIR進行分詞, 通過TF-IDF算法計算關(guān)鍵詞的權(quán)重, 將文本文檔用向量表示, 并進行聚類分析, 得到每個主題下關(guān)鍵詞的權(quán)重, 進而得到每種主題的權(quán)重, 建立基于層次的用戶興趣模型.

3.2 實驗結(jié)果

實驗中抽取三個用戶的瀏覽行為特征, 采用第二章的方法分析訓(xùn)練數(shù)據(jù)集, 得到用戶對每種主題的興趣度, 如表1所示.

表1 用戶對興趣主題的興趣度

從表1中可以看出用戶101在工作日對于新聞和購物類比較感興趣, 周末增加了社交類的興趣; 用戶102在工作日對購物類有著濃厚的興趣, 周末轉(zhuǎn)向了調(diào)查類的網(wǎng)站; 用戶103在工作日對新聞和社交比較感興趣, 周末新增了視頻類的興趣. 因此在個性化服務(wù)中考慮到情景信息可以發(fā)現(xiàn)用戶不同情景下的興趣傾向, 從而改善用戶的體驗.

對測試數(shù)據(jù)集進行分析得到每種主題的誤差如表2所示.

表2 興趣主題的絕對誤差

從表2中可以看出, 根據(jù)前面提到的興趣度計算方法計算得到的用戶興趣度與測試集中用戶興趣度絕對誤差控制在9%以內(nèi), 由此可以驗證本文提出的基于情景信息的用戶興趣模型是合理及有效的.

4 結(jié)語

本文將情景信息融和到用戶興趣建模過程中, 結(jié)合情景預(yù)過濾的思想, 將用戶興趣三維模型降維處理, 建立基于層次的向量空間模型, 并改進文本特征聚類算法. 分析訓(xùn)練集和測試集的用戶興趣, 得到用戶興趣預(yù)測誤差, 實驗結(jié)果表明誤差控制在9%以內(nèi), 表明該算法的可行性和有效性. 目前只考慮到單維度的靜態(tài)情景信息, 下一步的工作將研究多維度情景和動態(tài)情景對用戶興趣的影響.

1 南智敏.基于網(wǎng)頁興趣度的用戶興趣模型體系研究[碩士學位論文].上海:復(fù)旦大學,2012.

2 Koren Y. Collaborative filtering with temporal dynamics. Communications of the ACM, 2010, 53(4): 89–97.

3 Si H, Kawahara Y, Kurasawa H, et al. A context-aware collaborative filtering algorithm for real world oriented content delivery service. Proc. of ubiPCMM, 2005.

4 Liu D, Meng XW, Chen JL. A framework for context-aware service recommendation. 10th International Conference on Advanced Communication Technology (ICACT 2008). IEEE. 2008, 3. 2131–2134.

5 Shi Y, Larson M, Hanjalic A. Mining mood-specific movie similarity with matrix factorization for context-aware recommendation. Proc. of the Workshop on Context-Aware Movie Recommendation. ACM. 2010. 34–40.

6 胡慕海.面向動態(tài)情境的信息推薦方法及系統(tǒng)研究[博士學位論文].武漢:華中科技大學,2011.

7 王立才.上下文感知推薦系統(tǒng)若千關(guān)鍵技術(shù)研究[博士學位論文].北京:北京郵電大學,2012.

8 邢曉兵.面向用戶興趣的用戶瀏覽行為分析方法及應(yīng)用[碩士學位論文].沈陽:東北大學,2013.

9 郝水龍,吳共慶,胡學鋼.基于層次向量空間模型的用戶興趣表示及更新.南京大學學報,2012,2:190–197.

10顧君忠.情景感知計算.華東師范大學學報(自然科學版),2009,5:1–20,145.

11 劉海鷗.云環(huán)境用戶情景興趣的移動商務(wù)推薦模型及應(yīng)用研究[博士學位論文].秦皇島:燕山大學,2013.

12 趙釹森.基于用戶行為的動態(tài)推薦系統(tǒng)算法研究及實現(xiàn)[碩士學位論文].成都:電子科技大學,2013.

13 ICTCLAS中文分詞系統(tǒng)官方網(wǎng)站.http://ictclas.org/.

14 蔣晨.基于用戶情景感知的動態(tài)興趣模型及其應(yīng)用[碩士學位論文].武漢:華中師范大學,2014.

Hierarchical User Interest Modeling Based on Context and Browse Content

SUN Hai-Zhen, XIE Ying-Hua

(School of Information Science and Technology, Donghua University, Shanghai 201620, China)

The user’s interest model is the core component in a personalized services system. Considering the impact of context information on user interests, this paper deeply studies the user behavior log data based on context information, and proposes a user interest modeling method based on context information. First, we get the user’s context set by calculating the context similarity, and reduce the dimension of the “user-interest item-context” 3D model through the method of context pre-filtering. Second, user browsing content forms interest topic, and web page content forms interest keyword. Then a hierarchical vector space model is set up based on the user profile. The experimental result shows that the prediction error of user interest degree is controlled within 9%, which is effective.

user interest model; context; user browsing content; text clustering; TF-IDF

2016-04-06;收到修改稿時間:2016-05-05

[10.15888/j.cnki.csa.005509]

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产91特黄特色A级毛片| 污网站在线观看视频| 亚洲欧美成人在线视频| 欧美A级V片在线观看| a天堂视频| 日韩中文字幕免费在线观看| 亚洲综合久久成人AV| 四虎永久在线| 九九久久精品国产av片囯产区| 性喷潮久久久久久久久| 伊人婷婷色香五月综合缴缴情| swag国产精品| 日韩一区精品视频一区二区| AV色爱天堂网| 亚洲天堂在线免费| 精品91自产拍在线| 毛片卡一卡二| 国产幂在线无码精品| 日韩不卡高清视频| 亚洲成网777777国产精品| 国产91在线|中文| 在线视频亚洲欧美| 日韩精品无码一级毛片免费| 国产18在线播放| 国产在线拍偷自揄拍精品| 九色最新网址| 成人在线不卡视频| 99性视频| 国产91导航| 国产后式a一视频| 美女免费黄网站| 久草视频精品| 免费三A级毛片视频| 国产极品美女在线播放| 国产精品中文免费福利| 国产精品密蕾丝视频| 免费国产在线精品一区| 国产毛片高清一级国语| 色欲色欲久久综合网| 成年人国产网站| 午夜毛片免费看| 国产剧情无码视频在线观看| 午夜精品久久久久久久99热下载| 久操中文在线| 中文成人在线| 欧美啪啪一区| 欧美日韩在线国产| 91丝袜美腿高跟国产极品老师| 国产91无毒不卡在线观看| 亚洲全网成人资源在线观看| 色综合狠狠操| 天堂成人在线视频| 精品国产一区91在线| 欧美亚洲香蕉| 激情在线网| 中文字幕66页| 自偷自拍三级全三级视频| 日本人又色又爽的视频| 久久精品欧美一区二区| 亚洲黄色激情网站| 五月六月伊人狠狠丁香网| 自偷自拍三级全三级视频 | 青青草国产在线视频| 韩日无码在线不卡| 欧美区国产区| 成人午夜视频网站| 成人蜜桃网| 久久综合结合久久狠狠狠97色| 国产成人永久免费视频| 人妻夜夜爽天天爽| 国产精品成人久久| 性欧美久久| 亚洲欧州色色免费AV| 91精品国产丝袜| 97se亚洲| 国内老司机精品视频在线播出| 日韩欧美中文| 久久香蕉国产线看观看精品蕉| 四虎成人精品| 亚洲人成色77777在线观看| 2021亚洲精品不卡a| 在线观看国产网址你懂的|