999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用戶自適應的社會標簽推薦模型

2014-09-29 10:32:00露1靖2魏登月3
計算機工程 2014年7期
關鍵詞:用戶方法模型

盧 露1,趙 靖2,魏登月3

(1.上海電力學院計算機科學與技術學院,上海 200090;2.安徽科技學院理學院,安徽 鳳陽 233100;3.武漢大學計算機學院,武漢 430079)

1 概述

社會標簽是Web2.0下網絡信息資源的一種標注方式。對于一個特定的網絡資源,比如文檔、圖片或視頻等,用戶可根據自己的理解為這些資源添加一個或多個標簽,這些標簽可來自資源本身包含的詞匯,也可以是資源外用戶選擇的關鍵詞。它對于信息資源的有效組織和管理、信息的快速傳播和共享及用戶及時獲取更加準確可靠的信息都有重要意義[1]。大多數社會標簽系統允許用戶自行輸入標簽,標注的隨意性造成了標簽中存在較多噪音、錯拼、歧義以及無實際意義的標簽。因此,國內外學者對社會標簽推薦技術進行了研究,以期幫助用戶標注相關的資源,提高標簽的質量。

針對目前的模型不能真實反映標簽的生成過程或者沒有加入用戶角色等問題,本文提出了一種新的概率生成模型,該模型在統一的框架中融合標注過程中的用戶、資源、標簽3個實體,用隱含主題將三者聯系起來,進而推導出在特定的用戶和資源下各標簽產生的概率。

2 相關研究

目前社會標簽推薦的研究大致分為兩類:一是基于協同過濾的推薦技術,該技術是通過用戶對網絡資源的標注歷史信息來找出和當前用戶興趣相似的用戶集,將用戶集中使用過的標簽推薦給當前用戶。如文獻[2]通過社區發現算法來尋找社會網絡中相同興趣愛好的用戶群,利用用戶群使用過的標簽作為候選項進行推薦。文獻[3]采用三階張量來表示由資源、用戶、標簽構成的社會標簽系統,應用HOSVD分解算法來進行標簽預測。文獻[4]提出一種基于社會化標注的博客標簽推薦方法,利用相似博客的社會化標簽作為候選標簽集,確保了推薦標簽的全面性和可用性。但是該類方法完全忽略了當前標注資源的內容,導致推薦的準確率不高。二是基于內容分析的推薦技術,使用網絡資源的內容作為標簽推薦的依據。該類方法根據對資源內容表示,分為基于詞粒度特征推薦方法和基于隱含主題特征的推薦方法。詞粒度特征主要是將網絡資源和用戶興趣分別用關鍵詞來表示,從而在關鍵詞上進行匹配進而排序,將排序靠前的詞作為標簽推薦給用戶。如文獻[5]利用Folksonomies對資源中的關鍵詞進行擴展,并將擴展后的詞庫來匹配用戶興趣。文獻[6]根據用戶提供的新書簽,找出博文中的若干相似關鍵詞進行聚類和排序,將排序靠前的關鍵詞作為標簽推薦給博客用戶。文獻[7]通過標簽的同現關系建立概率模型解決標簽詞的模糊度問題,進行個性化推薦。該類方法特征表示簡單,但總的來說存在如下問題:

(1)詞條作為文檔特征時常存在由于粒度太細而造成的稀疏性,影響推薦效果。

(2)相同的詞條對不同的用戶,可能代表著不同的含義。在進行個性化推薦時,如果對這些詞條不從語義上加以區分,就會造成推薦的結果不令人滿意。

隨著主題模型的出現,隱含主題這一表示文檔語義特征的方法被廣泛使用,其中大多數都以Blei等人提出的隱含狄利克雷分配模型為基礎。它是一種無監督的概率生成模型,其思想是文章的每個詞都是通過“以一定概率選擇了某個隱含主題,并從這個隱含主題中以一定概率選擇某個詞語”這樣一個過程生成的。將文檔、隱含主題和詞以概率的形式聯系起來,使文檔和詞映射到低維的隱主題空間,克服了詞的稀疏和語義問題。根據LDA模型的思想,研究者認為在社會標注系統中,標簽也能夠由隱主題生成,同樣能夠設計概率生成模型來描述社會標注系統中標簽在資源上的生成過程。將用戶、資源、標簽映射到隱含主題空間進行匹配和推薦。目前提出的模型存在下列問題:

(1)有些模型[8]在構造標簽生成過程時,認為文本中的詞匯和標簽由同樣的隱含主題生成。而實際上文本是作者提供的,標簽是讀者提供的,他們具有不同的興趣和背景,這類模型沒有將文本中詞的生成過程和標簽的生成過程進行區分,不符合真實的標注過程。

(2)有些模型[9]雖然區分了標簽和文本的不同生成過程,但沒有考慮用戶的角色,與用戶是分離的,推薦過程需要加入額外的用戶興趣表示方法。

(3)有的模型[10]雖然加入了用戶的角色,但是推薦是針對群體用戶或社區用戶,個性化效果很差。

本文提出了一種新的概率生成模型,該模型能夠真實模擬用戶標注文檔的過程,在統一的框架中融合標注過程中的3個實體(用戶、資源、標簽),用隱含主題將三者聯系起來,進而推導出在特定的用戶和資源下各標簽產生的概率。該模型推薦的標簽不僅能夠契合文檔的主題,還能自適應地滿足用戶的興趣。

3 用戶-內容聯合標注模型

3.1 模型介紹

本文設計了一種新的概率產生式模型來模擬用戶在網頁上的真實標注過程,該模型將文檔產生和標簽生成作為2個獨立的過程。首先用戶在標注文檔之前,文檔已經生成,這個過程可用一個基本的LDA模型來模擬。此后生成標簽時,需要先抽樣標簽的隱含主題,認為標簽的隱含主題來源于文檔中出現的主題或者是用戶興趣主題,將用戶角色引入其中,最后通過抽樣的隱含主題產生標簽。通過可見的標簽序列和文檔中的詞序列估算出模型中的各個參數,比如文檔的主題分布和用戶的興趣主題分布、標簽的主題分布等。利用這些參數進行后續標簽推薦。

如圖1所示,該模型主要由兩部分構成,虛線部分為基本的LDA模型,用來構造文檔中詞語的生成過程,對于長度為Nd的文檔d中,單詞w的生成過程為:首先根據主題在文檔上的分布選擇主題z,然后根據單詞在主題上的分布選擇單詞w,這個過程執行Nd次,即生成最后的文檔d。左邊的部分為標簽生成過程。當用戶u瀏覽文檔d選擇標簽t時,首先要確定標簽t的主題z,z的選擇有2種來源,一種來自于文檔d中出現過的主題,另一種直接來自用戶興趣主題,其中,圖中彎曲和虛線箭頭分別對應2種不同的情況。對每一個用戶u,用標志值X來控制用戶的選擇(X滿足 Binomial(λu)分布),這個過程共執行Md次(Md為用戶u對文檔d標注的標簽個數)。

圖1 用戶-內容聯合標注模型

3.2 模型的生成過程

模型的生成過程如下:

(1)文檔集D中的文檔d,根據 Dirichlet(αd)分布可得到文檔d的主題分布。其中,αd為文檔在主題上的Dirichlet分布的超參數。

(2)假如文檔d包含K個主題,對于任一主題k,根據Dirichlet(βw)分布可得到詞w在主題k上的概率分布;根據Dirichlet(βt)分布可得到標簽t在主題k上的概率分布。其中,βw和βt分別為詞w和標簽t在主題上的Dirichlet分布超參數。

(3)對于用戶集U中的任何一個用戶u,可以根據Dirichlet(αu)可得到用戶u在主題上分布 θ(u)(αu為用戶u在主題上的Dirichlet分布的超參數)。

(4)文檔d中的任一詞wi生成過程如下:(文檔長度為Md)。

2)根據詞在主題zi上的多項式分布得到詞wi。

(5)用戶集U上的每一個用戶u,通過Beta(γ)分布得到用戶選擇概率λu。其中,λ為Beta分布的超參數。

(6)用戶u對文檔d標注生成標簽tj的過程如下(此過程要運行Md次):

1)通過 Binomial(λu)分布生成標志值x;

2)如果 x=1,此時標簽的主題由文檔主題產生:

①找出文檔d中的所有的詞所對應的主題集合{zw1,zw2,…,zwNd},這些主題是服從均勻分布的,可以根據Uniform(zw1,zw2,…,zwNd)分布得到標簽的主題 ztj;

②根據標簽在主題 ztj上的分布得到標簽tj。

3)如果x=0,此時標簽的主題由用戶的興趣產生:

①根據用戶興趣的主題分布 θ(u)得到標簽主題 ztj;

②根據標簽在主題 ztj上的分布得到標簽tj。

3.3 模型的估值方法

該模型主要有以下4個參數需要估計:(1)文檔-主題分布 θ(d);(2)主題-詞分布 φ(w);(3)主題-標簽分布 φ(t);(4)用戶-主題分布 θ(u)。通常采用生成模型參數估計方法有變分推理、期望最大化算法(Expectation Maximization,EM)以及Gibbs抽樣等方法。與其他2種方法相比Gibbs抽樣方法更簡單,且效率更高,因此,本文模型的參數估計選用Gibbs抽樣方法。

在LDA模型的參估計中,Gibbs算法沒有將 θ(d)和φ(w)作為參數直接計算,而是不斷抽樣詞匯對于主題的后驗概率p(z| w),間接求得 θ(d)和φ(w)的值。對單詞的主題抽樣過程是一個馬爾科夫鏈狀態不斷變化的過程,直到詞匯對主題的后驗概率收斂、狀態穩定為止。本文模型相當于LDA模型基礎上增加了一條馬爾科夫鏈,同時來模擬標簽的生成過程。與LDA模型類似,首先抽樣詞是對于主題分布的后驗概率和標簽對主題分布的后驗概率。

計算詞對于主題分布的后驗概率抽樣如式(1)所示:

對標簽對于主題分布的后驗概率抽樣時分為2種情況,當選擇開關x=0時,標簽的主題根據用戶主題分布生成,此時標簽對主題的后驗概率抽樣公式為:

當選擇開關x=1時,標簽的主題根據當前文檔的主題分布生成,此時標簽對主題的后驗概率抽樣公式為:

當上述公式迭代一定次數狀態穩定后,對于每個單一樣本,用以下公式求出模型的參數值:

4 實驗結果與分析

4.1 實驗數據和評價指標

實驗數據來源于目前較流行的Web2.0網站Delicious,Delicious是2003年創辦的一個網址書簽收集分享網站,允許用戶使用自己的詞典為網站上的資源賦予各種各樣的標簽。從該網站獲取2010年1月到3月的社會標注數據集。過濾掉那些包含標簽少于5,或者包含的詞語少于20的頁面,并從頁面中提取出用戶和標簽列表。最終實驗數據包括31190個Web頁面、410個用戶和18740個獨立標簽。在實驗中隨機選擇20%的Web頁面以及與它相關聯的用戶和標簽作為測試數據,其他的80%的數據作為訓練數據集。

對于測試文檔d和用戶u,利用式(8)計算標簽td產生的概率:

其中,p(td|zk),p(xtd),p(zk|u)可以通過訓練模型獲得;ptest(zk|d)可以通過在測試集中用Gibbs抽樣的方法獲得(相當于在測試集中重新運行一次LDA模型)。對于特定的用戶和文檔,通過本文提出的模型,可以計算出生成各個標簽的概率值,為了便于實驗評估,將概率值大于50%的標簽作為最后的推薦標簽。

實驗采用精準率(precision)、召回率(recall)、F1值作為評估標準。標簽推薦的精準率為正確推薦標簽占推薦標簽總數的百分比。

其中,trec(u,r)為通過本模型得出的用戶u推薦給頁面r的標簽;t(u,r)為用戶實際分配給頁面r給標簽。

標簽推薦的召回率為正確推薦標簽占標簽總數百分比。

4.2 實驗方法

用戶-內容聯合標注模型中涉及到5個參數,其中,αd,αu,βw,βt均為Dirichlet分布的超參數,λ為Beta分布的超參數。對于每個參數測試了一系列值,發現參數值對最后輸出結果影響很小,它們只是影響Gibbs抽樣算法的收斂速度,而文獻[11]也證明了這一點,主要原因是它們只是影響模型參數的先驗概率,對后驗概率影響不大。因此,在實驗中選擇 αd=0.3,αu=0.3,βw=0.05,βt=0.05,γ=0.5。首先要驗證本模型的有效性,即模型在抽樣迭代一定次數后是否能夠收斂,其次隱含主題K的個數設定也是模型的關鍵,即當K取多少時,模型有較好的預測能力。

首先關于模型估值方法的收斂性,可以看出在求單詞對主題的后驗概率分布時,是利用Gibbs抽樣的方法對一個基本的LDA模型參數估值,這是一個馬爾科夫鏈狀態不斷變化的過程,已被證明是能夠收斂的。在抽樣過程的前期階段,由于對后驗概率的模擬不夠充分,Gibbs抽樣結果還不是很精確,過了前期階段以后,Gibbs抽樣結果開始慢慢逼近目標分布,并將最終處于一個穩定的狀態。在求標簽對主題的后驗概率分布時相當于是2個基本的LDA模型的線性組合,因此利用Gibbs抽樣的方法計算同樣能夠收斂,該模型是有效的。

如圖2所示為觀察模型在不同的K值、不同的迭代次數下F1值的變化曲線。

圖2 不同主題數在不同迭代次數下的F1值曲線變化

可以看出,對于每一個K值隨著迭代次數的不斷增加,開始階段F1值均是不斷增大的。算法在迭代次數達到50次時,F1值均能趨于平穩,收斂到穩定值,說明本文模型是有效的。

本文還觀察了隱含主題個數對模型預測能力的影響,從圖中可以看出,當K值從10變化到80時,F1收斂值不斷增加,當K值變化到160時,F1值收斂值反而降低,所以K值的選擇要適中不能過大或過小,認為K=80是一個合理的隱含主題數,此時模型具有最好的標簽預測能力。

為了驗證本文模型的標簽預測能力,本文同文獻[9]提出的CorrLDA模型和文獻[12]提出的CI-LDA模型進行比較,這2個模型都是利用概率產生式模型來進行標簽推薦的,如圖3所示。實驗中3種模型的迭代次數均設為80。可以看出,隨著隱含主題數的增加,3種模型的F1值都是不斷增加的,在不同的隱含主題數下,本文的模型相比于其他的2種模型有更好的標簽預測能力。在CorrLDA模型中,標簽的主題只能由文檔中出現的主題產生,一定程度上限制了標簽的主題來源,使得標簽完全依賴于文本內容,而事實上有些標簽是根據用戶的理解添加的,與文檔內容無關,該模型沒有反映用戶真實的標注過程,適應性不強。而在CI-LDA模型中,標簽的生成過程和文本的生成過程完全分離,是2個完全獨立的過程,這樣使得生成的標簽可能完全和本文內容無關,也影響了模型的預測能力。本文提出的模型相當于是上述2個模型的調和,標簽的隱含主題同時受用戶興趣和文檔內容的影響,真實反映了用戶的標注過程,具有更好的泛化能力。

圖3 3種方法的標簽預測能力結果比較

5 結束語

本文提出一種用戶-內容聯合標注模型,該模型引入用戶信息,體現出標簽的產生同時受用戶和資源內容影響這一重要特征,對社會標注系統進行建模更為真實。實驗結果表明,該模型相對于以往的2種概率產生式模型,具有更好的標簽預測能力。此外,模型中估計的參數,如用戶的興趣分布、資源的主題分布等,能很容易地推廣到個性化檢索、文本分類等其他數據挖掘領域中。

[1]Mathes A.Folksonomies-cooperative Classification and Cornmunication Through Shared Metadata[EB/OL].(2011-10-21).http://www.adammathes.com/academic/Computer-mediatedcornmunicationfolksonomies.html.

[2]Yuan Zhenming.A Social Tagging Based Collaborative Filtering Recommendation Algorithm for Digital Library[C]//Proceedings of the 13th International Conference on Asia-Pacific Digital Libraries.Beijing,China:[s.n.],2011:192-201.

[3]Symeomdis P,Nanopoulos A.A Unified Framework for Providing Recommendations in Social Tagging Systems Based on Ternary Semantic Analysis[J]. IEEE Transactions on Knowledge and Data Engineering,2009,22(2):179-192.

[4]趙亞楠,董 晶.基于社會化標注的博客標簽推薦方法[J].計算機工程與設計,2012,33(12):4609-4613.

[5]Dattolo A.On Social Semantic Relations for Recommending Tags and Resources Using Folksonomies[J].Advances in Intelligent and Soft Computing,2012,98(13):311-326.

[6]Mishne G.Autotag:A Collaborative Approach to Automated Tag Assignment for Weblog Posts[C]//Proceedings of the 15th International Conference on World Wide Web.Edinburgh,UK:[s.n.],2006:157-164.

[7]許棣華,王志堅.一種基于偏好的個性化標簽推薦系統[J].計算機應用研究,2011,28(7):2573-2576.

[8]張 斌,張 引.融合關系與內容分析的社會標簽推薦[J].計算機學報,2012,23(3):476-488.

[9]Bundschus M,Tresp V,Rettinger A.Hierarchical Bayesian Models for Collaborative Tagging System[C]//Proceedings of the 9th IEEE International Conference on Data Mining.Miami,USA:IEEE Press,2009:365-376.

[10]Kashoob S,Caverlee J,Ding Y.A Categorical Model for Discovering Latent Structure in Social Annotations[C]//Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media.San Jose,USA:AAAI Press,2009:222-229.

[11]Zhou Donghua,Bian Jiuyuan.Exploring Social Annotations for Information Retrieval[C]//Proceedings of the 17th International Conference on World Wide Web.Beijing,China:[s.n.],2008:158-165.

[12]Ramage D,Heymann P,Manning C D,et al.Clustering the Tagged Web[C]//Proceedings of the 2nd ACM International Conference on Web Search and Data Mining.Barcelona,Spain:ACM Press,2009:369-376.

猜你喜歡
用戶方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美中文字幕在线播放| 国产精品三级av及在线观看| 欧美日韩在线第一页| 午夜激情福利视频| 亚洲成人在线免费观看| 狠狠色噜噜狠狠狠狠奇米777 | 91精品国产自产在线观看| 亚洲va精品中文字幕| 在线国产资源| 亚洲AV无码一二区三区在线播放| 9啪在线视频| 国产精品蜜芽在线观看| 午夜毛片免费看| 亚洲区一区| 国产精品自拍露脸视频| 国产精品一区在线麻豆| 无码中文字幕加勒比高清| 极品私人尤物在线精品首页| 国产成人精品一区二区免费看京| 成人91在线| 亚洲国产日韩欧美在线| 久青草免费视频| 国产成年女人特黄特色毛片免| 99这里精品| 无码专区在线观看| 一本二本三本不卡无码| 亚洲AV无码乱码在线观看代蜜桃 | 深爱婷婷激情网| 久久综合丝袜长腿丝袜| 精品偷拍一区二区| 91国内在线观看| 99久久这里只精品麻豆| 亚洲av无码牛牛影视在线二区| 精品色综合| 999精品色在线观看| a级毛片毛片免费观看久潮| 欧美一区精品| 亚洲视频在线观看免费视频| 亚洲中久无码永久在线观看软件| 国产在线麻豆波多野结衣| 欧美色伊人| 91精品国产麻豆国产自产在线| 成人精品午夜福利在线播放| 午夜精品久久久久久久2023| 午夜三级在线| 欧美亚洲欧美| 亚洲成人免费看| 国产午夜无码片在线观看网站 | 国产欧美视频在线| 欧美日本激情| 欧美日韩国产成人高清视频| 成人午夜在线播放| 亚洲区欧美区| 制服丝袜无码每日更新| 一级毛片免费的| 尤物成AV人片在线观看| 国产在线小视频| 精品91在线| 国产美女丝袜高潮| 国产99精品视频| V一区无码内射国产| 日本久久久久久免费网络| 91精品视频播放| 人妻精品久久无码区| 免费无码AV片在线观看国产| 国模私拍一区二区 | 全部免费毛片免费播放| 2021国产v亚洲v天堂无码| 中文成人在线视频| 久久青草视频| 亚洲精品午夜天堂网页| 在线另类稀缺国产呦| 九月婷婷亚洲综合在线| 久久夜色精品国产嚕嚕亚洲av| 色哟哟国产精品| 日韩无码视频网站| 精品国产一区91在线| 亚洲欧美极品| 波多野结衣一区二区三区四区视频| 欧美日本激情| 国产成人成人一区二区| 久久综合AV免费观看|