999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社會化標注的協同過濾算法

2020-03-27 08:49:12周康渠
探索科學(學術版) 2020年12期
關鍵詞:語義資源用戶

楊 晨 周康渠

重慶理工大學 機械工程學院 重慶400054

引言

在web3.0時代,互聯網用戶從信息的消費者轉變成了信息的生成者,社會化標注這一自下而上的分眾分類方式也逐漸興起,如圖書網站豆瓣讀書、圖片共享網站Flickr等。這些網站允許用戶自主上傳資源,對網站上的資源自由添加標簽來對資源進行描述,并與網站上的其他用戶分享。隨著網站上資源的積累,如何為用戶找到其感興趣的資源成為了這些網站面臨的一大挑戰,而基于一些推薦算法的推薦系統,成為了解決這一問題的主要方法。

協同過濾算法是目前應用最為廣泛的一種推薦算法,然而隨著網絡上資源數量的迅速積累,協同過濾算法常常面臨數據稀疏、冷啟動等問題。在協同過濾算法中引入語義,可以緩解協同過濾算法所面臨的數據稀疏和冷啟動問題,是一種有效提高推薦效率的方法。隨著社會化標注的進行,形成的標簽集對資源的內容或語義進行了揭示[1]。現在已經有了一些利用社會化標注系統中標簽間的語義關系來緩解協同過濾算法所面臨的數據稀疏和冷啟動問題的研究。

1 基于社會化標注的協同過濾算法

本文的算法依據標簽共現矩陣以及標注頻率建立標簽樹,結合標簽共現矩陣以及標簽樹結構綜合確定標簽之間的綜合語義相似度,依據資源的標注情況以及標簽間的語義相似度來計算資源間的語義相似度,并用資源語義相似度對用戶的評分矩陣進行填充,用填充后的用戶評分矩陣來找尋用戶的鄰近用戶,從而實現資源的推薦。

1.1 標簽樹的構建 本文在Paul H 等[4]提出的標簽樹的構建方法上,依據標簽間的相似度以及標簽標注的資源數量來實現標簽樹的構建。標簽的相似度計算方法有很多,其中基于標簽共現的標簽相似度計算是使用的非常多的一種。標簽共現是指兩個不同標簽對于一個相同的資源進行標注,而這種共現關系表明兩個標簽之間存著某種程度上的語義關系,對于標簽相似度大于一定閾值的一個標簽對,則認為其存在語義關系。在知識分類體系中,父概念比子概念的內涵更抽象,外延更廣泛,在標簽間樹的構建過程中,即認為父標簽會比子標簽標注更多的資源。標簽樹的構建包括以下步驟:數據預處理及標簽篩選、建立基于共現的標簽相似度矩陣、建立標簽樹。

1.1.1 數據預處理及標簽篩選 由于社會化標注大多是在無監督的情況下進行的,具有不規范性。因此需要對標注數據進行預處理,包括對標注數據中的大小寫進行統一,刪除不能識別的字符,并對同義詞、縮寫等進行合并等。在數據預處理后,篩選出用于構建標簽樹的標簽。

1.1.2 建立基于共現的標簽相似度矩陣 對于篩選出的標簽集合,建立維度為n×n的標簽共現矩陣O,n為篩選出的用于構建標簽樹的標簽的個數。

由于兩兩標簽的使用頻次會對他們的共現頻次產生影響,難以反應兩個標簽之間真正的語義關系,為了消除標簽的熱門程度帶來的影響,引入Ochiia系數將標簽共現矩陣O 轉換成標簽相似度矩陣,從而反映出標簽間的實質性共現關系,計算公式如下:

隨著資源數量的增加,用戶評價過的資源往往只占資源總量的一小部分,尤其是新用戶,因此用戶矩陣往往面臨數據稀疏的問題。通過引入資源間的語義關系,可以對用戶未評價過的資源的評價情況進行預測。

1.2.1 標簽綜合語義相似度計算 在將標簽構建成標簽樹后,標簽之間具有了一定的語義結構。本文使用梁俊杰[5]等提出的語義相似度計算公式來計算標簽樹中各標簽的基于結構的語義相似度。

結合基于共現的語義相似度以及基于結構的語義相似度,來計算標簽間的綜合語義相似度,計算公式如下:

其中S(i,j)代表標簽i和標簽j之間的綜合相似度,S1(i,j)代表標簽i和標簽j之間基于共現的語義相似度,S2(i,j)代表標簽i和標簽j之間基于結構的語義相似度,α為調節系數。

1.2.2 資源語義相似度計算 由于資源的標注情況反應了資源的屬性,因此可以依據標注于資源的標簽來對資源進行分類,分類步驟如下:

(1)篩選出標注于資源的標簽中屬于標簽樹且標注次數大于閾值的標簽,組分該資源的分類標簽集。

(2)若篩選出的標簽在標簽樹中為父子節點,則選擇在標簽樹中層級最深的標簽作為該資源的類。

資源分類后,按照資源的分類結果計算資源間的語義相似度,計算公式如下。

3 算法驗證

3.1 實驗數據 實驗采用Movielens的電影-評分數據集中用戶對于電影類目為Sci-Fi的電影的評分,由于要通過電影資源的社會化標注信息來對電影資源進行分類,因此篩選出213個被標注次數大于10次的電影資源,并篩選出進行評分次數大于10次的3047個用戶。即實驗數據集中包含3047個用戶對于213個電影資源的99364條電影評分,評分分數為1~5分。將其中80%的數據用作訓練集,20%的數據用作測試集,驗證本文算法。

其中N 為預測的資源評分集合,pi為該資源的預測評分,ri為該資源的實際評分,lenth(N)為集合N的長度。

3.3 實驗結果 為了驗證本文算法的效果,選取傳統的基于用戶的協同過濾算法與本文算法進行比較。圖1是當最鄰近值K取不同值時各算法MAE的大小對比。

圖1 K取不同值時各算法MAE的大小比較

由實驗結果可知,無論K 取何值,本文的算法的MAE值要遠低于傳統基于用戶的協同過濾算法。這表明本文算法能有效緩解數據稀疏何問題,從而提高推薦效果。

4 結語

本文提出了一種基于標簽共現和標注頻率建立標簽樹的方法來挖掘標簽間的語義關系,并通過資源的標注情況以及標簽間的語義關系來確定資源間的語義關系,并將這種語義關系與傳統的協同過濾算法相結合,來對用戶評分矩陣進行填充的推薦算法。通過在Movielens數據集上對本文提出的算法進行驗證,實驗結果證明本文提出的算法能夠有效提高推薦效果。但本文算法也存在一定的局限性,一方面在標簽語義挖掘的過程中標簽可能會存在一詞多義的問題,后續可以與連邊社團檢測算法進行結合。另一方面本文只考慮了資源間的語義相似度,而用戶之間也存在語義相似度,后續可以綜合考慮用戶和資源的語義相似度來對算法進行進一步改進。

猜你喜歡
語義資源用戶
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产第一色| 欧美日韩v| 欧美日韩成人| 亚洲人成在线免费观看| 久久婷婷五月综合色一区二区| 国产精品一区在线麻豆| 国产精品深爱在线| 久久久久无码精品| 成人精品午夜福利在线播放| 谁有在线观看日韩亚洲最新视频| 一级香蕉人体视频| 人妻丝袜无码视频| 国产视频欧美| 欧美日韩亚洲国产| 无码综合天天久久综合网| 欧美三级自拍| 天天综合网亚洲网站| 色偷偷综合网| 国产综合在线观看视频| 99热这里都是国产精品| 尤物视频一区| 99热线精品大全在线观看| 亚洲国产精品成人久久综合影院| 97国产成人无码精品久久久| 2019年国产精品自拍不卡| 成人毛片免费观看| 日本道综合一本久久久88| 欧美在线网| 在线播放国产一区| 国内自拍久第一页| 91无码视频在线观看| 亚洲欧美精品在线| 欧美a在线视频| 国产精品无码影视久久久久久久| 国产成人啪视频一区二区三区| 麻豆国产在线不卡一区二区| 亚洲精品无码专区在线观看 | 国产精品微拍| 日韩天堂在线观看| 国产第一福利影院| 91视频精品| 蜜臀AV在线播放| 成色7777精品在线| 国产精品区视频中文字幕| 日韩a级片视频| 久久夜色精品国产嚕嚕亚洲av| 欧美中文字幕在线播放| 国产尤物视频网址导航| 99在线观看视频免费| 国产不卡网| 欧美在线视频不卡| 国产午夜福利在线小视频| 久久a级片| 中文字幕1区2区| 老司机午夜精品视频你懂的| 成年片色大黄全免费网站久久| 免费一级无码在线网站| 国产成人综合亚洲网址| 国产va免费精品观看| 午夜日b视频| 亚洲欧美激情小说另类| 综合色区亚洲熟妇在线| 97精品国产高清久久久久蜜芽 | 国产精品吹潮在线观看中文| 免费在线a视频| 亚洲IV视频免费在线光看| 亚洲国产成人麻豆精品| 久久精品无码一区二区国产区| 婷婷开心中文字幕| 亚洲中文字幕av无码区| 国产一区二区三区在线观看免费| 色婷婷电影网| 毛片在线播放a| 久久精品亚洲中文字幕乱码| 999国产精品| 精品成人一区二区三区电影| 91青青草视频在线观看的| 国产91九色在线播放| 四虎永久在线精品国产免费| 性色一区| 免费A级毛片无码无遮挡| 亚洲成人黄色在线观看|