999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種提升圖書推薦精度的協(xié)同過濾改進算法

2018-08-21 09:24:16柯秀文
微型電腦應用 2018年8期

柯秀文

(商丘職業(yè)技術(shù)學院 軟件學院,商丘 476001)

0 引言

隨著現(xiàn)代信息技術(shù)的高速發(fā)展,給社會各行各業(yè)帶來了革命性的變革,提供高效、優(yōu)質(zhì)的服務是很多行業(yè)追求的目標。信息技術(shù)的廣泛應用為各級各類圖書館提供了新的服務方向和選擇。根據(jù)讀者的需求,提供差異化、高質(zhì)量的個體服務,是各級各類圖書館在新時期深化圖書館服務職能的積極嘗試和有益探索,也是信息服務的必然需求。傳統(tǒng)的圖書搜索引擎只能為所有讀者展現(xiàn)相同的圖書排序結(jié)果,無法結(jié)合讀者的個人愛好提供差異化的檢索結(jié)果,而基于協(xié)同過濾算法的圖書推薦系統(tǒng)卻能夠根據(jù)讀者的個人偏好為其提供差異化的圖書推薦[1]。

然而,隨著各級各類圖書館開放程度和服務質(zhì)量的提升,推薦系統(tǒng)中讀者與圖書數(shù)量的增加和積累,評分矩陣數(shù)據(jù)稀疏性問題越來越顯著,此外,傳統(tǒng)的基于內(nèi)存的協(xié)同過濾算法沒有考慮時間因素等上下文信息對相似度造成的影響,這些都導致圖書推薦質(zhì)量的下降。因此,本文提出一種改進的協(xié)同過濾算法,以提高圖書推薦質(zhì)量,實驗證明,改進的協(xié)同過濾算法能夠有效提高圖書推薦精度。

1 協(xié)同過濾算法及改進思路

協(xié)同過濾( Collaborative Filtering,CF)是當前使用最為廣泛的推薦算法之一,這個概念由 Goldberg等在1992年正式提出[2],它依據(jù)用戶-項目評分數(shù)據(jù),算法基于用戶對一些項目的評分進行比較,假設(shè)用戶對一些項目評分相似,那么用戶對其他項目評分也相似[3]。

隨著讀者與圖書數(shù)量的增加和積累,評分矩陣數(shù)據(jù)稀疏性問題越來越顯著,為了解決數(shù)據(jù)稀疏環(huán)境下讀者對圖書預測評分的準確度問題,提出一種改進的協(xié)同過濾方法 ICF(Improved Collaborative Filtering),從2個方面改進推薦算法:首先,將LDA模型應用在圖書館圖書推薦上,將讀者和圖書通過潛在主題關(guān)聯(lián),將得到的讀者對圖書的選擇概率作為預處理數(shù)據(jù),進而將相似度計算轉(zhuǎn)至低維潛在因素空間,減少數(shù)據(jù)稀疏所帶來的影響。其次,在相似度計算時,考慮時間因素對讀者圖書偏好的影響,引入Sigmoid函數(shù),改進讀者相似度計算公式,預測讀者對未選擇圖書的評分。

2 協(xié)同過濾算法的改進

協(xié)同過濾算法的改進主要分為3個步驟:首先基于LDA(Latent Dirichlet Allocation)模型[4]建立讀者-圖書概率矩陣,并對圖書進行聚類,裁剪概率矩陣。其次考慮時間因素對讀者偏好動態(tài)變化的影響,引入時間因子sigmoid函數(shù),作為評分時間影響權(quán)重,改進相似度計算方法,計算鄰居讀者。最后利用協(xié)同過濾算法預測讀者對未選擇圖書的評分。

2.1 讀者-圖書選擇概率矩陣

LDA模型通過主題將文檔和單詞聯(lián)系起來,以實現(xiàn)對文本信息的挖掘,在新浪微博等相關(guān)網(wǎng)站上廣泛應用。其核心思想是:

Ptopicdocument

本文根據(jù)讀者評分信息建立讀者圖書偽文檔,將讀者對應文檔,圖書對應單詞,每個讀者喜歡的圖書種類有很多,每個圖書種類由若干圖書構(gòu)成,讀者的評分數(shù)值對應該圖書在該讀者圖書文檔中出現(xiàn)的次數(shù)。基于此建立的讀者-圖書LDA模型,如圖1所示。

圖1 讀者-圖書的LDA模型

在圖1各種關(guān)系中,θ是讀者的圖書主題分布,φ是圖書主題的圖書分布,且都滿足Dirichlet分布,α、β分別是θ和φ的超參數(shù),K、N、M分別是圖書主題數(shù)、圖書數(shù)和讀者數(shù),Zmn表示讀者m選擇的圖書n對應的主題,Umn表示讀者m選擇的圖書n。

假設(shè)系統(tǒng)中有n個讀者以及m個圖書,并且讀者i對圖書j的評價通過整數(shù)1-5的評分表示,記做Rij。某讀者j對圖書的評分信息,如表1所示。

在預處理階段,將表1的相關(guān)信息處理為:讀者Uj=﹛i1,i2,i2,i2,i3,i3,i3,i3,i3,i5,i5﹜。以此類推,可以得到每個讀者的偽文檔。

以此為基礎(chǔ),本文采用Gibbs Sampling采樣算法訓練讀者圖書LDA主題模型。根據(jù)對相關(guān)文獻的研究,LDA模型參數(shù)通常取值為α=50/K,β=0.01,K為主題的個數(shù)。對讀者圖書LDA主題模型訓練的結(jié)果反映到讀者偏好的讀者-圖書選擇概率矩陣W,Wij表示在讀者圖書概率分布θ上讀者u選擇圖書i的概率。據(jù)此建立起來的矩陣記錄了任意讀者對選擇所有圖書的選擇概率。

為了提高預測結(jié)果的精準度,進一步采用聚類算法,根據(jù)圖書的相關(guān)屬性信息,對圖書進行聚類。根據(jù)K-Means聚類算法在聚類效果中的良好表現(xiàn),本文采用此方法實現(xiàn)圖書的聚類。根據(jù)圖書聚類的結(jié)果,對讀者-圖書選擇概率矩陣進行裁剪,以此得到若干讀者-圖書選擇概率子矩陣,縮小計算工作,僅在具有相似屬性信息的讀者-圖書選擇概率子矩陣中進行計算。

2.2 改進用戶相似度

協(xié)同過濾算法的目的是找到和目標讀者讀書偏好相似的讀者集合,根據(jù)讀者-圖書選擇概率矩陣計算讀者相似度,這是協(xié)同過濾算法關(guān)鍵步驟,影響著最終推薦結(jié)果的精準度。基于傳統(tǒng)協(xié)同過濾算法讀者相似度計算依賴于讀者對圖書的共同評分,但忽略了已評分圖書的權(quán)重問題以及隨時間變化讀者圖書偏好改變的可能性。例如:3個讀者對同一圖書有著相同的評分行為,讀者1和讀者2共同評分的圖書發(fā)生在同一時間段內(nèi),而讀者2和讀者3共同評分的圖書發(fā)生并不在一個時間段內(nèi),顯然,讀者1和讀者2應比讀者2和讀者3有更高的相似度,然而,忽略了時間因素,利用傳統(tǒng)協(xié)同過濾算法得到了相等的結(jié)果。

考慮時間因素對讀者圖書偏好的影響,為了提高讀者相似度計算的精準度,引入時間因子sigmoid函數(shù),函數(shù)值作為評分時間影響權(quán)重,評分時間越接近的讀者,其相似度也就越高,計算式如公式(1):

(1)

考慮時間因素對讀者偏好相似度的影響,本文在皮爾遜相關(guān)系數(shù)基礎(chǔ)上引入時間因子Sigmoid函數(shù),得到改進后的讀者相似度,如式(2)。

Simuv=Suv×Wuv=

(2)

根據(jù)改進后的讀者相似度計算公式完成相似度計算后,對結(jié)果進行排序,選擇相似度最高的k個讀者作為目標讀者的鄰居讀者。

2.3 預測評分

在目標讀者i的讀者-圖書選擇概率子矩陣中,計算目標讀者u對目標圖書i的預測評分,如式(3)。

(3)

得到目標讀者對未選擇圖書的預測評分后,根據(jù)評分由高到底排序,將評分最高的前k個圖書推薦給該讀者。

3 實驗分析

3.1 實驗數(shù)據(jù)

本文采用商丘職業(yè)技術(shù)學院圖書館信息化管理中心提供的數(shù)據(jù)集進行實驗,在此數(shù)據(jù)集中,讀者對自己看過的圖書進行了評分,每位讀者評分數(shù)不少于20條,評分結(jié)果為很好、好、一般、差、很差,分別記做整數(shù)5、4、3、2、1。分值高低反映了讀者對圖書滿意度的高低。此數(shù)據(jù)集記錄了2016年8月30日~2017年1月5日其間,1 351位讀者對2 405本圖書的143 000個評分,此數(shù)據(jù)集原始讀者-圖書評分矩陣稀疏度為92.8%。

3.2 評價指標

/N

(4)

得出的結(jié)果平均絕對偏差越小,推薦精準度越高,效果越好。

3.3 實驗結(jié)果

將本文提出的ICF推薦算法與傳統(tǒng)的基于內(nèi)存的協(xié)同過濾算法進行對比,通過余弦夾角相似度、修正余弦夾角相似度和皮爾遜相關(guān)系數(shù)等3 種相似度度量方法作為比較,目標讀者最近鄰個數(shù)分別為(10,20,30,40,50),得出的MAE值,如圖2所示。

圖2 ICF與傳統(tǒng)的協(xié)同過濾算法比較

3.4 實驗分析

實驗表明,3 種傳統(tǒng)的協(xié)同過濾算法相比較,余弦相似度的MAE值均最大,皮爾遜相關(guān)系數(shù)MAE值均居中,修正余弦相似度MAE值均最小,表明修正算法的有效性,而本文提出的ICF推薦算法,MAE值均最小,明顯優(yōu)于其它3種傳統(tǒng)的協(xié)同過濾算法,說明引入時間影響因子權(quán)重反映讀者圖書興趣變化的ICF推薦算法能夠得到更好的推薦效果。

4 總結(jié)

為提高數(shù)據(jù)稀疏環(huán)境下圖書推薦的質(zhì)量,提出了一種基于LDA的改進協(xié)同過濾推薦算法,基于LDA主題模型得到讀者-圖書選擇概率矩陣作為計算讀者相似度的原始數(shù)據(jù)。為了更加準確地尋找讀者鄰居,本文根據(jù)圖書屬性對圖書進行聚類,在聚類內(nèi)部計算相似讀者,并根據(jù)讀者評分時間設(shè)計一種基于時間因子權(quán)重的讀者相似度計算公式,更加準確地評估目標讀者的鄰居讀者集,從而更準確地預測讀者對圖書的評分。最后,利用商丘職業(yè)技術(shù)學院圖書館信息化管理中心提供的數(shù)據(jù)集開展實驗,實驗結(jié)果表明,本文提出的方法,比基于余弦相似度、皮爾遜相似度的協(xié)同過濾算法更加精準,能有效提升圖書推薦效果。

主站蜘蛛池模板: 亚洲国产中文精品va在线播放| 国产人成在线观看| 99热线精品大全在线观看| 精品国产三级在线观看| 国产人前露出系列视频| 成人免费黄色小视频| 婷婷六月激情综合一区| av无码久久精品| 性喷潮久久久久久久久| 亚洲av无码人妻| 欧美日韩另类国产| 72种姿势欧美久久久久大黄蕉| 素人激情视频福利| 亚洲成人网在线播放| 综合色88| 男女性午夜福利网站| 亚洲欧美自拍一区| 91精品国产情侣高潮露脸| 免费国产高清精品一区在线| 国产精品一区二区国产主播| 免费国产高清精品一区在线| 久久久久久久蜜桃| 国产精品熟女亚洲AV麻豆| 亚洲精品国产乱码不卡| 免费jizz在线播放| 久久精品人人做人人| 美女被操91视频| 青青草原国产| 免费在线一区| 一级毛片免费观看不卡视频| 2019年国产精品自拍不卡| 亚洲成a人片在线观看88| 国产精品美乳| 成人在线视频一区| 中文字幕无码制服中字| 日日碰狠狠添天天爽| 无码粉嫩虎白一线天在线观看| 欧美精品成人| 国产在线高清一级毛片| 色婷婷色丁香| vvvv98国产成人综合青青| 亚洲高清资源| 国产人碰人摸人爱免费视频| 国产91小视频| 亚洲欧美日韩天堂| 一级做a爰片久久毛片毛片| 九九精品在线观看| 久久精品无码专区免费| 一边摸一边做爽的视频17国产| 日韩精品欧美国产在线| 亚洲午夜18| 日本精品影院| 亚洲三级影院| 欧美成人怡春院在线激情| www.精品视频| 久久久久久久97| 激情爆乳一区二区| 亚洲欧美精品一中文字幕| 亚洲综合色区在线播放2019| 亚洲色中色| 国产精品成人久久| 欧美亚洲香蕉| 毛片基地美国正在播放亚洲| 在线观看无码a∨| 国产黄色视频综合| 精品99在线观看| 亚洲人成网站在线播放2019| 高清码无在线看| 亚洲中文字幕97久久精品少妇| 国产丝袜啪啪| 亚洲第一综合天堂另类专| 日本人又色又爽的视频| 免费看av在线网站网址| 欧美一区二区精品久久久| 日韩欧美中文字幕在线韩免费| 欧美成人免费一区在线播放| 欧美国产视频| 91美女视频在线| 国产成人调教在线视频| 久久 午夜福利 张柏芝| 国产主播喷水| 国产高清在线观看|