黃浩
摘 要本文對(duì)基于個(gè)性化圖書(shū)推薦的協(xié)同過(guò)濾算法的設(shè)計(jì)方案進(jìn)行實(shí)驗(yàn),目的是為證實(shí)在真實(shí)用戶的多標(biāo)準(zhǔn)評(píng)估過(guò)程中怎樣產(chǎn)生數(shù)據(jù)集,從而找到一種科學(xué)的算法。并通過(guò)圖書(shū)推薦的應(yīng)用案例來(lái)說(shuō)明算法,以驗(yàn)證其是否有效。
【關(guān)鍵詞】個(gè)性化圖書(shū)推薦 協(xié)同過(guò)濾算法 鄰居選擇
面對(duì)巨大的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),個(gè)性化推薦可以及時(shí)的追蹤用戶需求而針對(duì)性的優(yōu)化信息服務(wù)的內(nèi)容與手段,其能幫用戶有效處理過(guò)載的信息。如今推薦系統(tǒng)已發(fā)展成能夠產(chǎn)生個(gè)性化推薦亦或是引導(dǎo)用戶通過(guò)個(gè)性化的形式到很大的空間中去選擇自己的目標(biāo)商品。本文為研究基于個(gè)性化圖書(shū)推薦的協(xié)同過(guò)濾算法,通過(guò)模擬實(shí)驗(yàn)分析多標(biāo)準(zhǔn)推薦系統(tǒng)若干設(shè)計(jì)方案的有效性。
1 多標(biāo)準(zhǔn)協(xié)同過(guò)濾
所謂推薦系統(tǒng)就是幫客戶找到其感興趣或符合其需求的信息的手段,它主要是兩個(gè)方面,一是預(yù)測(cè)某特定用戶是不是喜歡某一特定項(xiàng)目,二是識(shí)別某個(gè)用戶所感興趣的項(xiàng)目。推薦問(wèn)題可以作下述定義:c是全部用戶的集合,s是所推薦的全部可能的項(xiàng)目,uc(s)是一功效函數(shù)uc(s):c×s→R+,用來(lái)評(píng)價(jià)將項(xiàng)目s推薦給用戶c是否適宜。假設(shè)該函數(shù)對(duì)整個(gè)c×s空間未知,僅在其部分子集中已知,需各用戶c∈C可以預(yù)測(cè)S中項(xiàng)目s的功效函數(shù)uc(s),在S中,uc(s)未知,也就是∨c∈C,s=maxuc(s)。在大部分推薦系統(tǒng)內(nèi),函數(shù)uc(s)一般都只考慮項(xiàng)目的某一屬性。
協(xié)同推薦是在某一用戶被推薦以往與其有同樣興趣愛(ài)好的人感興趣的項(xiàng)目,而協(xié)同過(guò)濾是基于有類(lèi)似愛(ài)好的其他人的推薦去預(yù)測(cè)客戶對(duì)新項(xiàng)目的興趣。單屬性協(xié)同過(guò)濾把問(wèn)題空間定義成“用戶-項(xiàng)目矩陣-評(píng)分矩陣”。而協(xié)同過(guò)濾的目標(biāo)即為基于以往其他用戶對(duì)此項(xiàng)目的評(píng)價(jià),針對(duì)某一特定用戶,預(yù)測(cè)其功效。
2 SVD因式分解以實(shí)現(xiàn)協(xié)同過(guò)濾
在設(shè)計(jì)實(shí)現(xiàn)推薦系統(tǒng),選擇推薦算法時(shí),大多考慮協(xié)同過(guò)濾的使用,但是CF中經(jīng)常使用的兩種方法包括:neighbor-based方法和因式分解。作為一個(gè)搜索推薦系統(tǒng),百度關(guān)鍵詞系統(tǒng)中也使用了CF為用戶推薦流量,考慮到可解釋性。但因式分解會(huì)從全局考慮用戶投票的影響,所以理論和實(shí)踐上效果都會(huì)更好。
2.1 根據(jù)優(yōu)先權(quán)的相似性算法
該算法與活動(dòng)用戶的屬性wai(i=1,…,n)相比較看有類(lèi)似的優(yōu)先權(quán)。即推薦基于用戶的意見(jiàn),當(dāng)選擇某一項(xiàng)目時(shí),分配類(lèi)似的權(quán)重給每一評(píng)估標(biāo)準(zhǔn)。相似性計(jì)算就是測(cè)量用戶a和用戶c之間的屬性矢量距離。相似性計(jì)算有以下2種。
(1)歐氏距離計(jì)算:
(2)余弦相似性:
鄰居的形成通過(guò)2種手段,即相關(guān)權(quán)重閾值以及最大鄰居數(shù)。為準(zhǔn)確預(yù)測(cè),并結(jié)合評(píng)分有3種辦法。
(1)簡(jiǎn)單數(shù)學(xué)均值:
(2)加權(quán)平均值:
(3)均值離差:
2.2 SVD在推薦系統(tǒng)中的應(yīng)用與實(shí)現(xiàn)
其中n表示用戶數(shù)目,m表示物品數(shù)目,I[i][j]是用來(lái)表示用戶i有沒(méi)有對(duì)物品j評(píng)過(guò)分,因?yàn)槲覀冎恍枰u(píng)過(guò)分的那些越接近越好,沒(méi)評(píng)過(guò)的就不需要考慮,Vij表示訓(xùn)練數(shù)據(jù)中給出的評(píng)分,也就是實(shí)際評(píng)分,p(Ui,Mj)表示我們對(duì)用戶i對(duì)物品j的評(píng)分的預(yù)測(cè),結(jié)果根據(jù)兩向量點(diǎn)乘得到,兩面的兩項(xiàng)主要是為了防止過(guò)擬合,之所以都加了系數(shù)1/2是為了等會(huì)求導(dǎo)方便。
具體公式為:
3 實(shí)驗(yàn)設(shè)計(jì)分析
針對(duì)此實(shí)驗(yàn),考慮具有一定相似性計(jì)算的3個(gè)方案,即歐氏距離、余弦相似性以及皮爾遜相關(guān)。尚未考慮部分特定的方法針對(duì)特性加權(quán),將該因素設(shè)置成1,鄰居的形成應(yīng)用到2個(gè)方法,也就是相關(guān)加權(quán)閾值以及最大近鄰,最終結(jié)合評(píng)分設(shè)計(jì)3個(gè)方案。文章的目的是建設(shè)數(shù)字圖書(shū)館,宗旨是幫助用戶尋找其所感興趣的圖書(shū)。用戶經(jīng)過(guò)注冊(cè)后能夠登錄該系統(tǒng),登錄后需應(yīng)用有關(guān)的評(píng)價(jià)標(biāo)準(zhǔn)。模擬系統(tǒng)用于形成一組200用戶,200項(xiàng)目以及750評(píng)價(jià)的集合,這當(dāng)中600評(píng)價(jià)用作該算法的訓(xùn)練集,其余150評(píng)價(jià)用作測(cè)試集。以上評(píng)價(jià)在模擬里進(jìn)行處理時(shí),會(huì)以80%→20%的比例分配至訓(xùn)練集以及測(cè)試集中。對(duì)實(shí)驗(yàn)的分析時(shí),應(yīng)用2個(gè)性能評(píng)價(jià)辦法。第一是準(zhǔn)確度,第二是覆蓋率,與其他算法對(duì)比,本文的算法在MAE指標(biāo)上比以前的算法提高9.8%,時(shí)間復(fù)雜度降低19.7%,有效提高了圖書(shū)推薦的準(zhǔn)確率。
4 結(jié)語(yǔ)
文章用一組合成的數(shù)據(jù)集合,指出對(duì)個(gè)性化圖書(shū)推進(jìn)這個(gè)特定的應(yīng)用,以及2種協(xié)同過(guò)濾算法的設(shè)計(jì)實(shí)驗(yàn)方案。此合成數(shù)據(jù)集合的多標(biāo)準(zhǔn)評(píng)估用某一合適的模擬產(chǎn)生,基于如此的數(shù)據(jù)集合的實(shí)驗(yàn)測(cè)試僅可用于初始評(píng)估,一旦能夠得到真實(shí)用戶的評(píng)估,就要重復(fù)進(jìn)行實(shí)驗(yàn)。接下來(lái)的研究應(yīng)是探索具有適應(yīng)性的推薦系統(tǒng),如此系統(tǒng)會(huì)動(dòng)態(tài)的選擇適宜的推薦算法抑或是按照評(píng)估數(shù)據(jù)集合的特性變化。
參考文獻(xiàn)
[1]張迎峰.面向數(shù)字圖書(shū)館的個(gè)性化推薦算法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2011.
[2]安德智,劉光明,章恒.基于協(xié)同過(guò)濾的圖書(shū)推薦模型[J].圖書(shū)情報(bào)工作,2011,55(1):35-38.
[3]張海榮,朱信忠,趙建民,等.一種優(yōu)化的基于用戶聚類(lèi)的過(guò)濾推薦策略[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(11):95-97.
[4]余力,劉魯.電子商務(wù)個(gè)性化推薦研究[J].計(jì)算機(jī)集成制造系統(tǒng),2004.10,10(10):1306-1313.
[5]曾艷,麥永浩.基于內(nèi)容預(yù)測(cè)和項(xiàng)目評(píng)分的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)應(yīng)用,2004.1,24(01):111-113.
[6]張怡文,岳麗華,張義飛. 基于共同用戶和相似標(biāo)簽的好友推薦方法[J].計(jì)算機(jī)應(yīng)用,2013,33(08):2273-2275.
[7]楊濤,曹樹(shù)金.圖書(shū)館用戶的個(gè)性化服務(wù)需求實(shí)證研究[J].大學(xué)圖書(shū)館學(xué)報(bào),2011(02):76-85.
[8]許文青,林雙平.融合熱門(mén)度因子基于標(biāo)簽的個(gè)性化圖書(shū)推薦算法[J].圖書(shū)情報(bào)研究,2015(03):82-86.
作者單位
廣西經(jīng)貿(mào)高級(jí)技工學(xué)校 廣西壯族自治區(qū)梧州市蒼梧縣 543199