999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于項(xiàng)目類別的協(xié)同過(guò)濾推薦算法多樣性研究

2015-03-07 11:42:48葉錫君
計(jì)算機(jī)工程 2015年10期
關(guān)鍵詞:用戶實(shí)驗(yàn)系統(tǒng)

葉錫君,龔 玥

(南京農(nóng)業(yè)大學(xué)信息科技學(xué)院,南京 210095)

基于項(xiàng)目類別的協(xié)同過(guò)濾推薦算法多樣性研究

葉錫君,龔 玥

(南京農(nóng)業(yè)大學(xué)信息科技學(xué)院,南京 210095)

推薦系統(tǒng)的多樣性正日益成為評(píng)價(jià)推薦質(zhì)量的重要指標(biāo)。為提高傳統(tǒng)協(xié)同過(guò)濾推薦算法的個(gè)體多樣性,在基于項(xiàng)目的協(xié)同過(guò)濾推薦算法的基礎(chǔ)上,加入項(xiàng)目的類別屬性信息,定義項(xiàng)目類別貢獻(xiàn)函數(shù)以改進(jìn)預(yù)測(cè)評(píng)分公式,提高與目標(biāo)項(xiàng)目類別不完全相同的項(xiàng)目得分,實(shí)現(xiàn)最優(yōu)項(xiàng)目推薦。實(shí)驗(yàn)結(jié)果表明,在保證一定推薦精確度的前提下,改進(jìn)算法增強(qiáng)了推薦系統(tǒng)的個(gè)體多樣性,具有更高的推薦質(zhì)量。

協(xié)同過(guò)濾;多樣性;項(xiàng)目類別;貢獻(xiàn)函數(shù);預(yù)測(cè)評(píng)分;列表內(nèi)相似度指標(biāo)

DO I:10.3969/j.issn.1000-3428.2015.10.009

1 概述

信息化社會(huì)的到來(lái)給人們帶來(lái)了一大難題:如何從豐富的網(wǎng)絡(luò)資源中快速準(zhǔn)確地找到自己需要的信息。傳統(tǒng)搜索引擎技術(shù)的智能化程度較低,且以被動(dòng)方式為用戶提供服務(wù),已不能滿足用戶需求,為了更好地解決這一難題,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)的核心是推薦算法。目前,推薦算法并沒(méi)有一個(gè)統(tǒng)一的分類,大多數(shù)學(xué)者將推薦算法分為3類:基于內(nèi)容的推薦算法,協(xié)同過(guò)濾推薦算法以及混合推薦算法。協(xié)同過(guò)濾推薦算法是目前應(yīng)用最廣泛且最成功的推薦算法,特別是在電子商務(wù)領(lǐng)域。

目前,對(duì)協(xié)同過(guò)濾推薦算法的研究主要集中于解決數(shù)據(jù)稀疏性、冷啟動(dòng)、概念漂移和可擴(kuò)展等問(wèn)題,經(jīng)過(guò)長(zhǎng)期研究,學(xué)者們提出了多種解決方案,并從理論和實(shí)驗(yàn)上得到了證明。然而新的問(wèn)題也不斷涌出,例如推薦多樣性程度低、推薦系統(tǒng)脆弱以及推薦系統(tǒng)評(píng)估效果不理想等。推薦系統(tǒng)的多樣性正日益成為評(píng)價(jià)推薦系統(tǒng)推薦質(zhì)量的重要度量指標(biāo)。文獻(xiàn)[1]指出在MovieLens電影數(shù)據(jù)集上實(shí)施標(biāo)準(zhǔn)協(xié)同過(guò)濾算法時(shí),只有15%的電影會(huì)獲得推薦機(jī)會(huì),其中最熱門的電影會(huì)被推薦給高達(dá) 70%的用戶。2014年3月,阿里巴巴舉行了大數(shù)據(jù)競(jìng)賽,比賽內(nèi)容

為基于天貓海量真實(shí)用戶訪問(wèn)數(shù)據(jù)的推薦算法。參加比賽過(guò)程中,參賽者發(fā)現(xiàn)熱門商品幾乎出現(xiàn)在了80%用戶的推薦列表中。除熱門商品影響外,推薦系統(tǒng)還存在另外一種多樣性程度低的推薦問(wèn)題,例如某用戶在某購(gòu)物網(wǎng)站搜索了某種產(chǎn)品,接下來(lái)他將會(huì)在各種推薦中看到此類商品的推薦。本文將針對(duì)推薦多樣性程度低的問(wèn)題,在基于項(xiàng)目的協(xié)同過(guò)濾算法基礎(chǔ)上,加入對(duì)項(xiàng)目類別屬性,對(duì)推薦算法進(jìn)行改進(jìn),提高推薦多樣性。

2 基于項(xiàng)目的協(xié)同過(guò)濾推薦算法

2.1 算法描述

基于項(xiàng)目的協(xié)同過(guò)濾推薦算法的思想是根據(jù)用戶對(duì)項(xiàng)目的評(píng)分,計(jì)算出項(xiàng)目間的相似度,然后為每個(gè)用戶未評(píng)分的項(xiàng)目構(gòu)造最近鄰,通過(guò)用戶對(duì)最近鄰的評(píng)分預(yù)測(cè)出對(duì)未評(píng)分項(xiàng)目的評(píng)分[2],最后將得分最高的前N項(xiàng)項(xiàng)目推薦給用戶。N值可根據(jù)需要自由設(shè)定,協(xié)同過(guò)濾推薦流程[3]如圖 1所示。

圖1 協(xié)同過(guò)濾推薦流程

根據(jù)推薦流程,推薦主要分為3個(gè)步驟:

步驟1 數(shù)據(jù)描述。基于項(xiàng)目的協(xié)同過(guò)濾推薦算法的數(shù)據(jù)通常描述為一個(gè)用戶-項(xiàng)目評(píng)分矩陣R:其中,rij表示用戶i對(duì)項(xiàng)目j的評(píng)分,評(píng)價(jià)值及單位與具體場(chǎng)景有關(guān),可根據(jù)實(shí)際情況設(shè)定。

步驟2 獲得最近鄰。基于項(xiàng)目的協(xié)同過(guò)濾算法的關(guān)鍵步驟在于計(jì)算項(xiàng)目間的相似度,找出最相似項(xiàng)目集[4]。傳統(tǒng)相似度計(jì)算方法有以下 3種:余弦相似度,修正的余弦相似度以及相關(guān)相似度(也稱為Pearson相關(guān)系數(shù))[5]。

(1)余弦相似度:在用戶-項(xiàng)目評(píng)分矩陣R中,將項(xiàng)目評(píng)分看成是m維用戶空間上的向量,然后用向量間的夾角度量?jī)身?xiàng)目的相似度,角度越小也即余弦值越大,說(shuō)明相似度越高。項(xiàng)目i和項(xiàng)目j的余弦相似度計(jì)算如下:

其中,rui表示用戶u對(duì)項(xiàng)目i的評(píng)分。未得到評(píng)分的項(xiàng)目評(píng)分值設(shè)置為0。

(2)修正的余弦相似度:在余弦相似度的基礎(chǔ)上考慮各項(xiàng)目被評(píng)價(jià)的標(biāo)準(zhǔn)問(wèn)題,通過(guò)減去各項(xiàng)目被評(píng)分的平均值彌補(bǔ)余弦相似度的缺陷[6],具體計(jì)算如下:

其中,Uij為項(xiàng)目i與項(xiàng)目j被共同評(píng)分的用戶集合;分別為項(xiàng)目i、項(xiàng)目j被評(píng)分的用戶集合表

(3)相關(guān)相似度:項(xiàng)目i和項(xiàng)目j的相關(guān)相似度計(jì)算如下:

其中,Uij為項(xiàng)目i與項(xiàng)目j被共同評(píng)分的用戶集合。

當(dāng)數(shù)據(jù)稀疏時(shí),不同項(xiàng)目被同一個(gè)用戶共同評(píng)過(guò)分的情況將很少,這時(shí)修正的余弦相似度和相關(guān)相似度將難以發(fā)揮作用,相關(guān)相似度計(jì)算公式甚至可能出現(xiàn)分母為0的情況,導(dǎo)致計(jì)算無(wú)意義。所以,在計(jì)算相似度時(shí),需要根據(jù)實(shí)際數(shù)據(jù)情況選取合適的公式。

步驟3 實(shí)現(xiàn)推薦。常用方法是運(yùn)用平均加權(quán)策略計(jì)算目標(biāo)用戶對(duì)不同項(xiàng)目的預(yù)測(cè)評(píng)分。然后選取評(píng)分值最高的前N項(xiàng)(TOP-N推薦策略)推薦給用戶。用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分的計(jì)算如下:

其中,I表示項(xiàng)目i的最近鄰項(xiàng)目集合。

2.2 現(xiàn)有協(xié)同過(guò)濾推薦算法研究

通過(guò)對(duì)已有文獻(xiàn)的研究發(fā)現(xiàn),2013年前大多數(shù)學(xué)者對(duì)推薦算法的研究主要集中在數(shù)據(jù)稀疏性、冷啟動(dòng)、概念漂移等問(wèn)題上,算法研究已經(jīng)達(dá)到比較成熟的階段。然而,周濤[7]在 2012年提出了個(gè)性化推薦系統(tǒng)面臨的十大挑戰(zhàn),除了前面提到的問(wèn)題,

推薦系統(tǒng)還面臨多樣性程度低、推薦系統(tǒng)脆弱性、系統(tǒng)效果評(píng)估等問(wèn)題[8]。目前的推薦系統(tǒng)是基于用戶的歷史行為,通過(guò)計(jì)算被打分項(xiàng)目的相似度進(jìn)行推薦,從而導(dǎo)致熱門項(xiàng)目對(duì)推薦產(chǎn)生的影響越來(lái)越大,這種推薦雖能達(dá)到較好的準(zhǔn)確率,但從長(zhǎng)遠(yuǎn)看,熱門項(xiàng)目會(huì)占滿所有用戶的推薦列表,使得推薦系統(tǒng)變得毫無(wú)意義,推薦列表成為排行榜的復(fù)制品[9]。而一個(gè)好的推薦系統(tǒng)應(yīng)該為不同用戶提供個(gè)性化的推薦,為用戶找到潛在的興趣,同時(shí)為服務(wù)提供商提供額外收益。因此,推薦系統(tǒng)的多樣性變得尤為重要。在此給出多個(gè)多樣性比精確率更重要的應(yīng)用場(chǎng)景,例如:當(dāng)被推薦的商品有“長(zhǎng)期消耗品”或“周期性消耗品”或“體驗(yàn)性商品”等特點(diǎn)時(shí),當(dāng)用戶選擇該類商品后,可能短期內(nèi)或永久都不會(huì)再有選擇它們的欲望,這時(shí)多樣性的推薦甚至能提高推薦的精確率,這類商品有家具、月餅、旅游地點(diǎn)等。當(dāng)被推薦的商品受時(shí)間影響價(jià)值會(huì)發(fā)生變化時(shí),對(duì)于提供下載或租賃這類商品的商家,多樣性推薦可以通過(guò)推薦一些非熱門的商品降低商家的成本,這類商品有電影、小說(shuō)、音樂(lè)等,對(duì)于這類商品通常用戶的興趣不會(huì)僅限于一二種類型,多樣性推薦十分必要。以一個(gè)學(xué)術(shù)文獻(xiàn)推薦系統(tǒng)為例,假設(shè)系統(tǒng)推薦的是同一個(gè)作者的論文,即使準(zhǔn)確性很高,用戶可能也會(huì)認(rèn)為這是一次很差的推薦,因?yàn)橛脩艉苋菀淄ㄟ^(guò)其他方式找到這些論文[10]。由此可以看出,多樣性推薦能為服務(wù)提供商獲得更多的收益,為用戶提供更好的用戶體驗(yàn),提高用戶的置信度。

近年來(lái),越來(lái)越多的學(xué)者開(kāi)始關(guān)注推薦系統(tǒng)的推薦多樣性問(wèn)題。文獻(xiàn)[11]提出一種能夠提高會(huì)話推薦多樣性的融合協(xié)同過(guò)濾算法,在用戶會(huì)話期內(nèi)建立會(huì)話推薦列表,有效避免會(huì)話推薦樹(shù)中出現(xiàn)推薦環(huán)路,從而消除重復(fù)推薦。文獻(xiàn)[12]提出集合多樣性的概念,通過(guò)增設(shè)預(yù)測(cè)評(píng)分的閾值來(lái)改變?cè)械耐扑]排序方法,以提高整體推薦的多樣性。文獻(xiàn)[13]提出時(shí)間多樣性的概念,強(qiáng)調(diào)隨著時(shí)間的推移,推薦系統(tǒng)對(duì)用戶推薦應(yīng)呈現(xiàn)多樣性。

上述提高推薦多樣性的方法要么是從推薦想要達(dá)到的效果出發(fā),要么是從影響推薦多樣性的外在原因出發(fā)改進(jìn)算法,忽略了導(dǎo)致推薦多樣性低的根本原因。本文結(jié)合基于項(xiàng)目的協(xié)同過(guò)濾算法,通過(guò)在項(xiàng)目的原始信息中分析協(xié)同過(guò)濾推薦過(guò)程中導(dǎo)致多樣性低的原因,從根本上進(jìn)行改進(jìn),提高推薦的多樣性。

3 改進(jìn)的協(xié)同過(guò)濾推薦算法

3.1 算法設(shè)計(jì)思想

本文研究目的在于提高推薦多樣性,多樣性分為個(gè)體多樣性和總體多樣性,個(gè)體多樣性又可分為個(gè)體內(nèi)部多樣性和個(gè)體外部多樣性。個(gè)體內(nèi)部多樣性是指在對(duì)單個(gè)用戶的一次推薦中,推薦列表內(nèi)部項(xiàng)目之間具有多樣性。個(gè)體外部多樣性是指在對(duì)多個(gè)用戶的推薦中,多個(gè)用戶的推薦列表之間具有多樣性[11]。總體多樣性是對(duì)全體用戶而言,系統(tǒng)所產(chǎn)生的全部推薦項(xiàng)目所表現(xiàn)的多樣性[14]。總體多樣性可以通過(guò)個(gè)體外部多樣性來(lái)體現(xiàn)。個(gè)體外部多樣性越大,則總體多樣性也越大[11]。由于推薦系統(tǒng)大多數(shù)為個(gè)性化推薦,即為每個(gè)不同用戶提供不同推薦,因此本文關(guān)注的多樣性為個(gè)體多樣性。

推薦算法的關(guān)鍵在于相似度計(jì)算,余弦相似度在數(shù)學(xué)上用來(lái)考慮兩向量的方向,應(yīng)用到推薦算法中,用來(lái)計(jì)算用戶的相似度,表現(xiàn)為用戶興趣的相似程度;用來(lái)計(jì)算項(xiàng)目的相似度,表現(xiàn)為項(xiàng)目特征的相似程度。而項(xiàng)目特征通常可以通過(guò)項(xiàng)目的類別體現(xiàn),因此,聯(lián)想到在傳統(tǒng)的推薦算法上考慮項(xiàng)目類別屬性的影響,通過(guò)推薦與用戶喜歡的項(xiàng)目類別較相似的項(xiàng)目來(lái)提高推薦的多樣性。

傳統(tǒng)的協(xié)同過(guò)濾算法并不涉及用戶或項(xiàng)目的具體特征,輸入值只有用戶-項(xiàng)目評(píng)分矩陣,而通過(guò)上文分析,基于項(xiàng)目的推薦是將與用戶喜歡的項(xiàng)目相似度最高的項(xiàng)目推薦給用戶,這樣推薦的項(xiàng)目通常為一種項(xiàng)目或者是與用戶喜歡的項(xiàng)目相同的項(xiàng)目,也即項(xiàng)目的特征是高度一致的,這就導(dǎo)致推薦多樣性程度很低。因此,可以借助項(xiàng)目的類別屬性信息,提高具有較相似而不完全相似類別屬性的項(xiàng)目被推薦的可能,使得它們能被推薦給用戶,從而提高推薦的多樣性。在這個(gè)過(guò)程中,由于依然是根據(jù)相似度進(jìn)行推薦,因此推薦的精確度也不會(huì)很低。由于改進(jìn)算法使用了項(xiàng)目屬性信息,因此本文的改進(jìn)算法也可以看作是結(jié)合基于內(nèi)容的推薦算法和協(xié)同過(guò)濾推薦算法的混合推薦算法。

定義1(項(xiàng)目類別貢獻(xiàn)函數(shù)) 對(duì)于項(xiàng)目 i的最近鄰項(xiàng)目j,項(xiàng)目j的類別貢獻(xiàn)函數(shù)f(j)=n/N,其中,n表示兩項(xiàng)目共有的類別屬性個(gè)數(shù);N表示項(xiàng)目i的類別屬性總個(gè)數(shù)。分析可知,f(j)=1的情況有2種:(1)項(xiàng)目 i和項(xiàng)目 j的類別屬性完全相同,根據(jù)改進(jìn)算法的思想,需要降低這種項(xiàng)目被推薦的可能,因此在貢獻(xiàn)函數(shù)中引入懲罰因子 α。當(dāng)f(j)=1時(shí),0<α<1,當(dāng)f(j)<1時(shí),α=1。(2)項(xiàng)目j的類別屬性個(gè)數(shù)大于項(xiàng)目i的屬性個(gè)數(shù),這時(shí)它們的類別屬性不完全相同,為與第(1)種情況相區(qū)分,在這種情況下,定義 f(j)=n/N′,其中,n表示兩項(xiàng)目共有的類別屬性個(gè)數(shù);N′表示項(xiàng)目j的類別屬性總個(gè)數(shù)。

定義2(綜合預(yù)測(cè)評(píng)分) 項(xiàng)目 i和項(xiàng)目 j的綜

合預(yù)測(cè)評(píng)分公式具體如下:

其中,α為定義1中的懲罰因子,用來(lái)降低與目標(biāo)項(xiàng)目類別完全相同的項(xiàng)目的預(yù)測(cè)評(píng)分;f(j)為項(xiàng)目j對(duì)項(xiàng)目i的項(xiàng)目類別貢獻(xiàn)函數(shù)。

3.2 算法步驟

根據(jù)上述分析和定義,改進(jìn)算法步驟具體如下:

(1)根據(jù)用戶-項(xiàng)目評(píng)分矩陣,利用式(2)計(jì)算出目標(biāo)項(xiàng)目與其他各項(xiàng)目的相似度;

(2)根據(jù)相似度計(jì)算目標(biāo)項(xiàng)目的K最近鄰;

(3)根據(jù)定義1計(jì)算最近鄰中各項(xiàng)目對(duì)目標(biāo)項(xiàng)目的項(xiàng)目類別貢獻(xiàn)函數(shù);

(4)根據(jù)定義2,利用式(6)計(jì)算出用戶對(duì)目標(biāo)項(xiàng)目的綜合預(yù)測(cè)評(píng)分;

(5)用TOP-N推薦策略將前N項(xiàng)得分最高的項(xiàng)目推薦給用戶。

3.3 算法分析

本文算法的改進(jìn)目的是為了提高推薦算法的個(gè)體多樣性,其具體策略是使得與用戶最喜歡的項(xiàng)目的類別屬性相似度高但并不完全相同的項(xiàng)目得到更多推薦,因此,在改進(jìn)時(shí)需要降低類別屬性完全相同的項(xiàng)目相似度,以及類別屬性差距過(guò)大的項(xiàng)目的相似度。

根據(jù)定義1可知,當(dāng)最近鄰項(xiàng)目與目標(biāo)項(xiàng)目的共有屬性個(gè)數(shù)越多時(shí),貢獻(xiàn)函數(shù)值越大,即與目標(biāo)項(xiàng)目類別屬性相似度越大的項(xiàng)目被推薦的概率越大。通過(guò)將定義1中的懲罰因子 α取一個(gè)0~1之間的數(shù)來(lái)降低項(xiàng)目的預(yù)測(cè)評(píng)分,從而降低與目標(biāo)項(xiàng)目類別屬性完全相同的項(xiàng)目被推薦的可能性。目前,如何平衡精確性和多樣性還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),考慮到不同應(yīng)用場(chǎng)合的需求,可以通過(guò)設(shè)置一個(gè)變量的具體取值來(lái)調(diào)控兩者之間的關(guān)系。本文α的取值將會(huì)平衡推薦的多樣性與精確性。當(dāng)對(duì)推薦的精確性要求較高時(shí),α可以取1,而當(dāng)對(duì)精確性要求不高時(shí),可通過(guò)調(diào)整α的取值來(lái)適當(dāng)降低推薦的精確性、提高推薦的多樣性。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

目前提供給學(xué)術(shù)界用于推薦系統(tǒng)測(cè)試的數(shù)據(jù)不多,大多數(shù)學(xué)者都采用MovieLens[15]數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。本文實(shí)驗(yàn)也選取該網(wǎng)站提供的數(shù)據(jù)集。該數(shù)據(jù)集是由明尼蘇達(dá)大學(xué)計(jì)算機(jī)科學(xué)與工程系的GroupLens小組提供并維護(hù),記錄了用戶對(duì)電影的評(píng)分,評(píng)分值一共分為5個(gè)等級(jí),1表示最不喜歡,5表示最喜歡。目前它提供了 3個(gè)不同大小的數(shù)據(jù)集供實(shí)驗(yàn)使用,分別是包含1×105條、1×106條和1×107條評(píng)分?jǐn)?shù)據(jù)的數(shù)據(jù)集,每個(gè)用戶都至少對(duì)20部電影進(jìn)行了評(píng)價(jià)。本文實(shí)驗(yàn)選取1×105條數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),共有943個(gè)用戶對(duì)1 682部電影進(jìn)行評(píng)價(jià)。

對(duì)推薦算法的評(píng)價(jià)是推薦算法研究中的重要組成部分,然而,由于推薦系統(tǒng)的研究和應(yīng)用領(lǐng)域十分廣泛,推薦算法的評(píng)價(jià)缺乏統(tǒng)一性,不同應(yīng)用環(huán)境對(duì)推薦算法的要求也存在很大差別,因此在選擇評(píng)價(jià)指標(biāo)時(shí)要綜合考慮實(shí)驗(yàn)數(shù)據(jù)的特征以及算法改進(jìn)兩方面。

現(xiàn)有提出的評(píng)價(jià)指標(biāo)基本是針對(duì)精確性的,本文實(shí)驗(yàn)的目的是提高推薦多樣性,此方向的研究相對(duì)較少,大多數(shù)研究者在對(duì)改進(jìn)算法進(jìn)行評(píng)價(jià)時(shí)都是提出各自的多樣性評(píng)價(jià)指標(biāo),而這些指標(biāo)尚未得到廣泛認(rèn)可和使用。文獻(xiàn)[16]闡述了推薦系統(tǒng)精確性和精確性外的評(píng)價(jià)指標(biāo)的研究進(jìn)展,提出平均海明距離來(lái)度量推薦系統(tǒng)的多樣性,并且總結(jié)了現(xiàn)有推薦系統(tǒng)多樣性的主要度量指標(biāo)。根據(jù)本文研究目的,實(shí)驗(yàn)將選取列表內(nèi)相似度(Intra-list Similarity,ILS)[16]來(lái)評(píng)價(jià)推薦算法的多樣性,并選用精確率P來(lái)評(píng)價(jià)推薦算法的精確性。

列表內(nèi)相似度主要指針對(duì)單個(gè)用戶,推薦列表中所有項(xiàng)目的平均兩兩相似度[17-18]。一般來(lái)說(shuō),ILS值越大,推薦列表多樣性效果越差[16]。ILS計(jì)算公式具體如下:

其中,R表示推薦列表中推薦項(xiàng)目的集合;i和j是推薦列表中的項(xiàng)目;k是推薦項(xiàng)目的個(gè)數(shù)。精確率 P的計(jì)算公式具體如下:

其中,Nrt表示推薦項(xiàng)目集合與用戶真實(shí)選擇項(xiàng)目集合的交集個(gè)數(shù);Nr表示推薦項(xiàng)目的個(gè)數(shù)。

4.2 結(jié)果分析

考慮到數(shù)據(jù)稀疏性問(wèn)題,本文實(shí)驗(yàn)選取余弦相似度計(jì)算項(xiàng)目相似度,實(shí)驗(yàn)共涉及傳統(tǒng)的基于項(xiàng)目的協(xié)同過(guò)濾推薦算法和本文改進(jìn)的加入項(xiàng)目類別貢獻(xiàn)函數(shù)進(jìn)行推薦的協(xié)同過(guò)濾算法。雖然本文改進(jìn)了推薦算法的多樣性,并且多樣性與精確性是一對(duì)矛盾的概念,但實(shí)驗(yàn)依然關(guān)注精確性,力求在保證一定精確性的前提下改進(jìn)算法多樣性。關(guān)于懲罰因子的取值,分別取0.4,0.5,0.6,0.7,0.8進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)α取0.5時(shí),改進(jìn)算法的P值最大,因此實(shí)驗(yàn)中α取0.5。精確性實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 推薦算法精確性比較

從圖2可以看出,2種算法在最近鄰數(shù)遞增時(shí),呈現(xiàn)先上升后下降的趨勢(shì),這是由于用戶所看電影一般都不會(huì)只是一種或少數(shù)幾種類別,當(dāng)最近鄰取值增大時(shí),更多類別的項(xiàng)目打分將會(huì)影響最終的預(yù)測(cè)評(píng)分,這時(shí)推薦效果會(huì)更好,而當(dāng)最近鄰數(shù)大于一定值時(shí),由于影響最終評(píng)分的項(xiàng)目太多,其中很多可能是無(wú)用的,導(dǎo)致推薦效果不理想。從圖2中還可以看出,當(dāng)k=20時(shí),算法精確性最高,因此在多樣性實(shí)驗(yàn)中,最近鄰的值取20。

多樣性實(shí)驗(yàn)結(jié)果如圖3所示,可以看出,無(wú)論推薦個(gè)數(shù)是多少,傳統(tǒng)協(xié)同過(guò)濾算法的ILS值都大于改進(jìn)后的 ILS值,即改進(jìn)算法提高了推薦多樣性。隨著推薦個(gè)數(shù)的增加,ILS值不斷變小,這是由于越來(lái)越多的項(xiàng)目被推薦導(dǎo)致。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在提高推薦多樣性的同時(shí)降低了精確性,但由圖2可知,精確性差距并不大。該結(jié)果與實(shí)驗(yàn)前的預(yù)期結(jié)果相吻合,即多樣性得到提高的同時(shí),精確率稍有降低,這是因?yàn)楦倪M(jìn)的協(xié)同過(guò)濾算法仍是根據(jù)相似度進(jìn)行推薦,所以精確率不會(huì)有大幅下降。

圖3 推薦算法多樣性比較

目前,到底是多樣性提高獲得的收益大,還是精確率下降帶來(lái)的損失大還沒(méi)有明確的結(jié)果,這個(gè)問(wèn)題的難點(diǎn)在于學(xué)術(shù)界沒(méi)有符合條件的實(shí)驗(yàn)環(huán)境,也無(wú)法獲得多樣性比精確率更重要的場(chǎng)景下的收益情況。然而,從文獻(xiàn)[13,19-20]以及上述實(shí)驗(yàn)中可以得出以下規(guī)律:在精確率降低較小的情況下,通常可以得到大幅提高多樣性。以文獻(xiàn)[19]中的實(shí)驗(yàn)結(jié)果做具體說(shuō)明,因?yàn)樵撐墨I(xiàn)中用到的實(shí)驗(yàn)數(shù)據(jù)集之一是Netflix提供的數(shù)據(jù)集,在2.2節(jié)提到的多樣性比精確率更重要的應(yīng)用場(chǎng)景中,Netflix類似的電影租賃商符合該應(yīng)用場(chǎng)景。文獻(xiàn)[19]給出了5種算法的多樣性提高以及精確率損失情況,列出當(dāng)精確率降低0.1%~10%時(shí),多樣性提高比例。以精確率降低0.1%為例,多樣性提高最小的一組實(shí)驗(yàn)結(jié)果為,當(dāng)精確率降低0.1%時(shí),多樣性提高7.3%;多樣性提高最大的一組實(shí)驗(yàn)結(jié)果為,當(dāng)精確率降低0.1%時(shí),多樣性提高20.1%。這種多樣化的推薦結(jié)果能夠鼓勵(lì)用戶去租賃“長(zhǎng)尾”類型的電影(即位于銷售分布尾部的冷門電影),而此類電影相對(duì)新發(fā)行或熱門電影通常只需支付更少的版權(quán)費(fèi)用,從而可提高商家收益。

5 結(jié)束語(yǔ)

本文通過(guò)原始信息分析推薦系統(tǒng)多樣性低的原因,考慮到項(xiàng)目屬性可以區(qū)分同類項(xiàng)目,提出在傳統(tǒng)協(xié)同過(guò)濾推薦算法中加入項(xiàng)目屬性信息進(jìn)行推薦的改進(jìn)算法。實(shí)驗(yàn)結(jié)果證明,改進(jìn)算法提高了推薦多樣性,但精確率稍有降低,然而目前沒(méi)有明確的結(jié)論證明多樣性提高帶來(lái)的收益大于精確率下降帶來(lái)的損失,同時(shí)在實(shí)驗(yàn)過(guò)程中,因?yàn)閿?shù)據(jù)量大導(dǎo)致實(shí)驗(yàn)時(shí)間較長(zhǎng),對(duì)計(jì)算機(jī)硬件要求也較高。并且考慮到大數(shù)據(jù)時(shí)代的到來(lái),將改進(jìn)算法應(yīng)用于大數(shù)據(jù)環(huán)境,解決精確性和多樣性相互制約的矛盾問(wèn)題以及尋找符合條件的實(shí)驗(yàn)環(huán)境來(lái)論述多樣性提高對(duì)算法的影響,是下一步研究的主要方向。

[1] Zhou Tao,Kuscsik Z,Liu Jianguo.Solving the Apparent Diversity-accuracy Dilemma of Recommender Systems[J]. Proceedings of National Academy of Sciences of the United States of America,2010,107(10):4511-4515.

[2] 劉建國(guó).周 濤.汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.

[3] 葉錫君,曹 萍.ASUCF:基于平均相似度的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(12):61-67.

[4] 韋素云,業(yè) 寧,吉根林,等.基于項(xiàng)目類別和興趣度的協(xié)同過(guò)濾推薦算法[J].南京大學(xué)學(xué)報(bào),2013,49(2):142-149.

[5] 楊 博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(bào),2011,34(3):337-350.

[6] 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè).基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2003,14(9):1621-1628.

[7] 周 濤.個(gè)性化推薦的十大挑戰(zhàn)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(7):48-61.

[8] Lv Linyuan,Medo M,Yeung Chi-Ho,et al.Recommender System[J].Physics Reports,2012,519(1):1-49.[9] 黃杜鵑.基于多樣性的社會(huì)化推薦系統(tǒng)研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2012.

[10] 安 維,劉啟華,張李義.個(gè)性化推薦系統(tǒng)的多樣性研究進(jìn)展[J].圖書情報(bào)工作,2013,57(20):127-135.

[11] 李晶皎,孫麗梅,王 驕.Web-based推薦系統(tǒng)中的會(huì)話推薦多樣性研究[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(6):1265-1269.

[12] Gediminas A,Young O K.Improving Aggregate Recommendation Diversity Using Ranking-based Techniques[J].IEEE Transactions on Know ledge and Data Engineering,2011,24(5):896-911.

[13] Neal L,Stephen H,Licia C,et al.Temporal Diversity in Recommender Systems[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2010:210-217.

[14] 岳可誠(chéng).個(gè)性化推薦技術(shù)的多樣性研究[D].合肥:安徽大學(xué),2013.

[15] Grouplens[EB/OL].[2014-04-15].http://grouplens. org/datasets/movielens/.

[16] 劉建國(guó),周 濤,郭 強(qiáng),等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.

[17] Zhang Mi,Hurley N.Avoiding Monotony:Improving the Diversity of Recommendation Lists[C]//Proceedings of ACM Conference on Recommender Systems.New York,USA:ACM Press,2008:123-130.

[18] Ziegler C N,Lausen G.Making Product Recommendations More Diverse[J].IEEE Data Engineering Bulletin,2009,32(4):23-32.

[19] Adomavicius Y K.Toward More Diverse Recommendations:Item Re-ranking Methods for Recommender Systems[C]//Proceedings of the 19th Workshop on Information Technologies and System s.Berlin,Germ any:Springer,2009:3-10.

[20] Chen Jinpeng,Liu Yu,Hu Jun,et al.A Novel Framework for Improving Recommender Diversity[M]//Cao Longbing,Motoda H,Srivastava J,et al. Behavior and Social Computing.Berlin,Germany:Springer,2013:129-138.

編輯 陸燕菲

Study on Diversity of Collaborative Filtering Recommendation Algorithm Based on Item Category

YE Xijun,GONG Yue
(School of Information Science and Technology,Nanjing Agricultural University,Nanjing 210095,China)

Diversity of recommendation system becomes an important index of evaluating the quality of the recommendation.To improve the individual diversity of traditional collaborative filtering recommendation algorithm,the improved algorithm is based on item-based collaborative filtering recommendation algorithm,which adds item category information and defines a contribution function to optimize the formula of prediction score.It increases the item s scores which have not exactly the same item category with the objective item,and achieves the best item s recommendation. Experimental result proves the improved algorithm strengthens the individual diversity of recommendion system which at the same time keeps a high precision.As a result,it has a higher quality of recommendation.

collaborative filtering;diversity;item category;contribution function;prediction score;Intra-list Similarity(ILS)index

葉錫君,龔 玥.基于項(xiàng)目類別的協(xié)同過(guò)濾推薦算法多樣性研究[J].計(jì)算機(jī)工程,2015,41(10):42-46,52.

英文引用格式:Ye Xijun,Gong Yue.Study on Diversity of Collaborative Filtering Recommendation Algorithm Based on Item Category[J].Computer Engineering,2015,41(10):42-46,52.

1000-3428(2015)10-0042-05

A

TP391

國(guó)家自然科學(xué)基金資助項(xiàng)目(61403205);江蘇省高等教育教改研究基金資助項(xiàng)目(2013JSJG195)。

葉錫君(1964-),男,副教授、博士,主研方向:數(shù)據(jù)挖掘,知識(shí)發(fā)現(xiàn),生物信息學(xué);龔 玥,碩士研究生。

2014-09-17

2014-11-27E-m ail:yexj@njau.edu.cn

猜你喜歡
用戶實(shí)驗(yàn)系統(tǒng)
記一次有趣的實(shí)驗(yàn)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 欧美乱妇高清无乱码免费| 亚洲精品综合一二三区在线| 欧美精品一区在线看| 亚洲精品第一页不卡| 亚洲色图欧美在线| 国产欧美日韩另类精彩视频| 亚洲国产综合自在线另类| 波多野结衣一二三| 九九热免费在线视频| 亚洲欧美一级一级a| 精品一区二区久久久久网站| 91系列在线观看| 91精品免费久久久| 色九九视频| 国产一区二区精品福利| 国产精品亚洲va在线观看| 99精品一区二区免费视频| 国产精品三级专区| 国产91成人| 久久久精品国产SM调教网站| 中文字幕无码av专区久久| 日韩av无码精品专区| 午夜国产精品视频| 啦啦啦网站在线观看a毛片| 欧美有码在线观看| 漂亮人妻被中出中文字幕久久| 中文字幕人成乱码熟女免费| 在线播放91| 婷婷午夜影院| 欧美中文字幕在线播放| 亚洲女同欧美在线| 国产日韩欧美视频| 国产成人精品午夜视频'| 国产丝袜第一页| 在线高清亚洲精品二区| 无码一区18禁| 精品丝袜美腿国产一区| 欧美日韩在线第一页| 视频一本大道香蕉久在线播放| 日本午夜三级| 欧美色视频在线| 久久毛片网| 午夜不卡视频| 美女潮喷出白浆在线观看视频| 欧美午夜理伦三级在线观看| 国产精品三区四区| 玖玖精品视频在线观看| 色有码无码视频| 久精品色妇丰满人妻| 日本午夜精品一本在线观看| 亚洲第一成年网| 国产天天色| 欧美精品成人一区二区在线观看| 国产96在线 | 中文字幕在线永久在线视频2020| 婷婷久久综合九色综合88| 国产91蝌蚪窝| 青青草原国产精品啪啪视频| 国产麻豆va精品视频| 99免费在线观看视频| 国产精品成人AⅤ在线一二三四| 色噜噜在线观看| 91精选国产大片| 亚洲AV人人澡人人双人| 日韩精品无码不卡无码| 噜噜噜久久| 青青草一区二区免费精品| 久久久久无码精品| 超碰色了色| 国内精品久久久久鸭| 国产精品自在线天天看片| 国产成人综合亚洲欧美在| 精品久久香蕉国产线看观看gif| 天堂av高清一区二区三区| 中国黄色一级视频| 波多野结衣中文字幕久久| 一本久道久久综合多人| 日韩 欧美 小说 综合网 另类| 日本精品中文字幕在线不卡| 偷拍久久网| Jizz国产色系免费| 粉嫩国产白浆在线观看|