王永貴,林佳敏,何佳玉
1.遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島125105
2.遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島125105
近年來,在海量的信息時代下,互聯(lián)網(wǎng)技術(shù)快速發(fā)展。推薦系統(tǒng)已經(jīng)融入了人們網(wǎng)絡(luò)生活中的方方面面,作為目前突出的應(yīng)用網(wǎng)絡(luò)個性化來解決信息過載問題的技術(shù),其能夠快速引導(dǎo)用戶獲得想要的信息。現(xiàn)有的推薦算法主要是關(guān)注單一用戶的建議,在日常活動中,用戶是以各式各樣的群組形式出現(xiàn),例如看電影、聚餐、團購、旅游等,這就促進了群組推薦系統(tǒng)的發(fā)展。與現(xiàn)有的個性化推薦不同,群組推薦既需要考慮群組內(nèi)每個成員的偏好,還需考慮整個群體的偏好,根據(jù)組員的共同特征進行推薦,由于推薦準(zhǔn)確度的影響因素復(fù)雜,因此提高群組推薦準(zhǔn)確度照比單一推薦難度較大。2011年ACM 推薦系統(tǒng)大會(RecSys2011)以“為家庭群組推薦電影”為主題舉辦了上下文感知電影推薦挑戰(zhàn)賽(CAMRa2011),促進了群組推薦在電影、餐飲、旅游等領(lǐng)域的推廣與應(yīng)用[1-2]。群組推薦研究受到越來越多的關(guān)注并成為一個活躍的研究領(lǐng)域。
為了提高群組推薦的準(zhǔn)確度,國內(nèi)外需要研究者對群組推薦系統(tǒng)進行了多方面的改進。針對創(chuàng)建群組方法,文獻[3]通過將每個用戶的偏好與項目的特征進行相似度比較,偏好相似的用戶劃分為一個群組,提高了推薦精度,但對于龐大數(shù)據(jù)集,相似度計算時間復(fù)雜度偏高;為了降低復(fù)雜度,文獻[4]利用K-meams聚類分別基于時間點和標(biāo)簽為選擇依據(jù)將用戶、項目劃分到多個簇中進行推薦,提高了后續(xù)群組推薦的精度和穩(wěn)定性,但K-meams屬于硬聚類,算法將每一個處理對象劃分到互斥的數(shù)據(jù)集中,與實際應(yīng)用中用戶可以分屬在不同群組的情況略有差異,影響了群組推薦的效果;文獻[5]將K-means聚類進行優(yōu)化,結(jié)合了遺傳算法生成網(wǎng)絡(luò)社交圈,計算圈子中重疊的用戶的狀態(tài)并進行群組推薦,有效地提高了推薦的準(zhǔn)確度,但這種方法僅在小規(guī)模群組內(nèi)推薦效果提高顯著,大規(guī)模的群組推薦效果略有不佳。針對群組推薦中如何融合整體成員偏好的問題,文獻[6]提出一種基于聊天的假期計劃群組推薦系統(tǒng),它將推薦作為一個增量過程,用戶可以對項目進行點評,推薦中用戶在閱讀其他成員對項目的評價后需要表達自己的意見,對于新用戶,他們的偏好取決于老成員的偏好和行為,因此對于沒有發(fā)表過評論的用戶不能對其他用戶產(chǎn)生影響,并且這個系統(tǒng)時間復(fù)雜度較高;文獻[7]提出一種根據(jù)群組成員之間的討論信息獲取成員偏好的酒店群組薦系統(tǒng),該系統(tǒng)可以考慮每個成員的意見,但數(shù)據(jù)的稀疏性影響推薦結(jié)果;文獻[8]提出一種針對旅游群組的推薦算法,該系統(tǒng)考慮了組中用戶的關(guān)系從而預(yù)先設(shè)置了影響權(quán)重(權(quán)重通過分析定義),具有較好的推薦效果,但它仍存在局限性,如爸爸與兒子的關(guān)系密切,但興趣可能和兒子完全不同,該推薦的公平性和成員滿意度可能降低;文獻[9]提出的算法考慮到地理位置不同和用戶關(guān)系等因素會影響用戶權(quán)重,提出地理社會群組推薦模型,將不同權(quán)重的群體成員偏好進行融合,實驗證明了方法的有效性,但在大規(guī)模群組內(nèi)算法準(zhǔn)確度仍有待提高;文獻[10]通過描述組內(nèi)用戶之間的Hellinger 距離來提取潛在的信任信息建立社會關(guān)系矩陣,群組推薦效果比傳統(tǒng)算法效果更好,但未考慮信任的非對稱距離關(guān)系的影響。
綜上所述,現(xiàn)有的群組推薦中存在以下方面需要進一步研究:(1)成員劃分到群組的方法主要由隨機群組或結(jié)合傳統(tǒng)硬聚類,但實際情況是,有共同偏好的用戶會優(yōu)先組成群,并且每個用戶可以屬于多個群組,這樣就會影響推薦效果;(2)現(xiàn)有的獲取群組成員相互影響的方法如設(shè)置固定的權(quán)重限制存在一定的局限性,忽略了個別影響力因子大的用戶對整個群體的影響,且在大規(guī)模的群組中推薦的滿意度與準(zhǔn)確率偏低;(3)現(xiàn)有的群組推薦忽略成員之間的隱式信任,包括共同評分項目與評分距離等因素,導(dǎo)致推薦精度偏低。本文的重點在于改進群組推薦在群組創(chuàng)建與群組內(nèi)成員影響的計算方法,提高推薦的準(zhǔn)確性和成員的滿意度。
針對上述問題,本文提出了一個考慮領(lǐng)導(dǎo)者影響與隱式信任度的群組推薦算法,該算法的優(yōu)勢在于:
(1)利用模糊C均值聚類(FCM)算法與皮爾遜相關(guān)性(PCC)結(jié)合的方法劃分高相似度用戶群組,提高群組成員之間的相似性。
(2)使用一種領(lǐng)導(dǎo)者影響的計算方法獲取領(lǐng)導(dǎo)者影響權(quán)重,領(lǐng)導(dǎo)者是在與群組活動相關(guān)的領(lǐng)域中擁有經(jīng)驗和知識的人,他們比其他成員更受信任并且對成員的影響較大。領(lǐng)導(dǎo)還可以向成員提供相似的觀點,考慮到小組成員之間的信任度和相似度,將信任度和相似度最高的人選為小組的領(lǐng)導(dǎo)者,并將成員的意見引向共同的興趣,并采用隱式信任度量計算方法,結(jié)合相似度和信任度獲取成員影響權(quán)重,以保持群組成員間的公平性,提高領(lǐng)導(dǎo)者發(fā)現(xiàn)和影響過程的效率。提高推薦的準(zhǔn)確度。
(3)引入時間因子,在評分預(yù)測時考慮時間因素,根據(jù)人類記憶遺忘曲線提出的一種模擬人類興趣變化的時間函數(shù),將該函數(shù)融入到項目的評分預(yù)測。通過不同評分時間給予不同得分權(quán)重,來模擬用戶的興趣變化,更能準(zhǔn)確預(yù)測用戶對項目的評分。
聚類[11]是一種機器學(xué)習(xí)技術(shù),表示在無規(guī)則的龐大數(shù)據(jù)集中將相似的數(shù)據(jù)歸為一組(類),其中同一組的數(shù)據(jù)相似度較高,兩個不同組中的任意兩個數(shù)據(jù)相似度較低。該技術(shù)提高了數(shù)據(jù)挖掘的效率,特別是在大數(shù)據(jù)研究中。群組的形成[12]是群組推薦的首要基礎(chǔ)環(huán)節(jié),通過聚類算法找到一群具有相似偏好興趣的用戶是當(dāng)前熱門的創(chuàng)建群組的方法,它將相似的用戶數(shù)據(jù)匯聚,形成不同的簇,大大減少了搜索用戶創(chuàng)建群組的時間。大多數(shù)的群組發(fā)現(xiàn)使用的聚類如K-means 聚類算法屬于硬聚類,即將一個用戶數(shù)據(jù)準(zhǔn)確地歸屬于一類簇中,雖然在以往的研究中得到了很好的效果,但在與實際應(yīng)用中一個用戶可以分屬于多個群組的情況不符,因此本文針對以上選擇了模糊C 均值聚類算法對初始用戶數(shù)據(jù)進行聚類。模糊C為軟聚類算法,可以將用戶數(shù)據(jù)以不同隸屬度分屬到不同的簇中,實現(xiàn)了一戶多組,并與皮爾遜相關(guān)系數(shù)結(jié)合檢測每個簇中的相似用戶,創(chuàng)建高相似度的群組,為后續(xù)的群組推薦奠定了更精準(zhǔn)的基礎(chǔ)。
模糊C 均值聚類算法(fuzzy c-means clustering algorithm,F(xiàn)CM)[13]是一種從模糊屬性高度普遍的數(shù)據(jù)集中提取規(guī)則和挖掘數(shù)據(jù)的有效算法。FCM聚類算法在每次迭代時,會計算得到一個隸屬度矩陣和一個聚類中心的集合。根據(jù)算出的隸屬度矩陣和聚類中心集合求出目標(biāo)函數(shù)的值。算法最終目的是盡可能找到較小的目標(biāo)函數(shù)值。
設(shè)數(shù)據(jù)樣本集為X={x1,x2,…,xn}的有限集合,其中n是樣本數(shù)。定義將數(shù)據(jù)集X劃分為k個簇,簇中心為C=ci(i=1,2,…,k),隸屬度矩陣U=[uij],目標(biāo)函數(shù)定義使聚類算法最小化公式如下:

其中,m表示模糊聚類中的模糊指數(shù),m∈[1.25,2.5];uij表示元素xi在以ci為中心的簇中的隸屬度,0≤uij≤1,1≤i≤k,1≤j≤n;∑uij=1 表示樣本點到任意聚類中心的隸屬度總和為1;‖xi-cj‖表示樣本點xi到聚類中心ci之間的歐氏距離。反復(fù)迭代更新隸屬度和聚類中心,使得目標(biāo)函數(shù)最小化,即Jm(U,C)收斂,利用上述條件使目標(biāo)函數(shù)導(dǎo)數(shù)為零,得到隸屬度和聚類中心的迭代更新公式。
算法FCM步驟如下:

皮爾遜相關(guān)系數(shù)(Pearson correlation co-efficient,PCC)[14]是廣泛用于相似度測量的著名方法之一。PCC通常是將用戶對共同物品的評價作為衡量他們相似度的標(biāo)準(zhǔn),計算相似度的準(zhǔn)則如公式(4)所示:

其中,ru,i、rv,i分別表示用戶u對項目i的評分和用戶v對項目i的評分;分別表示用戶u的平均評分和用戶v的平均評分,相似度值在[-1,+1]之間。在此測度中,相關(guān)系數(shù)為負的用戶不相似,相關(guān)值為正的用戶相似。
信任是社交網(wǎng)絡(luò)中最重要的概念之一,可以快速影響用戶的決策。信任是指人與人之間信任程度,通過對一個人的能力、了解程度和可靠性等來建立對這個人的信任,它顯示用戶對他人的信任程度。信任度量是指利用信任來幫助決定群體中成員間的互動程度,它的一個重要屬性是不對稱,也就是說成員彼此間信任的程度是不一樣的。故在獲取成員影響和選擇領(lǐng)導(dǎo)者的過程中,文本采用PCC和信任度量相結(jié)合的方法,其中為了度量用戶之間的信任值,本文使用了一種隱式的信任度量方法彌補PCC忽視的偏好距離的問題,即使用非對稱的信任度量方法。所提出的信任度量是基于兩個用戶對被評價對象的項目的交集partner和他們之間的距離distance的線性組合隱含地估計的。信任度量如公式(5)所示:

其中,partner表示所建立的用戶之間非對稱信任度,distance表示用戶的評分距離(歐氏距離),由公式(6)、(7)所示:

其中,Iu、Iv表示成員u、v評分不為零的項目,Iu∩Iv表示成員u、v共同評分的項目。由于partner關(guān)系值在[0,1]的范圍內(nèi),distance距離值范圍是[0,1],Trust信任值也在[0,1]范圍內(nèi)。
在群體活動中,群組推薦以滿足一個群體的共同偏好為原則生成一個群組推薦列表。與傳統(tǒng)針對單一用戶推薦不同的是群組成員之間的偏好受彼此影響,故影響是群體活動中非常重要的因素之一。在本文中,影響分為領(lǐng)導(dǎo)者影響和成員影響,領(lǐng)導(dǎo)者影響是社會群體中最突出的因素之一。在小組活動中,領(lǐng)導(dǎo)者是成員中最信任的人,也是在與小組活動相關(guān)的領(lǐng)域中擁有經(jīng)驗和知識的人。此外,領(lǐng)導(dǎo)還可以向成員提供相似的觀點。為了得到領(lǐng)導(dǎo)者的影響值,需要在形成群組后在組中確定領(lǐng)導(dǎo)者,本文引入領(lǐng)導(dǎo)者影響方法,將成員信任度和相似度最高的用戶選為群組的領(lǐng)導(dǎo)者,并將成員的意見引向共同的興趣。領(lǐng)導(dǎo)者在群組內(nèi)的影響力被定義為相似度和信任度的總和比組內(nèi)成員人數(shù)N(除了領(lǐng)導(dǎo)者),相關(guān)的函數(shù)如下。

其中,領(lǐng)導(dǎo)者影響力大小體現(xiàn)了其在群體中的影響程度,并用于計算領(lǐng)導(dǎo)者對成員的影響權(quán)重,其取值范圍為[0,1]。
得出領(lǐng)導(dǎo)者在群組內(nèi)的影響后,利用公式(10)、(11)分別估算出領(lǐng)導(dǎo)者L和成員v彼此間的影響權(quán)重和成員u與成員v彼此間的影響權(quán)重[15-16]。領(lǐng)導(dǎo)者對成員的影響不是恒定的,而是根據(jù)每個成員對信任和相似值的依賴程度而變化。此外,各成員的影響權(quán)值是可變的,且各成員之間的影響權(quán)值是不對稱的。

其中,WeightL,v表示領(lǐng)導(dǎo)者L對成員v的影響權(quán)重值;Weightu,v表示成員u對成員v的影響權(quán)重值。
為了展示群組內(nèi)領(lǐng)導(dǎo)者與成員之間的影響過程,定義一組樣本,其中包含5名成員。影響過程中的初始信息包括計算成員的相似度和信任度,分別如表1、表2所示。

表1 成員相似度Table 1 Similarity of members

表2 成員信任值Table 2 Trust of members
如表1 所示,可以看出PCC 具有一定局限性,如用戶U1對用戶U2的相似度值等于用戶U2對用戶U1的相似度值,并沒有考慮到用戶評分之間的距離。因此采用隱式信任度量方法,如表2 所示,通過成員關(guān)系級別和他們的評分距離來解決PCC的局限性,該方法的特點是用戶的信任度屬于不對稱性,即用戶U1對U2的信任值與U2對U1的信任值是不同的,信任度的不對稱性取決于成員之間的伙伴關(guān)系水平,如果兩個用戶的評價項目數(shù)量相同,則他們對彼此的信任值相同,即U1對U5的信任值。由于事先構(gòu)建了群組的評分矩陣,成員的信任值估算是統(tǒng)一的,信任值的大小基于項目的增多而變得更加多樣化。根據(jù)表1、表2 中提供的相似度和信任值,當(dāng)一個成員對他人的相似度和信任值之和達到最大值時,該成員被選為領(lǐng)導(dǎo)者。每個成員的相似性和信任度的總和根據(jù)公式(8)以如下形式計算:

根據(jù)所有的值可以看出,U2值最大為3.490,被選為小組領(lǐng)導(dǎo)者。因此領(lǐng)導(dǎo)者影響值根據(jù)公式(9)得出:

在確定領(lǐng)導(dǎo)者并計算其在群組內(nèi)的影響后,利用公式(10)估計領(lǐng)導(dǎo)者和成員之間相互影響的權(quán)重,領(lǐng)導(dǎo)者U2對成員U1影響與成員U1對領(lǐng)導(dǎo)者U2影響按以下方式計算,權(quán)重矩陣如表3表示。


表3 成員影響權(quán)重值Table 3 Influence weights of members on each other
根據(jù)群組成員的影響力來評估每個成員對項目的評分預(yù)測。一個成員對某個項目的評分是根據(jù)他的評價減其他成員的評價,乘影響權(quán)重來調(diào)整的。以往的群組推薦中沒有考慮到成員的興趣偏好隨時間變化而變化的問題,例如用戶在某電影剛上映時,興趣度很高,隨著時間的推移,用戶對這部電影感興趣的程度隨著電影熱度的降低而下降,這就是興趣遷移現(xiàn)象。所以忽略時間推移對群組推薦結(jié)果的影響具有片面性,必須要考慮時間因素對推薦結(jié)果產(chǎn)生的影響,體現(xiàn)群組推薦的實時性和提高推薦準(zhǔn)確度。
艾賓浩斯記憶遺忘曲線[17-18]是用來模擬人類大腦對新事物遺忘規(guī)律的曲線模型,它指出人類的記憶量隨著時間的推移遺忘的速度會逐漸減慢,最后達到一個基本平穩(wěn)的值,如圖1所示。

圖1 艾賓浩斯曲線Fig.1 Ebbinghaus forgetting curve
用戶的興趣同人類記憶遺忘過程類似,都是隨時間推移呈下降趨勢。因此,根據(jù)人類遺忘曲線設(shè)置權(quán)重是解決興趣遷移問題的一種方法。傳統(tǒng)的方法是在計算相似度時引入時間函數(shù)來改進相似度計算公式,經(jīng)實驗證明這種引入方式可以提高推薦效果。在之后的研究發(fā)現(xiàn),在預(yù)測評分時引入時間函數(shù)來改進預(yù)測評分公式也是一種有效方法。時間權(quán)重函數(shù)如公式(12)、(13)所示:

其中,f(tvi)表示時間權(quán)重因子,且f(tvi)∈(0,1),Δt表示兩個時間差值;tvi表示用戶v對項目i的評分時間,tvf表示用戶v初始的評分時間。
本文引入基于人類記憶遺忘曲線提出的模擬人類興趣變化的時間函數(shù),將該函數(shù)引入到評分預(yù)測中,通過賦予不同評分時間不同得分權(quán)重的方式模擬用戶的興趣變化。改進后的評分預(yù)測公式如下所示:

其中,用戶評分時間越久遠,時間權(quán)重f(tvi)越小,預(yù)測評分值Eu,i越低;如果一個成員未能對一個項目進行評分,那么他的評分將被認為等于系統(tǒng)中的最低評分,即ru,i=1。如果預(yù)測評分小于1,則必須將其重新調(diào)整為1。如果預(yù)測的評分大于5,則必須將其調(diào)整為5。
為了得到群組對某一項目的預(yù)測評分,群組推薦算法涉及到群組中用戶的偏好融合問題。群組偏好融合策略[19]是群組推薦的關(guān)鍵技術(shù),是將群組成員的偏好融合緩解群組成員之間的偏好沖突,使推薦結(jié)果盡可能滿足所有群組成員。偏好融合策略包括均值策略(average strategy,AVG)、公平策略(fairness strategy)、最大滿意度策略(most pleasure strategy,MP)和最小痛苦策略(least misery strategy,LM)等[20-23]。使用不同的融合策略可以滿足群組共同偏好、公平性、可理解性等不同的需要。具體定義如下:
定義1(均值策略)以群組所有成員的評分取平均值作為群組對項目的評分。

其中,Pgi表示群組g對項目i的評分,rui表示用戶u對項目i的評分。
定義2(公平策略)以輪流選擇群組內(nèi)某成員的評分作為群組對項目的評分。

定義3(最大滿意度策略)以群組內(nèi)最高的成員評分作為群組對項目的評分。

定義4(最小痛苦策略)以群組內(nèi)最低的成員評分作為群組對項目的評分。

策略的選擇應(yīng)根據(jù)應(yīng)用領(lǐng)域、成員偏好和群體特征選擇合適的聚合類型。均值策略是群組推薦系統(tǒng)中目前最常用的偏好融合策略,但推薦結(jié)果可能引起個別用戶的不滿,即“痛苦”,最小痛苦策略則是為了避免這種“痛苦”現(xiàn)象,將最低評分作為群組評分,過濾可能引起痛苦的低評分,但可能因為惡意用戶評分影響推薦結(jié)果。文獻[24]根據(jù)調(diào)研真實群組的用戶行為表示,在小規(guī)模的數(shù)據(jù)集上對多種融合策略的推薦算法進行對比,均值策略的推薦效果最好;文獻[25]基于內(nèi)容的群組推薦中最小痛苦策略的推薦準(zhǔn)確度最高;本文分別選擇了均值策略和最小痛苦策略融合群組成員評分,以確定每個項目的群組得分,在對所有項目進行分組評分后,推薦n個得分最高的項目。算法流程圖如圖2 所示。陰影部分為本文創(chuàng)新。

圖2 本文算法流程圖Fig.2 Flow chart of proposed algorithm
將本文算法GRS-IT 與SC-GRS 算法的時間復(fù)雜度進行對比分析。
模糊C 均值聚類、相關(guān)性、信任度計算權(quán)重和評分融合四部分組成本文算法的復(fù)雜度。設(shè)項目的總數(shù)為Im,群組數(shù)為Ng,群規(guī)模為,N個用戶加入個群組,每個成員對個項目評分,每個項目有個用戶評分,成員信任關(guān)系數(shù)量為,相關(guān)性復(fù)雜度為,信任度復(fù)雜度為,評分融合復(fù)雜度,可以看出,本文算法的運算復(fù)雜度主要受以上影響,且為線性變化。SC-GRS 算法主要包括GA 算法、K-mean 聚類、相關(guān)性,假設(shè)在第k(k<Tmax)次迭代時滿足終止條件,每次迭代時間為Ti(i=1,2,…,k),GA 算法復(fù)雜度為O(k×Ti),相關(guān)性復(fù)雜度為。分析可知SC-GRS算法與本文算法在運行時間性能上的差異主要取決于迭代的運算復(fù)雜度與群組規(guī)模大小,SC-GRS 算法僅在較小規(guī)模的群組中效果更好,隨著群組規(guī)模的增大效果降低較快,且迭代次數(shù)越高,時間復(fù)雜度越高。相比SC-GRS算法,GRS-IT算法的時間復(fù)雜度小于SC-GRS算法的時間復(fù)雜度,并且GRS-IT 算法在大規(guī)模數(shù)據(jù)集的實際應(yīng)用中更為合適,具有較大的優(yōu)勢。
為了更好地重現(xiàn)本文算法的仿真結(jié)果,仿真參數(shù)FCM初始模糊指數(shù)設(shè)置為2,迭代終止閾值設(shè)為1.0E-6,用戶的評分?jǐn)?shù)據(jù)如果小于1 的評分則設(shè)置為1,如果大于5 的評分則設(shè)置為5,評價指標(biāo)中滿意度的閾值設(shè)置為4。具體如表4所示。

表4 參數(shù)信息Table 4 Parameter information
目前,根據(jù)數(shù)據(jù)集屬性,群組推薦在國內(nèi)外普遍使用傳統(tǒng)個性推薦方法的數(shù)據(jù)集并從中創(chuàng)建群組。本文采用的是推薦系統(tǒng)領(lǐng)域著名的MovieLens100K 數(shù)據(jù)集來進行實驗,實驗中隨機劃分80%訓(xùn)練數(shù)據(jù)集訓(xùn)練模型和20%測試數(shù)據(jù)集檢測算法的準(zhǔn)確度。數(shù)據(jù)集信息見表5。其中,數(shù)據(jù)集中用戶至少對20部電影進行評分,從1~5對項目進行排序,1分表示不感興趣,5分表示最感興趣。

表5 數(shù)據(jù)集信息Table 5 Dataset information
本文選擇歸一化折損累計增益(normalized discounted cumulative gain,nDCG)衡量生成Top-n推薦列表的準(zhǔn)確率,公式如下所示。

其中,{i1,i2,…,ik}是項目的評分列表;g表示群組,n表示推薦列表的前n個;rg、ik表示群組對項目ik的真實評分。nDCG是DCG的真實值與DCG的最大值的比值,DCG的最大值即推薦列表的最佳DCG值,nDCG的數(shù)值越大,表示推薦的準(zhǔn)確度越高。公式如下所示:

此外,均方根誤差RMSE是評價推薦系統(tǒng)的常用標(biāo)準(zhǔn),衡量用戶的真實評分與預(yù)測評分的均方根誤差指標(biāo),本文選擇RMSE 作為評價推薦質(zhì)量好壞的指標(biāo),公式如下所示:

其中,N表示群組中參與預(yù)測的項目數(shù)目;ri表示成員/用戶對項目i的實際評分;表示成員/用戶對項目i的預(yù)測評分,RMSE結(jié)果值越小,推薦的準(zhǔn)確度越高。
以上介紹的nDCG 和RMSE 標(biāo)準(zhǔn)用來評估本文算法的準(zhǔn)確度,為了評估群組成員對推薦結(jié)果是否滿意,本文使用一種滿意度指標(biāo)GSM,以群組每個成員為基礎(chǔ)衡量群組的滿意度,公式如下所示:

其中,為了提高實驗的準(zhǔn)確性和效率,設(shè)置一個成員的滿意度閾值,根據(jù)文獻[26]表示,滿意度閾值過低,可能導(dǎo)致群組推薦整體準(zhǔn)確性產(chǎn)生偏差,閾值設(shè)定過高,不能真實地反映推薦項目與用戶偏好情況,故閾值設(shè)置為4,即評分大于或等于4的成員對推薦的結(jié)果表示滿意;表示為成員評分在4分以上的項目;Ir表示推薦的項目;Nir表示推薦項目的個數(shù)。
為了評價本文算法的綜合性能,將本文GRS-IT 與其他群組推薦算法進行對比實驗。
(1)HERMES 群組推薦系統(tǒng),根據(jù)現(xiàn)有的成員關(guān)系設(shè)置不變權(quán)重預(yù)測成員評分,再通過聚合技術(shù)進行推薦。
(2)COM組推薦,通過聚集具有不同權(quán)重的成員來估計一個群組對項目的偏好。它能夠結(jié)合用戶的選擇歷史和個人對內(nèi)容因素的考慮,如地理影響,進行推薦。
(3)SC-GRS 群組推薦通過遺傳算法與K-mean 聚類生成圈子,社交圈的主要特征為用戶信任、用戶關(guān)系、用戶相似度,然后計算每個成員在各圈子中的狀態(tài),得到用戶在不同圈子中的影響大小,最后通過Top-n完成推薦。
圖3~圖6 的實驗利用均值策略和最小痛苦策略對以上三種群組推薦方法以及隨機用戶群組推薦方法作為參照對象與本文方法進行對比,并分別比較組規(guī)模在5、10、15、20,25 時群組推薦的準(zhǔn)確度,進行5 次測試再取平均值作為最終結(jié)果以保證實驗結(jié)果的公平性。在均值策略下的群組推薦結(jié)果對比如圖3 和圖5 所示;在最小痛苦策略下的群組推薦結(jié)果對比如圖4 和圖6所示。

圖3 均值策略下的RMSE對比圖Fig.3 RMSE contrast figure under AVG

圖4 最小痛苦策略下的RMSE對比圖Fig.4 RMSE contrast figure under LM

圖5 均值策略下的nDCG對比圖Fig.5 nDCG contrast figure under AVG

圖6 最小痛苦策略下的nDCG對比圖Fig.6 nDCG contrast figure under LM
由圖3 和圖4 分析可以看出,五種方法在群組規(guī)模擴大的過程中RMSE 值逐漸升高,而GRS-IT 通過FCM與PCC創(chuàng)建群組提高群組內(nèi)成員的相似性,并通過相似度與信任度選出群內(nèi)領(lǐng)導(dǎo)者從而獲取成員間影響權(quán)重,在群組規(guī)模從5到25的情況下能保持較低的誤差率,照比其他的三種方法改進推薦準(zhǔn)確度的效果明顯,顯示出GRS-IT算法的優(yōu)越性。
由圖5 和圖6 的實驗結(jié)果表明,在AVG 和LM 策略下,GRS-IT 在規(guī)模為5 時的nDCG 值最佳,分別為0.968 2、0.962 1。隨著群組規(guī)模的擴大,五種方法的nDCG 值逐漸下降,但GRS-IT 算法仍然保持著較高的準(zhǔn)確度,始終高于RANDOM、HERMES 和COM 群組推薦算法,SC-GRS 在群組規(guī)模較小時能保持較高的nDCG 值,但隨群組規(guī)模的擴大nDCG 值明顯下降,HERMES 由于使用固定權(quán)重的人際關(guān)系(如夫妻、兒女、父母、朋友等)來影響群組成員,需要提前設(shè)置關(guān)系權(quán)重,隨著規(guī)模的擴大成員關(guān)系減弱,推薦準(zhǔn)確度隨著規(guī)模的擴大而降低。GRS-IT算法對比AVG和LM下的nDCG結(jié)果可以看出,AVG的nDCG值普遍高于LM,具有更好的偏好融合效果。也能說明LM 因用戶的惡意評分等不良因素影響了推薦準(zhǔn)確度。本文算法采用不同融合策略的實驗對比如圖7所示。

圖7 不同融合策略下的nDCG對比圖Fig.7 nDCG contrast figure under different fusion strategies
推薦結(jié)果的驗證是評估的主要部分,因為群組推薦的目標(biāo)是向群組推薦合適的項目,以最大限度地提高群組成員的滿意度。實驗將GRS-IT與CF-AV、HERMES、SC-GRS進行比較,并分別在Top-7和Top-11兩種不同的推薦列表下對比所推薦項目的成員滿意度。HERMES、SC-GRS在上述實驗中已經(jīng)介紹,CF-AV在下面簡要介紹。
CF-AV,首先預(yù)測CF 策略的組中每個成員的電影評分。使用均值策略,利用預(yù)測的成員評分來確定群組評分,然后向群組推薦一個熱門電影列表。
實驗保持融合策略不變,采用AVG 對四種群組推薦方法進行對比,分別重復(fù)進行5次實驗再將實驗結(jié)果取平均值作為最終結(jié)果,并分別比較組規(guī)模在5、10、15、20、25時群組成員在Top-7、Top-11推薦下的滿意度。
如圖8所示,Top-7推薦的實驗結(jié)果表明,GRS-IT在規(guī)模為5、10、15、20、25 時的GSM 值分別為93.81%、88.95%、85.42%、80.32%、76.98%,且均高于其他三種算法的GSM值,四種算法的最高GSM值均是在群組規(guī)模為5 時,分別為93.81%、92.99%、84.56%、76.72%,且隨著規(guī)模的擴大GSM逐漸降低。實驗結(jié)果可以看出三組群組推薦算法的滿意度排序為:GRS-IT>SC-GRS>HERMES>CF-AV。

圖8 Top-7推薦下的成員滿意度對比圖Fig.8 GSM contrast figure for Top-7 recommendation
如圖9所示,通過上述方法Top-11推薦的實驗結(jié)果表明,GRS-IT 在規(guī)模為5、10、15、20、25 時的GSM 值分別為87.94%、85.9%、80.97%、75.14%、70.44%,且均高于其他三種算法的GSM值,四種算法的最高GSM值均是在群組規(guī)模為5 時,分別為87.94%、87.31%、82.66%、74.12%,且隨著規(guī)模的擴大GSM 逐漸降低。實驗結(jié)果可以看出在Top-11 推薦下四組群組推薦算法的滿意度排序為:GRS-IT>SC-GRS>HERMES>CF-AV。

圖9 Top-11推薦下的成員滿意度對比圖Fig.9 GSM contrast figure for Top-11 recommendation
本文通過模糊C 均值聚類算法和皮爾遜相關(guān)性創(chuàng)建高相似度群組,保證用戶可以隸屬于不同的群組中。為提高群組成員影響對推薦結(jié)果的準(zhǔn)確度,根據(jù)領(lǐng)導(dǎo)者影響力計算方法找出群組內(nèi)領(lǐng)導(dǎo)者并計算成員和領(lǐng)導(dǎo)者之間的影響權(quán)重。為改進相似度計算的對稱性,采用了一種非對稱性的隱式信任度量方法。引入基于人類遺忘曲線的時間權(quán)重函數(shù)改進群組成員興趣變化產(chǎn)生的影響評分結(jié)果,最后通過Top-n推薦將項目推薦給群組。實驗結(jié)果表明,在MoviesLens100K數(shù)據(jù)集上本文所提出的GRS-IT算法明顯提高了推薦的準(zhǔn)確度和群組成員的滿意度,具有較高的推薦質(zhì)量。
在未來的研究中,可以從融合策略方面進行研究,提出更適用的融合策略改進GRS-IT,不斷提高群組推薦的效果。