基于協(xié)同過濾技術(shù)的個(gè)性化圖書推薦系統(tǒng)研究*

2014-09-22 11:17:31楊永權(quán)

河南圖書館學(xué)刊 2014年6期

關(guān)鍵詞：圖書館

楊永權(quán)

關(guān)鍵詞：圖書館；協(xié)同過濾；推薦系統(tǒng)

摘要：針對傳統(tǒng)的大眾化推薦如熱門圖書推薦、新書推薦等無法為讀者提供個(gè)性化的圖書推薦服務(wù)，提出了構(gòu)建在協(xié)同過濾技術(shù)之上的圖書個(gè)性化推薦系統(tǒng)模型，分析了協(xié)同過濾技術(shù)在圖書推薦中的運(yùn)用原理及可行性，最后總結(jié)其優(yōu)缺點(diǎn)。

中圖分類號：G250 文獻(xiàn)標(biāo)識碼：A 文章編號：1003-1588（2014）06-0119-04

收稿日期：2014-05-13

*本文系2013年度廣東外語藝術(shù)職業(yè)學(xué)院立項(xiàng)課題《高職院校圖書館數(shù)字資源整合研究》（項(xiàng)目編號:2013G04)的研究成果之一。

1 協(xié)同過濾技術(shù)

1.1 算法介紹

協(xié)同過濾算法是在1992 年由 Goldberg 等人首先提出［1］，并將其成功應(yīng)用在研究型郵件推薦系統(tǒng) Tap-estry 中。協(xié)同過濾算法是利用集體智慧的一個(gè)典型方法，簡單來說，就是利用興趣相近、擁有共同經(jīng)驗(yàn)群體的喜好來推薦使用者感興趣的資訊，個(gè)人透過合作的機(jī)制給予資訊相當(dāng)程度的回應(yīng)（如評分、點(diǎn)評、購買等），并記錄下來以達(dá)到過濾的目的進(jìn)而幫助別人篩選資訊。該算法能夠?yàn)橛脩舭l(fā)現(xiàn)新興趣或者將用戶之前喜歡的類似物品推薦給用戶，相比基于內(nèi)容的過濾方法具有如下優(yōu)點(diǎn)：一是能夠過濾難以進(jìn)行機(jī)器自動內(nèi)容分析的如藝術(shù)品和音樂等信息［2］；二是可以對他人的經(jīng)驗(yàn)進(jìn)行共享；三是能夠利用相似用戶的反饋信息如評分或評價(jià)，增強(qiáng)系統(tǒng)的學(xué)習(xí)能力，從而不斷完善推薦系統(tǒng)的推薦功能。

1.2 算法過程

1.2.1 收集用戶偏好。可分為顯性和隱形收集，顯性如評分、評論、投票，隱形如購買、借閱、查看等［3］。在通常實(shí)際應(yīng)用中，我們提取的用戶行為一般都不止一種。收集了用戶行為數(shù)據(jù)后，還需要對數(shù)據(jù)進(jìn)行一定的預(yù)處理，之后，根據(jù)不同應(yīng)用的行為分析方法，得到一個(gè)用戶偏好的二維矩陣，一維是用戶列表，另一維是物品列表，值是用戶對物品的偏好。

接著是建立用戶模型過程，協(xié)同過濾算法的輸入數(shù)據(jù)通常表示為一個(gè)m*n的用戶——評價(jià)矩陣R(m,n),m行表示m個(gè)用戶數(shù)，n列表示n個(gè)項(xiàng)目，其中Rij表示第i個(gè)用戶對第j個(gè)物品的評分值。這里的評分值可以是用戶的瀏覽次數(shù)，購買次數(shù)等隱式的評分，還可以采用顯示評分，如用戶對商品的直接評分，如表1所示。

表1 用戶——項(xiàng)目評價(jià)矩陣R(m,n)

item 1 ...... Item j ...... Item n

user 1 R11 ...... R1j ...... R1n

...... ...... ...... ...... ...... ......

user i Ri1 ...... Rij ...... Rin

....... ...... ...... ...... ...... ......

user m Rm1 ...... Rmi ...... Rmn

1.2.2 找到相似的用戶或者物品，尋找最近鄰居。尋找距離最近的用戶，測算距離一般采用以下三種算法：基于相關(guān)系數(shù)的相似度、基于余弦相似度和基于調(diào)整余弦相似度計(jì)算。

第一，基于相關(guān)相似性（經(jīng)常使用皮爾森相關(guān)系數(shù)）計(jì)算。用于計(jì)算兩個(gè)變量之間的線性關(guān)系。假設(shè)用Iij表示用戶i和用戶j共同評分過的項(xiàng)目集合，那么可以利用皮爾森相關(guān)系數(shù)來度量用戶i和用戶j之間的相似性sim(i,j)，其中Ri,c是用戶i對項(xiàng)目c的評分，Rj,c是用戶j對項(xiàng)目c的評分，和分別表示用戶i和j在已經(jīng)評價(jià)過的項(xiàng)目上的平均分，如公式1所示。

(公式1)

第二，基于余弦相似性計(jì)算。把用戶評分看做n維空間上的向量，將那些用戶沒有評過分的項(xiàng)目的評分統(tǒng)一設(shè)置為0，那么就可以用矢量間的余弦夾角來表示用戶間的相似度。設(shè)用戶i和j在n維項(xiàng)目空間上的評分分別表示為向量I、J,則可以用公式2表示來用戶i和j之間的相似度，如公式2所示。

(公式2)

其中Ri,c、Rj,c分別為用戶i和用戶j對項(xiàng)目c的評分，分子為兩個(gè)向量的內(nèi)積，即兩個(gè)向量相同位置的數(shù)字相乘。

第三，基于調(diào)整的余弦（Adjusted Cosine）相似度計(jì)算：由于基于余弦的相似度計(jì)算沒有考慮不同用戶的打分情況，可能有的用戶偏向于給高分，而有的用戶偏向于給低分，基于調(diào)整的余弦方法通過減去用戶打分的平均值消除不同用戶打分習(xí)慣的影響。設(shè)用戶i和j共同評分過的項(xiàng)目集合用Iij表示，Ii和Ij分別表示用戶i和j評過分的項(xiàng)目集合，則用戶i和j之間的相似性表示成公式3。

(公式3)

其中Ri和Rj分別表示用戶i和j在已經(jīng)打分項(xiàng)目上的平均分。

1.2.3 產(chǎn)生推薦結(jié)果。主要包含有TOP-N型推薦和預(yù)測型推薦兩種推薦類型。Top-N型推薦是指產(chǎn)生一個(gè)目標(biāo)用戶a最喜歡的N個(gè)項(xiàng)目的集合，即Top-N推薦集，可以記作TPa={tp1，tp2，...，tpN}，該集合中的每一個(gè)項(xiàng)目通常包含的是目標(biāo)用戶a沒有購買的，但是值得給用戶推薦的商品。而預(yù)測型推薦是指產(chǎn)生一個(gè)預(yù)測值R(a,j)，其中R(a，j)表示目標(biāo)客戶a對商品j的預(yù)測評分值，他的值域范圍由客戶a所決定。

2 推薦系統(tǒng)模型

圖書推薦系統(tǒng)模型如圖1所示，①讀者從流通書庫進(jìn)行借還圖書操作，經(jīng)過多年的積累形成了大量借閱歷史，記錄存儲在流通數(shù)據(jù)庫里。②推薦系統(tǒng)首先需要對不規(guī)范的數(shù)據(jù)進(jìn)行清洗和預(yù)處理，為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。③對處理好的數(shù)據(jù)進(jìn)行協(xié)同過濾挖掘（也可以同時(shí)綜合多種算法進(jìn)行挖掘），形成離線規(guī)則庫。④系統(tǒng)能根據(jù)讀者的信息和借閱歷史自動推送不同的圖書推薦信息。圖書個(gè)性化推薦系統(tǒng)可以通過以下兩種方式向讀者提供推薦系統(tǒng)信息。第一種是采取被動方式。只有當(dāng)讀者登陸個(gè)人數(shù)字圖書館，推薦系統(tǒng)才會推送推薦圖書信息，類似于登陸亞馬遜賬號之后的推薦方式。另一種是主動方式。有條件的單位，可將推薦書目信息通過郵件系統(tǒng)或手機(jī)短信平臺發(fā)送；不管使用哪種方式，推薦系統(tǒng)和挖掘模型連接必須通過接口，向算法模型發(fā)送查詢指令，然后圖書推薦信息將作為結(jié)果返回給推薦系統(tǒng)。另外，為了提升推薦信息的準(zhǔn)確度，挖掘模型的原始數(shù)據(jù)應(yīng)該定期更新。

圖書推薦系統(tǒng)主要由離線規(guī)則庫和在線圖書推薦構(gòu)成。圖書推薦系統(tǒng)的核心環(huán)節(jié)是離線規(guī)則庫的構(gòu)建，此過程是分別基于用戶和基于項(xiàng)目的協(xié)同過濾技術(shù)處理讀者借閱數(shù)據(jù)，挖掘出圖書之間相似性以及與鄰居之間的形成，在線圖書推薦是基于以上結(jié)果，通過推薦界面將推薦信息呈現(xiàn)給讀者，為讀者提供個(gè)性化推薦圖書的服務(wù)。此外，假如該讀者是新用戶，或者借閱量太少，系統(tǒng)一時(shí)無法做出個(gè)性化推薦，可以向讀者提供諸如“新書推薦”、“熱門圖書”以及“館員推薦”等符合各種大眾化圖書信息。后臺管理可以實(shí)現(xiàn)對圖書信息進(jìn)行更新和對各種推薦進(jìn)行設(shè)置。

3 協(xié)同過濾個(gè)性化推薦設(shè)計(jì)原理

協(xié)同過濾可分成基于用戶和基于項(xiàng)目的協(xié)同過濾兩種算法。如圖2所示，在基于協(xié)同過濾算法中，首先輸入用戶-項(xiàng)目的二維矩陣，利用相似度公式計(jì)算出用戶之間的相似度，得出用戶偏好的項(xiàng)目集合，最后為每個(gè)用戶產(chǎn)生推薦列表。

3.1 建立讀者-圖書的二維矩陣模型

建立數(shù)據(jù)庫，用于存放推薦系統(tǒng)過程中所用到的各種數(shù)據(jù)表，將從圖書館流通系統(tǒng)導(dǎo)出來、經(jīng)過清理后的讀者借閱記錄導(dǎo)入到相應(yīng)數(shù)據(jù)表中。從讀者借閱歷史記錄表中獲取圖書信息和讀者信息，為建立讀者-圖書模型做好數(shù)據(jù)準(zhǔn)備。

endprint

3.2 尋找最近鄰居用戶集

[JP2]在進(jìn)行基于用戶的協(xié)同過濾計(jì)算中，主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里，可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶，其中用戶相似性是以借閱相同圖書的冊數(shù)來衡量的，借閱過相同圖書越多說明他們的興趣愛好越相似；而圖書的相似性是一起被借閱過的次數(shù)來衡量的，經(jīng)常被一起借閱過的說明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪耍薪栝営涗浀钠椒衷O(shè)置為1，沒有借閱的評分設(shè)置為0，如圖4所示。

表2 評分后的二維矩陣

讀者1 讀者2 …… 讀者n

圖書1 1 0 1 1

圖書2 1 1 1 1

圖書3 1 1 1 0

…… 1 1 1 1

圖書n 0 1 1 1

在這里，用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。

3.3 產(chǎn)生圖書推薦

到此為止，基于協(xié)同過濾結(jié)果已經(jīng)被保存在對應(yīng)表里，用戶登錄系統(tǒng)后，系統(tǒng)會自動辨別該用戶信息，并推薦出相關(guān)圖書。

4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析

4.1 優(yōu)點(diǎn)

4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量，計(jì)算出不同用戶之間對物品的喜好程度，然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類［4］，好處在于：由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過濾和理解的東西進(jìn)行歸類，所以挖掘質(zhì)量相對會大大提高。

4．1.2 由于采用了評價(jià)反饋機(jī)制如評分、劃分等級，其他用戶能從已經(jīng)體驗(yàn)過的鄰居評價(jià)中得到反饋信息，用戶的反饋信息量越大，個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快，只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量，系統(tǒng)的性能就會越來越完善。

4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致，有些用戶比其他的鄰居提早接觸到自己喜歡的新事物，就通過基于用戶的協(xié)同過濾推薦，將這些新的信息推薦給后來的鄰居們［5］。

4.1.4 基于項(xiàng)目協(xié)同過濾推薦是根據(jù)項(xiàng)目之間的相似性來完成推薦任務(wù)的，所以很好解釋推薦結(jié)果的理由和依據(jù)，從而滿足特定用戶的興趣需求。

4.2 不足

如基于項(xiàng)目協(xié)同過濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品，該算法是通過分析用戶對項(xiàng)目的評分得出項(xiàng)目之間的相似度，因此他給目標(biāo)用戶所推薦的，僅局限于和用戶之前購買過的相似物品。所以缺乏挖掘用戶潛在需求的能力，難以向用戶產(chǎn)生新穎的推薦結(jié)果。

4.2.1 稀疏性問題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購物網(wǎng)站中，他們所擁有的物品都是難以計(jì)數(shù)，用戶可能購買的不到1%的物品［6］，不同用戶之間購買的物品的重疊性較低，或者幾乎為零，而且用戶很少會對購買的產(chǎn)品給出評分。據(jù)研究結(jié)果表明，當(dāng)用戶評價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%［7］，就很容易造成評價(jià)矩陣數(shù)據(jù)稀疏，導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會遇到同樣的問題，圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過學(xué)生人數(shù)，并且隨著時(shí)間的推移這個(gè)問題會越發(fā)突出。

4.2.2 [JP2]冷啟動問題。基于用戶協(xié)同過濾是建立在有大量用戶對某個(gè)產(chǎn)品的評價(jià)上的，由于在新產(chǎn)品開始階段沒有人購買或者新圖書在開始會沒有人借閱，也沒有對其進(jìn)行評價(jià)，那么在開始階段也將無法對其進(jìn)行推薦，因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。

4.2.3 算法擴(kuò)展性問題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加，最近鄰居算法的計(jì)算量也相應(yīng)增加，不太適合數(shù)據(jù)量大的情況使用，所以推薦系統(tǒng)性能也會大受影響，而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu)，沒有快速的相應(yīng)速度，對網(wǎng)絡(luò)用戶來說是無法忍受的，因此這在某種程度上限制了基于用戶協(xié)同過濾在推薦系統(tǒng)中的使用。

4.2.4特殊用戶問題。在生活中，有一部分人的偏好是比較特殊的，他沒有相對固定的興趣愛好，而這剛好是基于用戶協(xié)同過濾的前提，那么系統(tǒng)很難為他找出鄰居，也就是很難給出比較精確的推薦信息了。

5 結(jié)語

基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)對于提高圖書館的服務(wù)具有重大意義和價(jià)值，他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦，當(dāng)讀者閱讀興趣發(fā)生變化時(shí)，系統(tǒng)也能自動更新規(guī)則庫，主動向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求，在實(shí)現(xiàn)個(gè)性化的方法上，有一些值得改進(jìn)的地方，如對現(xiàn)有協(xié)同過濾算法的改進(jìn)，或者同時(shí)采用多種推薦算法，充分發(fā)揮各個(gè)算法的優(yōu)勢，達(dá)到提高推薦的精度。

參考文獻(xiàn)：

［1］李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析［J］. 圖書館論壇, 2004(3):86-88.

［2］郁雪.基于協(xié)同過濾技術(shù)的推薦方法研究［D］. 天津：天津大學(xué),2009.

［3］張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法［J］.軟件學(xué)報(bào)，2007(10):2403-2411.

［4］吳顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決［J］. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.

［5］鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究［D］. 上海：復(fù)旦大學(xué)，2003.

［6］孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究［D］. 杭州：浙江大學(xué)，2005.

［7］張亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究［D］. 北京: 北京郵電大學(xué),2009.

（編校：馬懷云）

endprint

3.2 尋找最近鄰居用戶集

表2 評分后的二維矩陣

讀者1 讀者2 …… 讀者n

圖書1 1 0 1 1

圖書2 1 1 1 1

圖書3 1 1 1 0

…… 1 1 1 1

圖書n 0 1 1 1

在這里，用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。

3.3 產(chǎn)生圖書推薦

4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析

4.1 優(yōu)點(diǎn)

4.2 不足

5 結(jié)語

參考文獻(xiàn)：

［1］李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析［J］. 圖書館論壇, 2004(3):86-88.

［2］郁雪.基于協(xié)同過濾技術(shù)的推薦方法研究［D］. 天津：天津大學(xué),2009.

［3］張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法［J］.軟件學(xué)報(bào)，2007(10):2403-2411.

［4］吳顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決［J］. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.

［5］鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究［D］. 上海：復(fù)旦大學(xué)，2003.

［6］孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究［D］. 杭州：浙江大學(xué)，2005.

［7］張亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究［D］. 北京: 北京郵電大學(xué),2009.

（編校：馬懷云）

endprint

3.2 尋找最近鄰居用戶集

表2 評分后的二維矩陣

讀者1 讀者2 …… 讀者n

圖書1 1 0 1 1

圖書2 1 1 1 1

圖書3 1 1 1 0

…… 1 1 1 1

圖書n 0 1 1 1

在這里，用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。

3.3 產(chǎn)生圖書推薦

4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析

4.1 優(yōu)點(diǎn)

4.2 不足

5 結(jié)語

參考文獻(xiàn)：

［1］李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析［J］. 圖書館論壇, 2004(3):86-88.

［2］郁雪.基于協(xié)同過濾技術(shù)的推薦方法研究［D］. 天津：天津大學(xué),2009.

［3］張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法［J］.軟件學(xué)報(bào)，2007(10):2403-2411.

［4］吳顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決［J］. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.

［5］鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究［D］. 上海：復(fù)旦大學(xué)，2003.

［6］孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究［D］. 杭州：浙江大學(xué)，2005.

［7］張亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究［D］. 北京: 北京郵電大學(xué),2009.

（編校：馬懷云）

endprint