王春才,邢暉,李英韜
(1.長春理工大學計算機科學技術學院,長春130022;2.長春市萬易科技有限公司工程研究中心,長春 130000)
個性化推薦系統冷啟動問題研究
王春才1,邢暉1,李英韜2
(1.長春理工大學計算機科學技術學院,長春130022;2.長春市萬易科技有限公司工程研究中心,長春130000)
隨著互聯網的高速發展,人們已經步入信息過載的時代。如何為用戶提供個性化的服務是推薦系統的主要任務之一。然而推薦系統需要大量的用戶歷史行為數據作為其做出推薦的重要依據,因此對于新用戶、新物品以及新系統來說,如何在缺少用戶行為數據時對用戶進行個性化推薦,即為冷啟動問題[1]。目前冷啟動問題已成為推薦系統領域的研究熱點之一。
冷啟動問題主要分為以下三類:
(1)用戶冷啟動。用戶冷啟動問題主要是針對如何給新用戶提供個性化的推薦服務。因為新用戶訪問系統時,系統中并沒有他的歷史行為數據,因此他的興趣便無法通過分析歷史行為數據進行預測,個性化的推薦也就無法進行。
(2)物品冷啟動。物品冷啟動所要解決的主要是如何將物品推薦給有可能對其感興趣的用戶的問題。
(3)系統冷啟動。系統冷啟動所要解決的主要是如何在一個沒有用戶,沒有歷史行為數據,僅有少數物品信息的全新的網站上對用戶進行個性化推薦服務的問題。
對于以上三種冷啟動問題,有不同的解決方法,下面將介紹其中的一些具體解決方法。
新注冊的用戶,往往無法得知其喜好,只能對他推薦一些較為熱門的物品,這樣的推薦不是個性化的推薦。但如果可以知道用戶是女性,便可以給她推薦一般女性所喜愛的熱門物品,這樣的推薦雖然粒度較粗,但精度已得到很大提升。因此,利用用戶的注冊信息可以很好地解決新用戶的冷啟動問題[2]。在很多網站的注冊過程中,年齡、性別等一般都是注冊時的必填信息。
用戶的注冊信息可以被分為以下三種:
(1)人口統計學信息。如年齡、性別、職業、民族等。
(2)用戶的興趣描述。通過用戶對其興趣的文字描述,可以更加詳細得知其興趣所在。
(3)由其他網站導入的用戶行為數據。例如通過其他合作網站的賬戶登錄,可以獲取到用戶在其他網站的行為數據及社交網絡數據。
利用用戶的注冊信息,從而進行個性化推薦的一般步驟如下:
(1)獲得用戶的注冊信息。
(2)通過用戶的注冊信息,對用戶進行分類。
(3)將用戶所屬分類中其他用戶感興趣的物品推薦給該用戶。
在實際情況下,可以將用戶的特征進行組合,如性別年齡作為一個組合,性別職業作為一個組合。但需要注意組合的合理性,因為用戶不一定具有所有的特征,并且通常用戶在系統的注冊時,有一些選項并非必填(如職業信息)。
如何獲得用戶的興趣,在于觀察用戶對于不同物品所給出的反饋信息。當新用戶注冊時,通過為其展示一些物品,讓用戶對這些物品進行反饋,然后通過分析這些反饋信息,就可以為用戶提供個性化的推薦。目前很多推薦系統都采取了這種方法以解決用戶冷啟動的問題。這種方法需要解決的首要問題是,如何合理地選擇物品讓用戶進行反饋。一般情況下,提供給用戶的物品應具有以下幾個特點:
(1)物品較熱門。獲得準確反饋的前提是用戶明白系統展示給自己的物品是什么。通過展示較為熱門的物品,可以比較準確地獲取用戶的反饋信息。假如給用戶展示的物品十分冷門,用戶甚至都不知道該物品為何物,便無法給出準確的反饋信息。
(2)物品具有代表性。展示具有代表性的物品,可以通過用戶對物品的反饋信息將用戶進行分類。如果為用戶展示的物品對用戶的興趣沒有區分性,許多用戶都對該物品感興趣,那么用戶的個性化需求便難以辨別,個性化推薦便難以開展。
(3)物品多樣性。用戶的興趣是多樣的,因此為了涵蓋用戶更多的興趣點,在用戶冷啟動時,需要為用戶展示較高覆蓋率的物品集合,這樣所展示的物品才能更好地覆蓋主流的用戶興趣,對啟動并分析用戶的興趣很有幫助。
物品冷啟動問題主要解決的是如何將新加入系統的物品盡快展示給對其可能感興趣的用戶。在時效性很強的網站中,物品冷啟動問題需要特別重視。因為此類網站每時每刻都有新的物品加入進來,而每個物品都需要盡快展示給用戶。否則一段時間之后,物品便會失去時效性,導致其價值的降低[3]。
目前兩種主要的推薦算法——基于用戶的協同過濾算法和基于物品的協同過濾算法,其中基于用戶的協同過濾算法對于物品的冷啟動問題并不是十分敏感。這主要是因為基于用戶的協同過濾算法在進行推薦時,會將與用戶最相似的一群用戶所感興趣的物品推薦給該用戶。當一個新物品加入到系統時,總會有用戶通過某種途徑對其產生反饋,由此會有越來越多和該用戶興趣相近的用戶便會在他們的推薦列表中看到新加入的物品。物品冷啟動的影響也就不是很明顯。
然而在基于物品的協同過濾算法中,物品冷啟動的問題十分突出。原因是基于物品的協同過濾算法的原理是每隔一段時間(通常為一天),通過用戶的歷史行為數據,來計算物品之間的相似度,將和用戶所感興趣的物品相似的物品推薦給用戶,并在內存中維護一個物品相似度矩陣。由于新加入的物品并不在這個矩陣之中,因此基于物品的協同過濾算法便無法推薦新加入的物品。解決此問題的辦法之一是不斷地更新物品相似度矩陣。然而在實際情況下,用戶的歷史行為數據十分龐大,由此計算物品之間的相似度是一件非常耗時的事情。另外,新加入的物品倘若無法對用戶進行展示,用戶便不能對其產生反饋,通過用戶歷史行為數據便更加計算不出含有新物品的相似度矩陣。此時,需要利用物品的內容信息,以便計算物品之間的相似度。
物品內容信息的種類很多,物品類型不同,內容信息也不同。如果物品是圖書,其內容信息可以包括書名、作者、出版社、類型等。一般物品內容信息可以通過向量空間模型來表示。該模型會將物品表示為一個關鍵詞向量。假如物品是圖書,內容信息為書名、作者等,即可將這些實體直接用作關鍵詞向量。如果物品的內容信息是文本,則需要引入理解自然語言的相關技術,將字流變為詞流,然后從詞流中抽取實體,經過和其他重要詞語的組合,形成關鍵詞集合。最后對關鍵詞進行排名,計算每個關鍵詞的權重,生成關鍵詞向量。
對物品d,它的關鍵詞向量可以表示如下:

其中,ei是關鍵詞,wi是關鍵詞的權重。如果物品是文本,可以通過TF-IDF公式[4]計算詞的權重:

在給定物品內容信息的關鍵詞向量后,物品間的內容相似度可以通過向量間的余弦相似度進行計算:

獲得物品內容相似度后,就可以通過基于物品的協同過濾算法的思想,為用戶推薦與其感興趣的物品內容相似的物品,從而減少物品冷啟動對個性化推薦的影響。
對新系統來說,往往既沒有用戶的歷史行為數據,也沒有足夠的物品內容信息可以用來計算準確的物品間的相似度。因此,為了向用戶提供更好的個性化推薦,解決新系統的冷啟動問題,可以采用發揮專家作用,對物品進行特征標注[5]的方法。
以音樂網站為例。當系統中的物品為音樂時,眾所周知的是,音樂之間的相似度是比較難以計算的。首先,因為音樂是多媒體,如果要通過對音樂的音頻進行分析,進而計算音樂之間的相似度,所需要實現的技術門檻較高,并且最終所得的計算結果也往往難以令人滿意。其次,如果僅僅從音樂的屬性信息,如音樂的專輯名、歌手等方面計算音樂間的相似度,通常效果也不理想。因為一名歌手,一張專輯往往只有一兩首好歌。為了解決新系統的冷啟動問題,可以采用的方法是對物品的各個維度進行特征標注。標注后每個物品都可以表示為若干維度的特征向量,之后通過計算向量間的相似度即可以得出物品間的相似度。
標注的過程可以是人工的,也可以是人工與機器學習相結合的。通常可以讓專家對物品先進行標記,當專家標記了一定數量的樣本后,再利用自然語言理解和機器學習技術,通過分析用戶的歷史行為數據以及物品的內容信息對物品進行自動的標記。此外,還可以通過讓用戶參與到標記過程中,不斷地與系統進行反饋,由此達到持續改進系統的標記系統的目的,從而更好地為用戶提供個性化的推薦服務。
為改善個性化推薦系統在新用戶、新物品和新系統時的冷啟動問題,本文介紹了多種解決方法,其中針對新用戶的冷啟動問題,可以通過利用用戶注冊信息或選擇適當物品以啟動用戶興趣來解決。針對物品冷啟動問題,可以通過利用物品的內容信息來計算物品間的相似度,再結合基于物品的協同過濾算法為用戶提供個性化推薦。對于新系統,則可以通過對物品進行多維度的特征標記來計算更為準確的物品相似度以減少系統冷啟動的影響。如何減少冷啟動對個性化推薦的影響,已成為當前推薦系統領域的研究重點。解決冷啟動問題,不僅需要方法的不斷創新與改善,還應重視用戶的參與和反饋。
[1]Francesco Ricci,Lior Rokach,Bracha Shapira et al.Recommender systems handbook[M].Berlin:Springer,2011:461-462.
[2]丘珂瑋.融合用戶注冊信息的協同過濾推薦算法[D].南寧:廣西師范學院,2014.
[3]沈云斐,沈國強,蔣麗華,等.基于時效性的Web頁面個性化推薦模型的研究[J].計算機工程,2006.7,32(13):80-81.
[4]HC Wu,RPW Luk,KF Wong,et al.Interpreting TF-IDF term weights as making relevance decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.
[5]徐雁斐,張亮,劉煒.基于協同標記的個性化推薦[J].計算機應用與軟件,2008.1,25(1):9-11.
Personalized Recommendation;Cold Start;Recommendation System;Collaborative Filtering
Research on the Cold Start in Personalized Recommendation Systems
WANG Chun-cai1,XING Hui1,LI Ying-tao2
(1.College of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022;2.Engineering Research Center,Changchun Why-e Science and Technology Co.,Ltd.,Changchun 130000)
1007-1423(2015)29-0036-04
10.3969/j.issn.1007-1423.2015.29.009
王春才(1974-),男,吉林梅河口人,正高級工程師,副教授,研究方向為數據挖掘
邢暉(1990-),男,山西代縣人,碩士研究生,研究方向為數據庫系統
李英韜(1972-),男,吉林吉農人,碩士,高級工程師,研究方向為智慧城市
2015-09-29
2015-10-10
介紹個性化推薦系統的冷啟動問題,分析解決冷啟動問題的多種方案,如利用用戶的注冊信息、選擇適當物品以啟動用戶興趣、利用物品內容信息,發揮專家作用,為解決推薦系統的冷啟動問題提供一定的參考。
個性化推薦;冷啟動;推薦系統;協同過濾
長春市科技計劃項目(No.14JR002)、國家科技支撐計劃項目(No.2013BAH07F00)
Introduces the cold start in personalized recommendation systems,analyzes several ways to solve the cold start,such as using the register information,starting user's interest with appropriate item,using the content information of item and expert's function,which provides reference for solving the cold start in recommendation systems.