朱坤廣 楊 達 崔 強 郝春亮
1(中國科學院軟件研究所基礎軟件國家工程研究中心 北京 100190)2(中國科學院大學 北京 100190)3(中國科學院軟件研究所計算機科學國家重點實驗室 北京 100190)
?
利用交叉推薦模型解決用戶冷啟動問題
朱坤廣1,2楊達1,3崔強1,2郝春亮1,2
1(中國科學院軟件研究所基礎軟件國家工程研究中心北京 100190)2(中國科學院大學北京 100190)3(中國科學院軟件研究所計算機科學國家重點實驗室北京 100190)
摘要用戶冷啟動是推薦系統的一個重要問題。傳統的推薦系統使用遷移學習的方法來解決這個問題,即利用一個領域的評分信息或者標簽預測另外一個領域的用戶和物品評分。上述遷移學習模型通常假設兩個領域沒有重疊的用戶和物品,與上述假設不同,很多情況下系統可以獲取同一用戶在不同領域的數據。針對這種數據,提出一種新的推薦系統冷啟動模型—crossSVD&GBDT(CSGT), 通過有效利用重疊用戶的信息來解決用戶冷啟動問題。具體地,首先提出新模型獲取用戶和物品的特征,然后利用GBDT模型進行訓練。實驗數據表明,在豆瓣數據集中corssSVD&GBDT可以得到比傳統方法性能更高、魯棒性更強的實驗結果。
關鍵詞推薦系統遷移學習用戶冷啟動交叉推薦
0引言
隨著互聯網的發展,產生的信息呈指數級增長,推薦系統在解決這種信息過載問題中越來越重要。推薦系統利用用戶的歷史信息主動給用戶推薦用戶未來需要的信息(用戶喜歡的衣服、書籍等),并且已經在工業界得到了成功的應用,比如亞馬遜、淘寶等公司。雖然推薦系統得到廣泛的應用,但是也面臨很多問題,其中用戶冷啟動是個非常重要的問題。用戶冷啟動指當用戶在一個領域沒有任何歷史信息時,如何給該用戶推薦他需要的當前領域的信息?如果不能夠很快速地給一個新用戶推薦感興趣的信息,會讓用戶認為該領域的信息對他沒有價值,這樣就會錯失掉該用戶。
針對冷啟動中的數據稀疏問題,有些學者提出使用交叉領域推薦的方法解決。交叉領域推薦即利用信息豐富領域(原領域)中探索到的知識(用戶的興趣、物品的特征)提高信息稀疏領域(目標領域)中的推薦性能。當前探索出來的交叉領域推薦模型都是基于兩個領域沒有用戶重疊和物品重疊的數據設計的。但是,從業界來看,越來越多的公司同時在很多個領域開展業務,這樣就會收集到很多用戶在多個領域的行為信息,就可以挖掘這些重疊用戶的價值。通過這些重疊用戶的行為,可以探索用戶會對兩個領域的哪些物品同時產生興趣。比如對喜劇電影感興趣的用戶會很有可能喜歡喜劇類的書籍,對于某個武俠小說感興趣的用戶同時會對這個小說改編的電影感興趣。
基于以上分析,本文是利用重疊用戶的評分信息解決用戶冷啟動問題。解決這種問題最直接的做法是將兩個領域的評分合在一起,利用已有的推薦模型。比如基于物品的推薦,基于用戶的推薦或者矩陣分解的方法進行計算。但這樣首先會使數據更加稀疏,得到的結果更加不穩定不準確[8],對于這一點,本文將在實驗部分進行證實。其次,兩個領域的知識或者特征不可能完全相同,必然都有各自獨立的特征。比如圖書和電影兩個領域,武俠是兩個領域共同的物品類別,但是經管類書籍只屬于圖書所有,利用用戶對經管類書籍的評分學到的特征對于預測用戶對電影的評分沒有任何用處,如果強行遷移,只會引起負作用。
所以,本文提出的模型假設兩個領域有一些共同的特征,但同時都有各自獨立的特征,模型分為2部分。首先,得到兩個領域中的每個用戶和每個物品的特征,包括獨立特征和共同特征。這部分工作是基于LFM[13]進行改進,使得LFM模型適合處理多領域信息的問題,本文的模型將LFM中定義的特征分割為3部分:(1) S領域的獨立特征;(2) T領域的獨立特征;(3) 兩個領域共同的特征。如圖1所示,U2用戶群中的每個用戶最后會得到S領域中的獨立特征以及兩個領域共同的特征,U3用戶群中的用戶最后會得到T領域中的獨立特征以及兩個領域的共同的特征,U1用戶群會得到S和T兩個領域獨立的特征,同時也有兩個領域共同的特征。S領域中的物品會獲得S領域中獨立的特征以及兩個領域中共同的特征,T領域中的物品會獲得T領域中獨立的特征以及兩個領域中共同的特征。

圖1 符號說明
其次,選擇特征和模型預測評分。目的是預測S領域的用戶對T領域的物品的評分或者預測T領域的用戶對S領域的物品的評分,那么屬于每個領域的獨立特征就不會起作用,所以只需選擇兩個領域共同的特征來預測用戶對物品的評分。這樣就將該問題轉化成一個回歸問題,特征是兩個領域共同的特征,即每個用戶在共同特征下的值和每個物品在共同特征下的值,y值是該用戶對該物品的評分,采取當前比較好的一個回歸模型GBDT。并且經過實驗結果,本文提出的crossSVD&GBDT相對于其他模型更加準確、穩定。本文的貢獻點主要分為2個部分:
(1) 嘗試使用兩個領域重疊的用戶信息解決單領域的用戶冷啟動問題。
(2) 基于傳統模型,提出新的模型crossSVD&GBDT,獲取兩個領域用戶和物品共同的隱含特征。
1相關工作
正式介紹模型之前,先描述矩陣分解的背景知識。然后介紹交叉推薦系統相關領域的知識。
1.1基于矩陣分解的推薦系統模型
矩陣分解是將一個矩陣拆解成2個或者更多個矩陣的乘積,這些矩陣乘積的結果可以近似等于原矩陣。在推薦系統中,矩陣分解模型是將一個user-item-rating矩陣(R∈Rm×n,m是指有m個用戶,n是指有n個物品)分解成一個用戶矩陣U∈Rm×k和一個物品矩陣V∈Rn×k。
R=U×VT

使用以下目標函數求解U,V,使得結果近似R。
(1)
式中,Iij表明Rij是否為0,即用戶i對物品j是否有評分。如果有評分為1,沒有評分為0。Rij表明用戶i對物品j的評分,Ui表明用戶i的特征,Vj表明物品j的特征。為了解決稀疏性問題,加入了正則項。

(2)
以上2個目標函數都可以使用SGD(Stochastic Gradient Descent)或者LBFGS(Limit Quasi-Newton Methods)解法求解。
1.2基于遷移學習的交叉領域推薦系統
遷移學習的思想有2個領域:一個領域信息量豐富;另一個領域信息量稀少。如何利用信息量豐富領域中的信息來解決信息量稀少領域中遇到的問題。用戶在其他電影網站(源領域)的一些行為預測用戶在當前電影網站(目標領域)對電影的評分。比如文獻[1,2],使用用戶是否喜好一個電影(0/1)或者看電影的時間長度,預測用戶對電影的評分。同時訓練源領域和目標領域的數據,假設用戶在兩個領域的特征分布是一樣的,因為兩個領域都是關于電影的。文獻[3] 假設當前領域的用戶和物品都很稀少,比如當前電影網站用戶行為稀少,物品被訪問得也少,而這個領域里的用戶在另外一個網站的行為很多,那么可以利用另外一個網站的行為學習這個用戶的特征,用另外一個電影網站學習到電影的特征。然后將這2個特征應用到當前電影網站中。還有一部分文獻是利用圖書中的信息推薦電影中的信息。比如文獻[4]利用圖書中的信息學到用戶群對物品群的評分,然后將該信息應用到電影中。文獻[11]對遷移學習有一個總結,描述了遷移學習的分類。文獻[5] 假設兩個領域中有共同的特征,在每個領域中建立一個user×item×tags的三維矩陣,并且將該3維矩陣分解,得到每個用戶的特征分布,以及每個物品的特征分布以及標簽的特征分布,模型中假設的目標領域和源領域中共同的知識是用戶、物品、標簽3個維度之間的關系。然后將信息量豐富的領域中學到的特征應用到信息量稀少的領域中。文獻[6,7]同時訓練圖書和電影中的數據、圖書和電影間共同的知識是指他們有著共同的用戶類、共同的物品類,并且某一類用戶對某一類物品的評分也是共同的。利用這個共同的信息,得到每個用戶屬于哪一個特征,哪個物品屬于哪一個特征。文獻[7]假設是多個領域間有共同的用戶群個數,但是物品類個數可以不一樣,多個領域間共同的特征是用戶群和其中一部分物品群之間的關系是相同的,而并不是用戶群和所有的物品群之間的關系是相同的并且物品群個數是相同的。利用在兩個領域間有共同行為的用戶推薦商品。建立一個用戶和物品的二部圖,將2個領域的數據混合在一起,進行文獻[10]這種方法的缺陷訓練,基于隨機游走的方法,結果不穩定并且需要大量的計算。
2crossSVD&GBDT模型
2.1利用重疊用戶信息獲取用戶和物品在兩個領域的共同特征
最直接得到兩個領域中用戶和物品的特征,是將兩個領域的評分混合在一起,行數是兩個領域中的用戶數,列數是兩個領域中的物品數。矩陣中的每個元素即相應下標是用戶對物品的評分,然后直接利用SVD模型或者其他隱含因子模型進行求解。但是這種辦法非常的粗糙,缺點在文獻[8]中也有闡述,這樣會使得矩陣更加稀疏,得到的結果更加不精確。同時這種方法是默認2個領域的隱含特征是一樣的,就像在背景中分析的那樣,有很大的缺陷?;诒尘爸刑岢龅乃枷?,本文的模型就是假設每個領域都有自己獨立的隱含特征,都是另外一個領域不具備的。但同時這2個領域肯定也會有一些共同的topic,否則也不可能有那么多用戶在這2個領域同時會有那么多評分信息的。
假設兩個領域特征總數有k個,屬于S領域的特征個數有x個,屬于T領域的特征個數有y個,他們共有z個特征。滿足等式x+z+y=k,如圖2所示。

圖2 特征的表示形式
假設該k維向量中,前x+z個隱含特征屬于S領域,后面y+z個隱含特征屬于T領域。
本文的損失函數如下:

(3)
式中,Sm表示S領域中用戶的個數,Sn表示S領域中物品的個數。Tm表示T領域中用戶的個數,Tn表示T領域中物品的個數。由此可以得到每個用戶的特征向量,共有k維。其中U2用戶群后面y個特征的數值都是0(這y個特征只算一個數值的補充,沒有任何物理含義),U3用戶群前面x個特征的數值都是0(同理,這個x個特征沒有任何物理含義)。得到每個物品的特征向量,共有k維。T1物品群后面y個特征都是0(同理,這y個特征沒有任何物理含義,只是數值補充),T3物品群前面x個特征都是0(這x個特征沒有任何物理含義)。
使用SGD的方法求解該目標函數。
1) 對于S領域中的評分信息,即對于任意評分信息Rij,如果物品j屬于S領域,更新用戶i的特征向量,即Ui向量的前x+z個值,以及物品j的前x+z個值。根據第一個平方誤差等式,求導如下:

(4)
2) 對于T領域中的評分信息,即對于任意評分信息Rij,如果物品j屬于T領域,更新用戶i的特征向量,即Ui向量的后z+y個值,以及物品j的后y+z個值。根據第二個平方誤差等式,求導如下:

(5)
可以將該模型分為3個部分去觀察:
1) 針對U1用戶群以及該部分用戶的評分信息:對S領域的這部分評分信息體現在第一個平方誤差等式中,對T領域的這部分評分體現在第二個平方誤差等式中。假設用戶a屬于U1用戶群,i是S領域的物品,j是T領域的物品,a分別對i和j有評分。根據a對i的評分,模型每次更新用戶a的前x+z個特征,以及物品i的前x+z特征。根據a對j的評分,模型每次更新用戶a的后z+y個特征,以及物品j的后y+z個特征。這樣無論是在哪個領域的評分,都會更新用戶a在z個公共特征的值。
2) 針對U2用戶群以及該部分用戶的評分信息:該部分的評分信息只包含在第一個平方誤差等式中。假設用戶a屬于U2用戶群,物品j屬于S領域,用戶a對于物品j有評分信息,則根據用戶a對于物品j的評分,模型每次更新用戶a的前x+z個特征,以及物品j的前x+z個特征。
3) 針對U3用戶群以及該部分用戶的評分信息:該部分的評分信息只包含在第二個平方誤差等式中。假設用戶a屬于U3用戶群,物品j屬于T領域,用戶a對于物品j有評分信息,則根據用戶a對于物品j的評分,模型每次更新用戶a的后z+y個特征,以及物品j的后y+z個特征。
可以明確該框架的3個優點:(1) 假設兩個用戶有一部分特征是相同的,也都有各自獨立的特征,這種假設較假設兩個領域中有共同的特征更適合現實中的數據。(2) 將2個領域的評分信息混合在一起,同時得到每個用戶和每個物品的特征,并用一個統一的特征體系表達出不同領域的用戶以及物品特征。(3) 本模型分布式計算很容易實現,計算復雜度較低。
2.2使用GBDT模型以及用戶和物品在兩個領域的共同特征預測用戶對新領域的評分
本文目的是預測U2用戶群對T領域的評分以及預測U1用戶群對S領域的物品。2.1節獲取了用戶在每個單獨領域的隱含特征以及兩個領域共同的隱含特征,物品在每個單獨領域的隱含特征以及兩個領域共同的隱含特征。單獨領域的隱含特征只能特定表明用戶在該領域的特征或者物品在該領域的特征,而兩個領域的關系只能通過兩個領域的共同隱含特征體現。兩個領域各自獨立的隱含特征之間是沒有任何關系的,所以只選擇共同領域的隱含特征作為GBDT模型的輸入。
2.2.1GBDT模型簡介
GBDT(Gradient Boosting Decision Tree)模型是一種解決回歸問題的樹模型,詳細的方法不再描述,只描述一些核心的部分。模型的輸入即上述構造的樣本集合,輸出是n顆樹,每顆樹都有若干個葉節點,每個葉節點都有一個值,該值是該節點上的樣本的標簽的平均值。算法如下:每一次特征的選擇方法有2種:
第一種是采用平方誤差:
(6)
R1=(xj≤s)R2=(xj≥s)
c1=ave(yi|xi∈R1(j,s))
c2=ave(yi|xi∈R2(j,s))
第二種采用絕對值誤差:
(7)
R1=(xj≤s)R2=(xj≥s)
c1=ave(yi|xi∈R1(j,s))
c2=ave(yi|xi∈R2(j,s))
這樣,最后子節點中的y值基本上是相近的。
最后的終止條件有3種情況:(1) 特征都已經用完(基本上不會發生)。(2) 當前節點的損失小于一定閾值。(3) 當前節點個數小于一定閾值。
2.2.2構造樣本
由上一節得知,每個用戶用統一的k維向量表示,每個物品用統一的k維向量表示,抽出z個共同的隱含特征構造樣本,對于每一個評分Rij,用如表1形式表示。

表1 樣本的形式
表1中,ui指的用戶i的z個共同隱含特征,vj指的物品j的z個共同隱含特征,rij表示用戶i對物品j的評分。樣本共有2z個特征。
2.2.3模型訓練
根據上述得到的樣本,使用GBDT模型進行訓練的。最后的結果就是產生若干顆樹,每個樹上有很多個葉子節點。每個葉子節點包含一部分評分信息,對應一個特征組合規則。該特征組合規則指的是從root節點到該葉子節點的路徑,路徑上的每個節點對應一個特征,并且每個節點都有一個閾值,大于該閾值的特征是該節點的右子節點,小于該閾值的特征是該節點的左子節點。應用到當前的推薦場景,當前葉節點中的某個評分是用戶i對物品的j的評分。那么用戶i和物品j的2z個特征滿足當前葉節點的特征組合規則。
根據GBDT模型,每個葉節點上的樣本的評分是相似的,每個節點上的評分信息有3種可能:(1) 該葉節點上所有的評分都來自于用戶對S領域物品的評分。(2) 該葉節點上所有的評分都來自于用戶對T領域物品的評分。(3) 該節點上的評分包含2個領域的評分。
每個葉節點的值等于該葉節點上所有評分的平均分,由此認為在該葉節點上的所有用戶對該葉節點上所有物品的評分都是該平均分。如果是上述第一種可能或者第二種可能,那么該葉節點沒有起到交叉領域的作用,只是說明在單領域中,該領域的用戶對該領域的物品的評分。如果是第三種可能,得到某個領域的用戶對另外一個領域的物品的評分。
3實驗
3.1數據處理
實驗數據來自于對豆瓣的采集,共有50 000個用戶,電影多少條,書籍多少條,評分信息共有x條。采用以下條件處理數據滿足實驗的需求,如表2-表4所示。

表2 用戶群的組成

表3 物品的組成

表4 訓練集和測試集的組成
3.2實驗評價標準
實驗采用2種衡量標準:Mean Absolute Error(MAE) 和Root Mean Square Error(RMSE),衡量本實驗的預測精確度。定義如下:

3.3對比方法
在實驗中,我們檢測了提出的模型在真實數據中的效果,并且跟其他經典的單領域推薦模型相比,包含3種模型:LFM(Latent Factor Model)、biasSVD(Bias-Singluar Value Decomposition)、pureSVD(pure Singluar Value Decomposition)。
LFM[13]:一個單領域的模型,使用矩陣分解的方法學習每個領域的隱含特征,使用這些隱含特征預測評分。模型如下:

biasSVD[14]:一個單領域的模型,在上述LFM的基礎上加入了全局平均數,用戶偏置項,物品偏置項。模型如下:
λ(‖U‖2+‖V‖2)
pureSVD[15]:一個單領域的模型,使用傳統的SVD分解方法,將評分矩陣分解成3個矩陣,一個矩陣存儲用戶特征,一個矩陣存儲物品特征,一個矩陣存儲用戶群和物品之間的關系。模型如下:

crossSVD&GBDT:本文的模型。首先改進LFM,使得單領域的LFM適用到2個領域上。獲取每個領域的用戶以及物品特征。其次在上述特征的基礎上,使用GBDT模型。
3.4性能對比
本文將兩個領域的數據混合在一起,然后使用已有的3個模型進行預測,有2個因素影響這3個模型的效果,隱含特征個數和正則項。對于crossSVD&GBDT ,有4個因素影響效果:兩個領域共同的特征個數;GBDT中的樹的個數;樹的深度;下降速率。通過以下實驗的對比,可以看到本文提出的模型比傳統的3個模型得到結果更準確更具有魯棒性,并且利用傳統模型的結果證明本文的假設是對的,即兩個領域的特征不可能完全相同。
3.4.1準確度對比
如表5所示,是通過交叉驗證,調試較多參數得到的每個模型最好的效果。

表5 模型結果
從表5中,有以下幾點分析:
(1) CSGT在MAE上相對其他3個模型有較大的提升,在RMSE上也有一小部分提升。
(2) 使用LFM或者pureSVD,CSGT的方法比biasSVD得到的效果要好很多。從模型的角度來看,全局均分,用戶偏置對結果影響很大,即電影和圖書兩個領域的均分是有較大差別的。用戶對電影和圖書的評分也是有很大區別的,說明這2個不同領域有很多特征都是不同的。
(3) 從pureSVD、LFM、CSGT這3種方法效果來看,利用用戶在一個領域的評分信息預測用戶在另外一個領域的評分信息是有較好效果的。說明用戶在兩個領域的行為還是有一些相同點的。
3.4.2魯棒性對比
設定迭代次數是50次,分別將正則項參數設置為0、0.01、0.1。將topic的個數從20到50,得到如圖3-圖8所示。

圖3 MAE:LFM:正則項權重和topic個數

圖4 MAE:biasSVD:正則項權重和topic個數

圖5 MAE:pureSVD:正則項權重和topic個數

圖6 RMSE:LFM:正則項權重和topic個數

圖7 RMSE:biasSVD:正則項權重和topic個數

圖8 RMSE:pureSVD:正則項權重和topic個數
以上是計算出來的LFM、biasSVD、pureSVD三種模型在不同topic個數和正則項權重下的誤差??梢钥吹絽祵τ诮Y果的影響很大,效果不穩定,并且三種模型除個別參數,大部分情況下都是隨著topic個數的增多,誤差減小。這說明兩個領域不可能那么多共同的topic,必然都有各自獨立的特征,兩個領域的評分不能簡單的混合在一起進行計算。所以本文模型的假設即兩個不同的領域有共同的主題,但都有各自獨立的主題,這樣的假設更符合數據。
圖9、圖10是在樹的權重是0.1和樹的深度是3的基礎上,GBDT不同的樹的個數和不同的topic下,兩種誤差的趨勢。可以看到結果非常平穩,隨著樹的個數增多或者樹的大小增多,兩種誤差都沒有太明顯的變化,topic個數的變化對于結果的影響也不明顯。

圖9 RMSE:crossSVD&GBDT:兩個領域共同topic個數的影響

圖10 MAE:crossSVD&GBDT:兩個領域共同topic個數的影響
由圖11、圖12可以看到,樹的個數和樹的深度對于結果的影響也不大,效果也比較穩定。

圖11 RMSE:crossSVD&GBDT:樹的個數和樹的深度

圖12 MAE:crossSVD&GBDT:樹的個數和樹的深度
圖13、圖14是在樹的個數為50、topic個數是20的基礎上,隨著下降速率的變化,兩種誤差的變化。由圖形可以看到結果比較穩定。

圖13 MAE:crossSVD&GBDT樹的下降速率

圖14 RMSE:crossSVD&GBDT:樹的下降速率
綜合以上圖形,可以總結,本文提出的模型的參數對于結果的影響不大,效果比較穩定。
3.4.3時間復雜度對比
本文模型分為2部分:獲取共同特征和使用GBDT模型處理。獲取共同特征的模型和傳統模型求解的原理是一樣的,這部分處理的時間和傳統模型的處理時間相近,所以本文的時間復雜度相比傳統模型多了一步GBDT處理的時間。當前分布式系統中也有很多分布式的GBDT模型,處理速度都很快,比如當前流行的Spark分布式系統中MLlib庫中的GBDT算法。綜上所述,本文模型可以分布式處理,時間復雜度是可控的。
3.5實驗總結
綜上所述,實驗有如下總結:
(1) 在準確性上,本文提出的CSGT模型相比傳統模型結果更加精確。
(2) 在魯棒性上,本文的模型相比傳統模型,受參數影響較小。
(3) 從以上結果分析,更進一步證明本文的假設是正確的,即兩個領域有共同的特征,但同時都有各自獨立的特征。
(4) 利用用戶在一個領域的評分信息預測用戶在另外一個領域的評分信息,結果還是比較準確的,說明用戶在兩個領域的行為還是有一些相似之處的。
(5) 利用兩個領域重疊用戶的信息可以更好地解決用戶冷啟動問題。
(6) 模型可以分布式處理,時間復雜度是可控的。
4結語
本文提出了crossSVD&GBDT模型,利用重疊用戶數據可以更精確更穩定地解決推薦系統中的用戶冷啟動問題,提出的假設能夠更好地符合真實數據的分布。基于上述工作,未來的工作分為以下2個部分:
1) 引入標簽信息,使用標簽的相似度傳遞。標簽相對于通過model得到特征更加精確,將標簽特征加入到當前特征體系。
2) 使用回歸樹模型得到很多個葉子節點。可以認為每個葉節點上的用戶和物品是相似的,認為他們之間可以使用協同過濾的思想解釋,基于用戶的協同過濾和基于物品的協同過濾思想都是適用的。即在這個子節點上,用戶喜歡某個物品,必然也喜歡這個子節點上和該物品最相似的物品,兩個用戶相似,則他們對某些物品的評價必然是一致的。這樣在每個葉子節點上使用傳統的推薦模型來預測分值,相當于將一個大矩陣分成分解成若干個小矩陣,然后在每個小矩陣上使用矩陣分解的辦法或者其他辦法預測其他缺失的評分。
參考文獻
[1] Pan W,Yang Q.Transfer learning in heterogeneous collaborative filtering domains[J].Artificial Intelligence,2013,197(4):39-55.
[2] Pan W,Xiang E W,Yang Q.Transfer Learning in Collaborative Filtering with Uncertain Ratings[C]//AAAI,2012.
[3] Pan W,Xiang E W,Liu N N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C]//AAAI,2010,10:230-235.
[4] Li B,Yang Q,Xue X.Can Movies and Books Collaborate? Cross-Domain Collaborative Filtering for Sparsity Reduction[C]//Paper presented at the IJCAI,2009.
[5] Li B,Yang Q,Xue X.Can Movies and Books Collaborate? Cross-Domain Collaborative Filtering for Sparsity Reduction[C]//IJCAI,2009,9:2052-2057.
[6] Li B,Yang Q,Xue X.Transfer learning for collaborative filtering via a rating-matrix generative model[C]//Paper presented at the Proceedings of the 26th Annual International Conference on Machine Learning,2009.
[7] Li B,Yang Q,Xue X.Transfer learning for collaborative filtering via a rating-matrix generative model[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:617-624.
[8] Hu L,Cao J,Xu G,et al.Personalized recommendation via cross-domain triadic factorization[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:595-606.
[9] Shi Y,Larson M,Hanjalic A.Tags as bridges between domains:Improving recommendation with tag-induced cross-domain collaborative filtering[M]//User Modeling,Adaption and Personalization.Springer Berlin Heidelberg,2011:305-316.
[10] 張亮,柏林森,周濤.基于跨電商行為的交叉推薦算法[J].電子科技大學學報,2013(1):154-160.
[11] Pan W,Xiang E W,Liu N N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C]//AAAI,2010,10:230-235.
[12] Zhong E,Fan W,Wang J,et al.Comsoc:adaptive transfer of user behaviors over composite social network[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012:696-704.
[13] Gemulla R,Nijkamp E,Haas P J,et al.Large-scale matrix factorization with distributed stochastic gradient descent[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2011:69-77.
[14] Koren Y.Factorization meets the neighborhood:a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2008:426-434.
[15] Ding C,Li T,Peng W,et al.Orthogonal nonnegative matrix t-factorizations for clustering[C]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2006:126-135.
[16] Jiang M,Cui P,Liu R,et al.Social contextual recommendation[C]//Proceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:45-54.
[17] Cremonesi P,Quadrana M.Cross-domain recommendations without overlapping data: myth or reality?[C]//Proceedings of the 8th ACM Conference on Recommender systems.ACM,2014:297-300.
[18] Chen W,Hsu W,Lee M L.Making recommendations from multiple domains[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013:892-900.
CROSS RECOMMENDATION MODEL IN SOLVING COLD-START PROBLEM
Zhu Kunguang1,2Yang Da1,3Cui Qiang1,2Hao Chunliang1,2
1(NationalEngineeringResearchCenterofFundamentalSoftware,InstituteofSoftware,ChineseAcademyofScience,Beijing100190,China)2(UniversityofChineseAcademyofScience,Beijing100190,China)3(StateKeyLaboratoryofComputerScience,InstituteofSoftware,ChineseAcademyofScience,Beijing100190,China)
AbstractCold-start problem is a critical challenge for recommendation system. Traditional recommendation systems employ transfer learning techniques for this problem, i.e. to use rating/tags information in one domain to predict users and items rating in another domain. The above transfer learning model usually assumes that there aren’t the overlapping users and items between two domains. However, in many cases a system can obtain the data of same users from different domains, which differs from the above assumption. In light of such data, this paper proposes a new cold-start model for recommendation system-crossSVD&GBDT, called CSGT. It solves the cold-start challenge of user by effectively leveraging the information of overlapping users. More specifically, the proposed method extracts features from both the users and the items, and then constructs a GBDT model for training under the above assumption. Experimental data show that in Douban dataset, crossSVD&GBDT can gain the experimental result with higher performance and stronger robustness than the traditional methods.
KeywordsRecommendation systemTransfer learningUser cold startCross recommendation
收稿日期:2014-12-23。國家高技術研究發展計劃項目(2012AA 011206);中國科學院戰略性科技先導專項(XDA06010600,91318301,91218302,61432001)。朱坤廣,碩士,主研領域:推薦系統。楊達,副研究員。崔強,博士。郝春亮,博士。
中圖分類號TP3
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.05.017