姚靜天, 王永利, 侍秋艷, 董振江
(1.南京理工大學 計算機科學與工程學院,南京 210094; 2.上海交通大學 計算機科學與工程系,上海 200240;3.中興通訊股份有限公司 云計算及IT研究院,南京 210012)
基于聯合物品搭配度的推薦算法框架
姚靜天1, 王永利1, 侍秋艷1, 董振江2,3
(1.南京理工大學 計算機科學與工程學院,南京 210094; 2.上海交通大學 計算機科學與工程系,上海 200240;3.中興通訊股份有限公司 云計算及IT研究院,南京 210012)
針對現有推薦系統大多基于物品(用戶)相似度進行計算,其推薦結果無法兼顧推薦對象的搭配性特征的問題,提出了一種基于聯合搭配度的推薦算法框架.該算法框架中的聯合搭配度模型,結合了用戶交互反饋、物品的文本和結構化知識3方面的信息,分別計算目標物品與候選物品的搭配程度,然后利用邏輯回歸算法進行搭配度融合,可以得到與目標物品最相搭配的物品推薦列表.通過在淘寶真實數據集上的實驗,該推薦算法框架相比于傳統基于相似性的推薦算法,顯著提高了搭配推薦的性能,同時在用戶交互記錄較少的情況下也能有較好的精確度.
推薦系統; 物品搭配; 協同過濾; 專家知識; 相似度
隨著互聯網和電子商務的發展,推薦系統已然成為工業界和學術界研究的一個重要課題.推薦系統通過抓取用戶行為偏好、項目基本信息等,為用戶提供個性化的推薦,幫助用戶更快更好地找到自己需要的信息,以促進購買或點擊行為的發生.
目前,推薦系統中常用的方法通常分為3類:協同過濾推薦算法、基于內容的推薦算法和基于專家知識的推薦算法.其中,協同過濾[1]是目前研究和應用最為廣泛的技術,可以通過研究用戶對項目的評分,從基于群體用戶的行為分析或興趣偏好相似性的度量的角度,為用戶推薦類似項目,而不需要對項目本身內容進行分析或需要專家知識的輔助.這種方法適用性很廣,可以很方便地描述電影、音樂、圖片等難以進行文本描述的對象,但也存在著諸多問題,比如數據稀疏性、冷啟動問題等.基于內容的推薦算法[2],則是利用用戶過去喜歡的物品,抽取特征,為其推薦特征相似的物品.而基于專家知識的推薦算法[3]則利用專家的先驗知識,構建物品之間的關系,從而為用戶進行推薦.后兩種算法可以有效地彌補協同過濾算法帶來的數據稀疏性和冷啟動等問題,因此,也有一些推薦系統將這些方法按某些方式組合在一起,以達到更好的推薦效果.
通常的推薦系統,往往是通過用戶對物品的評分數據,從物品或用戶興趣相似性的角度,給用戶推薦類似的物品,而鮮有針對物品互補性搭配的推薦.而比起用戶對物品的評分數據,用戶的購買/點擊行為的數據則更為豐富.此時,傳統的基于物品相似度的推薦系統已經無法滿足用戶的實際購買需求.而后出現的服裝風格推薦系統[4-5],雖然考慮了物品之間的互補性和協調性,但卻需要時裝設計師的專家知識,人工形式化關鍵屬性,建立它們之間的關系,這需要大量的人工操作,復雜而低效.
為了解決上述問題,本文提出了一種新的物品搭配度概念,從文本知識、結構化知識和用戶交互反饋信息的角度對物品搭配度建模,然后提出了一個聯合物品搭配度算法框架(joint match degree of items,JMDI),可以更準確地描述物品之間的搭配關系,為查詢的每個物品生成一個相應的搭配物品推薦列表.它無須耗時復雜的人工標記或評分,而是利用了簡單易得的物品本身的內容信息和用戶的交互行為記錄,再結合專家給出的物品搭配信息,為物品之間生成了搭配程度的評分結果.實驗證明,論文提出的算法顯著提升了推薦結果的精確度、召回率和排序準確度,在系統冷啟動過程中,也可以表現出較好的結果.同時,本文提出的模型也被證明在大數據集上也有較高的效率.
本文將首次提出一些術語,然后明確要解決的問題.
1.1 物品搭配度
本文關注的重點在于物品之間的搭配程度,相搭配的物品之間必定有某些特征相似或互補的關系,才能使得他們搭配起來和諧統一.而人們的審美各不相同,從單個用戶的角度量化搭配程度顯然不是一種客觀的評價方式.因此,本文試圖根據大多數用戶以及專家達人的角度,對物品之間的搭配程度進行量化定義,即“物品搭配度”:
定義1 物品搭配度D(i,j),表示物品i和物品j之間的搭配程度,搭配度越高,表示兩者搭配起來相協調的可能性越高,反之則更不協調.
為了統一量化標準,物品搭配度的值需要進行離差標準化,最終取值范圍為[0,1].物品搭配度可以用來產生每個物品的搭配物品列表,從而推薦給用戶,幫助用戶進行物品的挑選.
1.2 用戶交互反饋
本文研究的目的是挖掘物品之間潛在的關系,而用戶的交互行為可以從側面反映出物品之間的聯系.假設有M個用戶、N個物品,行為觀察的時間段為T,定義用戶行為反饋為一個三階的張量R∈M×N×T.
(1)
式中,a表示在時間點η時,用戶k對物品j產生了交互行為的權重a(a∈+).例如:在某個時刻,用戶點擊瀏覽了某個物品,或者生成了該物品的訂單,則該交互行為的權重就為某個正實數.需要注意的是,R中值越大的情況并不一定意味著用戶k對物品j越有興趣,也有可能瀏覽或下單之后發現自己并不喜歡它;而值為0也并不一定說明用戶k對物品j不感興趣,有可能只是用戶k還未注意到該物品.
1.3 搭配知識庫
事實上,除了上文所提及的用戶行為反饋,與物品直接相關的各種知識也可以從另一方面幫助推薦系統挖掘物品之間的聯系,提高其推薦質量.因此,在推薦系統中,每個物品都可以一一映射到知識庫中描述該物品的一系列實體(例如,一件物品通常可以映射到由物品類別、物品圖片等信息組成的描述該物品的實體上),而這些實體,在本文中就稱為“物品實體”.
具體而言,綜合知識庫中包含的物品實體信息根據其特點一般可分為3種類型.
定義2 文本知識.對于一個物品實體,例如知識庫中的電影或物品,通常會用文本概述來表示文本知識,它往往是電影的主題梗概或物品的標題.
定義3 結構化知識.這種知識是一種可以包含多種類型實體或實體間關系的網狀結構.例如對于物品推薦來說,實體通常包括物品本身和物品類別(如服飾)、地點等屬性,以及描述這些實體間關系的鏈接(如產地關系、從屬關系、搭配關系等).
定義4 圖像知識.除了上述文本型描述,知識庫中還可以用圖像來代表一個實體.例如,用展示圖代表一個物品或是用海報圖代表一部電影.
結構化知識與上文所述的用戶交互反饋作為物品的結構特征,文本知識和圖像知識則是內容特征,它們共同構建了物品搭配度的模型.考慮到圖像知識中包含的特征與文本知識有一定的重合,且其數據量遠遠大于文本數據,處理過程復雜耗時,本文暫時不考慮圖像知識的處理.
1.4 問題定義
本文所研究的問題為:給定一個物品的集合,提供其文本、結構化知識庫,以及用戶交互反饋信息,挖掘出物品之間的搭配關系,為每個待測物品生成一個搭配列表用于推薦給用戶.
現介紹如何從物品實體的文本知識、結構化知識和用戶交互反饋信息中提取物品搭配度關系模型,從而為物品對生成統一的搭配度指標.
2.1 算法框架
具體而言,本文提出的基于聯合物品搭配度的推薦算法框架主要分為2個階段:基于內容/結構特征的物品搭配度建模和協同模型融合過程,如圖1所示.
其中,物品搭配度的建模包含3個部分:基于文本知識(textual knowledge)的物品搭配度模型(JMDI(T))、基于結構化知識(structural knowledge)的物品搭配度模型(JMDI(S))和基于用戶交互反饋(user interaction feedback)的物品搭配度模型(JMDI(F)).

圖1 基于聯合物品搭配度的推薦算法框架JMDI的基本流程
物品搭配度建模過程是從物品實體的文本知識、結構化知識以及用戶交互反饋信息出發,對數據進行預處理后,分別構建物品搭配度模型.數據預處理階段將分別對文本知識、結構化知識和用戶交互反饋數據進行預處理.對文本知識首先用分詞算法進行分詞并映射到整數集上,然后計算每個詞的tf-idf值,篩選出關鍵詞的tf-idf向量;對結構化知識進行降維處理,將物品實體空間轉化為物品間聯系的空間,從而利用相關實體預測算法得到預測的相搭配商品及其損失函數;對用戶交互反饋數據進行處理,生成物品對偏序關系矩陣.在此基礎上,本文將分別構建出物品搭配度模型.
而搭配度的協同模型融合過程則是利用上一步的子搭配度模型,通過邏輯回歸方法,學習融合參數,構建融合后的搭配模型.下面將詳細介紹這個過程.
2.2 物品搭配度模型
為了構建物品搭配度模型,本文從以下3個角度分別提取特征表示,構建子搭配度模型.
假設在推薦系統中,有一個物品集I={i1,i2,…,iN},其中ij表示單個物品,由物品編號、類別和代表詞組(由分詞算法在物品文本描述上處理而得)組成的元組(δj,cj,τj)表示,I包含了其他所有數據集中出現的所有物品;一個用戶交互行為集B={b1,b2,…,bM},其中bk表示單次交互行為,由用戶編號、物品編號、交互行為類型和行為發生時間組成的元組(uk,δk,ψk,ηk)描述,表示用戶uk在ηk時刻對物品δk產生了交互行為ψk;專家搭配知識集S,其構成的集合為S={s1,s2,…,sL},其中,sj由套餐編號和搭配套餐物品列表組成的元組(Yj1,Yj1,…)描述.B和S中δ所代表的物品都屬于物品集I.本文算法根據上述信息建立模型,然后對于給定物品集I中的每一個物品,預測最有可能與其搭配的Top-K個物品.因此構造一個目標函數D(i,j),i≠j,j∈[1,N],表示待測物品i和候選物品j之間的搭配度,而構建的模型應該能使搭配度最高的Top-K個物品更加符合實際情況,即能更好地預測專家搭配結果.
2.2.1 基于文本知識(模型1)
基于文本知識的搭配度模型(JMDI(T))根據物品本身的文本知識評估物品之間的搭配程度.
首先需要對文本降維處理,利用相關技術[6]提取文本關鍵詞,對文本知識中出現的詞語計算tf-idf值,取值最大的m個分詞作為該物品實體的詞向量.具體而言,物品p的一個分詞εp的tf-idf值為詞頻tf(εp)和逆文檔頻率idf(εp)的乘積,某個詞的重要性越高,則tf-idf值就越大.其中,
(2)
(3)
式中:l(τp)表示物品實體p的分詞集合τp的大小;r(εp,τp)表示τp中分詞εp出現的次數;d(cp,·)表示與p類別相同的物品個數;d(cp,εp)表示與p類別相同且包含分詞εp的物品個數.為了防止式(3)造成某些分詞重要性偏高或偏低,因此需要對idf(εp)進行平滑操作H(·).因此,tfidf(εp)=tf(εp)H(idf(εp)),這里H(·)可為一階線性平滑函數,即
(4)
根據tf-idf值可以計算出每個物品實體的分詞向量及其tf-idf向量,由此可以進一步構建物品之間的搭配度模型.
考慮到物品之間若要搭配,它們之間勢必有一些共性元素,例如品牌、色調、季節等,這樣才能協調而不至于搭配突兀,這種信息一般都會作為關鍵詞出現在物品標題中,以便用戶能夠很容易地搜索到.由此可以認為,經過類別過濾的物品之間的搭配度與其相似度成正相關.因此,基于文本知識的搭配度可以由分詞向量的相似度w(p,p′)表示,即
(5)
式中,w(p,p′)為物品p和p′分詞的tf-idf向量的余弦相似度[7].
考慮到兩個物品的標題分詞長度和分詞集合不一定相同,且物品p與p′的相似度應是相對于p而言的,因此將w(p,p′)優化為
(6)
另一方面,為了減少后續計算量,考慮到在搭配問題中,相似的同類物品一般都是可替代產品,而并非搭配物品,而某些類別對一般不會出現在同一組搭配中(例如羽絨服和熱褲).即相搭配的物品一般都不屬于同一個類別,且某些類別勢必與另一些類別不相搭配.因此D1(p,p′)可以定義為
(7)
2.2.2 基于結構化知識(模型2)
復雜網絡中通常隱含著大量實體及其相互關系的結構信息,一般可以用知識圖譜來表示.知識圖譜是一種圖結構,可以由若干條(vh,r,vt)的三元組構成,表示頭實體vh與尾實體vt之間存在關系r,h,t表示實體.這種表示方式存在著計算效率低和數據稀疏性問題.因此,本文試圖將網絡結構的知識嵌入到低維向量空間中,并盡量保留網絡中的某些信息.TransR模型[8]是當前最為先進的復雜網絡嵌入方法之一.基于結構化知識的搭配度模型(JMDI(S))將TransR改進并應用于搭配場景下.下面介紹將TransR模型應用到結構化知識上,生成關系r的向量空間的方法.

TransR模型與其他類似模型不同,TransR模型將實體和關系表示在不同語義空間中,用特定關系的投影矩陣聯系起來.具體而言,如圖2所示,將每個三元組(vh,r,vt)中的實體嵌入到向量vh,vt∈k中,關系r嵌入到向量r∈d中.對于每個關系r,定義投影矩陣Mr∈k×d,將實體向量投影到關系r的子空間,實體的向量可以定義為
(8)
然后,通過不斷調整vh,vt,r使得vt≈vh+r,其損失函數定義為
(9)
有別于普通TransR模型基于邊際的目標函數,本文采用sigmoid函數來計算成對三元組的排序概率,然后將TransR擴展為貝葉斯的版本,其算法步驟如下:




圖2 TransR的簡單示例
從而可以訓練得到每個物品的表示結構化含義的向量.然后,根據式(9)計算出每個待測物品與候選物品的損失函數,用以表示物品之間的搭配程度.由于其搭配度與損失函數值呈負相關,因此
(10)
式中,ρ為參數,可以取為所有fr的中位數.
2.2.3 基于用戶交互反饋(模型3)
在基于用戶交互反饋的搭配度模型(JMDI(F))中,主要通過協同過濾的思想分析用戶交互反饋,得到物品之間的搭配關系.如上文所述,用戶交互反饋是關于用戶-物品-時間的三維不連續空間R,每個點表示一次交互行為代表的興趣值,其值與行為類型相關.例如,通常購買行為的興趣值大于點擊行為.
通常的協同過濾算法很少會考慮歷史行為中的時序信息,但同一時間窗內購買的物品之間很有可能就隱含著彼此的關系.因此,在某個時間窗Tc的約束條件下將R轉換到一個低維矩陣Q∈M×N,表示用戶對物品的興趣值的和,矩陣中的值Qi,j表示在Tc時間間隔內,用戶i對物品j產生交互行為的總興趣值.
對Q處理,將用戶-物品矩陣轉換為物品-物品的稀疏矩陣Z,使得
(11)


a. 若有同一用戶對p與p′產生了交互行為,則p與p′更有可能相搭配,其搭配度與p和p′被同一用戶產生交互行為的概率成正相關,即D3(p,p′)與Pcnt(p,p′)成正相關;
b. 若有同一用戶對p與p′產生了交互行為,則p與p′更有可能相搭配,且興趣值越接近,其搭配度越高,即D3(p,p′)與Zp,p′成正相關;
c. 若p與p′從未被同一用戶發現過,考慮到可能存在可替代物品的情況,因此尋找物品q滿足Zq,p>0,Zq,p′>0,且q與p同類,與p′異類,其搭配度和p與q的相似度w(p,q)成正相關,與D3(q,p′)成正相關.
綜合上述邏輯,當有同一用戶在時間窗Tc內對p與p′產生了交互行為時,則
(12)
否則
(13)
其中,Pcnt(a,b)=cnt(a,b)/(cnt(a)+cnt(b)),表示a,b在時間窗Tc內被同一用戶產生交互行為的概率.
2.3 搭配度融合排序方法
根據上文所述,本文分別從文本知識、結構化知識和用戶交互反饋信息中提取出了物品搭配度模型.本節中,為了將上述3種物品搭配度模型整合起來,在JMDI框架中引入了聯合學習過程.
由上述3個子搭配度模型可以初步得到每個待測物品的候選搭配列表及其子搭配度,然后需要對每個候選物品的搭配度進行聯合評估排序,從而選出最可能搭配的Top-K個物品.
給定專家標記的搭配套餐,可以得到物品之間偏序關系的正負反饋.具體來說,若物品i,j搭配而i,j′不搭配,則將(i,j)對標記為+1,將(i,j′)對標記為-1.隨后利用邏輯回歸模型[9](logic regression,LR)訓練子搭配度的融合參數.將子模型輸出的候選物品編號及其與待測物品的子搭配度構成的向量分別作為訓練融合模型的樣本,記為X={δi,xi,i∈[1,100]∩},其中xi=(Di1,Di2,Di3).接著利用專家搭配套餐獲得樣本的正負標記Y∈{-1,1},從而根據邏輯回歸模型的原理,假設
(14)
然后利用梯度上升方法對參數θT求解,由于式(14)是非線性的,因此對其進行logit變換得到
(15)
g(x)即最終的搭配度D,對其進行排序,通過對專家搭配套餐物品對的類目進行統計,去掉從未出現過的類目搭配,從而選出搭配度Top-K的候選物品作為與物品p相搭配的物品列表.
根據上文描述,本文的方法需要將數據集劃分為訓練集Trainset和測試集TestItems.對于訓練集,由于模型融合過程有監督學習,因此需要將訓練集再劃分為兩部分,分別用于生成子模型結果和訓練模型融合參數.算法的主要流程如下:
a. 數據預處理,計算每個物品文本信息的tf,idf值,統計并計算Pcnt(p,p′);
b. 根據2.2.1節的模型計算待測物品的相似度和物品搭配度D1;
c. 根據2.2.2節訓練模型并獲得待測物品的相搭配物品實體及其搭配度D2;
d. 根據2.2.3節計算時間窗Tc內的Q矩陣,進一步處理得到矩陣Z,計算待測物品的物品搭配度D3;
e. 利用訓練集對上述子搭配度的融合參數進行訓練,然后融合候選物品與待測物品的搭配度,進行離差標準化處理,最后取Top-K個作為最終結果.
由于并非所有的用戶都會有齊全的各類數據,而本算法框架融合了物品本身文本知識、結構化知識和用戶行為反饋,使得它可以解決現實中經常遇到的數據缺失的問題,一定程度上擴大了算法的適用面.
另一方面,本文提出的JMDI框架模塊化程度較高,模塊內的計算也可以很容易地并行化處理,因此本算法也適用于大規模數據的處理.
4.1 實驗數據集及評價方法
本文采用阿里天池大數據實驗室提供的Taobao_Clothes_Matching[10]數據集.該數據集包括3部分,分別為物品基本信息數據(文本、圖像)、用戶歷史行為數據和搭配套餐數據,總共上萬套餐,十萬級物品及圖像,百萬級用戶、千萬級行為的數據.為了測試算法的性能,將搭配套餐數據的80%作為訓練集,其余作為測試集,并利用所有搭配數據生成測試集的答案.物品集I和專家搭配套餐集S、用戶歷史行為數據集B,以及待預測商品集TEST中的物品關系如圖3所示.

圖3 數據集中物品來源的關系
為了評價算法的效果,本文對于每個物品采用MAP@K[11](mean average precision)和Recall@K作為評價指標,其值趨于0~1之間,數值越大越理想.其中MAP@K具體計算方法如下.
對每個物品,其api@K表示為
(16)
式中:n表示答案集合中物品的數量;p(k)表示在k截斷之前的預測準確率;當第k個物品在答案集合中Δ(k)為1,否則為0.對每個物品的api@K在待預測物品集合下求平均值得到最終評測值為
(17)

這種評測指標可以反映出預測搭配的命中率和排序準確率.因此,需要本算法能夠盡量減少搭配集物品數目而提高命中率,同時搭配集的物品排序要盡可能貼近真實情況.
4.2 實驗設計與結果分析
首先在數據集上進行抽樣實驗,調整每個子模型的參數值,觀察對MAP@K,Recall@K的影響,設定評價指標中的K為50,100,150,200,確定模型中各個參數如下:
a. 在式(4)中,α=0.008 5,β=0.07;
b. 模型3中,時間窗Tc取30d.
然后在正式數據集上運行本文算法框架,根據基于文本知識、結構化知識和用戶交互反饋的搭配度模型,分別計算得到搭配結果,與其他算法比較評估其結果.最后將完整框架的處理結果與其他算法比較.
為了驗證本文提出的物品搭配度模型的有效性,設計對比實驗,將本文模型與下列實驗的結果對比.
a.Item-basedCF(T)[12]:將基于物品文本相似度的協同過濾算法應用于文本知識數據集,相似度采用余弦相似度,對訓練集中標注的搭配物品對,尋找與待測物品最相似的幾個物品,獲得與它們相搭配的物品及其近似物品作為算法輸出.
b.BPRMF[13]+TransE[14]:將基于貝葉斯個性化排序的矩陣分解算法[2]結合TransE算法[3],應用于結構化知識數據集,生成候選搭配列表.
c.Item-basedCF(F):將基于物品文本相似度的協同過濾算法應用于用戶交互反饋數據集,根據用戶同時感興趣的物品對,尋找與待測物品最相似的幾個物品,獲得與它們相搭配的物品及其近似物品作為算法輸出.
d. 混合CF:將基于相似度的協同思想應用于全部數據集上,生成候選搭配列表.
圖4(a),5(a)表示JMDI中的基于文本知識的搭配度模型與Item-basedCF(T)算法的效果比較;圖4(b),5(b)表示JMDI中的基于結構化知識的搭配度模型與BPRMF+TransE算法的對比;圖4(c),5(c)表示JMDI中的基于結構化知識的搭配度模型與混合CF算法的對比.
可以發現,本文提出的JMDI框架中的每個子模型的表現都優于其對比算法.而基于結構化知識的搭配度模型由于引入了TransR模型,相較于其對比算法,效果提升顯著,能更好地應對復雜關系網絡,充分挖掘網絡知識中隱含的信息.而比較3個子模型可以看出,基于文本知識的子模型對于搭配預測的貢獻最大,但另外兩個子模型的貢獻也很重要.這是由于物品的文本描述本身包含了物品的關鍵特征的描述,而一般為了協調,相搭配的物品大多都有類似的特征,因此文本描述的信息準確地刻畫了物品特征,便可以更好地預測搭配物品;而基于結構化知識和用戶交互反饋的模型,由于主要基于客觀事實或行為,其隱含特征的挖掘效果相對不如文本知識,但它更具有可靠性,在樣本數據足夠多的情況下表現穩定,不會受人為設定文本描述信息的干擾.
由圖6可以看出,3個子模型的使用顯著提升了算法的整體效果,證明本文的算法框架充分挖掘了各類數據中的隱含信息,并且將其有效融合為一體.與混合CF算法的對比顯示,本文將文本、結構化知識與協同過濾結合到一起,有效提升了搭配預測的效果.此外,通過將3個模型結合起來,可以緩解協同過濾的數據稀疏性和冷啟動問題,在沒有用戶有相應交互行為的時候,可以通過利用物品相關知識,很好地彌補協同過濾的不足,使推薦系統的整體效果得到提升.

圖4 JMDI算法框架子模型與對比算法的MAP@K比較結果

圖5 JMDI算法框架子模型與對比算法的Recall@K比較結果

圖6 JMDI算法框架與對比算法的比較結果
本文針對傳統的基于相似度度量的推薦算法無法表示物品之間搭配關系的問題,提出了一個基于聯合物品搭配度的推薦算法框架JMDI,整合了文本知識、結構化知識和用戶交互反饋等信息用于搭配推薦.框架中構建了3個物品搭配度子模型并通過邏輯回歸方法進行搭配度融合,生成與目標物品相搭配的物品推薦列表.在Taobao_Clothes_Matching數據集上的實驗表明,本文提出的基于聯合物品搭配度(JMDI)的推薦算法框架可以提供有效的搭配物品推薦.由于該算法的效果還依賴于不同模型生成的結果的融合方法,因此下一步工作是研究如何更好地將子模型的結果進行融合.此外,今后還將研究圖像知識的處理,將圖像特征融入到算法框架中,以期得到更好的結果.
[1] LIU Q,CHEN E H,XIONG H,et al.Enhancing collaborative filtering by user interest expansion via personalized ranking[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(1):218-233.
[2] PAZZANI M J,BILLSUS D.Content-based recommendation systems[M]∥BRUSILOVSKY P,KOBSA A,NEJDL W.The Adaptive Web.Berlin Heidelberg:Springer,2007:325-341.
[3] BURKE R.Knowledge-based recommender systems[J].Encyclopedia of Library and Information Systems,2000,69( 32):180-200.
[4] HU Y,YI X,DAVIS L S.Collaborative fashion recommendation:a functional tensor factorization approach[C]∥Proceedings of the 23rd ACM International Conference on Multimedia.Brisbane,Australia:ACM,2015:129-138.
[5] WONG W K,ZENG X H,AU W M R,et al.A fashion mix-and-match expert system for fashion retailers using fuzzy screening approach[J].Expert Systems with Applications,2009,36(2):1750-1764.
[6] ZHOU L.Exploration of the working principle and application of word2vec[J].Sci-Tech Information Development & Economy,2015,25(2):145-148.
[7] YE J.Cosine similarity measures for intuitionistic fuzzy sets and their applications[J].Mathematical and Computer Modelling,2011,53(1/2):91-97.
[8] LIN Y K,LIU Z Y,SUN M S,et al.Learning entity and relation embeddings for knowledge graph completion[C]∥Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence.Austin,Texas:AAAI,2015:2181-2187.
[9] RUCZINSKI I,KOOPERBERG C,LEBLANC M.Logic regression[J].Journal of Computational and Graphical Statistics,2003,12(3):475-511.
[10] Taobao_clothes_matching[EB/OL].[2015].https:∥tianchi.shuju.aliyun.com/datalab/dataSet.htm?spm=5176.100073.888.29.DatQOr&id=13.
[11] VAN DEN OORD A,DIELEMAN S,SCHRAUWEN B.Deep content-based music recommendation[C]∥Advances in Neural Information Processing Systems 26.South Lake Tahoe,NV,USA:MIT Press,2013:2643-2651.
[12] SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collaborative filtering recommendation algorithms[C]∥Proceedings of the 10th International Conference on World Wide Web.Hong Kong,China:ACM,2001:285-295.
[13] RENDLE S,FREUDENTHALER C,GANTNER Z,et al.BPR:Bayesian personalized ranking from implicit feedback[C]∥Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence.Montreal,Quebec,Canada:AUAI Press,2009:452-461.
[14] BORDES A,USUNIER N,GARCIA-DURAN A,et al.Translating embeddings for modeling multi-relational data[C]∥Advances in Neural Information Processing Systems 26.South Lake Tahoe,United States:MIT Press,2013:2787-2795.
(編輯:丁紅藝)
Joint Match Degree of Items for Recommendation Systems
YAO Jingtian1, WANG Yongli1, SHI Qiuyan1, DONG Zhenjiang2,3
(1.SchoolofComputerScienceandEngineering,NanjingUniversityofScienceandTechnology,Nanjing210094,China; 2.DepartmentofComputerScienceandEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China; 3.Cloud&ITInstitute,ZTECorp.,Nanjing210012,China)
Since most recommendation systems are based on the calculation of items’ or users’ similarity,the results can’t give consideration to both the complementarity and similarity of recommened objects.An algorthm framework for calculating the joint match degree of items for recommendation systems was proposed.In the framework,combining with the informations of users’ interaction feedback,items’ textual knowledge and structural knowledge,the joint match degrees of the target item and those candidate items were calculated respectively.Integrating the match degrees by using logistic regression,a list of items matched with the target item was obtained.Through the experiments on a Taobao real data set,it is indicated that the model significantly improve the performance of recommendation collocation compared to the recommendation algorithm based on similarity only.Moreover,in the situation of fewer users’ interaction record,the model can also have better accuracy.
recommendsystem;itemmatch;collaborativefiltering;expertknowledge;similarity
1007-6735(2017)01-0042-09
10.13255/j.cnki.jusst.2017.01.008
2016-10-09
國家自然科學基金資助項目(61170035,61272420,61502233);2012年國家科技重大專項(2012ZX03002003);江蘇省科技成果轉化專項資金項目(BA2013047);江蘇省六大人才高峰項目(WLW-004);兵科院預研項目(62201070151);中央高校基本科研業務費專項資金項目(30916011328)
姚靜天(1992-),女,碩士研究生.研究方向:推薦系統、大數據分析、社交網絡.E-mail:codingyjt@gmail.com
王永利(1974-),男,教授.研究方向:數據庫與大數據分析、智能服務與云計算、模式識別等.E-mail:yongliwang@njust.edu.cn
TP 391
A