徐兵
(四川大學計算機學院,成都610065)
隨著互聯網信息爆炸式增長,信息總量呈現指數級的增長,人們難以從海量的信息中獲取到有用信息,造成了人們面臨信息抉擇時困難的情況,稱為信息過載。為了有效地為用戶過濾信息,提出了推薦系統,推薦系統經過20 年的發展,如今正稱為研究的熱點。其目標是根據用戶的歷史行為數據來預測用戶對項目的偏好,從而為用戶推薦合適的物品。與搜索引擎不同的是,推薦系統為用戶呈現的信息是具有用戶個性化的信息,可達到千人千面的效果,而搜索引擎呈現的信息是根據關鍵字匹配,是一種大眾化的信息。目前推薦系統在購物、影音、圖書、旅游、社交關系等方面為用戶帶來了極大方便,減少了用戶決策時間,提升了用戶個性化需求的滿意度。其學術價值和工業價值受到了廣泛的關注,例如亞馬遜(Amazon)購物網站35%的銷售額來自其推薦系統;視頻網站網飛(Netflix),75%的內容來源于推薦系統的推薦。
然而,對于傳統推薦系統,數據稀疏性一直是制約推薦系統性能進一步提升的瓶頸。數據稀疏性是指用戶數量和物品數量都是海量的,據淘寶網數據顯示,淘寶網擁有近5 億的注冊用戶,每年有超過6000 萬的固定訪客,每天的在線商品數超過8 億件。對于協同過濾算法,因產生購買記錄的用戶和物品數量僅僅占總量的一小部分,其用戶-項目矩陣將及其稀疏,在計算用戶與物品間的相似度時,將使推薦結果不準確。為了解決稀疏性問題,研究界一是通過聚類,對原始數據進行將維;二是引入文本評論信息,上下文信息等輔助信息,增加數據源的多樣性,提升推薦效果;三是引入深度學習來加強提取用戶-項目交互的隱含特征,從而緩解數據稀疏。但是因為深度學習通常被視為一個“黑盒子”,對于推薦結果缺乏可解釋性,如何讓用戶信任推薦系統缺少說服力,為此,如何在緩解數據稀疏性的同時,為推薦結果提供一定的可解釋性的問題被提出。
近年來,知識圖譜在搜索引擎和自然語言處理的研究引起了學者們的關注。知識圖譜是一個蘊含豐富語音信息的異構網絡結構圖。其含有的多源信息為推薦系統提供了特有的輔助信息,從而緩解數據稀疏性,其語義路徑為推薦結果提供邏輯推理支持。本文對近期關于知識圖譜應用于推薦系統的文獻進行分類和綜述。
推薦系統的算法可以分為基于內容的推薦算法、基于協同過濾的推薦算法和混合推薦算法[17]。圖1 描述了這些方法的分類?;趦热莸耐扑],根據項目或內容的元數據,發現項目或內容的相關性,然后基于用戶的歷史行為(如基于顯示反饋的評分、點贊等和基于隱式反饋的搜索、點擊、購買等),獲得用戶的興趣偏好,從而推薦給用戶與其以前購買項目相似的項目。協同過濾算法,已廣泛被各類研究機構和行業研究,并在實踐中得到了應用。許多網絡購物平臺(淘寶,京東等)的推薦系統都是基于協同過濾算法進行構建。其算法原理是根據用戶-項目的交互歷史矩陣,來預測用戶對候選項目的偏好?;旌贤扑]算法,指結合基于內容的推薦算法和協同過濾算法的推薦算法,用以避免任何一種方法的局限性。
知識圖譜(Knowledge Graph)是2012 年由谷歌公司為提升搜索引擎性能而提出,其通常由多個三元組(頭實體、關系、尾實體)構成的異構圖,圖的節點表示實體,節點之間的邊表示關系。圖譜中的實體間對應于多個關系,一個關系可認為客觀世界的一個事實。將知識圖譜引入推薦系統,一是通過將推薦系統的對象(用戶或物品)與知識圖譜中的實體相互映射,可增強項目與項目之間的聯系,更加準確的捕獲用戶與物品之間的關系,從而緩解數據稀疏性。二是根據知識圖譜的邏輯推理,將用戶的歷史記錄與推薦的結果連接起來,為推薦結果提供可解釋性。如圖1 所示,一個知識圖譜的子集包括與三個人、四部電影及其相對應的關系實體。實體之間的聯系代表了他們之間的關系,實體關系異質性提供了從不同角度測量實體相似性的可能。例如《瘋狂的外星人》的主演是黃渤,通過圖譜可觀察到黃渤也是《無人區》和《被光抓走的人》的主演,如此,一個用戶是黃渤的粉絲,則這用戶會喜歡《無人區》或《被光抓走的人》。并且根據關系權重加權會發現,此用戶可能會更喜歡《無人區》。
三是通過實體之間的多種關系,有助于合理擴展用戶興趣,并為用戶呈現多樣性的推薦。
本次綜述將根據知識圖譜作為推薦系統的輔助信息來解決推薦系統兩個方面問題:數據稀疏性和可解釋性。
準確性作為推薦系統首要問題,關系到用戶對系統的粘度,對提升整體經濟價值至關重要。據研究,目前推薦系統的準確性在72%左右,推薦系統的準確度還有進一步提升空間,除了根據用戶畫像、物品屬性,和上下文信息外等輔助信息融入推薦系統外,知識圖譜作為更具語義信息的輔助信息,將其融入推薦系統能更好地緩解數據稀疏性,提升準確度。

圖1 知識圖譜示例
文獻[1]提出的CKE 模型,利用TransR 方法對知識圖譜的結構信息進行處理,得到實體的結構化信息向量,結合獲得的文本信息向量和視圖信息向量,形成項目的潛在表示。文獻[2]提出的DKN 模型,利用TransD 方法學習知識圖譜中的實體向量,并學習實體一跳范圍的上下文實體向量,將不同空間的向量使用多通道進行拼接,解決了新聞推薦的三大難題。文獻[3]提出的MKR 模型,采用多任務學習框架,將推薦系統與知識圖譜特征學習任務交替優化訓練,利用知識圖譜嵌入協助推薦任務,使推薦更具靈活性和適應性,文獻[4]提出的RKGE 模型,使用循環網絡對實體間的所有路徑的語義進行自動建模,同時通過池化學習個實體間路徑的重要性,并將其融合到推薦中,從而發現用戶對物品的偏好;文獻[5]提出的KGAT 的模型,通過考慮用戶與物品之間的不同關系,對用戶與物品的多跳關系建模,從而處理用戶的偏好問題。文獻[6]提出的KGCN 模型,是一種端到端的卷積網絡,將物品作為知識圖譜領域的中心,從而融合領域信息,減輕數據稀疏性的影響。
因目前推薦系統普遍具有“黑盒化”,即不知道推薦系統如何捕捉用戶的興趣,用戶也不明白系統推薦的物品的意義,為了使推薦能具有個性化外的人性化,可解釋推薦逐漸成為研究熱點。可解釋推薦不僅能提升用戶信任度和接受度,還能給用戶提供一個優先選擇物品的機會來提升用戶滿意度。因為圖譜的語義路徑具有邏輯推理,研究學者,通過將知識圖譜融入推薦,將用戶與候選物品的路徑,作為給用戶推薦的物品的解釋,來增強推薦系統的滿意度和信任度。
文獻[7]提出的KPRN 模型,通過對實體的順序依賴性和連接用戶-項對的路徑的復雜關系建模,并能通過路徑推理用戶偏好,為推薦提供解釋性。文獻[8]提出的KTUP 模型,根據用戶偏好某項目的原因建模,通過將推薦任務與知識補全相結合,來提升推薦結果的準確性和可解釋性。文獻[9]提出的RippleNet 模型,將知識圖譜嵌入通過偏好傳播的方式融入推薦中,并自動發現用戶交互歷史與候選物品間的連接路徑,通過路徑為結果提供解釋。文獻[10]提出的EIUM 算法,稱為可解釋性交互驅動用戶算法,其根據用戶的歷史行為序列來預測用戶可能偏愛的物品,從而提供一種順序推薦的可解釋性。文獻[11]提出的一種基于規則推薦的聯合學習框架,將規則學習的權重作為推薦結果的解釋。
本文根據基于知識圖譜在解決推薦系統的兩個方面進行了綜述,即數據稀疏性和可解釋性方面。緩解數據稀疏性能進一步提高推薦系統的準確度,使用戶更加信任系統捕捉興趣的能力,為推薦結果提供一種解釋,能增強推薦系統的透明度,提升用戶的信任度。
隨著學者對知識圖譜的知識表示,知識推理的研究深入,知識圖譜在推薦系統的準確性和解釋性上會得到進一步提升,將知識圖譜和推薦系統結合也會更加受到關注。