倪文鍇 杜彥輝 馬興幫 呂海濱



收稿日期:2023-06-12;修回日期:2023-08-16? 基金項(xiàng)目:中國人民公安大學(xué)網(wǎng)絡(luò)空間安全執(zhí)法技術(shù)雙一流專項(xiàng)資助項(xiàng)目
作者簡介:倪文鍇(1998—),男,浙江金華人,碩士研究生,主要研究方向?yàn)橹R表示、推薦系統(tǒng);杜彥輝(1969—),男(通信作者),陜西西安人,教授,博導(dǎo),博士,CCF會員,主要研究方向?yàn)槿斯ぶ悄堋⒋髷?shù)據(jù)(duyanhui@ppsuc.edu.cn);馬興幫(1998—),男(回族),云南曲靖人,碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)、深度學(xué)習(xí);呂海濱(1996—),男,福建泉州人,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)分類、知識圖譜等.
摘? 要:推薦系統(tǒng)中知識圖譜對系統(tǒng)的推薦效果起到很重要的作用,圖譜中的知識表示成為影響推薦系統(tǒng)的關(guān)鍵因素,這也成為當(dāng)前的研究熱點(diǎn)之一。針對推薦系統(tǒng)中知識圖譜的結(jié)構(gòu)特點(diǎn),在傳統(tǒng)node2vec模型基礎(chǔ)上增加關(guān)系表示和多元化游走策略,提出一種基于node2vec的知識表示node2vec-side,結(jié)合推薦系統(tǒng)知識圖譜網(wǎng)絡(luò)結(jié)構(gòu),旨在挖掘大規(guī)模推薦實(shí)體節(jié)點(diǎn)間潛在的關(guān)聯(lián)關(guān)系,降低表示方式復(fù)雜度,提高可解釋性。經(jīng)過時(shí)間復(fù)雜度分析可知,提出的知識表示方式在復(fù)雜度上低于Trans系列和RGCN。在傳統(tǒng)知識圖譜數(shù)據(jù)集FB15K、WN18和推薦領(lǐng)域數(shù)據(jù)集MovieLens-1M、Book-Crossing、Last.FM上分別進(jìn)行鏈接預(yù)測對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:在MovieLens-1M數(shù)據(jù)集上,hits@10分別提升了5.5%~12.1%,MRR提升了0.09~0.24;在Book-Crossing數(shù)據(jù)集上,hits@10分別提升了3.5%~20.6%,MRR平均提升了0.04~0.24;而在Last.FM數(shù)據(jù)集上,hits@1提升了0.3%~8.5%,MRR平均提升了0.04~0.16,優(yōu)于現(xiàn)有算法,驗(yàn)證了所提方法的有效性。
關(guān)鍵詞:知識表示;推薦系統(tǒng);鏈接預(yù)測;知識圖譜
中圖分類號:TP391??? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1001-3695(2024)02-006-0361-07
doi:10.19734/j.issn.1001-3695.2023.06.0257
node2vec-side fusion knowledge representation for
personalized recommendation
Ni Wenkai,Du Yanhui,Ma Xingbang,Lyu Haibin
(College of Information & Cyber Security,Peoples Public Security University of China,Beijing 100038,China)
Abstract:The knowledge graph in the recommendation system plays a vital role in the recommendation effect of the system,and the knowledge representation in the graph becomes a key factor affecting the recommendation system,which has become one of the current research hotspots.This paper proposed a node2vec-based knowledge representation node2vec-side based on the traditional node2vec model by adding relational representation and diversifing wandering strategy to the structural characte-ristics of the knowledge graph in recommendation system,which combined with the knowledge graph network structure of recommendation system to explore the potential association relationship between nodes of large-scale recommendation entities,reduced the complexity of the representation and improved interpretability.After time complexity analysis,it could be seen that the proposed knowledge representation is lower than Trans series and RGCN in terms of complexity.Link prediction experiments were conducted on the traditional knowledge graph datasets FB15K,WN18,and recommendation domain datasets MovieLens-1M,Book-Crossing,Last.FM respectively.The experimental results show that on the MovieLens-1M dataset,hits@10 improves 5.5%~12.1% and MRR improves 0.09~0.24,respectively.On the Book-Crossing dataset,hits@10 improves 3.5%~20.6%,and MRR improves 0.04~0.24 on average,respectively.And on the Last.FM dataset,hits@1 improves 0.3%~8.5% and MRR improves 0.04~0.16 on average.It is better than the existing algorithms and verifies the effectiveness of the proposed method.
Key words:knowledge representation;recommender system;link prediction;knowledge graph
0? 引言
當(dāng)前互聯(lián)網(wǎng)中的各類信息呈爆炸式增長,用戶個(gè)性化需求與海量信息間的矛盾日益突出,為了給用戶提供更加個(gè)性化、精準(zhǔn)化、智能化的信息服務(wù),個(gè)性化推薦算法應(yīng)運(yùn)而生。推薦算法中應(yīng)用的技術(shù)眾多,谷歌公司首次提出知識圖譜(know-ledge graph)[1]的概念并將其應(yīng)用于搜索引擎。知識圖譜本質(zhì)上是結(jié)構(gòu)化的語言知識庫,用于表示各領(lǐng)域中的實(shí)體和關(guān)系,一般的組織形式為有向圖,以節(jié)點(diǎn)代表實(shí)體,以有向邊表示關(guān)系。目前知識圖譜已廣泛應(yīng)用于問答系統(tǒng)[2]、智能搜索[3]和個(gè)性化推薦[4]等人工智能領(lǐng)域。知識圖譜一方面能夠有效組織海量的推薦數(shù)據(jù),另一方面能夠通過推薦數(shù)據(jù)挖掘用戶的深層興趣和推薦物品的潛在關(guān)系,從而提升推薦的準(zhǔn)確性、多樣性以及可解釋性。構(gòu)建推薦系統(tǒng)中的知識圖譜首先需要將海量推薦信息組織成結(jié)構(gòu)化的知識,再采用知識表示、知識融合等相關(guān)技術(shù)支撐推薦應(yīng)用的需要。其中,知識表示是知識圖譜應(yīng)用的基礎(chǔ)工程,本質(zhì)上是將知識圖譜中的實(shí)體和關(guān)系轉(zhuǎn)換為稠密低維實(shí)值向量,然后再通過知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征表示學(xué)習(xí)。隨著知識圖譜的不斷擴(kuò)展,知識的形式更加復(fù)雜多樣,知識圖譜最常用的知識表示為三元組結(jié)構(gòu),如(實(shí)體e,關(guān)系r,實(shí)體t)。但是,傳統(tǒng)以三元組為主的知識表示表達(dá)能力有限,無法滿足知識挖掘、知識推理等應(yīng)用需要。隨著知識圖譜的應(yīng)用越來越廣泛,對知識表示的研究也在深入。當(dāng)前知識圖譜中的知識表示主要包括基于翻譯的知識表示(Trans系列)、基于語義匹配的知識表示(如RESCAL[5]、DistMult[6]、SME[7])、基于距離的知識表示(如SE[8])以及基于圖神經(jīng)網(wǎng)絡(luò)的知識表示(如RGCN[9])。
在推薦系統(tǒng)中,目前最常用的知識表示是以TransE為代表的翻譯模型,例如基于知識圖譜的推薦算法CKE[10](基于TransR)和DKN[11](基于TransE)均采用翻譯模型進(jìn)行知識表示,但是以Trans系列為代表的知識表示均假設(shè)三元組之間是相互獨(dú)立的,采用相同概率處理三元組進(jìn)行建模的方式,往往忽略節(jié)點(diǎn)的鄰域信息和網(wǎng)絡(luò)結(jié)構(gòu),對于關(guān)系較少的實(shí)體表示效果并不理想,存在節(jié)點(diǎn)間語義邏輯低、難以挖掘距離較遠(yuǎn)的節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系等問題,這都在不同程度上限制了模型的知識表示。有學(xué)者嘗試將圖神經(jīng)網(wǎng)絡(luò)(GCN[12])知識表示模型應(yīng)用于推薦系統(tǒng),并提出了KGCN[13]推薦模型。基于GCN的知識表示首先利用GCN生成實(shí)體表示,然后使用圖嵌入模型捕獲實(shí)體和關(guān)系之間的交互,通過在圖上進(jìn)行卷積學(xué)習(xí)的方式聚合節(jié)點(diǎn)的特征與信息,最終形成節(jié)點(diǎn)和關(guān)系的知識表示。目前基于圖神經(jīng)網(wǎng)絡(luò)的知識表示包括GCN、RGCN等,但是圖神經(jīng)網(wǎng)絡(luò)可解釋性差,訓(xùn)練時(shí)難度大、計(jì)算復(fù)雜,容易受卷積層數(shù)影響,在處理大規(guī)模知識圖譜時(shí)存在復(fù)雜度高、效率低等問題。
本文針對個(gè)性化推薦領(lǐng)域的知識圖譜結(jié)構(gòu)特點(diǎn),進(jìn)行知識圖譜重構(gòu),并在傳統(tǒng)node2vec[14]模型基礎(chǔ)上增加關(guān)系表示和多元化游走策略,提出一種基于node2vec的知識表示node2vec-side,在充分利用推薦知識圖譜網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,更有利于挖掘大規(guī)模推薦實(shí)體節(jié)點(diǎn)間潛在的關(guān)聯(lián)關(guān)系,同時(shí)其表示方式復(fù)雜度低、可解釋性更強(qiáng)。最后分別在傳統(tǒng)知識圖譜和推薦領(lǐng)域知識圖譜上進(jìn)行鏈接預(yù)測實(shí)驗(yàn),相比傳統(tǒng)知識表示Trans系列模型和基于圖卷積網(wǎng)絡(luò)的RGCN模型,本文提出的知識表示更能滿足推薦系統(tǒng)知識圖譜的應(yīng)用需要。
1? 相關(guān)工作
目前知識圖譜與推薦算法的結(jié)合過程中一大難點(diǎn)在于對圖譜的知識表示上,在推薦領(lǐng)域知識圖譜的表示方面,目前還沒有針對性的知識表示方式。2013年,Bordes首先提出TransE模型[15]并在鏈接預(yù)測方面取得較大成果,TransE所涉及參數(shù)較少且計(jì)算簡單,因此自從TransE提出以來,一直是知識表示最具代表性的模型之一[16],其目的是讓head向量和relation向量的和盡可能地靠近tail向量,如圖1所示,TransE的核心是盡可能使得h+r≈t。
雖然TransE簡單有效,但是難以處理多關(guān)系的問題也較為突出,Zhang對TransE進(jìn)行了改進(jìn),對于每一個(gè)關(guān)系r,都將其抽象成向量空間中的超平面Wr,對于每個(gè)三元組,都先將頭節(jié)點(diǎn)或者尾節(jié)點(diǎn)投影到關(guān)系r對應(yīng)的超平面Wr上,再通過超平面上的平移向量計(jì)算頭尾節(jié)點(diǎn)的差值(圖2),在此基礎(chǔ)上提出了TransH[17]模型,有效解決TransE不能處理一對多,多對一等關(guān)系的問題。TransH不要求h+r≈t,但要求保證頭節(jié)點(diǎn)在超平面Wr上的投影向量與關(guān)系向量dr的和與尾節(jié)點(diǎn)的投影向量在同一直線上,即h⊥+dr≈t⊥,其中h⊥=h-wTrhwr,t⊥=t-wTrtwr。
由于TransE和TransH都認(rèn)為實(shí)體和關(guān)系應(yīng)該在相同的向量空間。然而,一個(gè)實(shí)體可能包含多種屬性,每種關(guān)系實(shí)際上是實(shí)體的不同屬性,頭尾節(jié)點(diǎn)和關(guān)系可能不在一個(gè)向量空間中。Lin等人[18]進(jìn)一步提出了TransR,在TransE的基礎(chǔ)上進(jìn)行改進(jìn),對于關(guān)系不僅通過向量r來描述它自身,還通過映射矩陣Mr來描述這個(gè)關(guān)系所處的關(guān)系空間,分別將實(shí)體和關(guān)系在兩個(gè)不同空間中進(jìn)行建模,并最終在關(guān)系空間中進(jìn)行翻譯操作(圖3)。但是TransR沒有考慮頭、尾實(shí)體類型和屬性的不同,并且將實(shí)體和關(guān)系分開建模的方式大大增加了計(jì)算難度,導(dǎo)致其處理大規(guī)模圖譜時(shí)效率較低。針對此問題,又不斷提出了TransD[19]、TransF[20]、TransA[21]等系列模型。基于翻譯的模型都假定實(shí)體和關(guān)系處于同一語義空間中,但是實(shí)體和關(guān)系本質(zhì)上屬于兩種不同的客觀對象,這種將其在同一向量空間中進(jìn)行表示的方式并不恰當(dāng),Trans系列模型均假設(shè)三元組之間是相互獨(dú)立的,在建模時(shí)忽略了三元組周圍的鄰域信息和全局網(wǎng)絡(luò)結(jié)構(gòu)信息,導(dǎo)致在個(gè)性化推薦領(lǐng)域難以深入挖掘信息。相比之下,node2vec-side在節(jié)點(diǎn)游走過程中通過聚合節(jié)點(diǎn)之間的關(guān)系捕捉知識圖譜的語義信息,更能適用于推薦系統(tǒng)場景,能夠處理多關(guān)系建模等問題,在知識表示方面具有更強(qiáng)的表達(dá)能力和適應(yīng)性,為解決知識圖譜與推薦系統(tǒng)結(jié)合中的問題提供了新的解決方案。
與此同時(shí),word2vec[22]等模型的提出大大推動了自然語言處理領(lǐng)域的發(fā)展,同時(shí)也促進(jìn)了網(wǎng)絡(luò)表示學(xué)習(xí)的相關(guān)研究,有學(xué)者嘗試將網(wǎng)絡(luò)表示應(yīng)用于知識表示階段。DeepWalk[23]是一種經(jīng)典的圖結(jié)構(gòu)數(shù)據(jù)挖掘算法,它將隨機(jī)游走和word2vec兩種算法相融合,將圖中的節(jié)點(diǎn)看成自然語言處理中的單詞,通過在圖上進(jìn)行隨機(jī)游走的方式獲得相關(guān)路徑,然后利用word2vec獲得單詞的詞向量,即作為節(jié)點(diǎn)的網(wǎng)絡(luò)表示,這種方式有利于挖掘節(jié)點(diǎn)間的上下文相關(guān)性。
node2vec[24]在DeepWalk算法的基礎(chǔ)上進(jìn)一步發(fā)展,改變采樣策略,采用有偏向的隨機(jī)游走方式,改變隨機(jī)游走序列生成的方式。這種方式在更大程度上可以根據(jù)用戶需求有效地檢索分散的相鄰節(jié)點(diǎn),如圖4所示,node2vec算法能夠兼顧深度游走DFS(depth-first-search)和廣度游走BFS(breadth-first search)方式,主要通過調(diào)節(jié)參數(shù)p和q實(shí)現(xiàn)偏向游走策略。其中DFS偏向游走側(cè)重于遍歷高階節(jié)點(diǎn),遍歷結(jié)果刻畫節(jié)點(diǎn)的同質(zhì)性,BFS偏向游走則側(cè)重于遍歷鄰近節(jié)點(diǎn),更多地聚合節(jié)點(diǎn)的同構(gòu)性。但是知識圖譜本質(zhì)上屬于異構(gòu)圖,節(jié)點(diǎn)間的連線代表著不同的關(guān)系,node2vec的現(xiàn)有游走策略多用于同構(gòu)圖中,如果將其直接應(yīng)用于異構(gòu)網(wǎng)絡(luò)中,可能會存在以下問題:a)異構(gòu)網(wǎng)絡(luò)由實(shí)體(異構(gòu)節(jié)點(diǎn))和關(guān)系(不同類型的邊)組成,在知識圖譜中,三元組(頭實(shí)體,關(guān)系,尾節(jié)點(diǎn))是構(gòu)建上下文的核心,而直接應(yīng)用node2vec會忽略這個(gè)關(guān)鍵信息,進(jìn)而影響知識表示質(zhì)量;b)遇到復(fù)雜的異構(gòu)網(wǎng)絡(luò),單一的隨機(jī)游走策略不能有效得到網(wǎng)絡(luò)的結(jié)構(gòu)。
node2vec-side針對node2vec在知識表示方面應(yīng)用存在的問題,引入關(guān)系表示并采用多元偏向游走策略,將其更好地應(yīng)用推薦數(shù)據(jù)知識圖譜表示。
2? node2vec-side融合知識表示
本文針對推薦系統(tǒng)應(yīng)用場景,提出了基于node2vec的知識圖譜知識表示node2vec-side,其基本思想是:將推薦領(lǐng)域以三元組保存的知識圖譜進(jìn)行重構(gòu)并同質(zhì)化為帶權(quán)有向圖,然后在該有向圖中采用多元隨機(jī)游走策略(BFS偏向和DFS偏向)分別在節(jié)點(diǎn)上進(jìn)行游走得到節(jié)點(diǎn)表示,同時(shí)根據(jù)生成的游走序列聚合節(jié)點(diǎn)間的關(guān)系,最終綜合各游走策略下的表示結(jié)果獲得目標(biāo)知識圖譜的知識表示,整體流程如圖5所示。
2.1? 知識圖譜重構(gòu)
在物品-屬性知識圖譜的提取過程中,推薦數(shù)據(jù)通常以三元組的形式進(jìn)行表示,如(姜文,導(dǎo)演,讓子彈飛),其中可以將知識圖譜中的 “導(dǎo)演”關(guān)系看做頭實(shí)體“姜文”到尾實(shí)體“讓子彈飛”的一次翻譯操作。傳統(tǒng)的Trans系列知識表示單獨(dú)處理每個(gè)三元組,雖然簡化了知識圖譜向量化過程,但是容易丟失知識圖譜結(jié)構(gòu)特征和節(jié)點(diǎn)鄰域信息,在處理復(fù)雜關(guān)系和深層次關(guān)系語義挖掘中效果不佳。
為了更好地利用知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)的鄰域信息,本節(jié)采用基于三元組結(jié)構(gòu)的網(wǎng)絡(luò)重構(gòu)方法,在重構(gòu)過程中,將知識圖譜中的實(shí)體抽象為節(jié)點(diǎn),將關(guān)系抽象為有向邊,其中邊所指的方向即表示實(shí)體之間的關(guān)系,由此將知識圖譜轉(zhuǎn)換為有向圖,同時(shí),在知識圖譜重構(gòu)過程中,將針對每個(gè)關(guān)系的重要程度進(jìn)行權(quán)重的分配,使得不同的三元組在游走策略中具有不同的影響力,重要關(guān)系連接的節(jié)點(diǎn)將獲得更大概率的遍歷。
根據(jù)知識圖譜中的關(guān)系權(quán)重將知識圖譜同構(gòu)化為帶權(quán)有向圖的過程如圖6所示。其中游走的條件概率為
P(ci=x|ci-1=v)=πvxZif(v,x)∈E
0otherwise(1)
其中:πvx為節(jié)點(diǎn)v和x的非歸一化轉(zhuǎn)移概率;Z為歸一化常數(shù)。πvx=wvx則為DeepWalk算法,而在node2vec中設(shè)定πvx=αpq(t,x)·ωvx來調(diào)整節(jié)點(diǎn)之間的轉(zhuǎn)移概率,ωvx表示邊權(quán)重,帶權(quán)有向圖中各邊的權(quán)重為該關(guān)系在知識圖譜中出現(xiàn)的次數(shù),相同的關(guān)系在有向圖中具有相同的權(quán)重,即權(quán)重ωr=count(ri),則有
πvx=αpq(t,x)·ωvx=αpq(t,x)·count(ri)(2)
其中:? αpq(t,x)=1pif dtx=0
1if dtx=1
1qif dtx=2(3)
如圖5所示,其中t為節(jié)點(diǎn)v的上一節(jié)點(diǎn),dtx表示節(jié)點(diǎn)t與x的最短距離。若t、x直接相連,則dtx=1;若t、x為同一節(jié)點(diǎn),則dtx=0;若t、x不相連,則dtx=2。參數(shù)p表示返回參數(shù),參數(shù)q表示進(jìn)出參數(shù),通過調(diào)節(jié)參數(shù)p、q可以權(quán)衡網(wǎng)絡(luò)表示模型的傾向性。由式(2)可知,從當(dāng)前節(jié)點(diǎn)到下一個(gè)節(jié)點(diǎn)的概率由游走策略和關(guān)系權(quán)重共同決定,對于知識圖譜中關(guān)系出現(xiàn)次數(shù)較多的節(jié)點(diǎn)可能會多次經(jīng)過,解決了傳統(tǒng)的Trans系列模型以相同概率處理每個(gè)三元組的問題,同時(shí)也可以通過關(guān)系權(quán)重來反映關(guān)系間的重要程度。
2.2? 關(guān)系聚合
知識圖譜在重構(gòu)后可以通過隨機(jī)游走的方式獲得節(jié)點(diǎn)的知識表示,本節(jié)在node2vec的節(jié)點(diǎn)表示基礎(chǔ)上提出邊表示方式,使知識表示更符合知識圖譜三元組結(jié)構(gòu)特點(diǎn),提高知識表示的區(qū)分度。文獻(xiàn)[24]提到簡單的邊特征表示方法,如表1所示,其中u、v表示邊連接的節(jié)點(diǎn)。但是目前node2vec適用于同構(gòu)圖中,在關(guān)系表示部分簡單地認(rèn)為每條邊都是相異的,而在知識圖譜中相同關(guān)系代表的邊向量應(yīng)該保持一致。為了更好地表示關(guān)系向量,本節(jié)根據(jù)向量平移不變性的思想提出新的關(guān)系表示方法,核心思想是在隨機(jī)游走中對每一步經(jīng)過的關(guān)系進(jìn)行聚合并根據(jù)權(quán)重進(jìn)行調(diào)整。在某次游走序列中存在關(guān)系ri、頭尾節(jié)點(diǎn)知識表示f(h)、f(t)和某個(gè)包含關(guān)系ri的三元組(h,ri,t),通過頭尾節(jié)點(diǎn)向量差完成關(guān)系ri的一次聚合(圖6中f1(ri)、f2(ri)等),依此類推,在節(jié)點(diǎn)進(jìn)行隨機(jī)游走過程中進(jìn)行關(guān)系聚合操作,最后根據(jù)關(guān)系ri在知識圖譜中的權(quán)重(圖6中Nri)進(jìn)行平均處理,為了防止某些權(quán)重較大的關(guān)系經(jīng)過聚合平均后出現(xiàn)過于稀疏的情況,本文引入中間值Z,當(dāng)關(guān)系權(quán)重大于Z時(shí)作統(tǒng)一平均處理。
圖6展示了在表示過程中從某一起點(diǎn)開始進(jìn)行隨機(jī)游走時(shí)的具體操作,首先node2vec隨機(jī)選擇游走起點(diǎn)(圖6中的h1),然后根據(jù)選擇的游走策略在知識圖譜上進(jìn)行多次隨機(jī)游走(圖中選擇兩次隨機(jī)游走)并得到多個(gè)隨機(jī)游走序列Sh1集,同時(shí)針對得到的隨機(jī)序列,如{h1→t4→h4→t1},通過頭尾節(jié)點(diǎn)作差的方式得到該步對應(yīng)關(guān)系的一次聚合(圖中fi(ri)表示對關(guān)系ri的第i次聚合),當(dāng)針對該起點(diǎn)h1完成所有游走時(shí)對關(guān)系向量進(jìn)行求和操作并選擇其他節(jié)點(diǎn)作為起始節(jié)點(diǎn)重復(fù)上述操作,依此類推,完成該知識圖譜下所有節(jié)點(diǎn)隨機(jī)游走時(shí),對最終關(guān)系向量根據(jù)其權(quán)重進(jìn)行平均。圖7展示僅在h1節(jié)點(diǎn)處進(jìn)行的隨機(jī)游走。
對于給定的關(guān)系集合R={r1,r2,r3,…,rn},假設(shè)任意關(guān)系ri∈R,可通過式(4)得到關(guān)系ri的知識表示。
f(ri)=∑ifi(ri)Nri=∑(h,ri,t)∈G∨Euclid Math OneSAp(f(t)-f(h))min(count(ri),Z)(4)
其中:Z=|a·sum(G)|;Z表示平均化歸值;α表示比例系數(shù)且α∈(0,1);G表示知識圖譜三元組集,即G={(h,r,t)},sum(G)表示知識圖譜中三元組的總數(shù);Euclid Math OneSAp表游走序列集,即Euclid Math OneSAp={Sv|v∈V},V為節(jié)點(diǎn)集;Nri表示關(guān)系ri的權(quán)重值;f(t)、f(h)表示基于node2vec表示的頭尾節(jié)點(diǎn)知識表示;count(ri)表示某一關(guān)系ri在知識圖譜中出現(xiàn)的次數(shù)。基于上述表示方式,確定node2vec-side模型的得分函數(shù)如下:
gr(h,t)=sim(h+r,t)=cos(h+r,t)=(h+r)·t‖h+r‖×‖t‖(5)
其中:sim表示相似度函數(shù),本文采用余弦相似度作為相似度計(jì)算函數(shù)。最終由fi(h)、fi(t)、fi(r)構(gòu)成某一偏好隨機(jī)游走下的知識表示fi(h,r,t)。
2.3? 多元化游走策略
上文提到針對復(fù)雜的異構(gòu)網(wǎng)絡(luò),選擇單一的隨機(jī)游走策略不能有效得到網(wǎng)絡(luò)的結(jié)構(gòu),針對這一問題,可采用多種偏好策略并行的方式進(jìn)行隨機(jī)游走。其中node2vec算法通過調(diào)節(jié)p、q可獲得不同偏向性的表示結(jié)構(gòu),其結(jié)果主要體現(xiàn)在節(jié)點(diǎn)的同質(zhì)性和結(jié)構(gòu)性上,其中同質(zhì)性是指相鄰節(jié)點(diǎn)的知識表示應(yīng)該相似,而結(jié)構(gòu)性是指結(jié)構(gòu)相似的節(jié)點(diǎn)的知識表示應(yīng)該相似。參數(shù)q表示進(jìn)出參數(shù),根據(jù)式(3)可知:q>1時(shí),游走方式偏向于起始點(diǎn)的鄰居節(jié)點(diǎn),知識表示傾向于BFS;當(dāng)q<1時(shí),游走方式偏向于起始點(diǎn)的遠(yuǎn)處節(jié)點(diǎn),知識表示傾向于DFS。兩種游走方式的具體區(qū)別如圖8所示,顏色接近的節(jié)點(diǎn)表示其相似性更高。
本文為充分兼顧知識圖譜節(jié)點(diǎn)的同質(zhì)性和同構(gòu)性,獲得更全面的知識表示,將分別通過深度優(yōu)先游走(DFS)和廣度優(yōu)先游走(BFS)策略獲得知識表示f1(h,r,t),f2(h,r,t)后,再融合獲得該知識圖譜下的知識表示f(h,r,t)。
f(h,r,t)=f1(h,r,t)∪f2(h,r,t)(6)
其中:∪表示拼接操作。
首先根據(jù)個(gè)性化推薦領(lǐng)域的知識圖譜,分別采用兩種游走策略進(jìn)行節(jié)點(diǎn)表示學(xué)習(xí)。同時(shí),根據(jù)節(jié)點(diǎn)隨機(jī)游走序列將具有相同關(guān)系構(gòu)成的子圖分離,得到同一關(guān)系的子圖。在這些子圖中通過頭尾節(jié)點(diǎn)對關(guān)系進(jìn)行聚合表示,生成新的特征向量,最后采用向量合并的方式,將兩種游走策略下的向量表示結(jié)合起來,得到高維向量表示形式。該模型的核心在于利用知識圖譜中的關(guān)系信息,通過游走過程產(chǎn)生的序列對關(guān)系子圖進(jìn)行聚合,并將實(shí)體節(jié)點(diǎn)與關(guān)系信息相結(jié)合,生成更加豐富的特征向量,同時(shí)進(jìn)一步采用兩種不同的游走策略,分別考慮了全局和局部的信息,從而更加全面地捕捉了知識圖譜中的節(jié)點(diǎn)信息,進(jìn)一步提高了特征向量的表達(dá)能力,能夠有效地提高個(gè)性化推薦任務(wù)的性能。
node2vec-side融合知識表示得分函數(shù)G(h,r,t)如下所示:
G(h,r,t)=h(g1r(h,r,t),g2r(h,r,t))(7)
gir(h,t)=sim(h+r,t)=cos(h+r,t)=(h+r)·t‖h+r‖×‖t‖(8)
其中:sim表示相似度函數(shù),本文采用余弦相似度作為相似度計(jì)算函數(shù)。式(7)中的h(·)表示融合函數(shù),在本文中取為平均值函數(shù)h(X1,X2)=(X1+X2)/2。在預(yù)測的過程中通過計(jì)算得分函數(shù),從而選擇最佳的尾節(jié)點(diǎn)或者頭節(jié)點(diǎn),得分函數(shù)選取的好壞將直接影響知識表示預(yù)測的效果。
算法1? node2vec-side融合知識表示
輸入:知識圖譜三元組集N。
輸出:實(shí)體的向量表示emb;關(guān)系的向量表示embr。
初始化:利用知識圖譜中的三元組(h,r,t)∈N得到新的圖G=(V,E),其中V為節(jié)點(diǎn)集合,E為邊集合,初始化r_emb={er|r∈E}
a)edge_weight=count(r)/* 對于每個(gè)三元組(h,r,t)∈E,計(jì)算新的邊權(quán)重*/
b)G.add_weighted_edges_from(edge_weight)/*增加邊權(quán)重完成知識圖譜重構(gòu)化*/
c)基于權(quán)重w構(gòu)建新的轉(zhuǎn)移概率矩陣T
d)在G上為每個(gè)節(jié)點(diǎn)v∈V進(jìn)行r次隨機(jī)游走,得到游走序列集Euclid Math OneSApv={sv,1,sv,2,…,sv,r}
e)node_emb=node2vec(G,dim,walk_length,num_walks,p,q,weight_key)//通過設(shè)定p,q進(jìn)行隨機(jī)游走得到節(jié)點(diǎn)表示
f)for sv,i inEuclid Math OneSApv://獲取每個(gè)游走序列sv,i∈Euclid Math OneSApv;
for(h,r,t) in sv,i://獲取每一步的頭尾節(jié)點(diǎn)
e′r=e′t-e′h//e′h為頭節(jié)點(diǎn)h的向量,e′t為尾節(jié)點(diǎn)t的向量
er=e′r+er //同一關(guān)系er進(jìn)行累加
g)r_emb={er|er=∑(h,ri,t)∈Eer|min(edge_weight,Z)|}//作平均處理
h)執(zhí)行后轉(zhuǎn)步驟d),選擇不同p、q進(jìn)行多元化游走
i)輸出節(jié)點(diǎn)表示列表emb={ev|ev∈node_emb1∪node_emb2}和所有關(guān)系表示列表embr={er|er∈r_emb1∪r_emb2}
2.4? 時(shí)間復(fù)雜度分析
node2vec-side融合知識表示在node2vec基礎(chǔ)上增加關(guān)系表示和多元化游走策略,node2vec隨機(jī)采樣每個(gè)采樣點(diǎn)平均時(shí)間復(fù)雜度為O(lk(l-k)),采用層次softmax優(yōu)化的skip-gram部分的時(shí)間復(fù)雜度為O(log2Nv),關(guān)系聚合部分時(shí)間復(fù)雜度為O(rlNv),在采用兩種游走策略的情況下,node2vec-side的總時(shí)間復(fù)雜度為O(2lNvk(l-k)+2log2Nv+2rlNv)。其中:l表示隨機(jī)游走的長度;k表示領(lǐng)域節(jié)點(diǎn)個(gè)數(shù);Nv表示節(jié)點(diǎn)個(gè)數(shù);r表示隨機(jī)游走次數(shù)。TransE、TransH、TransR和RGCN的時(shí)間復(fù)雜度如表2所示[19,25]。其中:dv表示節(jié)點(diǎn)表示的維度;dr表示關(guān)系表示的維度;N表示三元組總數(shù);Nr表示關(guān)系數(shù);M表示圖卷積的層數(shù)。
對于node2vec-side而言,在實(shí)際應(yīng)用中k、l和r為常數(shù),同時(shí)在大規(guī)模知識圖譜中Nv< 3? 實(shí)驗(yàn)設(shè)置及結(jié)果分析 本章將首先對比node2vec-side知識表示模型在傳統(tǒng)知識圖譜中鏈接預(yù)測的性能,使用的數(shù)據(jù)集為FB15K和WN18,然后驗(yàn)證其在推薦系統(tǒng)領(lǐng)域中的有效性。推薦領(lǐng)域的知識圖譜大多是以物品為核心,以相關(guān)屬性為節(jié)點(diǎn),呈現(xiàn)中心發(fā)散的結(jié)構(gòu)特點(diǎn)。本次實(shí)驗(yàn)將使用公開推薦系統(tǒng)數(shù)據(jù)集MovieLens-1M、Book-Crossing、Last.FM,在各數(shù)據(jù)集的知識圖譜上進(jìn)行鏈接預(yù)測實(shí)驗(yàn),并與Trans系列模型和基于圖神經(jīng)網(wǎng)絡(luò)的RGCN模型進(jìn)行對比。 3.1? 數(shù)據(jù)集分析 FB15K是基于Freebase抽取得到的稠密子集。Freebase是一個(gè)公共的、可編輯的數(shù)據(jù)集,F(xiàn)reebase中的條目采用了RDF的三元組組織形式,截至2015年,F(xiàn)reebase包含了大約30億個(gè)不同領(lǐng)域的事實(shí)、5 000萬個(gè)實(shí)體,包括大約2.7萬個(gè)實(shí)體類型和3.8萬個(gè)關(guān)系類型。 WN18是由Border等創(chuàng)建的詞匯知識圖WordNet的子集。WN18中的主要關(guān)系模式為對稱和逆關(guān)系。 MovieLens-1M是一個(gè)電影推薦公開數(shù)據(jù)集,其中包括了6 040個(gè)用戶和3 706部電影的1 000 209條評分?jǐn)?shù)據(jù)。相應(yīng)的知識圖譜包含1 241 995個(gè)三元組,其中有182 011個(gè)實(shí)體,有12種關(guān)系。 Book-Crossing是一個(gè)書籍推薦的公開數(shù)據(jù)集,包括了來自105 283個(gè)用戶和340 555本書的1 149 780條評分?jǐn)?shù)據(jù),相應(yīng)的知識圖譜包含151 500個(gè)三元組,其中有77 903個(gè)實(shí)體,有25種關(guān)系。 Last.FM是一個(gè)音樂推薦的公開數(shù)據(jù)集,包括了來自1 892個(gè)用戶和17 632個(gè)藝術(shù)家的92 834條權(quán)重?cái)?shù)據(jù),相應(yīng)的知識圖譜包含15 518個(gè)三元組,其中有9 366個(gè)實(shí)體,有60種關(guān)系。各數(shù)據(jù)集的具體信息如表3所示。 3.2? 評價(jià)指標(biāo) 由于在推薦系統(tǒng)中,人們更多關(guān)注推薦結(jié)果的準(zhǔn)確性,所以本文主要開展對推薦數(shù)據(jù)知識圖譜的鏈接預(yù)測實(shí)驗(yàn)。鏈路預(yù)測的主要過程是對于一個(gè)完整的三元組(h,r,t),實(shí)驗(yàn)給定(h,r)后預(yù)測t或給定(h,t)后預(yù)測r,從而驗(yàn)證模型預(yù)測實(shí)體的能力。首先在推薦知識圖譜中隨機(jī)選取10%的三元組作為測試集,并將其在原知識圖譜中予以刪除,將刪除后的知識圖譜作為訓(xùn)練集進(jìn)行實(shí)驗(yàn)。對測試集中的每一個(gè)三元組(h,r,t),選擇丟棄尾節(jié)點(diǎn)t,得到(h,r)后,用實(shí)體集中的元素e補(bǔ)全后通過得分函數(shù)G(h,r,e)依次進(jìn)行得分計(jì)算,將計(jì)算所得的所有結(jié)果進(jìn)行排序,得到原始三元組(h,r,t)的排名。 通常采用排名不超過n的百分比(hits@n)、平均排名(mean rank,MR)和平均倒數(shù)排名(mean reciprocal rank,MRR)作為衡量指標(biāo),各指標(biāo)的計(jì)算方式如下所示。 hits@n=1|S|∑|S|i=1Ⅱ(ranki≤n)(9) MR=1|S|∑|S|i=1ranki=1|S|(rank1+rank2+…+rank |S|)(10) MRR=1|S|∑|S|i=1? 1ranki=1|S|(1rank1+1rank2+…+ 1rank|S|)(11) 其中:S是三元組集合,|S|是三元組集合個(gè)數(shù);ranki是指第i個(gè)三元組的鏈接預(yù)測排名。MR指標(biāo)的取值為0~N,其中N是測試集中的三元組數(shù)量,越接近0表示模型的性能越好;而MRR的取值為0~1,其值越接近1表示模型的效果越好。 3.3? 實(shí)驗(yàn)設(shè)置與實(shí)現(xiàn) 實(shí)驗(yàn)采用的操作系統(tǒng)為Ubuntu 22.04.2 LTS,采用的實(shí)驗(yàn)環(huán)境為CUDA 10.2、Python 3.8.13、Torch 1.10.1+cu102、NumPy 1.23.5。本節(jié)實(shí)驗(yàn)部分首先進(jìn)行傳統(tǒng)知識圖譜上的實(shí)驗(yàn)對比。在node2vec-side中將每個(gè)節(jié)點(diǎn)開始的隨機(jī)游走次數(shù)number-walks設(shè)為60,每個(gè)節(jié)點(diǎn)開始的隨機(jī)游走長度walk-length設(shè)為100,其他超參數(shù)如表4所示。 對于基線模型的參數(shù),按照論文中推薦的參數(shù)進(jìn)行設(shè)置實(shí)驗(yàn)。node2vec-side知識表示模型與其他傳統(tǒng)模型如RESCAL[26]、SE[8]、SME[28]、TransE、TransH、TransR等在鏈接預(yù)測方面的實(shí)驗(yàn)對比結(jié)果如表5所示。 從上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),node2vec-side模型在處理大規(guī)模知識圖譜的情形下表現(xiàn)較好,在FB15K數(shù)據(jù)集上hits@10提升1.4%、hits@1提升1.8%,而在WN18數(shù)據(jù)集上hits@1提升6.2%,但是hits@10卻較低,由于 FB15K 的規(guī)模較大,關(guān)系豐富,相較于小規(guī)模知識圖譜 WN18,鏈接預(yù)測對全局特征的要求更高。然而,傳統(tǒng)的 Trans 系列模型采用獨(dú)立訓(xùn)練三元組的方式,容易忽略知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致難以挖掘一些較遠(yuǎn)節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系。為了解決這一問題,node2vec-side 知識表示采用有偏向的隨機(jī)游走方式,并引入關(guān)系表示,能更好地理解全局特征,并善于挖掘較遠(yuǎn)節(jié)點(diǎn)之間的關(guān)聯(lián)。因此,該模型的精確預(yù)測能力(hits@1)優(yōu)于Trans 系列模型。 表6給出了node2vec-side模型在個(gè)性化推薦領(lǐng)域相關(guān)實(shí)驗(yàn)對比的超參數(shù)取值,其中dim表示向量維度,一般來說,較高的維度可以更好地捕捉節(jié)點(diǎn)的特征,但可能會增加計(jì)算復(fù)雜度,本文取值為128,number-walks表示從各節(jié)點(diǎn)開始的隨機(jī)游走次數(shù),通過增加游走次數(shù)可以增加采樣的多樣性,有助于更好地學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)系。本實(shí)驗(yàn)選擇了適中的游走次數(shù),以平衡采樣多樣性和計(jì)算效率,walk-length表示路徑長度,較短的路徑長度可能更加側(cè)重局部鄰域的關(guān)系,而較長的路徑長度則更多地考慮全局信息。本文根據(jù)數(shù)據(jù)集的情況,考慮在一定程度上平衡局部和全局信息,選擇合適的路徑長度,這些參數(shù)的具體取值是通過多次實(shí)驗(yàn)獲得的,通過不斷嘗試不同的參數(shù)組合,并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析和比較。同時(shí),TransE的嵌入維度設(shè)為50,學(xué)習(xí)率lr為0.01,TransH和TransR的嵌入維度均設(shè)為100,TransH的學(xué)習(xí)率lr為0.01,TransR的學(xué)習(xí)率lr為0.001,RGCN的嵌入維度設(shè)為100,學(xué)習(xí)率lr為0.01。本文對每個(gè)數(shù)據(jù)集進(jìn)行處理,經(jīng)過多次實(shí)驗(yàn)后得出實(shí)驗(yàn)結(jié)果。 在個(gè)性化推薦領(lǐng)域,針對物品-屬性知識圖譜中的鏈接預(yù)測問題,本文進(jìn)行了一系列實(shí)驗(yàn),對比了node2vec-side知識表示模型與其他幾種在個(gè)性化推薦領(lǐng)域流行的知識表示模型,包括TransE、TransH、TransR和RGCN。具體實(shí)驗(yàn)結(jié)果如表7和8所示。 表7主要展示了hits@指標(biāo)的實(shí)驗(yàn)結(jié)果,而表8則主要展示了MRR和MR指標(biāo)。通過這些實(shí)驗(yàn)結(jié)果可以看到,node2vec-side模型在鏈接預(yù)測問題上表現(xiàn)出了出色的性能,尤其是在hits@1和MRR指標(biāo)上。相比其他模型,node2vec-side模型的表現(xiàn)有了顯著提升,表明node2vec-side模型在個(gè)性化推薦領(lǐng)域中具有較高的應(yīng)用價(jià)值,并且可以為推薦系統(tǒng)提供更加準(zhǔn)確、多樣和可解釋的推薦結(jié)果。 3.4? 結(jié)果分析 通過表7發(fā)現(xiàn),node2vec-side在精確預(yù)測方面(hits@1)的處理效果都優(yōu)于其他模型。對于推薦數(shù)據(jù)量較大、關(guān)系較多的推薦數(shù)據(jù)集,如MovieLens-1M,鏈接預(yù)測對全局特征的要求更高,而node2vec-side知識表示更能把握全局特征,擅于挖掘一些較遠(yuǎn)的節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,相比而言,Last.FM中推薦知識圖譜的規(guī)模較小,RGCN的聚合速度和表示效果更好,但是node2vec-side在精準(zhǔn)預(yù)測(hits@1)上仍較為突出。同時(shí)由表8可知,node2vec-side在MRR和MR上都優(yōu)于Trans系列和RGCN,各模型在MovieLens-1M中的MR均較大,而在Last.FM中則較小,其主要原因是MovieLens-1M中三元組數(shù)量較多,預(yù)測難度更大。 各訓(xùn)練集的推薦知識圖譜網(wǎng)絡(luò)結(jié)構(gòu)如表9所示,其中網(wǎng)絡(luò)傳遞性是表示一個(gè)圖形中節(jié)點(diǎn)聚集程度的系數(shù),可以衡量網(wǎng)絡(luò)的關(guān)聯(lián)性,其值越大表示交互關(guān)系越大,同時(shí)網(wǎng)絡(luò)也越復(fù)雜;互惠性是指在有向圖中雙向連接的邊占所有邊的比例。FB15K是基于Freebase抽取得到的大眾知識圖譜,通過對比可以發(fā)現(xiàn),推薦系統(tǒng)領(lǐng)域中的知識圖譜相比于傳統(tǒng)知識圖譜而言,網(wǎng)絡(luò)密度更小、節(jié)點(diǎn)間的交互較少、節(jié)點(diǎn)的聚集程度較低,往往是以物品為核心,物品屬性為節(jié)點(diǎn)的圖譜結(jié)構(gòu)。不同類型的推薦知識圖譜可能又會存在不同的網(wǎng)絡(luò)差異,在MovieLens-1M、Book-Crossing推薦知識圖譜中,互惠性較高、網(wǎng)絡(luò)密度較低,綜合node2vec-side在三個(gè)推薦領(lǐng)域知識圖譜上的表現(xiàn)可知,當(dāng)圖譜的聚集程度越高時(shí),其鏈接預(yù)測的效果更好。傳統(tǒng)的Trans系列模型應(yīng)用效果不佳,同時(shí)由于節(jié)點(diǎn)間交互較少,網(wǎng)絡(luò)結(jié)構(gòu)更多體現(xiàn)稀疏性,基于圖神經(jīng)網(wǎng)絡(luò)的模型RGCN在處理大型圖數(shù)據(jù)時(shí)受復(fù)雜度限制,不能有效聚合鄰居節(jié)點(diǎn),存在訓(xùn)練成本大的問題,導(dǎo)致模型在實(shí)際應(yīng)用中效果不盡如人意。然而,在這種網(wǎng)絡(luò)結(jié)構(gòu)中,基于隨機(jī)游走的方式更能夠發(fā)現(xiàn)物品間的關(guān)聯(lián)關(guān)系,這種方法不僅訓(xùn)練速度更快,而且效率更高。通過隨機(jī)游走可以在圖數(shù)據(jù)中生成大量的訓(xùn)練樣本,這些樣本可以被用來訓(xùn)練模型,從而提高模型的準(zhǔn)確性和效率。因此,基于隨機(jī)游走的方法在處理大型圖數(shù)據(jù)時(shí)具有廣泛的應(yīng)用前景,并且可以在個(gè)性化推薦領(lǐng)域發(fā)揮重要作用。 3.5? 超參數(shù)分析 本節(jié)主要探討了參數(shù)a對實(shí)驗(yàn)結(jié)果的影響,通過對圖10的觀察可以發(fā)現(xiàn),不同數(shù)據(jù)集對參數(shù)a的適應(yīng)性不同。當(dāng)參數(shù)a較小時(shí),各數(shù)據(jù)集的hits@值隨著參數(shù)變化的波動較大,而當(dāng)參數(shù)a的值變大時(shí),各數(shù)據(jù)集的hits@值趨于穩(wěn)定。此外,針對不同的數(shù)據(jù)集,參數(shù)a的最佳取值也有所不同。在Book-Crossing數(shù)據(jù)集中,當(dāng)a在0.2附近時(shí)hits@值達(dá)到峰值;在MovieLens-1M數(shù)據(jù)集中,當(dāng)a在0.1附近時(shí)hits@值達(dá)到峰值;在Last.FM數(shù)據(jù)集中,當(dāng)a在0.1附近時(shí)hits@10達(dá)到峰值,而a在0.01附近時(shí)hits@1達(dá)到峰值。相較而言,模型在Book-Crossing數(shù)據(jù)集下的hits@值表現(xiàn)更好。這表明在不同的數(shù)據(jù)集上,參數(shù)a的取值對模型的性能有著不同的影響,需要根據(jù)具體的數(shù)據(jù)集進(jìn)行調(diào)整。 4? 結(jié)束語 目前基于高階信息聚合的知識圖譜推薦算法[27~29]旨在利用知識表示將語義信息與路徑結(jié)合起來,通過周圍鄰居節(jié)點(diǎn)豐富用戶和物品的表示,而本文針對推薦系統(tǒng)知識圖譜特點(diǎn),通過改進(jìn)node2vec模型提出node2vec-side融合知識表示模型,可以應(yīng)用于推薦數(shù)據(jù)的知識表示領(lǐng)域,將推薦領(lǐng)域的知識圖譜進(jìn)行重構(gòu)后,再通過節(jié)點(diǎn)表示、關(guān)系聚合以及多元游走策略等得到知識表示形式,為個(gè)性化推薦提供數(shù)據(jù)挖掘、用戶潛在偏好發(fā)現(xiàn)等提供支撐。在本文研究成果的基礎(chǔ)上,文獻(xiàn)[30]對RippleNet推薦模型進(jìn)行改進(jìn),利用node2vec-side進(jìn)行物品畫像和用戶畫像建模,挖掘物品潛在關(guān)聯(lián)關(guān)系,多元化游走策略兼顧知識圖譜中節(jié)點(diǎn)的同質(zhì)性和同構(gòu)性,降低原有模型用戶畫像更新局部性影響,模型在推薦準(zhǔn)確率和多樣性方面有顯著提升。相比于目前應(yīng)用較多的Trans系列模型,本文模型通過對知識圖譜進(jìn)行有偏向游走的方式學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),在建模時(shí)更多考慮三元組周圍的鄰域信息和全局網(wǎng)絡(luò)結(jié)構(gòu)信息,有利于挖掘發(fā)現(xiàn)距離較遠(yuǎn)的實(shí)體間關(guān)聯(lián)關(guān)系,復(fù)雜度更低、可解釋性更強(qiáng),但是在面對小規(guī)模推薦系統(tǒng)知識圖譜中的知識表示能力還有所欠缺,在未來工作中,將重點(diǎn)研究提升小規(guī)模推薦系統(tǒng)知識圖譜中鏈接預(yù)測的能力,增強(qiáng)現(xiàn)有基于知識圖譜的推薦算法的準(zhǔn)確性和多樣性。 參考文獻(xiàn): [1]Singhal A.Introducing the knowledge graphi things,not strings [EB/OL].(2012-05-16).https://www.blog.google/products/search/introducing-knowledge-graph-things-not1. [2]Bordes A,Chopra S,Weston J.Question answering with subgraph embeddings[EB/OL].(2014).https://arxiv.org/abs/1406.3676. [3]Nguyen D Q,Nguyen T D,Phung D.A relational memory-based embedding model for triple classification and search personalization[EB/OL].(2019).https://arxiv.org/abs/1907.06080. [4]Zhou Kun,Zhao W X,Bian Shuqing,et al.Improving conversational recommender systems via knowledge graph based semantic fusion[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2020:1006-1014. [5]Nickel M,Tresp V,Kriegel H P.A three-way model for collective learning on multi-relational data[C]//Proc of the 28th International Conference on Machine Learning .2011:809-816. [6]Yang Bishan,Yih W,He Xiaodong,et al.Embedding entities and relations for learning and inference in knowledge bases[EB/OL].(2014).https://arxiv.org/abs/1412.6575. [7]Socher R,Chen Danqi,Manning C D,et al.Reasoning with neural tensor networks for knowledge base completion[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:926-934. [8]Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C]//Proc of the 25th AAAI Conference on Artificial Intelligence.2011:301-306. [9]Schlichtkrull M,Kipf T N,Bloem P,et al.Modeling relational data with graph convolutional networks[C]//Proc of European Semantic Web Conference.Cham:Springer,2018:593-607. [10]Zhang Fuzheng,Nicholas J Y,Lian Defu,et al.Collaborative know-ledge base embedding for recommender systems[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:353-362. [11]Wang Hongwei,Zhang Fuzheng,Xie Xing,et al.DKN:deep knowledge-aware network for news recommendation[C]//Proc of World Wide Web Conference.2018:1835-1844. [12]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[EB/OL].(2017).https://arxiv.org/abs/1609.02907. [13]Wang Hongwei,Zhao Miao,Xie Xing,et al.Knowledge graph convolutional networks for recommender systems[C]//Proc of World Wide Web Conference.2019:3307-3313. [14]Li Lu,Wang Wei,Yu Shuo,et al.A modified node2vec method for disappearing link prediction[C]//Proc of the 15th International Conference on Dependable,Autonomic and Secure Computing.Piscata-way,NJ:IEEE Press,2017:1232-1235. [15]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]//Proc of Neural Information Processing Systems.Massachusetts:MIT Press,2013:2787-2795. [16]Rossi A,Barbosa D,F(xiàn)irmani D,et al.Knowledge graph embedding for link prediction:a comparative analysis[J].ACM Trans on Know-ledge Discovery from Data,2021,15(2):1-49. [17]Wang Zhen,Zhang Jianwen,F(xiàn)eng Jianlin,et al.Knowledge graph embedding by translating on hyperplanes[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.2014:1112-1119. [18]Lin Yankai,Liu Zhiyuan,Sun Maosong,et al.Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.2015:2181-2187. [19]Ji Guoliang,He Shizhu,Xu Liheng,et al.Knowledge graph embedding via dynamic mapping matrix[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.2015:687-696. [20]Feng Jun,Huang Minlie,Wang Mingdong,et al.Knowledge graph embedding by flexible translation[C]//Proc of the 15th International Conference on the Principles of Knowledge Representation and Reasoning.2016:557-560. [21]Xiao Han,Huang Minlie,Hao Yu,et al.TransA:an adaptive approach for knowledge graph embedding[EB/OL].(2015).https://arxiv.org/abs/ 1509.05490. [22]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word re-presentations in vector space[EB/OL].(2013).https://arxiv.org/abs/1301.3781. [23]Perozzi B,Al-Rfou R,Skiena S.DeepWalk:online learning of social representations[C]//Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2014:701-710. [24]Grover A,Leskovec J.node2vec:scalable feature learning for networks[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:855-864. [25]Feng Yanlin,Chen Xinyue,Lin B Y,et al.Scalable multi-hop relational reasoning for knowledge-aware question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020. [26]Nickel M,Tresp V,Kriegel H P.A three-way model for collective learning on multi-relational data[C]//Proc of International Confe-rence on International Conference on Machine Learning.[S.l.]:Omnipress,2011. [27]崔煥慶,宋瑋情,楊峻鑄.知識水波圖卷積網(wǎng)絡(luò)推薦模型[J].計(jì)算機(jī)科學(xué)與探索,2023,17(9):2209-2218.(Cui Huanqing,Song Weiqing,Yang Junzhu.Knowledge water wave graph convolutional network recommendation model[J].Computer Science and Exploration,2023,17(9):2209-2218.) [28]Wang Ze,Lin Guangyan,Tan Huobin,et al.CKAN:collaborative knowledge-aware attentive network for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2020. [29]羅承天,葉霞.基于知識圖譜的推薦算法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(1):49-60.(Luo Chengtian,Ye Xia.Review of research on recommendation algorithms based on knowledge graph[J].Computer Engineering and Applications,2023,59(1):49-60.) [30]Ni Wenkai,Du Yanhui,Ma Xingbang,et al.Research on hybrid re-commendation model for personalized recommendation scenarios[J].Applied Sciences,2023,13(13):7903.