999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜中圖結構特征信息學習算法優化*

2022-09-28 01:40:32佘學兵明幫銘
計算機與數字工程 2022年8期
關鍵詞:特征用戶信息

佘學兵 李 祥 明幫銘

(1.東華理工大學信息工程學院 南昌 330013)(2.東華理工大學軟件學院 南昌 330013)

1 引言

如何在浩瀚的信息量中尋找所需的信息變得越來越困難,推薦系統的出現幫助了用戶快速、有效地獲取所需內容[1]。在推薦算法中引入知識圖譜數據,相當于引入了語義關聯關系、各種實體之間的關系,一方面使得推薦能夠從語義的角度上挖掘用戶興趣點,另一方面也使推薦結果更加發散,避免了推薦結果的單一[2]?,F有的基于知識圖譜的推薦系統使用知識圖譜的方法主要有三種:基于內容、協同過濾、混合式[3]。圖表示學習即圖嵌入,是通過機器學習的方法將圖中的實體與關系所包含的結構信息和語義信息表示為低維空間中的實值稠密向量,使得得到的向量形式可以在向量空間中具有表示以及推理的能力[4]。通過對圖的拓撲結構信息以及語義相關信息進行抽象整合,能實現圖特征的抽取與表達,學習到的向量具有復雜度低、計算效率高、可擴展性強的優勢,于是能推廣到圖的各種應用中,如實體聚類、關系推理和個性化推薦等[5]。

基于圖結構信息的學習方法與基于三元組的方法相比,前者可以將更加豐富的語義信息進行擬合,從而也能進一步高效學習到圖譜中隱含的高維特征[6]。由于交易領域推薦問題中存在著非常多的網絡結構,例如用戶物品交互網絡和物品屬性關系網絡,故而對圖結構的特征進行學習,能挖掘出推薦任務相關特征,可以幫助推薦系統更好地學習用戶的偏好,減輕信息過載問題帶來的負面影響,增強用戶對推薦系統的滿意度[7]。其中具有代表性的,如,PER[8]方法是通過設計元路徑來提升推薦性能,它比較直觀地利用了圖譜的網絡結構,但需要人工設計元路徑,元路徑的優劣影響到推薦的精度。CKE[9]方法是將知識圖譜作為輔助信息融入到推薦算法中,與傳統方法比較提升了推薦的精度。但是,采用依次學習只把知識圖譜作為多一維特征處理。KGCN[10]方法是基于知識圖譜的圖神經網絡推薦算法,由于融合了圖結構,所以在推薦性能上有了進一步提升。在這個算法中把物品的特征向量設定為與其直連的物品的特征向量之和,并且在相加之前使用了注意力機制。這個算法仍然有改進的地方,因為它忽略了物品之間的長依賴關系。

2 知識圖譜中圖結構信息提取

在推薦系統中,一般用U={u1,u2…um}表示用戶集合,I={i1,i2…in}表示物品集合[11],用戶-物品交互矩陣記為yu,i∈Rm×n。當yu,i=1 表示用戶u 和物品i有交互(這個交互可以是顯式信息反饋或者隱式反饋信息)[12]。在知識圖譜中G=(E,R)表示物品關系網絡,由于包含物品的屬性信息,從而構成了復雜的物品關系網絡。用戶與物品的交互也具有網絡圖特征,通過對圖的挖掘可以發現用戶的偏好或者用戶之間的相似性。因此,可以構建出圖1 中用戶-物品交互圖(圖a)、用戶-用戶圖(圖b)、物品-物品圖(圖c)。

圖1 三類關系網絡圖

將用戶的交互數據、物品的屬性標簽以三元組的形式提取出來,然后整合為圖結構,步驟如下:

1)用戶-物品圖:定義為G1={(u,yu,i,i)|u∈U,i∈I}。

U 為用戶集,I 為物品集,當用戶i與物品j存反饋信息,則yu,i=1;否則yu,i=0。

2)物品關系圖:含物品及其屬性或標簽類型,定義為圖G2={(h,r,t)|r∈R,h,t∈E}。

E為實體集合,R為關系集合,一個三元組代表了頭實體和尾實體的之間的關系。為了描述物品與實體之間的關系,定義H={(i,e)|i∈I,e∈E},其中I代表物品集或群,E 代表實體集。物品和實體之間通過關系鏈接,其被表述為一個三元組。如,物品書籍《推薦系統與深度學習》、實體作者黃昕,兩者是寫作關系。有了這個關系H 就可以把1)和2)整合到一張圖,即有:

根據式(1)可以構建出實體之間復雜的關系網絡,物品與物品、用戶與用戶的長依賴關系就能從知識圖譜中直觀地展示出來,節點屬性聚合節點間的長依賴關系就形成了高維特征(用戶與用戶之間的高階關系、物品與物品之間的高階關系),這種高維特征應用到推薦任務中就能提升推薦的性能。

對圖進行聚類挖掘,就能找到偏好相似的用戶,形成偏好相同的用戶族群,即用戶-用戶圖;對物品關系圖進行聚類操作也能找到相似屬性的物品族群。于是,就可以利用用戶-用戶圖,在同一族群中為沒購買物品i 的用戶u 推薦i;類比,利用物品關系圖,可以為用戶u 推薦購買過的物品i 所屬物品族群中的物品j。

3 推薦模型設計

3.1 模型設計

為了獲取用戶特征建立用戶族群、獲取物品特征建立物品族群,采用圖團體(graph community)算法;然后,通過循環神經網絡按時序獲取推薦序列,把這種方法稱為GC-RNN算法,模型如圖2所示。

圖2 GC-RNN模型

3.2 算法流程

圖團體算法[13]常用在網絡中找出聯系比較緊密的樣本。例如,在用戶-用戶圖中頂點表示用戶,連接頂點的邊則表示用戶之間具有關系(在無向圖中用邊表示有關系、無邊則表示無關系),按照關系的緊密程度可劃分成若干集合(也稱為用戶族群)。為方便計算,一般把圖轉成鄰接矩陣的形式。圖1中用戶-用戶圖的鄰接矩陣如表1所示。

表1 用戶-用戶圖的鄰接矩陣

然后,計算模塊性值M。該算法最終能把所有用戶都分組成一個有相同偏好的族群中。

其中,L是圖中邊的數量,N表示圖中頂點個數,ki是頂點i的度,Aij是鄰接矩陣中的值,ci表示頂點i的聚類,δ為可羅內克函數,如果頂點i 和j 屬于同一聚類,則δ(ci,cj)值為1,否則為0。

通過式(2)可以將知識圖譜中的具有相似特征的用戶聚合成一族,設長度為L,這對于該族內給定實體節點ui,可得到相鄰節點序列(u1,u2…uL)。為了學習到節點的特征向量,引入特征向量函數g:u∈E→R|E|×de,從而把每個實體映射為一個de維向量。對于給定的三元組(h,r,t),在同一族群中融合了相鄰節點信息的頭尾實體可用hg=g(h)、tg=g(t)表示,則用戶實體對的向量分別為

同理,可以得到物品實體對的向量為

在RNN 中,可將(Hu,r,Tu)看作三元短句,以此作為輸入序列送進LSTM 中,利用LSTM 能對序列進行學習可以對圖中的語義和邏輯特性進行建模[14]。LSTM 每一個時間段讀取一個實體對應的embedding 向量,并將前兩步輸出H,u、r,輸入到感知機網絡。為了保留更多的H 和r 的信息,必須進行向量的組合拼接,如式(5)所示,為組合算子:

在傳統的推薦系統中都是假設用戶和物品的屬性是靜態的[15],但事實上,兩者是隨著時間的推移會發生變化。比如,用戶的興趣隨著時間的推移發生改變或某些物品的受歡迎程度會由外部事件有所改變。所以,采用兩個循環神經網絡分別對用戶和物品的時序性建模。用戶和物品的靜態屬于ui和aj可由矩陣分解得到。用戶的關聯特征依賴于當前時刻對物品的評分yi,t-1和前一時刻用戶的狀態,物品的關聯特征依賴于當前時刻用戶對物品的評分yj,t-1以及前一時刻物品的狀態。uit和ajt分別表示用戶i、物品j在第t時刻的特征,那么用戶i在第t時刻對物品i的評分可寫成:

通過仿射變換可寫成:

其中,uit和ajt表示用戶i、物品j在第t時刻的關聯特征,通過長短時記憶網絡建模:

其中,yit和yjt分別代表用戶i 和物品j 在第t 時刻的輸入,可寫成:

其中,Snew-usr=1 和Snew-itm=1 分別代表關聯用戶和關聯物品,Wc為用戶的參數投影矩陣,xit∈Rv表示用戶i 在第t 時刻對物品的評分,V 是物品數量;xjt∈RU表示在第t時刻所有用戶對物品j的評分,U 是用戶數量。模型參數通過優化下面的目標函數求出:

結合式(5)和式(9),將組合向量Z 輸入到MLP中進行解碼:

其中,w1 和w2 是權重矩陣、b1 和b2 是偏置向量。同理,可以得到物品的組合向量。是對特征向量進行數據降維。為了使得組合后的向量保持最優,采用該函數進行特征向量的映射變換,通過求得特征向量余弦的平均值,將變換誤差控制在一個合理的范圍內,以降低目標函數的重構誤差。模型最終的結果是為用戶生成一個最近時期的包含N 個物品的推薦列表,針對這個列表進行評估分析。

4 實驗分析

使用TensorFlow 作為計算框架,硬件為CentOS臺式服務器。實驗采用的是亞馬遜電商推薦系統數據集,將數據劃分為訓練集、測試集以及驗證集,并將比例調整為8∶1∶1,采用分層采樣的方式分割數據集,在驗證集中使用K折交叉驗證[16]。由于數據集數據量大、種類較多,故LSTMCell的num_units設置為64,即LSTM 輸出的是64 維向量;max_time決定了RNN 中時間序列的長度,通過實驗比較,max_time=5 可確保設定的長度足以區別不同類別數據。采用召回率、準確率兩個常用評價指標,為探究不同推薦列表長度下模型的變化,N 的取值在[5,30]做等差變化,選擇SVD[17]、PER、KGCN、CKE進行對比。

其中,AUC=(M、N 分別為正負樣本數)。

對表2的觀察有以下發現:

表2 數據集上不同模型AUC和ROC對比結果

1)作為經典的協同過濾算法SVD 在數據集上的表現最差,說明利用知識圖譜所提供的輔助信息能有效地提升推薦算法的性能。

2)PER 和CKE 是表現較差的模型,這也正好說明了元路徑的設計好壞決定了是否能有效地使用圖譜中的有效信息。CKE 中使用的TransR 算法,在一定程度上說明不太適用與知識圖譜相結合。

3)KGCN 和本文的GC-RNN 表現較優異,是因為都使用知識圖譜作為輔助手段,充分利用了它的關聯特征,這也說明把知識圖譜引入到推薦系統是提升推薦的性能的一種比較好的方法。

然后,使用精確度、召回率兩個指標衡量模型生成的TOP-N列表進行評估。

通過觀察圖3、4可知,CKE由于利用圖譜提取到物品的一般特征信息、沒能挖掘出內在的關聯性,結果僅優于SVD;PER 模型使用人工定義的元路徑,實驗結果的優劣受元路徑質量的影響,該模型的性能居中等;KGCN 模型使用圖卷積網絡建模知識圖譜,取得了優等的結果,也再一次說明了借助知識圖譜中的圖結構信息能提升推薦的質量;本文提出的GC-RNN 模型在性能上能優于KGCN 是因為:首先,通過建立用戶關系圖、物品關系圖,深刻描述了高維的關聯特征和長依賴關系即加強了用戶特征、物品特征信息的提取。其次,模型加入了時序特征,考慮到了用戶最近一段時間內的行為特征,獲取了用戶、物品的更深層次的關聯信息。

圖3 所有模型在數據集上精確度隨N值的變化

圖4 所有模型在數據集上召回率隨N值的變化

5 結語

本文提出的GC-RNN方法能獲取用戶、物品的高維關聯特征,通過建模并實驗,實現了用戶的精準推薦,最大限度地滿足用戶的需求。通過在大量真實交易數據集上的測試,驗證了本文方法的有效性。未來將使用不同的數據集驗證模型的有效性,以及改進方法進一步提升推薦的精確度。

猜你喜歡
特征用戶信息
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产伦精品一区二区三区视频优播| h视频在线播放| 久久精品国产国语对白| 一级片免费网站| 国产激情无码一区二区三区免费| 国产Av无码精品色午夜| 国产精品永久不卡免费视频 | 国产无码性爱一区二区三区| 国产丝袜啪啪| 中文字幕亚洲精品2页| 色网站在线视频| 91网址在线播放| 欧美特黄一级大黄录像| 黄网站欧美内射| 亚洲精品片911| 国产SUV精品一区二区6| 久久网欧美| 亚国产欧美在线人成| 欧美精品aⅴ在线视频| 又污又黄又无遮挡网站| 国产精品香蕉在线| 四虎成人在线视频| 亚洲区一区| 日本道中文字幕久久一区| 综合色婷婷| 亚洲视频无码| 伊伊人成亚洲综合人网7777| 亚洲国产天堂久久综合226114| 精品福利视频导航| 国产一区亚洲一区| 亚洲精品第1页| 在线亚洲天堂| 福利国产微拍广场一区视频在线| 伊人国产无码高清视频| 国产高清在线观看91精品| 国产黄网永久免费| 在线欧美一区| 午夜电影在线观看国产1区| 国产导航在线| 99久视频| 国产美女叼嘿视频免费看| 国产激情无码一区二区APP| 欧美翘臀一区二区三区| 亚洲精品中文字幕无乱码| 久久香蕉国产线看观看式| 无码高潮喷水专区久久| 免费一级无码在线网站| 激情五月婷婷综合网| 色屁屁一区二区三区视频国产| 国产第一页免费浮力影院| 天天色天天综合网| 国产成人高清精品免费5388| 国产91丝袜在线播放动漫| 国产国产人成免费视频77777| Jizz国产色系免费| 国产免费久久精品44| 99国产精品国产| www精品久久| 国产精品午夜福利麻豆| 欧美日本视频在线观看| 无码精品一区二区久久久| 成人噜噜噜视频在线观看| 久久久久免费看成人影片| 欧美a级在线| 二级毛片免费观看全程| 亚洲人成在线免费观看| 真人免费一级毛片一区二区| 成人毛片免费在线观看| 国产男女免费视频| 人妻21p大胆| 99在线免费播放| 一区二区三区精品视频在线观看| 露脸国产精品自产在线播| 国产成人你懂的在线观看| 久久精品人人做人人综合试看 | 麻豆国产在线观看一区二区| 中文字幕色站| 99久久国产综合精品2020| 91成人在线免费观看| 91精品aⅴ无码中文字字幕蜜桃| 欧美a在线看| 日韩无码一二三区|