999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜和圖注意力的眾包任務(wù)推薦算法

2023-01-01 00:00:00沈旭王淑營田媛夢鄭慶
計算機應(yīng)用研究 2023年1期

摘要:為解決目前眾包任務(wù)推薦存在未考慮任務(wù)文本信息和數(shù)據(jù)稀疏的問題,提出一種基于知識圖譜與圖注意力的眾包任務(wù)推薦模型。該模型首先利用自然語言處理技術(shù)提取任務(wù)文本信息中的關(guān)鍵要素,用于豐富圖譜信息和緩解數(shù)據(jù)稀疏性;通過融合用戶—任務(wù)交互圖中的協(xié)同信息來構(gòu)建協(xié)同知識圖譜,在協(xié)同知識圖譜中按協(xié)同鄰居的類型分別運用圖注意力網(wǎng)絡(luò);為獲取用戶準(zhǔn)確的偏好,聚合鄰居信息時按注意力得分從高到低采樣固定數(shù)目的鄰居;最后通過聚合不同類型的協(xié)同信息生成用戶和任務(wù)的嵌入表示并得到交互概率。在構(gòu)建的眾包數(shù)據(jù)集上進(jìn)行實驗的結(jié)果表明,該模型在AUC、精準(zhǔn)率、召回率和NDCG四個指標(biāo)上均優(yōu)于基線模型,驗證了模型的可行性和有效性。

關(guān)鍵詞:眾包任務(wù)推薦;知識圖譜;自然語言處理;圖注意力網(wǎng)絡(luò)

中圖分類號:TP301.6文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2023)01-019-0115-07

doi:10.19734/j.issn.1001-3695.2022.06.0284

Crowdsourced task recommendation algorithm based on

knowledge graph and graph attention network

Shen Xua,Wang Shuyinga,Tian Yuanmenga,Zheng Qingb

(a.School of Computing amp; Artificial Intelligence,b.School of Mechanical Engineering,Southwest Jiaotong University,Chengdu 610097,China)

Abstract:In order to solve the current problems of crowdsourcing task recommendation that don’t consider task text information and data sparsity,this paper proposed a crowdsourcing task recommendation model based on knowledge graph and graph attention network.The model firstly used natural language processing techniques to extract key elements from task text information for enriching graph information and alleviating data sparsity.Then it constructed a collaborative knowledge graph by fusing the collaborative information in the user-task interaction graph,and applied the graph attention network in the collaborative knowledge graph according to the types of collaborative neighbors.To obtain accurate user preferences,it sampled a fixed number of neighbors from highest to lowest attention score when aggregating neighbor information.Finally,it aggregated different types of collaborative information to generate embedding representations of users and tasks,and obtained interaction probabilities.Experiment on the constructed crowdsourcing dataset shows that the model is superior to the baseline model in four metrics:AUC,precision,recall and NDCG,which verifies the feasibility and effectiveness of the model.

Key words:crowdsourcing task recommendation;knowledge graph;natural language processing;graph attention network

0引言

眾包一詞源自2006年6月《連線》雜志的文章《眾包的興起》,Howe[1]將其定義為“一個組織使用公開招募的方式將工作外包給未定義的網(wǎng)絡(luò)化勞動力的行為”。隨著眾包平臺的迅速發(fā)展,用戶與任務(wù)數(shù)目急劇增長,“信息過載”問題日趨嚴(yán)重,給提供服務(wù)的用戶帶來了嚴(yán)重的選擇困難。眾包任務(wù)推薦是解決信息過載的重要手段,也是提高眾包效率和質(zhì)量的關(guān)鍵所在,但往往存在數(shù)據(jù)稀疏的問題。在眾包平臺中,任意兩個用戶投標(biāo)的任務(wù)交集非常小,交互數(shù)據(jù)極其稀疏[2~4]。近年來,不少學(xué)者對眾包任務(wù)的推薦展開研究,Ambati等人[5]建立了向服務(wù)方推薦任務(wù)的基于技能和興趣的隱式模型;仲秋雁等人[6]以服務(wù)方的個性化需求為目的建立了融合服務(wù)方能力和興趣的工人興趣能力模型,依靠協(xié)同過濾算法,實現(xiàn)了任務(wù)到服務(wù)方的推薦。但這些方法未考慮任務(wù)屬性或僅利用屬性中的任務(wù)類型來表征任務(wù),無法提取出任務(wù)更細(xì)粒度的特征,也無法避免數(shù)據(jù)稀疏的影響。

谷歌公司于2012年正式提出知識圖譜的概念并成功應(yīng)用于搜索引擎[7]。知識圖譜(knowledge graph,KG)是一種語義網(wǎng)絡(luò),其節(jié)點代表實體,邊代表實體之間的各種語義關(guān)系。目前,許多研究將知識圖譜作為輔助信息引入電影、音樂和商品推薦中,用屬性來彌補交互數(shù)據(jù)的稀疏,取得了較好的效果。比如,使用圖卷積網(wǎng)絡(luò)有偏差地聚合領(lǐng)域信息的KGCN[8],融合用戶—物品交互和KG信息并在協(xié)同知識圖譜中采用圖注意力網(wǎng)絡(luò)顯式建模高階關(guān)系信息的KGAT[9]。實際上,眾包任務(wù)推薦與商品推薦類似,主要體現(xiàn)在用戶投標(biāo)和用戶購買都是其偏好上;任務(wù)和商品都有屬性信息,任務(wù)之間可以通過相同的屬性連接起來。由此可見,將知識圖譜應(yīng)用到眾包任務(wù)推薦中不僅能解決眾包推薦存在的問題,還有利于挖掘用戶與任務(wù)間潛在的交互可能性。目前,基于知識圖譜的推薦算法研究較多,但大多在聚合鄰居信息時采用隨機采樣的方式且未區(qū)分協(xié)同信息的類型,生成的節(jié)點表示隨機且不具代表性。

針對以上問題,本文提出一種基于知識圖譜與圖注意力的推薦模型KG-GAT(recommendation based on knowledge graph and graph attention network),并將其應(yīng)用于眾包任務(wù)的推薦中。該模型首先將任務(wù)文本信息轉(zhuǎn)換為知識圖譜中的節(jié)點并融合協(xié)同信息生成協(xié)同知識圖譜,利用任務(wù)屬性來彌補交互數(shù)據(jù)的稀疏;然后在圖譜中運用圖注意力網(wǎng)絡(luò)有選擇地聚合鄰居并區(qū)分不同協(xié)同鄰居的重要程度,解決生成的節(jié)點表示不具代表性的問題。

本文的貢獻(xiàn)如下:a)為了提取任務(wù)更細(xì)粒度的特征、挖掘用戶與任務(wù)間基于描述的潛在關(guān)聯(lián),運用命名實體識別技術(shù)處理眾包任務(wù)文本信息并將其融入眾包任務(wù)推薦中;b)在協(xié)同知識圖譜中運用圖注意力網(wǎng)絡(luò),根據(jù)注意力大小有選擇地采樣鄰居,并在聚合鄰居時區(qū)分不同類型協(xié)同信息的重要程度;c)在極其稀疏的眾包數(shù)據(jù)集上進(jìn)行top-k推薦和CTR預(yù)測的實驗結(jié)果顯示,該模型在多項指標(biāo)上均優(yōu)于基線模型。

1相關(guān)工作

1.1眾包任務(wù)推薦算法

目前,已有的眾包任務(wù)推薦算法主要通過分析用戶的歷史投標(biāo)記錄來為用戶匹配任務(wù),或通過構(gòu)建用戶偏好模型來向用戶推薦符合其偏好的任務(wù)。比如,Safran等人[10]以滿足服務(wù)方和需求方的個性化需求為目的,提出了向服務(wù)方推薦需求方的TOP-K-T算法以及向需求方推薦服務(wù)方的TOP-K-W算法;Hettiachchi等人[11]提出了基于認(rèn)知技能的眾包異構(gòu)任務(wù)分配與推薦系統(tǒng),根據(jù)用戶過去的表現(xiàn)來推薦在其能力范圍內(nèi)的任務(wù);Abhinav等人[12]提出一種向工人推薦任務(wù)的框架,根據(jù)工人過去執(zhí)行的任務(wù)以及類似工人完成的任務(wù)來評估工人對任務(wù)的適應(yīng)性;Lu等人[13]為解決以往匹配的方法未考慮用戶偏好、可能使用戶對后續(xù)任務(wù)熱情降低的問題,提出一種個性化和質(zhì)量感知的眾包任務(wù)推薦方法;周康渠等人[14]提出了一種考慮問題解決者能力和參與動機的雙向推薦方法,通過任務(wù)類別和問題解決者的技能標(biāo)簽來篩選待預(yù)測集合。

一般情況下,用戶主要通過評估任務(wù)的要求來決定是否投標(biāo),而以上算法忽略了任務(wù)文本信息中蘊涵的關(guān)鍵內(nèi)容;另外,在交互矩陣稀疏的情況下還面臨推薦效果不佳的問題。

1.2基于知識圖譜的推薦方法

基于知識圖譜的推薦可分為基于嵌入、基于連接和基于傳播的方法,其中基于傳播的方法結(jié)合前兩種方法的優(yōu)勢,既實現(xiàn)了連接關(guān)系的利用,又通過嵌入的思想實現(xiàn)了實體和關(guān)系的低維空間向量表示。現(xiàn)有基于傳播的方法主要通過將圖神經(jīng)網(wǎng)絡(luò)融入知識圖譜中,挖掘節(jié)點間的高階連通關(guān)系。圖注意力網(wǎng)絡(luò)(graph attention network,GAT)是圖神經(jīng)網(wǎng)絡(luò)的一種,在KGAT中主要用于學(xué)習(xí)鄰居權(quán)重并在傳播時控制信息聚合的多少。KGAT可選的聚合器有GCN、GraphSage和Bi-Interaction,其中Bi-Interaction性能最好,該方法源自NFM[15]模型。KGAT嵌入實體的所有近鄰實體的語義信息,計算量龐大且在信息更新過程中易引入噪聲。AKGE[16]通過構(gòu)建高階子圖,并利用關(guān)系感知傳播策略,克服了KGAT信息更新過程中易引入噪聲的局限性;KHGT[17]融合時間信息更充分地挖掘用戶動態(tài)偏好;KGPolicy[18]提升模型表達(dá)能力的同時有效降低了KGAT的時間復(fù)雜度,KGAT將協(xié)同信息融入知識圖譜推薦,能夠發(fā)現(xiàn)更多的潛在關(guān)聯(lián)。類似的方法還有文獻(xiàn)[19]提出的CKAN模型,該模型采用異質(zhì)傳播策略顯式編碼協(xié)作和圖譜信息,使用知識感知的關(guān)注機制來區(qū)分不同知識鄰居的貢獻(xiàn),但其忽略了高階協(xié)同信息對用戶和項目表示的貢獻(xiàn);另外,KGIN[20]通過揭示交互背后的用戶意圖來進(jìn)行推薦,提高了模型的性能和可解釋性;陶佳等人[21]提出了一種融合增強協(xié)同信息和知識圖譜信息的推薦模型,考慮了高階協(xié)同信息對用戶和項目表示的貢獻(xiàn)。

以上推薦算法得益于知識圖譜的豐富語義和連通信息,可以挖掘出節(jié)點間的潛在關(guān)聯(lián),緩解數(shù)據(jù)稀疏的影響,但在鄰居采樣時大多采用隨機的方式,無法有選擇地捕獲高階連通信息,且生成的節(jié)點表示具有隨機性;另外,以上算法在聚合協(xié)同鄰居信息時未考慮協(xié)同鄰居的類型,無法捕獲到用戶對具有相同屬性的任務(wù)更關(guān)注還是對相似用戶交互過的任務(wù)更關(guān)注。本文受注意力機制的啟發(fā),在鄰居采樣時根據(jù)注意力大小選取固定數(shù)目的鄰居以減少噪聲的影響,在聚合鄰居時采用注意力權(quán)重來區(qū)分不同協(xié)同鄰居的重要程度。

2KG-GAT模型

2.1問題描述

眾包任務(wù)推薦模型待解決的問題是給定知識圖譜、用戶—任務(wù)交互圖和任務(wù)的文本信息,預(yù)測用戶對未投標(biāo)任務(wù)的交互概率,模型的輸入如表1所示。

知識圖譜G1的節(jié)點包括任務(wù)和任務(wù)屬性,其中,屬性包括任務(wù)金額、任務(wù)類型和眾包形式。表1中,price={price1,price2,…,pricec}、type={type1,type2,…,typed}和label={label1,label2,…,labele}分別表示任務(wù)金額、任務(wù)類型和眾包形式集合。用戶與眾包任務(wù)的交互矩陣反映了用戶的隱式反饋,根據(jù)交互矩陣可得到交互圖G2,其中U={u1,u2,…,ua}表示用戶集合,V={v1,v2,…,vb}表示任務(wù)集合,yuv=1代表用戶u投標(biāo)過任務(wù)v。在任務(wù)文本信息中,title={title1,title2,…,titlei}表示任務(wù)標(biāo)題集合,detail={detail1,detail2,…,detailj}表示任務(wù)詳細(xì)描述集合。

2.2基于知識圖譜與圖注意力的推薦模型

基于以上分析,本文提出基于知識圖譜與圖注意力的推薦模型KG-GAT,包括輸入層、嵌入層、注意力采樣和傳播層、類型感知聚合層和預(yù)測層,模型結(jié)構(gòu)如圖1所示。

輸入層首先通過命名實體識別技術(shù)識別任務(wù)信息中的要素實體并與知識圖譜原有實體融合,然后將用戶—任務(wù)交互圖中的任務(wù)與知識圖譜中的實體對齊得到協(xié)同知識圖譜。嵌入層采用知識圖譜的翻譯模型TransR[22]進(jìn)行訓(xùn)練,為圖譜中實體和關(guān)系生成嵌入表示。注意力采樣和傳播層首先將節(jié)點鄰居分為屬性類鄰居和非屬性類鄰居,然后計算節(jié)點間的注意力得分π,在每種類型中按得分從高到低排序后采樣固定數(shù)目的節(jié)點。類型感知聚合層首先按注意力得分聚合鄰居并與自身信息融合,然后按權(quán)重w1/w2聚合不同類型的鄰居信息,得到節(jié)點在該層融合了自身和鄰居信息后的嵌入表示。為捕獲高階連通性,將一層擴展到多層,通過拼接每一層的表示得到節(jié)點最終的表示,預(yù)測層將目標(biāo)用戶的表示e′u和任務(wù)的表示e′v做內(nèi)積得到預(yù)測的交互概率。

2.2.1輸入層

推薦模型的輸入為知識圖譜G1、用戶—任務(wù)交互圖G2和任務(wù)的文本信息集合,其中文本信息包括任務(wù)標(biāo)題和詳細(xì)描述,均以自然語言形式表述,主要體現(xiàn)任務(wù)的目的和要求。通過提取任務(wù)信息中的關(guān)鍵要素可以獲得更細(xì)粒度的任務(wù)特征。本文在輸入層首先識別任務(wù)文本信息中的關(guān)鍵要素實體并加入G1的實體集,然后將任務(wù)實體與關(guān)鍵要素實體的關(guān)系和用戶與任務(wù)實體的交互關(guān)系加入到G1的關(guān)系集,最后整合實體和關(guān)系得到協(xié)同知識圖譜G3。

從以自然語言表達(dá)的文本信息中提取出任務(wù)要素并將其分為多個類別的過程,在自然語言處理中稱為命名實體識別技術(shù)。本文采用基于深度學(xué)習(xí)的BERT-Bi-LSTM-CRF[23]命名實體識別方法,分為BERT嵌入層、Bi-LSTM層和CRF層。BERT預(yù)訓(xùn)練模型根據(jù)上下文生成動態(tài)詞向量,詞向量經(jīng)Bi-LSTM層可提取出實體識別所需的特征,最后進(jìn)入CRF層進(jìn)行標(biāo)簽解碼,其框架如圖2所示。

BERT層將初始獲取的輸入文本信息中的字向量記為序列X=(x1,x2,x3,…,xn),通過自注意力機制訓(xùn)練得到具有上下文信息的字向量訓(xùn)練Y=(y1,y2,y3,…,yn);然后將其輸入到Bi-LSTM層,將前向隱藏狀態(tài)序列t和反向隱藏狀態(tài)序列t拼接起來得到狀態(tài)序列ht:

ht=t‖t(1)

將ht映射為k維向量,k表示標(biāo)注集中標(biāo)簽的數(shù)量,通過歸一化處理后可以得到包含k個預(yù)測值的向量,其中每個預(yù)測值代表當(dāng)前字標(biāo)注為某個標(biāo)簽的概率。CRF層將概率作為輸入,預(yù)測出具有最大概率的標(biāo)注序列。對于觀測序列X,可將預(yù)測的序列結(jié)果表示為z=(z1,z2,z3,…,zn),其分?jǐn)?shù)定義為

s(X,z) = ∑ni=0Azi,zi+1+∑ni=0Pi,zi(2)

其中:P為雙向LSTM層輸出的分?jǐn)?shù)矩陣,Pi,zi表示句子中第i個字的第zi個標(biāo)簽的分?jǐn)?shù);A為轉(zhuǎn)移概率矩陣,Azi,zi+1表示從標(biāo)簽zi轉(zhuǎn)移到標(biāo)簽zi+1的轉(zhuǎn)移概率。

輸入層最終得到融合了協(xié)同信息的眾包協(xié)同知識圖譜,如圖3所示,實體包括用戶、任務(wù)、屬性和要素。借助協(xié)同知識圖譜不僅可以發(fā)現(xiàn)更多用戶和任務(wù)間的潛在關(guān)聯(lián)、提高推薦多樣性,還能為推薦結(jié)果提供可解釋性。從圖3可以看到,用戶A和B都投標(biāo)過任務(wù)1,表明用戶A和B具有相似偏好,因此用戶A可能會對用戶B投標(biāo)過的任務(wù)3感興趣;另外還可以發(fā)現(xiàn),用戶A投標(biāo)過任務(wù)1,而任務(wù)1和2的任務(wù)類型都是“l(fā)ogo設(shè)計”,任務(wù)金額均為“1001~2000”并且都包含關(guān)鍵要素“英文”,因此可以推測用戶A可能還會投標(biāo)任務(wù)2。

2.2.2嵌入層

在眾包協(xié)同知識圖譜中,一個實體可能有多種關(guān)系,為區(qū)分實體在不同關(guān)系中的表達(dá),本文采用適用于多種關(guān)系的TransR[22]模型來為實體和關(guān)系生成嵌入表示,其模型如圖4所示。

對于每一個三元組(h,r,t),將頭尾實體表示在實體空間,將關(guān)系表示在關(guān)系空間,如式(3)所示。

hr=hWr,tr=tWr(3)

對于每一個關(guān)系r,存在一個映射矩陣Wr,通過該矩陣將h、t映射到關(guān)系r所在空間,得到hr和tr。

三元組的得分由式(4)得到,分?jǐn)?shù)越低,說明三元組越可能為真。

g(h,r,t)=‖hr+r-tr‖22(4)

訓(xùn)練時考慮有效三元組和無效三元組的相對順序,嵌入模塊的損失函數(shù)的計算公式為

Euclid Math OneLApkg=∑(h,r,t,t′)∈φ-ln σ(g(h,r,t′)-g(h,r,t))(5)

φ=(h,r,t,t′)|(h,r,t)∈G3,(h,r,t′)G3(6)

其中:(h,r,t′)為隨機替換有效三元組(h,r,t)中的一個實體而構(gòu)造的無效三元組。

2.2.3注意力采樣和傳播層

為區(qū)分不同協(xié)同信息的重要程度,采樣時先將鄰居分為屬性鄰居Nh-a和非屬性鄰居Nh-c兩種類型。屬性鄰居包括屬性節(jié)點和要素節(jié)點,非屬性鄰居包括用戶節(jié)點和任務(wù)節(jié)點。對于用戶節(jié)點來說,只有非屬性鄰居中的任務(wù)節(jié)點與之相連,而任務(wù)節(jié)點既有屬性鄰居中的屬性和要素節(jié)點與之相連,又有非屬性鄰居中的用戶節(jié)點與之相連。然后在每種類型中分別進(jìn)行注意力采樣,兩種類型鄰居的集合由知識圖譜中以用戶或項目Nh為頭實體,關(guān)系類型分別為Ra和Rc的三元組的尾實體組成,如式(7)(8)所示。

Nh-a={t|(h,r,t)∈G3,h∈Nh,r∈Ra}(7)

Nh-c={t|(h,r,t)∈G3,h∈Nh,r∈Rc}(8)

每個屬性鄰居或非屬性鄰居對建模用戶偏好和生成任務(wù)表示的貢獻(xiàn)不同,為了盡可能多地聚合關(guān)鍵鄰居的信息并且避免噪聲的影響,對每個實體沒有使用它的全部鄰居,而是根據(jù)注意力得分從高到低在所有鄰居中采樣出一個集合,注意力計算方法如式(9)所示。

π(h,r,t)=(Wret)Ttanh(Wreh+er)(9)

其中:eh、er和et分別表示頭實體、關(guān)系和尾實體的嵌入表示;Wr為關(guān)系r的映射矩陣,用于將頭實體和尾實體映射到關(guān)系所在空間;tanh為激活函數(shù)。

以關(guān)系類型為屬性的鄰居Nh-a為例,采用式(10)所示的softmax函數(shù)來歸一化與h連接的三元組的系數(shù)。

π(h,r,t)=exp(π(h,r,t))∑(h,r′,t′)∈Nh-aexp(π(h,r′,t′))(10)

然后根據(jù)注意力系數(shù)來采樣n個系數(shù)最大的鄰居節(jié)點并按系數(shù)聚合信息,計算方式如式(11)所示。

eNh-a-n=∑(h,r,t)∈Nh-a-nπ(h,r,t)et(11)

其中:Nh-a-n為這n個鄰居組成的集合。同理可得非屬性鄰居的聚合表示eNh-c-n如式(12)所示。

eNh-c-n=∑(h,r,t)∈Nh-c-nπ(h,r,t)et(12)

2.2.4類型感知聚合層

為考慮eh和eNh之間的兩種特征交互,類型感知聚合層利用式(13)分別聚合每個節(jié)點自身表示和不同類型的鄰域表示,得到節(jié)點在本層融合不同類型鄰居后的表示。

fBi-Interaction=LeakyReLU(W1(eh+eNh))+

LeakyReLU(W2(eh⊙eNh))(13)

其中:⊙表示eh和eNh對應(yīng)元素相乘;LeakyReLU為激活函數(shù);W1和W2為權(quán)重矩陣。

為區(qū)分不同協(xié)同鄰居的重要程度,將兩種鄰居表示經(jīng)權(quán)重系數(shù)w1和w2加權(quán)求和得到節(jié)點在本層的表示,如式(14)所示。

e1h=w1f(eh,eNh-a-n)+w2f(eh,eNh-c-n)(14)

為探索更深層次的潛在興趣,通過計算高階連通性將一層擴展到L層,將每一層的節(jié)點表示拼接得到所有節(jié)點的最終表示,如式(15)(16)所示。

elh=fBi-Interaction(el-1h+el-1Nh)(15)

eh=e0h‖e1h‖…‖eLh(16)

2.2.5預(yù)測層

經(jīng)過L層的傳播和聚合后,可以獲得用戶u和任務(wù)v的多個表示,如式(17)(18)所示。

{e0u,e1u,…,eLu}(17)

{e0v,e1v,…,eLv}(18)

采用式(16)將所有表示拼接成一個向量,得到式(19)(20)中用戶和任務(wù)的最終表示eu和ev。

eu=e0u‖e1u‖…‖eLu(19)

ev=e0v‖e1v‖…‖eLv(20)

最后將兩者做內(nèi)積得到預(yù)測的交互概率:

yuv=eTuev(21)

2.3模型優(yōu)化

推薦模塊采用式(22)所示的BPR損失。

Euclid Math OneLApcf=∑(u,i,j)∈O-ln σ(ui-uj)

O={(u,i,j)|(u,i)∈R+,(u,j)∈R-}(22)

整個模型的損失為嵌入模塊的損失Euclid Math OneLApkg和推薦模塊的損失Euclid Math OneLApcf相加,如式(23)所示。

Euclid Math OneLAp=Euclid Math OneLApkg+Euclid Math OneLApcf+λ‖Θ‖2(23)

其中:R+表示正交互,R-表示負(fù)交互;‖Θ‖2是防止過擬合的正則化項;λ為正則化項系數(shù)。訓(xùn)練時使用Adam算法來交替訓(xùn)練Euclid Math OneLApkg與Euclid Math OneLApcf,采用dropout隨機舍棄一些神經(jīng)元以防止過度擬合。

3實驗結(jié)果與分析

3.1數(shù)據(jù)集與評價指標(biāo)

本文采用構(gòu)建的眾包數(shù)據(jù)集作為實驗數(shù)據(jù)集,數(shù)據(jù)采集自豬八戒網(wǎng),任務(wù)類別為品牌設(shè)計類,包含1 548個用戶對4 901條任務(wù)的投標(biāo)記錄,稀疏度為98.67%。該數(shù)據(jù)集為隱式反饋數(shù)據(jù)集,若用戶投標(biāo)過某任務(wù),則將該任務(wù)劃分至正例交互,反之劃分為負(fù)例交互。數(shù)據(jù)集詳細(xì)統(tǒng)計信息如表2所示。

本文分別在點擊率(click-through rate,CTR)預(yù)測任務(wù)和top-k推薦任務(wù)中驗證KG-GAT模型的效果。在CTR預(yù)測中采用ROC曲線下的面積(area under curve,AUC)作為評價指標(biāo),在top-k推薦中選用precision、recall和歸一化累計折舊收益NDCG(normalized discounted cumulative gain)來評價模型,計算方法如式(24)~(27)所示。

AUC指標(biāo)反映模型對樣本的排序能力,定義為

AUC=∑ni(posgt;neg)+0.5×∑ni(pos=neg)Npos×Nneg(24)

其中:pos表示正樣本的得分;neg表示負(fù)樣本的得分;Npos和Nneg分別表示正樣本、負(fù)樣本的數(shù)量;n表示樣本總數(shù)量。

precision表示推薦列表中的物品屬于測試集的比例,recall描述測試集中的物品占推薦列表的比例,計算方法如下:

precision=∑u∈U|R(u)∩T(u)|∑u∈U|R(u)|(25)

recall=∑u∈U|R(u)∩T(u)|∑u∈U|T(u)|(26)

其中:R(u)是根據(jù)用戶在訓(xùn)練集上的行為給出的推薦列表;T(u)代表用戶在測試集上的行為列表。

NDCG是用折扣累計增益(discounted cumulative gain,DCG)除以理想折扣累計增益(idea discounted cumulative gain,iDCG),如式(27)所示。

NDCG=DCGiDCG(27)

其中:iDCG的計算方法是將推薦項目根據(jù)真實分?jǐn)?shù)重排序后再計算DCG;DCG是將推薦列表中項目的真實分?jǐn)?shù)(1或0)除以其在列表中的位置,式(28)為推薦列表長度取K時的計算方法。

DCG=∑Ki=1relilog(i+1)(28)

BERT-Bi-LSTM-CRF模型采用precision來評估效果,計算方法如式(29)所示。

precision=TPTP+FP×100%(29)

其中:TP(true positives)為將正確結(jié)果判定為正類;FP(1 positives)為將錯誤結(jié)果判定為正類;精確率

precision即為正確預(yù)測的實體占所有識別出的實體的比例。

3.2模型參數(shù)設(shè)置

本文將眾包數(shù)據(jù)集按照8:2的比例劃分為訓(xùn)練集和測試集,KG-GAT模型epoch設(shè)置為200,當(dāng)測試集的損失在20輪內(nèi)沒有下降時提前結(jié)束訓(xùn)練。基準(zhǔn)模型與KG-GAT的批處理大小、嵌入維數(shù)和學(xué)習(xí)率保持一致,其他KG-GAT中不涉及的參數(shù)采用原模型默認(rèn)取值,超參數(shù)的具體設(shè)置如表3所示。

通過總結(jié)品牌設(shè)計類任務(wù)文本信息的特點,將任務(wù)要素分為行業(yè)、技術(shù)領(lǐng)域、對象、結(jié)果和技術(shù)要求五個類別。本文選用BIO體系進(jìn)行類別標(biāo)注,包含的標(biāo)簽如表5所示。

將標(biāo)注完成的數(shù)據(jù)按8:2隨機劃分為訓(xùn)練集和測試集,輸入到BERT-Bi-LSTM-CRF模型中進(jìn)行訓(xùn)練,經(jīng)過50個epoch,BERT-Bi-LSTM-CRF模型達(dá)到收斂,precision約為0.890 7,precision在訓(xùn)練過程的變化情況如圖5所示。

3.3模型對比分析

為證明KG-GAT模型的有效性,將KG-GAT與基于因子分解機(NFM)和基于知識圖譜(KGAT、CKAN、KGIN)的方法在top-k推薦場景和CTR預(yù)測場景下進(jìn)行對比實驗,實驗環(huán)境為Windows 10,Intel i5,Python 3.6,PyTorch 1.7.0,CUDA 11.0,RTX3060。

a)NFM[15],在因子分解機(factorization machines,F(xiàn)M)的基礎(chǔ)上引入神經(jīng)網(wǎng)絡(luò),通過Bi-Interaction來學(xué)習(xí)高階的非線性組合特征。

b)KGAT[9],融合交互信息和圖譜信息,將圖注意網(wǎng)絡(luò)應(yīng)用于協(xié)作知識圖,以學(xué)習(xí)用戶和項目表示。

c)CKAN[19],使用異構(gòu)傳播策略和注意網(wǎng)絡(luò)顯式編碼協(xié)作和圖譜信息,生成用戶和項目的嵌入表示。

d)KGIN[20],使用輔助知識圖來探索用戶交互背后的意圖,通過知識圖譜關(guān)系的注意力結(jié)合對意圖進(jìn)行建模從而細(xì)化用戶和項目的表示。

在top-k推薦中,推薦個數(shù)k的取值會影響推薦效果,因此將k設(shè)置為{20,40,60,80,100},觀察評價指標(biāo)precision、recall和NDCG的變化情況,圖6~8為不同推薦個數(shù)k下的準(zhǔn)確率、召回率和NDCG對比折線圖。當(dāng)推薦個數(shù)k取20時,實驗結(jié)果如表6所示,粗體表示性能最佳,下畫線表示性能次佳。

從實驗結(jié)果可以看到,當(dāng)k取20時,基準(zhǔn)模型中的KGAT在precision@20、recall@20和NDCG@20上表現(xiàn)最好,KGGAT與其相比分別提升了0.04%、0.51%和0.34%。點擊率預(yù)測的實驗結(jié)果如圖9所示,本文模型相比最優(yōu)基線模型AUC提升了0.4%。

從實驗圖表可以看出,在極其稀疏的眾包數(shù)據(jù)集中,KGGAT在top-k推薦和點擊率預(yù)測場景的各項指標(biāo)上均取得了較好的性能,表明本文模型可以充分利用高階協(xié)同信息,生成更具代表性的節(jié)點表示。

NFM通過對輔助信息進(jìn)行建模可以發(fā)現(xiàn),與用戶交互過的物品具有相似屬性的其他物品,但忽略了因歷史交互行為而產(chǎn)生的協(xié)作信息且無法捕獲高階聯(lián)系。從實驗結(jié)果可以看到,在眾包數(shù)據(jù)集上,本文模型、KGAT和KGIN的性能明顯優(yōu)于基準(zhǔn)方法NFM,表明通過使用交互矩陣中的交互信息和知識圖中的知識關(guān)聯(lián)可以挖掘更準(zhǔn)確的用戶偏好。CKAN的準(zhǔn)確率、召回率和NDCG略低于NFM,可能的原因是NFM可以捕獲用戶、任務(wù)和實體之間復(fù)雜的非線性特征交互,而CKAN考慮首部實體與關(guān)系的權(quán)值卻忽略了尾部實體的重要性,無法充分獲取知識關(guān)聯(lián)。

在圖譜中傳播信息時,若隨機采樣鄰居會導(dǎo)致生成的節(jié)點表示具有隨機性。由于KGAT、CKAN和KGIN均采用隨機鄰居采樣且未區(qū)分協(xié)同信息的類型,在眾包數(shù)據(jù)集上的表現(xiàn)不佳。而KG-GAT通過注意力采樣且區(qū)分了協(xié)同信息的重要程度,可以有效解決節(jié)點表示隨機和節(jié)點間區(qū)分度不高的問題、生成更具代表性的嵌入表示。

3.4消融實驗

為驗證模型的有效性,本文針對KG-GAT模型的各個組件設(shè)置了三種變體來進(jìn)行消融實驗,各模型變體描述如下:a)KG-GAT_1表示模型不使用任務(wù)文本信息,輸入層僅包含知識圖譜和交互圖;b)KG-GAT_2表示模型不采用注意力采樣,直接聚合節(jié)點的全部鄰居信息;c)KG-GAT_3表示模型不區(qū)分協(xié)同信息的類型,直接將不同類型鄰居的信息相加。

消融實驗的超參數(shù)選用使KG-GAT模型性能達(dá)到最優(yōu)的參數(shù)組合,實驗結(jié)果的對比情況如表7所示,粗體表示性能最佳。

從上述結(jié)果可以看出,三個變體的precision、recall和NDCG與原模型相比均有所下降。

a)KG-GAT_1由于沒有充分利用任務(wù)的文本信息,無法獲取任務(wù)間更細(xì)粒度的相關(guān)性,構(gòu)建的任務(wù)模型區(qū)分度不高,推薦性能與KG-GAT相差較大,說明考慮任務(wù)文本信息對模型性能的提高具有一定貢獻(xiàn)。

b)KG-GAT_2不加區(qū)分地聚合所有鄰居的信息,不僅會增加模型復(fù)雜度,還會引入噪聲,對預(yù)測結(jié)果造成影響。KG-GAT相比KG-GAT_2增加了注意力采樣,模型的性能有所提高,說明注意力采樣對模型是有效的。

c)KG-GAT_3未考慮不同協(xié)同信息的重要程度,無法從用戶歷史投標(biāo)記錄中得出不同類型的協(xié)同信息對用戶行為的影響程度,即無法區(qū)分用戶對屬性類似的任務(wù)更關(guān)注還是對相似用戶交互過的任務(wù)更感興趣,性能略低于KG-GAT,表明考慮協(xié)同信息的類型對挖掘用戶潛在興趣具有一定貢獻(xiàn)。

3.5參數(shù)影響分析

為分析不同超參數(shù)對模型性能的影響,本文采用控制變量法對KG-GAT模型的學(xué)習(xí)率和鄰居采樣進(jìn)行超參數(shù)調(diào)整實驗,分析以上參數(shù)對precision、recall和NDCG的影響情況,實驗結(jié)果如表8所示。

從實驗結(jié)果可以看出,在學(xué)習(xí)率為1E-3、鄰居采樣個數(shù)為20時,模型效果達(dá)到最優(yōu)。

a)一般來說,模型的學(xué)習(xí)率過小會極大降低收斂速度、增加訓(xùn)練時間;而學(xué)習(xí)率過大,可能會導(dǎo)致模型不收斂。從實驗結(jié)果來看,增大學(xué)習(xí)率使得本文模型在收斂狀態(tài)下的性能明顯提高,但隨著學(xué)習(xí)率的增大,模型學(xué)習(xí)時間加快,提前到達(dá)擬合點,這時候再繼續(xù)學(xué)習(xí)就會導(dǎo)致過擬合,降低模型性能。

b)對于節(jié)點在每種類型的協(xié)同鄰居中采樣的個數(shù),本文分別在采樣個數(shù)為{5,10,15,20,25}時進(jìn)行實驗。實驗結(jié)果顯示,增加采樣個數(shù)在一定程度上可以學(xué)習(xí)到更多的鄰居信息,從而提高模型性能;但隨著采樣個數(shù)的增多,引入過多的噪聲數(shù)據(jù)反而會對推薦性能造成影響。

3.6案例分析

為驗證本文所提推薦模型的有效性和基于知識圖譜推薦方法的可解釋性,以數(shù)據(jù)集中的用戶2為例,設(shè)置鄰居采樣個數(shù)為2、傳播層數(shù)為3,進(jìn)行top-10推薦的案例分析,具體過程如圖10所示,連線上的數(shù)值為節(jié)點間的注意力得分。

用戶2的一階鄰居是其投標(biāo)過的任務(wù)集合,注意力得分最高的兩個鄰居是任務(wù)3986和4001,采用注意力得分聚合兩個任務(wù)表示得到該層的鄰居表示,將鄰居表示與用戶2自身表示融合得到用戶2的一階嵌入eu_layer1。二階嵌入由一階鄰居傳播得來,以任務(wù)3968為例,將其鄰居分為屬性類和非屬性類,在兩種類型中分別采樣兩個注意力得分最高的鄰居,屬性類鄰居為屬性9952和9865,非屬性類鄰居為用戶475和用戶378。先按類型和注意力分別聚合鄰居信息,再根據(jù)學(xué)習(xí)到的權(quán)重w1和w2將兩種類型的信息加權(quán)求和,得到由任務(wù)3968傳播得到的二階鄰居的信息。同樣的方法可獲得由任務(wù)4001傳播得到的二階鄰居的信息,聚合所有二階鄰居的信息得到用戶2的二階嵌入eu_layer2。同理,聚合用戶2的三階鄰居的信息可獲得用戶2的三階嵌入eu_layer3,將每一階嵌入拼接起來得到用戶2最終的嵌入表示eu。

同理可得任務(wù)表示ev,將用戶表示eu和任務(wù)表示ev做內(nèi)積得到交互概率,按交互概率從高到低排序生成用戶2的top-10推薦列表。從結(jié)果可以看到,用戶的三階鄰居任務(wù)3992、任務(wù)4384和任務(wù)4036存在于推薦列表中,且連通路徑上注意力越高的任務(wù)排名越靠前,驗證了本文模型的有效性和可解釋性。

4結(jié)束語

針對目前眾包任務(wù)的推薦存在未考慮任務(wù)更細(xì)粒度的特征和嚴(yán)重的數(shù)據(jù)稀疏問題,本文將知識圖譜運用于眾包任務(wù)的推薦中。首先利用命名實體識別技術(shù)將任務(wù)文本信息轉(zhuǎn)換為知識圖譜中的實體;然后融入?yún)f(xié)同信息得到協(xié)同知識圖譜,在協(xié)同知識圖譜中運用圖注意力網(wǎng)絡(luò)來為用戶和任務(wù)生成嵌入表示;最后將兩者的表示做內(nèi)積得到預(yù)測的投標(biāo)概率。對于當(dāng)前基于知識圖譜和圖注意力的推薦算法大多采用隨機采樣且未區(qū)分協(xié)同鄰居類型、無法生成準(zhǔn)確表示的問題,本文通過按鄰居類型進(jìn)行注意力采樣和權(quán)重聚合來優(yōu)化。在眾包數(shù)據(jù)集上進(jìn)行對比的實驗結(jié)果表明,本模型的AUC、準(zhǔn)確率、召回率和NDCG指標(biāo)均優(yōu)于基線模型,通過案例分析也驗證了模型的有效性和可解釋性。未來將考慮將模型應(yīng)用于其他領(lǐng)域,以驗證其有效性和泛化能力。

參考文獻(xiàn):

[1]Howe J.The rise of crowdsourcing[J].Wired,2006,14(6):176-183.

[2]于旭,何亞東,梁宏濤,等.一種考慮興趣偏好的top-k眾包開發(fā)者推薦方法[J].山東科技大學(xué)學(xué)報:自然科學(xué)版,2021,40(3):58-70.(Yu Xu,He Yadong,Liang Hongtao,et al.A top-k crowdsourcing developer recommendation method considering interest preference[J].Journal of Shandong University of Science and Technology:Natural Science,2021,40(3):58-70.)

[3]李晨.考慮工人參與意愿影響因素的眾包任務(wù)推薦[D].大連:大連理工大學(xué),2019.(Li Chen.Task recommendation based on the influencing factors of crowdsourcing participating willingness[D].Dalian:Dalian University of Technology,2019.)

[4]陳寶童,王麗清,蔣曉敏,等.群智協(xié)同任務(wù)分配研究綜述[J].計算機工程與應(yīng)用,2021,57(20):1-12.(Chen Baotong,Wang Liqing,Jiang Xiaomin,et al.Survey of task assignment for crowd-based cooperative computing[J].Computer Engineering and Applications,2021,57(20):1-12.)

[5]Ambati V,Vogel S,Carbonell J G.Towards task recommendation in micro-task markets[C]//Proc of the 25th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2011:80-83.

[6]仲秋雁,張媛,李晨,等.考慮用戶興趣和能力的眾包任務(wù)推薦方法[J].系統(tǒng)工程理論與實踐,2017,37(12):3270-3280.(Zhong Qiuyan,Zhang Yuan,Li Chen,et al.Task recommendation method based on workers’interest and competency for crowdsourcing[J].Systems Engineering-Theory amp; Practice,2017,37(12):3270-3280.)

[7]徐有為,張宏軍,程愷,等.知識圖譜嵌入研究綜述[J].計算機工程與應(yīng)用,2022,58(9):30-50.(Xu Youwei,Zhang Hongjun,Cheng Kai,et al.Comprehensive survey on knowledge graph embedding[J].Computer Engineering and Applications,2022,58(9):30-50.)

[8]Wang Hongwei,Zhao Miao,Xie Xing,et al.Knowledge graph convolutional networks for recommender systems[C]//Proc of the World Wide Web Conference.New York:ACM Press,2019:3307-3313.

[9]Wang Xiang,He Xingnan,Cao Yixin,et al.KGAT:knowledge graph attention network for recommendation[C]//Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2019:950-958.

[10]Safran M,Che Dunren.Real-time recommendation algorithms for crowdsourcing systems[J].Applied Computing and Informatics,2017,13(1):47-56.

[11]Hettiachchi D,Van Berkel N,Kostakos V,et al.CrowdCog:a cognitive skill based system for heterogeneous task assignment and recommendation in crowdsourcing[J].Proceedings of the ACM on Human-Computer Interaction,2020,4(CSCW2):1-12.

[12]Abhinav K,Bhatia G K,Dubey A,et al.TasRec:a framework for task recommendation in crowdsourcing[C]//Proc of the 15th International Conference on Global Software Engineering.New York:ACM Press,2020:86-95.

[13]Lu Kun,Wang Jiaxi,Li Mingchu,et al.Personalized and quality-aware task recommendation in collaborative crowdsourcing[C]//Proc of the 24th IEEE International Conference on Computer Supported Cooperative Work in Design.Piscataway,NJ:IEEE Press,2021:43-48.

[14]周康渠,張家銘,何苗,等.面向競爭式眾包的產(chǎn)品設(shè)計任務(wù)推薦方法[J/OL].計算機集成制造系統(tǒng).(2022-04-19).http://kns.cnki.net/kcms/detail/11.5946.TP.20211129.0933.006.html.(Zhou Kangqu,Zhang Jiaming,He Miao,et al.Design task recommendation method for crowdsourcing contest[J/OL].Computer Integra-ted Manufacturing Systems.(2022-04-19).http://kns.cnki.net/kcms/detail/11.5946.TP.20211129.0933.006.html.)

[15]He Xiangnan,Chua T S.Neural factorization machines for sparse predictive analytics[C]//Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2017:355-364.

[16]Sha Xiao,Sun Zhu,Zhang Jie.Hierarchical attentive knowledge graph embedding for personalized recommendation[J].Electronic Commerce Research and Applications,2021,48(7-8):101071.

[17]Xia Lianghao,Huang Chao,Xu Yong,et al.Knowledge-enhanced hierarchical graph transformer network for multi-behavior recommendation[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:4486-4493.

[18]Wang Xiang,Xu Yaokun,He Xiangnan,et al.Reinforced negative sampling over knowledge graph for recommendation[C]//Proc of the 29th International World Wide Web Conference.New York:ACM Press,2020:99-109.

[19]Wang Ze,Lin Guangyan,Tan Huobin,et al.CKAN:collaborative knowledge-aware attentive network for recommender systems[C]//Proc of the 43rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2020:219-228.

[20]Wang Xiang,Huang Tinglin,Wang Dingxian,et al.Learning intents behind interactions with knowledge graph for recommendation[C]//Proc of the Web Conference.New York:ACM Press,2021:878-887.

[21]陶佳,黃賢英,高鈺瀾.融合增強協(xié)同信息和知識圖譜信息的推薦模型[J].計算機應(yīng)用研究,2022,39(6):1742-1748.(Tao Jia,Huang Xianying,Gao Yulan.Recommendation model combining enhanced collaborative information and knowledge graph information[J].Application Research of Computers,2022,39(6):1742-1748.)

[22]Lin Yankai,Liu Zhiyuan,Sun Maosong,et al.Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2015.

[23]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機科學(xué),2019,46(Z2):138-142.(Wang Ziniu,Jiang Meng,Gao Jianling,et al.Chinese named entity recognition method based on BERT[J].Computer Science,2019,46(Z2):138-142.)

收稿日期:2022-06-07;修回日期:2022-08-04基金項目:國家自然科學(xué)基金資助項目(52005420)

作者簡介:沈旭(1999-),女,四川自貢人,碩士研究生,主要研究方向為知識圖譜、推薦系統(tǒng);王淑營(1974-),女,天津人,研究員,碩導(dǎo),博士,主要研究方向為云服務(wù)平臺架構(gòu)、自適應(yīng)演化技術(shù);田媛夢(1998-),女,四川樂山人,碩士研究生,主要研究方向為推薦系統(tǒng);鄭慶(1989-),男(通信作者),四川南充人,助理教授,碩導(dǎo),博士,主要研究方向為智能制造系統(tǒng)、群智協(xié)同創(chuàng)新理論及方法(qingzheng@swjtu.edu.cn).

主站蜘蛛池模板: 久久久久人妻一区精品色奶水| 国产欧美日韩另类精彩视频| 亚洲国产精品无码AV| 欧美精品成人一区二区在线观看| 欧亚日韩Av| 免费日韩在线视频| 中文无码精品A∨在线观看不卡| 成人av手机在线观看| 激情影院内射美女| 亚洲综合婷婷激情| 色噜噜在线观看| 久久久久中文字幕精品视频| 在线免费不卡视频| 亚洲水蜜桃久久综合网站| 久久久久久尹人网香蕉| 丝袜国产一区| 国产精品爆乳99久久| 69视频国产| 日韩无码视频播放| 国产理论最新国产精品视频| 亚洲精品无码久久毛片波多野吉| 污视频日本| 亚洲an第二区国产精品| 国产激情无码一区二区APP | 岛国精品一区免费视频在线观看| 久久黄色小视频| 在线观看免费黄色网址| 国产日韩欧美在线视频免费观看| 久热re国产手机在线观看| 91口爆吞精国产对白第三集| 久久精品最新免费国产成人| 日韩国产高清无码| 91在线精品免费免费播放| 国产经典在线观看一区| 国产手机在线ΑⅤ片无码观看| 美女国产在线| 国产精品九九视频| 欧美精品啪啪| 人妻无码中文字幕第一区| 国产女主播一区| 国产毛片网站| 亚洲一区精品视频在线 | 亚洲精品图区| 久久久久免费精品国产| 国产亚洲精品97在线观看| 久久综合亚洲色一区二区三区| 国产综合精品一区二区| 午夜精品国产自在| 免费人成又黄又爽的视频网站| 日韩精品高清自在线| Jizz国产色系免费| 思思热精品在线8| 国产亚洲高清视频| 伊人大杳蕉中文无码| 欧美va亚洲va香蕉在线| 在线免费看黄的网站| 国模粉嫩小泬视频在线观看| 国产久操视频| 国产免费观看av大片的网站| 国产精品美女网站| 中文国产成人精品久久| 青青操视频免费观看| 亚卅精品无码久久毛片乌克兰| 国产精品美女网站| 国产女人爽到高潮的免费视频 | 亚洲码在线中文在线观看| 久久夜色精品| 国产精品一区二区在线播放| 一区二区三区四区精品视频| 国产视频一二三区| 亚洲无码电影| 67194在线午夜亚洲| 18禁黄无遮挡免费动漫网站| 久久一日本道色综合久久| 91丝袜乱伦| 欧美精品在线视频观看| 亚洲永久免费网站| 亚洲最新地址| 婷婷综合亚洲| 国产AV无码专区亚洲A∨毛片| 无码免费试看| 亚洲精品无码AⅤ片青青在线观看|