999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

EAE:一種酶知識圖譜自適應(yīng)嵌入表示方法

2017-12-16 05:07:17杜治娟孟小峰王秋月
計(jì)算機(jī)研究與發(fā)展 2017年12期
關(guān)鍵詞:模型

杜治娟 張 祎 孟小峰 王秋月

(中國人民大學(xué)信息學(xué)院 北京 100872)

EAE:一種酶知識圖譜自適應(yīng)嵌入表示方法

杜治娟 張 祎 孟小峰 王秋月

(中國人民大學(xué)信息學(xué)院 北京 100872)

(2014000654@ruc.edu.cn)

近年來,構(gòu)建大規(guī)模知識圖譜(knowledge graph, KG),并用其解決實(shí)際問題已經(jīng)成為大趨勢.KG的嵌入表示方便了機(jī)器學(xué)習(xí)在KG等關(guān)系數(shù)據(jù)上的應(yīng)用,它可以促進(jìn)知識分析、推理、融合、補(bǔ)全,甚至決策.最近,開放域知識圖譜(open-domain knowledge graph, OKG)的構(gòu)建和嵌入表示已經(jīng)得到蓬勃發(fā)展,大大促進(jìn)了開放域中大數(shù)據(jù)的智能化.與此同時(shí),特定域知識圖譜(specific-domain knowledge graph, SKG)也成為了特定領(lǐng)域中智能應(yīng)用的重要資源.但是,SKG還不發(fā)達(dá),其嵌入表示尚處于萌芽階段.這主要是由于SKG與OKG的數(shù)據(jù)分布顯著不同,更具體地說:1)在OKG中,如WordNet,Freebase,頭/尾實(shí)體的稀疏度幾乎相等;但是在Enzyme,NCI-PID等SKG中不均勻性更受歡迎,例如微生物領(lǐng)域的酶KG中尾實(shí)體是頭實(shí)體的1 000倍.2)頭實(shí)體和尾實(shí)體可以在OKG中交換位置,但是它們在SKG中是非交換的,因?yàn)榇蠖鄶?shù)關(guān)系是屬性.例如實(shí)體“奧巴馬”可以是頭實(shí)體也可以是尾實(shí)體,但是頭實(shí)體“酶”總是處于頭位置.3)關(guān)系的廣度在OKG中具有小的偏差,而SKG中很不平衡.例如一個酶實(shí)體甚至可以鏈接31 809個“x-gene”實(shí)體.基于這些觀察,提出了一個新方法EAE來處理這3個問題,并在鏈接預(yù)測和元組分類任務(wù)上評估了EAE方法.實(shí)驗(yàn)結(jié)果表明:EAE顯著優(yōu)于Trans(E,H,R,D和TransSparse),達(dá)到了最先進(jìn)的性能.

特定域知識圖譜;酶;嵌入表示;不均勻;非交換;不平衡

近年來,智能應(yīng)用受益于實(shí)體關(guān)系構(gòu)成的結(jié)構(gòu)化知識[1-2],比如大規(guī)模開放域知識圖譜(open-domain knowledge graphs, OKGs)DBPedia[3],Wikidata[4],Freebase[5],YAGO[6]和Probase[7]等被證明是支持自然語言問答、智能搜索[5,7]以及知識推理、融合和補(bǔ)全[8-10]等的重要資源.構(gòu)建大規(guī)模特定域知識圖譜(specific-domain knowledge graph, SKG)并用于解決實(shí)際問題也受到更多關(guān)注,例如在生物醫(yī)學(xué)中,諸如NCI-PID知識庫[11]對于了解復(fù)雜疾病如癌癥以及推進(jìn)精密醫(yī)學(xué)至關(guān)重要,又如Neurocommons[12],Bio2RDF[13],LinkedLifeData[14]等集成了生物醫(yī)學(xué)信息,并用于生命科學(xué)中的決策支持[15-16].雖然這些知識圖譜(knowledge graphs, KG)對于解決實(shí)際問題非常重要,但是它們遠(yuǎn)不完全,并且在非靜態(tài)領(lǐng)域,新事實(shí)的產(chǎn)生與日俱增,手動補(bǔ)全KG變得不切實(shí)際;此外,隨著KG規(guī)模的增加,圖表示的KG在應(yīng)用中正面臨著數(shù)據(jù)稀疏和計(jì)算效率低下的問題[2,17].更重要的是,用圖表示的KG不便于機(jī)器學(xué)習(xí)[2,17],而機(jī)器學(xué)習(xí)是大數(shù)據(jù)自動化和智能化的不可或缺的工具[14].因此,像OKG嵌入一樣,SKG也需要嵌入表示,即將實(shí)體和關(guān)系表示成連續(xù)低維向量.

OKG的嵌入方法已如雨后春筍,如RESCAL[18],TansE[19], HolE[20]等.盡管這些方法在OKG上具有強(qiáng)大的建模能力,但由于實(shí)體不均勻、非交互和不平衡的原因,在SKG上仍然具有挑戰(zhàn)性.

我們以中國科學(xué)院微生物研究所的酶KG(enzyme KG, EKG)來說明SKG與OKG的差異.完整的EKG包含13種關(guān)系、6 482 370個實(shí)體(其中包括6 463個頭實(shí)體和6 475 907尾實(shí)體)、7 017 094個三元組.圖1是EKG的子圖,灰色橢圓代表頭實(shí)體,空白橢圓表示尾實(shí)體*EKG中的數(shù)據(jù)表示形式:實(shí)體表示格式如〈http://gcm.wdcm.org/data/gcmAnnotation1/enzyme/5.1.1.12〉或者“Acting on amino acids and derivatives”;關(guān)系表示格式如〈http://gcm.wdcm.org/ontology/gcmAnnotaion/v1/class 〉.為了簡單起見,我們省略了url前綴“http:// gcm.wdcm.org/ontology/gcmAnnotaion/v1/”和http://gcm.wdcm.org/data/gcmAnnotation1/..

從EKG中我們得到3個觀察結(jié)果:

結(jié)果1. 大多數(shù)實(shí)體不連通,并且頭實(shí)體都是各種“酶”,如圖1中的“enzyme1.4.1.11”等,而尾實(shí)體大部分是屬性值,所以,頭尾實(shí)體的位置是不可交換的,頭實(shí)體總是處于EKG的頭位置.這與OKG非常不同,在OKG中實(shí)體是可以交換的,如“奧巴馬”可以是頭實(shí)體,也可以是尾實(shí)體.我們把這種現(xiàn)象叫做實(shí)體分布的非交換性.

結(jié)果2. 圖1中有3個頭實(shí)體,卻有25個尾實(shí)體,這種現(xiàn)象在EKG中普遍存在,如表1所示,尾實(shí)體數(shù)是頭實(shí)體數(shù)的1 000倍.并且頭尾實(shí)體的稀疏度*頭/尾實(shí)體的稀疏度等于頭/尾實(shí)體數(shù)除以三元組總數(shù),稀疏度小,說明出現(xiàn)次數(shù)少;反之亦然.也顯著不均衡,例如頭數(shù)為1 085.73,但尾數(shù)為1.08.在OKG中,頭尾實(shí)體的稀疏度幾乎相等,比如WN18的頭尾稀疏度之比是1.0,F(xiàn)B15K的頭尾稀疏度之比是0.996 8.我們把這種現(xiàn)象叫做實(shí)體分布的不均勻性.

Fig. 1 The subgraph enzyme KG圖1 EKG的子圖

Table 1 Feature Statistics of the Enzyme KG

結(jié)果3. 關(guān)系的廣度*關(guān)系的廣度分為頭廣度和尾廣度,頭廣度定義為(關(guān)系,尾實(shí)體)對鏈接的頭實(shí)體的數(shù)量,尾廣度亦然.其中(關(guān)系,尾實(shí)體)表示關(guān)系和尾實(shí)體對,即它倆固定,頭實(shí)體隨意.在EKG中存在嚴(yán)重的不平衡.如表1所示,最大頭廣度為6 436 ,最大尾廣度是40 635,大約6.3倍.據(jù)統(tǒng)計(jì),如表1~2所示,不平衡關(guān)系在EKG中占有很大的比例,特別是“KeggGene”,“ncbiGene”和“x-gene”關(guān)系,如“ncbiGene”實(shí)體平均鏈接821.81尾實(shí)體,最多可達(dá)39 051個,遠(yuǎn)遠(yuǎn)超過OKG.并且這種不平衡性的變化很大,比如“x-pathway”的頭尾廣度分別是46.08和2.39,遠(yuǎn)小于“keggGene”的.我們把現(xiàn)象叫做實(shí)體分布的不平衡性,對應(yīng)的實(shí)體稱作重頭或重尾實(shí)體.

通過以上分析我們看出了SKG與OKG的數(shù)據(jù)差異,同時(shí),我們也知道OKG的所有以前的工作,包括TransE,TransH,TransR,TransD和TransSparse都不能很好地解決這3個問題,并且它們以相同的方式對每個關(guān)系進(jìn)行建模.不均勻性可能導(dǎo)致出現(xiàn)次數(shù)少的實(shí)體和關(guān)系(記作不頻繁對象)在訓(xùn)練過程中出現(xiàn)擬合不足的問題,而出現(xiàn)次數(shù)多的實(shí)體和關(guān)系(記作頻繁對象)會出現(xiàn)過擬合問題.同時(shí),關(guān)系廣度的嚴(yán)重不平衡(重頭或重尾)表明需要著重區(qū)別大量頭實(shí)體或者尾實(shí)體.

Table 2 Relation Distribution of EKG

為了應(yīng)對上述挑戰(zhàn),我們提出了一種新型嵌入表示方法——酶知識圖自適應(yīng)嵌入(enzyme know-ledge graph adaptive embedding, EAE)方法——來學(xué)習(xí)EKG的嵌入表示,主要貢獻(xiàn)如下:

1) 針對SKG的不均勻性、非交換性和不平衡性,提出了一種新方法EAE對EKG進(jìn)行嵌入表示.

2) 為了著重區(qū)分重頭或重尾實(shí)體,EAE采用了“三角形法則+點(diǎn)積原理”的三元組建模思想,使得h+r和t只需要保持一定的角度,而不是嚴(yán)格限制h+r=t*h,r,t依次表示頭實(shí)體向量、尾實(shí)體向量和關(guān)系向量..

3) “三角形法則”和“點(diǎn)積原理”都不會增加模型復(fù)雜度.所以,EAE不僅準(zhǔn)確性高,還和TransE一樣,具有參數(shù)少、時(shí)空復(fù)雜度低的優(yōu)勢,可以輕松擴(kuò)展到大規(guī)模SKG.

4) 采用Adadelta動態(tài)調(diào)整參數(shù),自適應(yīng)地克服由于不均勻而導(dǎo)致的不頻繁對象的擬合不足問題和頻繁對象的過擬合問題.

5) 在鏈接預(yù)測和元組分類任務(wù)中,我們的方法取得了最先進(jìn)的性能.

1 相關(guān)工作

OKG的嵌入模型包括翻譯模型、組合模型和神經(jīng)網(wǎng)絡(luò)模型.其中,翻譯模型最簡單,復(fù)雜性也較低.為了方便說明,我們首先給出文中使用的數(shù)學(xué)符號,如表3所示:

Table 3 Mathematical Notations

1.1 翻譯模型

翻譯模型的靈感來自word2vec中詞匯關(guān)系的平移不變性.經(jīng)典模型是TransE[19],它認(rèn)為頭實(shí)體向量h加上關(guān)系向量r可以得到尾實(shí)體t,并且h+r越接近于t,相應(yīng)的元組越有可能是正確的.所以,它的分?jǐn)?shù)函數(shù)

(1)

TransE原理很簡單,對于1-to-1關(guān)系建模準(zhǔn)確性很好.然而,它在處理復(fù)雜關(guān)系,如1-to-n,n-to-1和n-to-n關(guān)系時(shí)不占優(yōu)勢*這種關(guān)系分類源于TransE,對于每個關(guān)系r,平均鏈接的頭實(shí)體h數(shù)(或者尾實(shí)體t),若此平均數(shù)低于1.5,則參數(shù)被標(biāo)記為1,否則為n..因?yàn)椋缡?1)所示,當(dāng)一個關(guān)系r鏈接多個實(shí)體ek,k=1,2,…,i,…,j,…時(shí)會出現(xiàn)多個實(shí)體重合的情況,即ei=ej,i≠j.同理,當(dāng)2個實(shí)體間有多重關(guān)系時(shí),多個關(guān)系也會重合.為此,出現(xiàn)了一些改進(jìn)方法,如Trans(H,R,D,Sparse)[21-24].

TransH[21]為了使實(shí)體面對不同關(guān)系有不同的表示,首次使用超平面和映射操作對關(guān)系進(jìn)行建模,然后將頭尾實(shí)體映射在超平面上:

(2)

(3)

由式(2)可知,所有關(guān)系和實(shí)體向量建模在相同語義空間,但是一個實(shí)體可能有很多方面,不同關(guān)系關(guān)注不同的方面.所以相同的語義空間不能表達(dá)這樣豐富的信息.為此,Trans(R,D,Sparse)將r和e建模在不同的語義空間中,然后通過映射矩陣Mp將實(shí)體e從實(shí)體空間投射到關(guān)系空間:

ep=Mp×e.

(4)

TransR[22]中h和t共享普通映射矩陣Mp;TransD[23]認(rèn)為應(yīng)該區(qū)分h和t,并且映射矩陣Mp應(yīng)該與實(shí)體和關(guān)系都相關(guān),所以,Mp被實(shí)體映射向量和關(guān)系映射向量所代替:

(5)

1.2 其他模型

還有組合模型和神經(jīng)網(wǎng)絡(luò)模型.組合模型采用線性組合原理來擬合元組,例如RESCAL[18],LFM[25],DistMult[10]和HolE[20].其分?jǐn)?shù)函數(shù)

fr(h,t)=hTMrt.

(6)

RESCAL優(yōu)化整個Mr,帶來了更多的參數(shù).因此,LFM僅優(yōu)化非零元素, DistMult使用Mr的對角矩陣代替Mr來減少參數(shù),但這種方法只能建立對稱關(guān)系.HolE使用點(diǎn)積代替張量積,并采用h和t之間的循環(huán)相關(guān)來表示實(shí)體對:

fr(h,t)=σ(rT(h*t)),σ(x)=1/(1+e-x),

(7)

(8)

HolE在非交換關(guān)系和等價(jià)關(guān)系上優(yōu)勢很大,并且可以通過快速傅里葉變換加速計(jì)算.

神經(jīng)網(wǎng)絡(luò)模型包括SE[26],SME[27],NTN[28]和SLM[28].SE基于式(9)通過頭實(shí)體特定矩陣Mrh和尾實(shí)體特定矩陣Mr t來轉(zhuǎn)換實(shí)體空間,但是它不能捕捉實(shí)體之間的關(guān)系[28].SME[27]處理實(shí)體和關(guān)系之間的相關(guān)性可以通過:

(9)

fr(h,t)=(M1h⊙M2r+b1)T(M3h⊙M4r+b2).

(10)

SLM[28]使用單層神經(jīng)網(wǎng)絡(luò)的非線性運(yùn)算來增強(qiáng)實(shí)體間關(guān)系的精確性,并減少SE的參數(shù).但是它只提供實(shí)體和關(guān)系之間相對較弱的聯(lián)系.NTN模型結(jié)合SLM[28]和LFM[25]定義了得分函數(shù):

(11)

2 EAE模型

由引言分析可知,EKG嵌入表示的困難在于:1)區(qū)分重尾實(shí)體;2)克服由于不均勻而引起的不頻繁對象的擬合不足問題和頻繁對象的過擬合問題.然而,翻譯模型對于1-to-1關(guān)系工作良好,在復(fù)雜(n-to-1,1-to-n和n-to-n)關(guān)系中存在問題,組合模型表達(dá)能力強(qiáng),但是復(fù)雜度高;神經(jīng)網(wǎng)絡(luò)模型又不適用.為此,我們提出了EAE模型.

2.1 EAE建模

1) 成像.將h和r的線性操作看作t的像timag*也可以將t和r的線性操作看作h的像,關(guān)系也一樣.,根據(jù)三角形法[29]則有式(12)成立:

timag=h+r,

(12)

2)計(jì)算物像相似度.采用l1,l2—norm計(jì)算尾巴t與計(jì)算得到的像timag之間的相似度:

(13)

此時(shí),我們可以清楚地看到,式(12)原理簡單、參數(shù)少,很好地建模了實(shí)體和關(guān)系.但是式(13)中l(wèi)1,l2—norm屬于賦范空間中的范數(shù)[29]范疇,所以當(dāng)timag與t特別像時(shí),就會產(chǎn)生timag=t*向量都從原點(diǎn)出發(fā),長度相同,當(dāng)timag=t時(shí),向量終點(diǎn)必然會重合,即2個向量完全重合.,當(dāng)有多個尾實(shí)體t1,t2,…,ti,…時(shí),就會出現(xiàn)timag=t1=t2=…=ti=….

為了區(qū)分眾多t1,t2,…,ti,…,我們想到了比范數(shù)更具有表達(dá)能力的點(diǎn)積*從數(shù)學(xué)上看,賦范空間定義了范數(shù)(范數(shù)有長度和數(shù)乘可提取),內(nèi)積空間定義了內(nèi)積(內(nèi)積空間有角度和長度),且內(nèi)積可以誘導(dǎo)范數(shù),但范數(shù)不一定能誘導(dǎo)內(nèi)積,所以范數(shù)弱于內(nèi)積, n維向量的內(nèi)積也叫作點(diǎn)積.,即用點(diǎn)積[29]度量timag與t的相似度.因此,我們提出了基于“三角形法則+點(diǎn)積(n維向量的點(diǎn)積是線性組合)原理”的EAE模型,如圖2所示.數(shù)學(xué)符號如表3所示.

Fig. 2 EAE model圖2 EAE模型

圖2中的“三角形法則”用于成像,和翻譯模型一樣,即式(12)所示.“點(diǎn)積原理”用于計(jì)算物像相似度,即用式(14)代替式(13):

sim(timag,t)=dot(timag,t).

(14)

采用式(14)時(shí)timag和t,或者眾多ti,i=1,2,…之間只需要保持一定的角度,而不是嚴(yán)格的timag=t.再從線性代數(shù)的角度看[29],dot(timag,t)是線性組合,timag是給定的權(quán)重向量,t是特征向量,所以timag與t之間存在式(15)的關(guān)系:

timag=?iti.

(15)

從式(15)也可以看出,采用點(diǎn)積(或者線性組合)后,眾多尾實(shí)體相當(dāng)于被加上了權(quán)重,所以可以被區(qū)分.當(dāng)然,像翻譯模型一樣,完整的EAE模型也可以合并式(14)(15),統(tǒng)一寫作:

fr(h,t)=dot(h+r,t).

(16)

當(dāng)然,h+r和t都是n維向量,所以式(16)也可以寫作[29]:

fr(h,t)=dot(h+r,t)=(h+r)Tt.

(17)

2.2 模型訓(xùn)練

(18)

Δ′={(h′,r,t)|h′∈E∪(h,r,t′)|t′∈E},

(19)

其中,γ是邊界,Δ′和Δ分別是正確和不正確的三元組的集合,Δ′是Δ的負(fù)采樣集.

接下來需要解決由于不均勻而引起的不頻繁對象的擬合不足問題和頻繁對象的過擬合問題.在傳統(tǒng)模型中,大多數(shù)采用隨機(jī)梯度下降SGD[30]求解.SGD使用全局學(xué)習(xí)速率η更新所有參數(shù),而不管數(shù)據(jù)特性如何.但是根據(jù)前面分析,我們可以看到不頻繁出現(xiàn)的實(shí)體需要較長的時(shí)間來學(xué)習(xí),頻繁出現(xiàn)的實(shí)體則需要較短的時(shí)間來學(xué)習(xí).所以,我們采用Adadelta[31]訓(xùn)練模型,它可以隨著時(shí)間的推移動態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,而大梯度具有較小的學(xué)習(xí)率.具體做法如下[31]:

首先,Adadelta限制了過去梯度的窗口,以固定大小?累積,然后將該積累表示為平方梯度的指數(shù)衰減平均值.假設(shè)在時(shí)間epo上,運(yùn)行平均值E[g2]epo:

(20)

其中,ρ是衰減常數(shù).由于在更新參數(shù)時(shí)需要這個數(shù)量的平方根,所以,將其近似轉(zhuǎn)化為歷史累計(jì)梯度的平方根RMS:

(21)

其中,ε是常數(shù).所以,參數(shù)更新:

(22)

因此,EAE的算法如算法1所示.

算法1. EAE算法.

輸入:訓(xùn)練集Δ′和Δ、實(shí)體和關(guān)系集E和R、邊界γ、嵌入維度n,m;

輸出:h,r,t.

/*初始化*/

/*訓(xùn)練*/

④ loop

⑥Δbatch←sample(Δ,b); /*采樣一個大小為b的minibatch*/

⑦Tbatch←?; /*初始化一組三元組*/

⑧ for 〈h,r,t〉∈Δbatchdo

⑩Tbatch←Tbatch∪{(h,r,t),(h′,r,t′)};

/*更新向量*/

/*歸一化*/

/*更新參數(shù)*/

t)-fr(h′,t′)]+; /*計(jì)算梯度*/

/*累計(jì)梯度*/

/*計(jì)算更新*/

2.3 復(fù)雜度分析

算法的可擴(kuò)展性不僅在于高精度,而且還具有低的時(shí)間和空間復(fù)雜性.我們將EAE與其他模型進(jìn)行比較,如表4所示:

Table 4 Complexities Comparison

ns=1: linear;λ=2: separate;λ=1: share.

在表4中,復(fù)雜度通過參數(shù)的數(shù)量以及每輪更新中乘法運(yùn)算所需的時(shí)間和內(nèi)存空間來測量.ne,nr,nt r分別代表KG中的實(shí)體、關(guān)系和三元組的數(shù)量;nk是神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)的數(shù)量,ns是張量的片數(shù);d表示de=dr,de和dr分別表示實(shí)體和關(guān)系嵌入空間的維度;θ(0?θ?1)表示映射矩陣的平均稀疏度.從表4中我們可以看到,EAE中的參數(shù)數(shù)量、運(yùn)算所需要的內(nèi)存空間與TransE相同,時(shí)間復(fù)雜度也與TransE相同,遠(yuǎn)優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和組合模型,同時(shí)也好于其他翻譯模型,顯示了我們方法的高效率.這種優(yōu)勢在嵌入空間越大的情況下越明顯.

2.4 與其他翻譯模型的區(qū)別

2.1~2.3節(jié)給出了模型定義,并分析了模型的復(fù)雜度,本節(jié)著重分析與其他翻譯模型相比,我們EAE模型為什么會產(chǎn)生好的性能.眾所周知,翻譯模型的本質(zhì)是利用關(guān)系向量將頭實(shí)體轉(zhuǎn)換為尾實(shí)體,數(shù)學(xué)表示為h⊥+r=t⊥,如表5所示,其幾何表示如圖3所示.

Table 5 The Principle of Translation-Based Models

Fig. 3 The geometric representation of models圖3 翻譯模型的幾何表示

從圖3可以看出,翻譯模型存在2個問題:重頭(或重尾)重合和重關(guān)系重合,如圖3(a)和圖3(b)所示.第1個問題的原因如下:由表4可知,在Trans(R,Sparse和H)中,Mr,Mr e和rp由關(guān)系r唯一確定.這已經(jīng)通過實(shí)踐證明,例如在OKG的FB15K數(shù)據(jù)集上,大約只有48.9%的元組(為1-to-1和n-to-1元組)的準(zhǔn)確度(Hits@10*Hits@10:預(yù)測正確的實(shí)體排在前k位的比例.)超過85%,而28.3%的元組(1-to-n)的元組不到60%[20].TransD使用實(shí)體投影向量并區(qū)分頭實(shí)體和尾實(shí)體.因此,可以在一定程度上解決第1個問題.但是頭(尾)實(shí)體僅受實(shí)體空間中的頭(尾)實(shí)體投影向量的影響.因此,它比TransSparse降低3%[20].

然而,Trans(R,Sparse和H)很大程度上改善了第2個問題,主要是它們利用了一個投影矩陣Mr,Mr e或投影向量rp,而Mr,Mr e和rp與關(guān)系一一對應(yīng),它們不同,則關(guān)系不同.這也有實(shí)踐證明:例如在OKG的FB15K數(shù)據(jù)集上,所有類型關(guān)系的準(zhǔn)確度至少提高10%[14].這充分說明了區(qū)分重關(guān)系的重要性.不幸的是,這個問題在EKG中不存.因此,翻譯模型在EKG中沒有優(yōu)勢.

雖然我們的EAE與翻譯模式有相似之處,但EAE有優(yōu)勢:1)dot(h+r,t)規(guī)定h+r和t只需要保持一定的角度,而不是嚴(yán)格限制h+r等于t,進(jìn)而可以有效區(qū)分重頭和重尾實(shí)體,解決不平衡問題.2)EAE采用Adadelta更新參數(shù),它可以隨著時(shí)間的推移動態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,而大梯度具有較小的學(xué)習(xí)率.因此,EAE可以自適應(yīng)地克服由于不均勻而導(dǎo)致的不頻繁對象的擬合不足問題和頻繁對象的過擬合問題.3)EKG中頭尾實(shí)體不存在位置交換性,所以沒有必要區(qū)分頭尾實(shí)體,也就不需要建立像Trans(D和Sparse)那樣復(fù)雜的空間變換模型,減少了模型復(fù)雜度.4)點(diǎn)積不會增加時(shí)間復(fù)雜度和空間復(fù)雜度.所以,它保持了線性時(shí)間和空間復(fù)雜度,可以很容易地?cái)U(kuò)展到大規(guī)模SKG.

3 實(shí)驗(yàn)與結(jié)果

為證明EAE的有效性,我們選擇TransE,TransH,TransR,TransD和TransSparse作為基準(zhǔn)模型,并在鏈接預(yù)測、元組分類和自適應(yīng)性度量任務(wù)上進(jìn)行比較.

3 1 數(shù)據(jù)集構(gòu)建

我們構(gòu)建EAE模型來處理EKG中不均勻性、非交換性和不平衡性問題.因此,我們從中國科學(xué)院微生物研究所的酶知識庫EKG中隨機(jī)抽取139 963個實(shí)體和10種關(guān)系得到實(shí)驗(yàn)數(shù)據(jù)集E13M.

我們從原始數(shù)據(jù)中刪除了“description”,“history”和“a(type)”3個關(guān)系, 因?yàn)椋?)“description”和“history”關(guān)系對應(yīng)的尾實(shí)體是長文本,不方便處理,并且這些信息作為輔助信息幫助預(yù)測更為合適;2)EKG中都是酶數(shù)據(jù),所以a(type)對應(yīng)的尾實(shí)體相同,不需要預(yù)測.此外,眾所周知,訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)是實(shí)驗(yàn)數(shù)據(jù)集包含的3個基本要素.并且在KG 嵌入中,測試時(shí)需要使用實(shí)體和關(guān)系的嵌入向量,而這些向量是訓(xùn)練過程中產(chǎn)生的,所以測試數(shù)據(jù)中的每個實(shí)體和關(guān)系必須存在于訓(xùn)練集中.我們刪除只出現(xiàn)一次的所有實(shí)體和關(guān)系,然后隨機(jī)抽樣,得到的E13M數(shù)據(jù)集如表6~7所示:

Table 6 E13M Data Set

Table 7 Relation Type and Feature in E13M

3.2 評價(jià)指標(biāo)與實(shí)現(xiàn)

為了評估模型的性能,我們采用和TransE相同的評價(jià)指標(biāo)[15]:1)MeanRank,正確實(shí)體的平均排序;2)Hits@k,預(yù)測正確的實(shí)體排在前k位的比例.MeanRank越低或者Hits@k越高,準(zhǔn)確性越高.

首先,對于每個測試三元組〈h,r,t〉,和TransE一樣,也用貝努力抽樣(.bern方法)從E13M中選擇實(shí)體替換頭實(shí)體h(選擇實(shí)體和被替換實(shí)體不能是同一實(shí)體),并且通過fr(h,t)給出的相似度得分降序排列這些損壞的三元組.同樣,我們重復(fù)這個過程,替換尾實(shí)體t.

其次,實(shí)驗(yàn)數(shù)據(jù)包括訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù).因此,三者中出現(xiàn)一些損壞的三元組時(shí),上述指標(biāo)中存在一個小錯誤.例如訓(xùn)練數(shù)據(jù)中損壞的三元組可能包含在驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)中.如果是這樣,排名將是誤導(dǎo)的.為了避免這個缺陷,我們刪除所有出現(xiàn)在訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)中損壞的三元組,記作Filter原始操作記作Raw.所以,我們報(bào)告的MeanRank和Hits@k有2種設(shè)置:Raw和Filter.

為了公平,所有模型的維數(shù)都設(shè)置為d=20,迭代次數(shù)epoch=1 000,Adadelta的參數(shù)1-ρ=10-3,ε=106,SGD學(xué)習(xí)率λ={0.001,0.01,0.1},邊界γ={0.1,0.5,0.6,0.7,1,1.5},最小批量處理大小B={100,200,480,1440},EAE中不相似度量使用點(diǎn)積,其他的采用一階矩離或二階距離d={1,2},每個模型都由Adadelta[27]和SGD[26]分別訓(xùn)練.

3.3 鏈接預(yù)測

鏈接預(yù)測是測試補(bǔ)全三元組〈h,r,t〉的一個基準(zhǔn)任務(wù),即已知〈h,r,t〉中的任意2個,依據(jù)fr(h,t)最小原則預(yù)測第3個.這個任務(wù)關(guān)注相對正確性,即預(yù)測的三元組的排序,而不是獲得最好的.所以這里有2個指標(biāo):MeanRank和Hits@k.當(dāng)預(yù)測缺失的頭尾實(shí)體時(shí),我們和之前的工作做法一樣,設(shè)置k=10.但是,對于缺失關(guān)系預(yù)測,數(shù)據(jù)集共有10個關(guān)系,k=10是無意義的.因此,我們將關(guān)系預(yù)測的k設(shè)置為k=3.我們在E13M上對方法進(jìn)行評估,結(jié)果如表8~10所示:

Table 8 Evaluation Results on Entity Prediction

Note: The bold data is the best one among all models for per metric.

Table 9 Evaluation Results on Relation Rrediction

Note: The bold data is the best one among all models for per metric.

從表8可以看出,EAE在預(yù)測頭實(shí)體和尾實(shí)體時(shí),MeanRank值顯著低于基準(zhǔn)模型,而在預(yù)測頭實(shí)體時(shí),Hits@10值也顯著高于基準(zhǔn)模型.比如在預(yù)測頭實(shí)體時(shí),基準(zhǔn)模型中最低的MeanRank值是14.7(TransE),而EAE降低到4.38;對于Hits@10指標(biāo),基準(zhǔn)模型中最高的是TransD的89.2%,我們的EAE提高了8.62%.在預(yù)測尾實(shí)體時(shí),EAE在MeanRank指標(biāo)上也可能比其他基準(zhǔn)模型好10~58倍.對于關(guān)系預(yù)測任務(wù),EAE也獲得了較好的結(jié)果,在Hits@10指標(biāo)上比TransD提升了約1%,但比TransE提高了6%,MeanRank值也得到了最小值.這些結(jié)果證明EAE模型在處理酶KG方面具有明顯的優(yōu)勢.但是,從表8尾實(shí)體預(yù)測中我們觀察到了一個現(xiàn)象,即在Hits@10指標(biāo)上,各種模型的最高值不超過17%,出現(xiàn)這種現(xiàn)象的主要原因應(yīng)該是EKG中每個關(guān)系所鏈的尾實(shí)體太多,尤其是“keggGene”,“x-gene”,“ncbiGene”關(guān)系,平均可達(dá)966.31,821.81,275.54個(表2),這意味著對于這3種關(guān)系對應(yīng)的尾實(shí)體,排名在前966.31,821.81,275.54的都是正確的,而目前規(guī)定排名前10是正確的,其他均按照預(yù)測錯誤處理,并且表7表明這3種關(guān)系的數(shù)據(jù)所占比例很大,所以會顯著影響Hits@10命中率.所以采用MeanRank更能評價(jià)模型的性能,并且模型具有較低的MeanRank或較高的Hits@k都意味著更好的效果,所以,我們?nèi)匀徽J(rèn)為EAE有很好的建模能力.

Table 10 Experimental Results on E13M by Mapping Properties of Relations

Note: The bold data is the best one among all models for per metric.

表10是按關(guān)系類別分組的鏈接預(yù)測結(jié)果,像TransE[14]一樣,包括1-to-1,1-to-n,n-to-1和n-to-n.E13M包括1-to-1,1-to-n和n-to-1關(guān)系,不存在n-to-n關(guān)系.從表10中我們可以看到,當(dāng)預(yù)測頭實(shí)體時(shí),EAE可以在所有基準(zhǔn)模型中取得最優(yōu)性能,并且在預(yù)測頭實(shí)體方面具有更明顯的優(yōu)勢,例如EAE可以將Hits@10值提高10%~47.11%,甚至在預(yù)測1-to-n關(guān)系時(shí)可以達(dá)到99.98%.但是,EAE在預(yù)測尾部實(shí)體并沒有占太大優(yōu)勢,如表8中分析,主要是因?yàn)?-to-n中的n太大,遠(yuǎn)大于10,所以各種模型沒有明顯區(qū)別.

3.4 元組分類

元組分類是一種二元分類,其目的是判斷給定的三元組〈h,r,t〉是否正確.因此,我們還使用E13M作為實(shí)驗(yàn)數(shù)據(jù)集,并按照TransParse的基本思想生成負(fù)例.對于驗(yàn)證數(shù)據(jù),我們采用任意實(shí)體隨機(jī)替換尾實(shí)體產(chǎn)生負(fù)例.同時(shí),負(fù)例不能出現(xiàn)在原始驗(yàn)證數(shù)據(jù)集中;否則,用其他實(shí)體替換原始尾實(shí)體.測試數(shù)據(jù)也是如此.接下來,基于式(1)計(jì)算每個三元組的得分,并由閾值θ區(qū)分正例和負(fù)例.θ由驗(yàn)證數(shù)據(jù)集中正例和負(fù)例之間的距離得分最大化決定.最后,如果一個新的三元組〈h,r,t〉得分高于θ,那是正確的;否則,是錯誤的.在這里,我們包括2個指標(biāo):第1個是模型在整個數(shù)據(jù)集上的分類準(zhǔn)確性,即所有關(guān)系上的分類準(zhǔn)確性.例如,總共有nc個三元組,我們正確地判斷出ns個元組的正確性,那么整個數(shù)據(jù)集上的分類準(zhǔn)確性是ns/nc.類似地,通過關(guān)系名稱分組三元組可以獲得每個關(guān)系上的分類準(zhǔn)確性.我們選擇TransE,TransH,TransR,TransD和TransSparse作為基準(zhǔn)模型,其結(jié)果如圖4和表11所示.

Fig. 4 Triples classification accuracies圖4 元組分類準(zhǔn)確性

圖4顯示出EAE在所有基準(zhǔn)模型中具有絕對的優(yōu)勢,得到最佳準(zhǔn)確度為99.39%,幾乎接近1,并且顯著高于其他基準(zhǔn)模型,最差也不比TransH高7.82%.這表明了EAE模型的正確性.

表11也明確顯示出EAE在簡單和復(fù)雜的關(guān)系上顯著提高了性能.此外,EAE在10種關(guān)系上,分類準(zhǔn)確率都高于97.2%,但是其他模型則差很多,比如,TransE的最低準(zhǔn)確性為56.3%,TransH為50%,TransR為50%,TransD為76.8%,TransSparse為66.7%.這就是為什么我們使用“三角形法則和點(diǎn)積原理”思想.因此,我們認(rèn)為EAE模型可以很好地處理重尾和重頭數(shù)據(jù),如EKG.

Table 11 Classification Accuracies of Different Relations

Note: The bold data is the best one among all models for per metric.

Fig. 6 MeanRank of entity prediction by SGD and Adadelta圖6 采用SGD和Adadelta訓(xùn)練的實(shí)體預(yù)測的MeanRank

3.5 自適應(yīng)性度量

EKG具有不均勻性,為了不讓這種不均勻性影響模型準(zhǔn)確性,使模型更容易訓(xùn)練,我們用Adadelta代替了SGD.為了驗(yàn)證Adadelta更適合這種數(shù)據(jù), 我們將基準(zhǔn)模型TransE,TransH,TransR,TransD,TransSparse和我們的EAE模型分別用SGD和Adadelta訓(xùn)練.采用實(shí)體預(yù)測和關(guān)系預(yù)測作為實(shí)驗(yàn)載體,度量指標(biāo)仍然用MeanRank和Hits@10,其結(jié)果如圖5和圖6所示.

從圖5我們可以看出,在Hits@10指標(biāo)上,模型用Adadelta訓(xùn)練最少也能比用SGD提升1.3%.最好的如TransR可以提高8.5%,TransSparse提高了5.8%.這也就應(yīng)證了面對不均勻數(shù)據(jù)時(shí),Adadelta的自適應(yīng)學(xué)習(xí)要比SGD使用全局學(xué)習(xí)速率η更新所有參數(shù)更有效,因?yàn)锳dadelta對不頻繁出現(xiàn)的實(shí)體給予較長的時(shí)間來學(xué)習(xí),頻繁出現(xiàn)的實(shí)體則給予較短的時(shí)間來學(xué)習(xí),平滑了不頻繁實(shí)體/關(guān)系擬合不足、簡頻繁實(shí)體/關(guān)系過度擬合的問題.

Fig. 5 Hits@10(%) of entity prediction by SGD and Adadelta圖5 采用SGD和Adadelta訓(xùn)練的實(shí)體預(yù)測值Hits@10(%)

同樣,圖6的MeanRank值也充分說明了這一點(diǎn),每個模型在用Adadelta訓(xùn)練都會比用SGD有一定的改善,比如TransR最明顯,MeanRank值降低了1 291.7(MeanRank值越低越好),這主要是TransR采用矩陣映射,參數(shù)較多,又加上數(shù)據(jù)的不均勻性較大,使用SGD的全局學(xué)習(xí)率不利于不頻繁實(shí)體和頻繁實(shí)體同時(shí)學(xué)習(xí),而Adadelta可以隨著時(shí)間的推移動態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,這樣一來不頻繁實(shí)體,如尾實(shí)體就有了充分的學(xué)習(xí)時(shí)間,頻繁實(shí)體也不會因?yàn)橛?xùn)練時(shí)間過長而過擬合.同理,其他模型在采用Adadelta訓(xùn)練后,MeanRank值也有不同程度的降低.而我們的EAE在采用SGD和Adadelta前后也有45.7的改進(jìn).

4 總 結(jié)

在本文中,我們基于“三角形法則+點(diǎn)積原理”思想和“自適應(yīng)學(xué)習(xí)時(shí)間調(diào)整”的策略提出了EAE模型來嵌入表示EKG.其優(yōu)點(diǎn)是:

1)dot(h+r,t)規(guī)定h+r和t只需要保持一定的角度,而不是嚴(yán)格限制h+r等于t,進(jìn)而可以有效區(qū)分重頭和重尾實(shí)體,解決不平衡問題;

2) EAE采用Adadelta更新參數(shù),它可以隨著時(shí)間的推移動態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,而大梯度具有較小的學(xué)習(xí)率.因此,EAE可以自適應(yīng)地克服由于不均勻而導(dǎo)致的復(fù)雜關(guān)系擬合不足和簡單關(guān)系過度擬合地問題;

3) 點(diǎn)積不會增加時(shí)間復(fù)雜度和空間復(fù)雜度.所以,它可以很容易地?cái)U(kuò)展到大規(guī)模的SKG.

我們只能證明EAE對酶KG的能力很強(qiáng),但當(dāng)EAE遇到多個關(guān)聯(lián)的微生物KG時(shí)的能力是未知的.因此,在未來的工作中,我們將考慮多個關(guān)聯(lián)的微生物知識圖譜的情況.

致謝感謝中國科學(xué)院微生物研究所提供微生物數(shù)據(jù);感謝為本論文提供修改意見的老師和同學(xué)們!

[1]Meng Xiaofeng, Du Zhijuan. Research on the big data fusion: Issues and challenges[J]. Journal of Computer Research and Development, 2016, 53(2): 231-246 (in Chinese)(孟小峰, 杜治娟. 大數(shù)據(jù)融合研究: 問題與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 231-246)

[2] Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600 (in Chinese)(劉嶠, 李楊, 段宏, 等. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600)

[3] Walter S, Unger C, Cimiano P. DBlexipedia: A nucleus for a multilingual lexical Semantic Web[C] //Proc of the 3rd Int Workshop on NLP and DBpedia, Co-located with the 14th Int Semantic Web Conf (ISWC’15). Berlin: Springer, 2015: 87-92

[4] Vrandecic D, Kr?tzsch M. Wikidata: A free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85

[5] Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C] //Proc of the 2008 ACM SIGMOD Int Conf on Management of Data (SIGMOD’08). New York: ACM, 2008: 1247-1250

[6] Suchanek F M, Kasneci G, Weikum G. Yago: A core of semantic knowledge[C] //Proc of the 16th Int Conf on World Wide Web (WWW’07). New York: ACM, 2007: 697-706

[7] Wu Wentao, Li Hongsong, Wang Haixun, et al. Probase: A probabilistic taxonomy for text understanding[C] //Proc of the 2012 ACM SIGMOD Int Conf on Management of Data(SIGMOD’12). New York: ACM, 2012: 481-492

[8] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: A Web-scale approach to probabilistic knowledge fusion[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining(SIGKDD’14). New York: ACM, 2014: 601-610

[9] Neelakantan A, Roth B, McCallum A. Compositional vector space models for knowledge base completion[C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL’15). Menlo Park, CA: AAAI, 2015: 156-166

[10] Yang Bishan, Yih W, He Xiaodong, et al. Embedding entities and relations for learning and inference in knowledge bases[EB/OL]. (2014-12-20) [2017-08-01]. https://arxiv.org/abs/1412.6575

[11] Schaefer C F, Anthony K, Krupa S, et al. PID: The pathway interaction database[J]. Nucleic Acids Research, 2008, 37(Suppl_1): D674-D679

[12] Momtchev V, Peychev D, Primov T, et al. Expanding the pathway and interaction knowledge in linked life data[C] //Proc of the 8th Int Semantic Web Challenge (ISWC’09). Berlin: Springer, 2009: 1247-1250

[13] Belleau F, Nolin M A, Tourigny N, et al. Bio2RDF: Towards a mashup to build bioinformatics knowledge systems[J]. Journal of Biomedical Informatics, 2008, 41(5): 706-716

[14] Li Min, Meng Xiangmao. The construction, analysis, and applications of dynamic protein-protein interaction networks[J]. Journal of Computer Research and Development, 2017,54(6): 1281-1299 (in Chinese)(李敏, 孟祥茂. 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2017, 54(6): 1281-1299)

[15] Nickel M, Murphy K, Tresp V, et al. A review of relational machine learning for knowledge graphs[J]. Proceedings of the IEEE, 2016, 104(1): 11-33

[16] Ruttenberg A, Rees J A, Samwald M, et al. Life sciences on the semantic Web: The neurocommons and beyond[J]. Briefings in Bioinformatics, 2009, 10(2): 193-204

[17] Liu Zhiyuan, Sun Maosong, Lin Yankai, et al. Knowledge representation learning: A review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261 (in Chinese)(劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247-261)

[18] Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data[C] //Proc of the 28th Int Conf on Machine Learning (ICML’11). Cambridge, MA: MIT Press, 2011: 809-816

[19] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C] // Proc of the 27th Annual Conf on Neural Information Processing Systems (NIPS’13). Cambridge, MA: MIT Press, 2013: 2787-2795

[20] Nickel M, Rosasco L, Poggio T A. Holographic embeddings of knowledge graphs[C] //Proc of the 30th AAAI Conf on Artificial Intelligence (AAAI’16). Menlo Park, CA: AAAI, 2016: 1955-1961

[21] Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C] //Proc of the 28th AAAI Conf on Artificial Intelligence (AAAI’14). Menlo Park, CA: AAAI, 2014: 1112-1119

[22] Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C] //Proc of the 29th AAAI Conf on Artificial Intelligence (AAAI’15). Menlo Park, CA: AAAI, 2015: 2181-2187

[23] Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL’15). Menlo Park, CA: AAAI, 2015: 687-696

[24] Ji Guoliang, Liu Kang, He Shizhu, et al. Knowledge graph completion with adaptive sparse transfer matrix[C] /Proc of the 30th AAAI Conf on Artificial Intelligence (AAAI’16). Menlo Park, CA: AAAI, 2016: 985-991

[25] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C] // Proc of the 26th Annual Conf on Neural Information Processing Systems (NIPS’12). Cambridge, MA: MIT Press, 2012: 3167-3175

[26] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C] //Proc of the 25th AAAI Conf on Artificial Intelligence (AAAI’11). Menlo Park, CA: AAAI, 2011, 6(1): 301-306

[27] Bordes A, Glorot X, Weston J, et al. A semantic matching energy function for learning with multi-relational data[J]. Machine Learning, 2014, 94(2): 233-259

[28] Socher R, Chen Danqi, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C] // Proc of the 27th Annual Conf on Neural Information Processing Systems (NIPS’13). Cambridge, MA: MIT Press, 2013: 926-934

[29] Banchoff T, Wermer J. Linear Algebra Through Geometry[M]. Berlin: Springer, 1972: 197-254

[30] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 2121-2159

[31] Zeiler M D. ADADELTA: An adaptive learning rate method [EB/OL]. (2012-12-22) [2017-08-01]. http://arxiv.org/abs/1212.5701

EAE:EnzymeKnowledgeGraphAdaptiveEmbedding

Du Zhijuan, Zhang Yi, Meng Xiaofeng, and Wang Qiuyue

(SchoolofInformation,RenminUniversityofChina,Beijing100872)

In recent years a drastic rise in constructing Web-scale knowledge graph (KG) has appeared and the deal with practical problems falls back on KG. Embedding learning of entities and relations has become a popular method to perform machine learning on relational data such as KG. Based on embedding representation, knowledge analysis, inference, fusion, completion and even decision-making could be promoted. Constructing and embedding open-domain knowledge graph (OKG) has mushroomed,which greatly promots the intelligentization of big data in open domain. Meanwhile, specific-domain knowledge graph (SKG) has become an important resource for smart applications in specific domain. However, SKG is developing and its embedding is still in the embryonic stage. This is mainly because there is a germination in SKG due to the difference for data distributions between OKG and SKG. More specifically: 1) In OKG, such as WordNet and Freebase, sparsity of head and tail entities are nearly equal, but in SKG, such as Enzyme KG and NCI-PID, inhomogeneous is more popular. For example, the tail entities are about 1 000 times more than head ones in the enzyme KG of microbiology area. 2) Head and tail entities can be commuted in OKG,but they are noncommuting in SKG because most of relations are attributes. For example, entity “Obama” can be a head entity or a tail entity, but the head entity “enzyme” is always in the head position in the enzyme KG. 3) Breadth of relation has a small skew in OKG while imbalance in SKG. For example, a enzyme entity can link 31 809 x-gene entities in the enzyme KG. Based on observation, we propose a novel approach EAE to deal with the 3 issues. We evaluate our approach on link prediction and triples classification tasks. Experimental results show that our approach outperforms Trans(E, H, R, D and TransSparse) significantly, and achieves state-of the-art performance.

specific-domain knowledge graph (SKG); enzyme; embedding; inhomogeneous; nonco-mmuting; imbalance

2017-09-01;

2017-10-17

國家自然科學(xué)基金項(xiàng)目(61379050,61532010,91646203,61532016,61762082);國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB1000603,2016YFB1000602);2017年度河南省科技開放合作項(xiàng)目(172106000077);北大方正集團(tuán)有限公司數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室開放課題

This work was supported by the National Natural Science Foundation of China (61379050, 61532010, 91646203, 61532016, 61762082), the National Key Research and Development Program of China (2016YFB1000603, 2016YFB1000602), the Science and Technology Opening up Cooperation Project of Henan Province (172106000077), and the Opening Project of State Key Laboratory of Digital Publishing Technology.

孟小峰(xfmeng@ruc.edu.cn)

TP181

DuZhijuan, born in 1986. PhD at Renmin University of China. Member of CCF. Her main research interests include Web data management and cloud data management.

ZhangYi, born in 1995. Master candidate at Renmin University of China. Member of CCF. Her main research interests include Web data management.

MengXiaofeng, born in 1964. Professor and PhD supervisor at Renmin University of China. Fellow of CCF. His main research interests include cloud data management, Web data management,flash-based data-bases, privacy protection etc.

WangQiuyue, born in 1974. PhD. Assistant professor at Renmin University of China. Her main research interests include data-base and information systems, information retrieval, knowledge base, natural language questions answering, etc.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码专区在线观看| a亚洲天堂| 国产日本一线在线观看免费| 国产精品手机在线观看你懂的| 欧美综合中文字幕久久| 亚洲第一成年人网站| 国模沟沟一区二区三区| 色屁屁一区二区三区视频国产| 日韩毛片视频| 2020精品极品国产色在线观看| 欧美成人精品在线| 日韩人妻无码制服丝袜视频| аⅴ资源中文在线天堂| 91亚洲国产视频| 亚洲激情99| 成人国产一区二区三区| 黄色网站不卡无码| 人妖无码第一页| 成人va亚洲va欧美天堂| 亚洲天堂视频在线播放| 免费看久久精品99| 国产亚洲精品无码专| 国产精品人莉莉成在线播放| 国内精品免费| 欧美97色| 伊人精品成人久久综合| 国产色爱av资源综合区| 中文无码毛片又爽又刺激| 精品免费在线视频| 亚洲一级毛片在线观播放| 国产精品亚欧美一区二区| 欧美全免费aaaaaa特黄在线| 干中文字幕| 国产精品污视频| 国产精品久久自在自线观看| 国产内射一区亚洲| 亚洲精品免费网站| 国产日产欧美精品| 国产一级视频久久| 日韩成人午夜| 国产福利小视频高清在线观看| 97精品国产高清久久久久蜜芽| 91免费观看视频| 婷婷六月激情综合一区| 亚洲欧美激情小说另类| 试看120秒男女啪啪免费| 亚洲日韩高清无码| 中文字幕自拍偷拍| 久久国产拍爱| 手机在线免费不卡一区二| 凹凸国产熟女精品视频| 国内自拍久第一页| 久久亚洲精少妇毛片午夜无码| 免费高清毛片| 国产欧美高清| 精品国产成人av免费| 欧美性猛交xxxx乱大交极品| 色欲色欲久久综合网| 97国产在线视频| 国产又粗又猛又爽| 九九免费观看全部免费视频| 国产特级毛片| 97久久免费视频| 亚洲欧美日韩综合二区三区| 国产一区二区三区日韩精品| 国产女人爽到高潮的免费视频 | 青青久在线视频免费观看| 深夜福利视频一区二区| 久久精品国产国语对白| 欧美色99| 欧美性猛交一区二区三区| 欧美中文字幕在线视频| 国产丝袜第一页| 狂欢视频在线观看不卡| 国产无码制服丝袜| 在线视频精品一区| 在线高清亚洲精品二区| 免费AV在线播放观看18禁强制| 亚洲欧洲日韩久久狠狠爱 | 亚洲一区国色天香| 视频二区中文无码| 乱系列中文字幕在线视频|