999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空間投影和關系路徑的地理知識圖譜表示學習

2018-05-04 06:46:19段鵬飛熊盛武毛晶晶
中文信息學報 2018年3期
關鍵詞:語義模型

段鵬飛,王 遠,熊盛武,毛晶晶

(1. 武漢理工大學 計算機科學與技術學院,湖北 武漢 430070;2. 武漢理工大學 交通物聯網湖北省重點實驗室,湖北 武漢 430070;3. 南京大學 計算機科學與技術系,江蘇 南京 210023)

0 引言

隨著大數據技術的發展,得益于Linking Open Data等公共數據集項目的展開,互聯網也從文檔萬維網向數據萬維網發展。在此背景下,Google為了改善搜索結果,于2012年重新提出了知識圖譜(Knowledge Graph)[1]。隨后,其他搜索引擎公司也開始構建知識圖譜,例如,國內搜狗提出的“知立方”和百度的“知心”。知識圖譜除了應用在搜索引擎中,還是自動問答等智能應用的基礎,例如IBM公司開發的Watson系統和日本的高考機器人Todai Robot。

傳統的知識圖譜一般采用<實體1,關系,實體2>三元組的方式來表示知識。該種方法可以較好地表示事實性知識,但對很多模糊知識和復雜形式知識,則表現出能力不足。以地理知識圖譜為代表的特定領域知識圖譜,實體間往往有很強的語義關聯,以網絡形式來組織知識圖譜中的知識,當進行知識推理和知識融合的時候需要設計特定的圖算法,計算效率低;而且三元組的知識表示形式無法有效地度量和利用實體間的語義關聯關系。

以深度學習[2]為代表的表示學習[3],最近在自然語言處理、圖像分析和語音識別等領域取得極大進展。在自然語言處理方面,基于深度學習的詞向量表示模型—word2vec模型[4]的提出,掀起了學者對知識表示學習的研究熱潮。其中,最引人注目的要屬Bordes受到word2vec模型中的詞向量在語義空間的平移不變現象的啟發而提出的TransE模型[5]。TransE模型由于其在構建大規模知識圖譜時表現出了簡單、高效等特點,自提出以來,許多研究者都嘗試在TransE模型的基礎上做進一步地擴展和應用。由于TransE方法無法很好地處理1對多、多對1及多對多類型的關系,安波等提出了一種特征融合的方法TCSF[6],通過綜合利用三元組的距離、關系的先驗概率及實體與關系上下文的擬合度進行三元組分類;Lin等人提出了TransR模型[7],基于空間投影來對TransE進行擴展,提高復雜關系建模能力,但該模型只學習了三元組結構信息;針對這種情況,Lin等人提出了PTransE模型[8],基于關系路徑對TransE進行擴展,用來對知識圖譜中的關系進行推理。本文考慮結合TransR模型在處理復雜關系時的能力和PTransE模型充分利用了關系路徑中語義信息的優勢,建立了一個新的基于空間投影和關系路徑的知識表示學習算法,提升知識圖譜中知識表示的區分能力。

1 翻譯模型及其擴展

1.1 TransE模型

以TransE模型為代表的知識表示學習模型已經在實體鏈接、關系抽取和知識推理等知識圖譜應用中,取得了矚目的效果[9]。TransE模型將知識圖譜中的關系看作是在語義空間中實體間的平移向量[4]。

圖1 TransE模型簡單原理圖

對于三元組(h,r,t),TransE模型將關系r定義為一個平移向量r∈Rk(k為語義空間維度),嵌入到語義空間的實體向量h,t可以通過關系向量r連接。TransE模型的損失函數定義為式(1)。

fr(h,t)=||h+r-t||L1/L2

(1)

TransE模型參數少、復雜度低并且在構建大規模知識圖譜中表現出了簡單、高效的特點。但也正是由于TransE模型的簡單,從而導致了它在復雜關系建模、多源信息融合、關系路徑建模等方面的局限性。

1.2 基于空間投影的翻譯模型

針對TransE模型在處理知識圖譜中復雜關系能力缺失的問題,Lin等人提出了TransR模型[7],將實體看成多種屬性的綜合,不同關系將專注不同的屬性,將實體、關系分別嵌入實體空間Rm、關系空間Rn(m,n均表示空間的維度,并且在TransR模型中m和n可以相同)。

對于每一個三元組(h,r,t),TransR模型設置實體向量h,t∈Rm,關系向量r∈Rn。先將位于實體空間Rm的頭、尾實體,通過投射矩陣Mr(Mr∈Rm×n)投射到關系空間Rn,得到位于關系空間的頭實體hr、尾實體tr。然后在關系空間中平移,使hr+r≈tr。

其中,被投射到關系空間中得到的實體向量被定義為式(2)。

hr=hMr,tr=tMr

(2)

相應的損失函數被定義為式(3)。

fr(h,t)=||hr+r-tr||L1/L2

(3)

TransR模型采用空間投影在TransE模型的基礎上進行擴展,使模型處理復雜關系的能力得到顯著提高。

1.3 基于關系路徑的翻譯模型

針對這種情況,Lin等對TransE模型進行擴展,提出了基于關系路徑的PTransE模型[8]。

(4)

PTransE模型通過尋找實體對間的關系路徑,并通過計算關系路徑的可信度和對關系路徑進行表示,來利用蘊含在關系路徑的語義信息,在關系路徑方面對TransE模型進行了擴展,為知識表示學習的研究打開了新的方向。

2 基于空間投影和關系路徑的翻譯模型

TransR模型將實體看作屬性的綜合體,不同關系專注實體的不同屬性。通過采用空間投影的方式,使模型處理復雜關系的能力得到顯著提高。PTransE模型試圖解決TransE和TransR等模型只局限于學習三元組結構信息的缺陷。通過尋找實體對間的關系路徑,并且將關系路徑也嵌入到語義空間中,利用關系路徑中存在的語義信息,在學習三元組中直接關系的同時,也對關系路徑進行學習。TransR模型和PTransE模型是在兩個不同的方面對TransE模型進行擴展。

因此,本文考慮結合TransR模型在處理復雜關系時的能力和PTransE模型充分利用了關系路徑中語義信息的優勢,建立一個新的模型PTransW(Path-based TransE and Considering Relation Type by Weight),提升知識圖譜中知識表示的區分能力。并且在TransR模型中,三元組的關系嵌入到同一語義空間中,對于關系路徑的尋找、可信度計算和關系路徑的表示提供了條件。

結合TransR模型和PTransE模型兩者優勢的新模型損失函數定義為式(5)。

(5)

h,t在從實體空間Rm經過投射矩陣Mr∈Rm×n投射到關系空間Rn時,投射矩陣Mr依賴于關系r,同一個實體在不同的關系上時,因為所表現的屬性不同,將會被投射到關系空間中的不同位置。關系r分為四種類型,為了讓h,t在投射時考慮到所屬關系的關系類型,在同一種關系類型上的實體更可能被投射到同一區域,將引入一個與關系類型相關的權重ωr。權重ωr與變量hrptr(對于關系r,數據集中每個尾實體對應的頭實體平均個數)和trphr(對于關系r,每個頭實體對應的尾實體平均個數)相關,參考Fan等在TransM模型[10]中的做法,將權重ωr定義為式(6)。

(6)

則h,t在從實體空間Rm經過投射矩陣Mr投射到關系空間Rn時變為hr=ωrhMr,tr=ωrtMr。

再結合式(5),PTransW模型的損失函數則定義為式(7)。

G(h,r,t)=||ωrhMr+r-ωrtMr||L1/L2

(7)

其中,R(p|h,t)是實體對(h,t)間的關系路徑p的可信度;Mr是將實體從實體空間Rm投射到關系空間Rn的投射矩陣,Mr∈Rm×n;p是關系路徑的嵌入向量表示;

在訓練過程中,對h、t和r對應的嵌入向量h、r和t進行約束。?h,r,t,有||h||2≤1,||r||2≤1,||t||2≤1,||ωrhMr||2≤1以及||ωrtMr||2≤1。

PTransW模型同樣需要計算關系路徑的可信度及對關系路徑進行表示。關系路徑的可信度計算可以采用PTransE提出的PCRA算法[8]。PTransE的數據實驗結果也已經表明采用相加的語義組合方式來表示關系路徑取得的效果比按位相乘和循環神經網絡要好,所以PTransW模型將采用相加方式來表示關系路徑。并且在訓練時,因為運算時間,本文只考慮兩步關系路徑。

訓練時,將采用隨機梯度下降來最小化目標函數。根據式(7),將PTransW模型的優化目標形式化表示為式(8)。

(8)

與TransE一樣,在實際訓練過程中,采用最大間隔法來對知識表示的區分能力進行提升。L(h,r,t),L(h,P,t)分別表示為式(9)和式(10)。

(9)

(10)

其中,[x]+=max(0,x)表示返回0和x之間較大的值;γ為正確三元組損失函數值與錯誤三元組損失函數值之間的間隔距離;S是正確三元組所屬集合,S-為錯誤三元組所屬集合(負樣本)。錯誤三元組是通過替換正確三元組的頭實體、尾實體或關系得到,S-={h′,r,t}∪{h,r′,t}∪{h,r,t′}。

3 實驗對比分析

3.1 數據集

本文采用FB15K和GEOGRAPHY數據集對模型進行驗證。

FB15K: Freebase是一個由元數據組成的大型知識圖譜,整合了網上大量的資源,目前包含了12億個三元組和超過8千萬的實體。文獻[5]從Freebase中抽取了一個稠密子圖FB15K用于TransE模型的實驗,該數據集包含有592 213個三元組、14 951個實體和1 345條關系。

GEOGRAPHY: 地理數據集是本課題組從基礎教育地理學科的網絡文本資源中,通過信息抽取等技術構建得到的三元組集合。地理數據集包含有99 063個三元組、69 123個實體和6 961條關系。

表1 數據集的統計

3.2 基于FB15K數據集的鏈接預測實驗

實驗前,對hrptr和trphr進行統計,然后根據hrptr、trphr計算關系r的權重ωr,FB15K數據集中共有1 345條關系,則對應著1 345個權重,但是由于關系類型只有四種,權重的分布也依據所屬關系類型,如圖2所示。

圖2 關系權重ωr分布圖

3.2.1 參數調節

我們根據前人的經驗,將PTransW模型在數據集FB15K上的步長α范圍設定為{0.1,0.01,0.001};間隔γ設定為{1,2,4};為了便于計算,實體空間的維度m和關系空間的維度n相同,設定范圍為{20,50,100},模型運用隨機梯度下降優化時總共迭代500次。通過在驗證集上作實體預測實驗來確定參數。

表2 不同參數在驗證集上的實體預測結果表

即使將參數設定了范圍,對每一組訓練/驗證集也有3×3×3×2=54種情況需要考慮。由于數據集規模較大和受限于模型本身的復雜度,將54種情況都訓練、驗證一遍需要極大的計算工作。因此,我們采用控制變量的思想來確定參數,再在驗證集上進行驗證。但有可能出現兩個或多個參數相互作用影響結果的情況,為了避免該種情況,再對參數進行隨機替換并在驗證集上驗證。最終,確定了PTransW模型在數據集FB15K上的參數組合為:α=0.001,γ=1,m=n=20,采用L2范式。

3.2.2 實體預測

為了便于比較,我們采用文獻[5]和文獻[8]中所用的方法作為基準線。由于都是基于數據集FB15K進行實驗,并且采用相同的評估指標,所以直接參考論文數據,結果如表3所示。

表3 FB15K數據集實體預測計算結果

從表中可以看出PTransW模型相比于其他模型,Mean Rank指標和Hits@10指標的效果遠優于其他模型(包括TransR 和PTransE),說明我們將根據關系類型進行空間投影和利用關系路徑語義信息相結合是成功的。

在實驗過程中,我們發現測試集的59 071個三元組中,有2 230個三元組的頭、尾實體對間不存在關系路徑,那些不包含關系路徑的三元組的預測得到的排名都很靠后,從而將測試集中所有三元組的平均排名拉高。因此,我們剔除了那2 230個不存在關系路徑的三元組,對剩余的56 841個三元組的排名重新進行了統計,統計結果為表3中PTransW(only-path)所在行。從結果可以得知,剔除了2 230個不存在關系路徑的三元組后,Mean Rank的值降低很明顯。對于有關系路徑的三元組,PTransW模型預測的結果更準確。

為了進一步觀察PTransW模型在復雜關系建模時的能力,我們按關系類型做了統計,結果如表4所示。

表4 FB15K數據集上基于關系類型的計算結果

從表4中可以看出PTransW模型在1-N、N-1和N-N復雜關系建模方面,Hits@10指標明顯優于其他模型;在1-1關系上,也與表現最好的模型PTransE(ADD,2-step)的結果接近。PTransW模型對比TransE、TransR和PTransE等模型,在復雜關系建模的能力上得到了顯著的提高。

3.2.3 關系預測

關系預測,是通過給定(h,t)來預測關系r。我們采用文獻[8]中所用的方法作為基準線,與PTransW模型作比較。由于都是基于FB15K數據集進行實驗,并且采用相同的評估指標,所以直接參考它們的數據結果,整理為表5所示。

表5 FB15K數據集關系預測計算結果

表中的Hits@1是指測試集中排名在第一的三元組占整個測試集的比例。從表中可以看出,PTransW模型和其他模型相比,Mean Rank這項指標要比PTransE(ADD,2-step)差,在測試集中有小部分三元組的排名極靠后,所以導致平均排名較差。而Hits@1這項指標則比其他模型稍高。我們同樣將2 230個不存在關系路徑的三元組剔除,得到PTransW(only-path),發現與不剔除的結果相比,差別并不明顯。

在算法復雜度方面,PTransW相較于PTransE增加了投射矩陣M,運行時間略有增加,但增加的時間相較于PTransE原始運行時間小很多,所以該方法不會增加過高的時間開銷。

3.3 基于GEOGRAPHY數據集的鏈接預測實驗

3.3.1 參數調節

在GEOGRAPHY數據集上,不僅需要對PTransW模型進行訓練并做鏈接預測實驗,還需要用TransE模型、TransR模型和PTransE模型在GEOGRAPHY數據集上進行訓練,并將鏈接預測實驗的結果與PTransW模型做對比分析。

因此,設置TransE在GEOGRAPHY數據集中的參數范圍為隨機步長α設定的范圍{1,0.1,0.01};間隔γ設定為{1,2,4};語義空間維度k的范圍為{20,50,100},正則化方式為L1/L2。經過在驗證集上采用與前面3.2.1相同方法進行參數調節,確定參數組合為:α=0.01、γ=1、k=100以及采用L1正則化方法,并且隨機梯度下降時迭代1 000次。對于TransR模型,其確定參數組合為α=0.001、γ=1、m=n=100以及采用L1正則化方法,迭代1 000次。對于PTransE模型,最后確定參數組合為α=0.001、γ=1、k=100以及采用L1正則化方法,迭代1 000次。對于PTransW模型,最后確定參數組合為α=0.001、γ=1、m=n=100以及采用L1正則化方法,迭代500次。

3.3.2 實體預測

實體預測實驗中,與上文一致通過給定(h,r)來預測t以及給定(r,t)來預測h。將TransE、TransR、PTransE模型的結果進行比較,如表6所示。

表6 GEOGRAPHY數據集實體預測計算結果

從表6中可以看出,之前在FB15K數據集上表現較好的PTransE模型和PTransW模型在GEOGRAPHY數據集上,實體預測結果反而不如TransE模型和TransR模型。我們分析,可能是由于GEOGRAPHY數據集訓練規模較小。數據集FB15K包含14 951個實體和1 345條關系,有592 213個三元組;反觀數據集GEOGRAPHY,有69 123個實體和6 961條關系,卻只包含有99 063個三元組。所以,相對復雜的PTransE模型和PTransW模型在數據集GEOGRAPHY上訓練不夠充分,并不能發揮它們的優勢。

3.3.3 關系預測

在關系預測子實驗中,也是通過給定(h,t)來預測關系r。將TransE、TransR、PTransE模型在數據集GEOGRAPHY上做關系預測實驗,并將所求結果進行對比分析,如表7所示。

表7 GEOGRAPHY數據集關系預測計算結果

從表7中可以看出,考慮了關系路徑和反向關系的PTransE模型和PTransW模型取得的效果明顯比TransE和TransR要好,其中,PTransW的效果尤為突出。

4 總結

針對TransE模型在處理知識圖譜中復雜關系能力缺失及只局限地使用三元組結構信息的問題。我們將TransR模型和PTransE模型進行結合,并對結合后的模型做了進一步地改進。在空間投影時考慮關系類型,通過加入關系類型的權重,使實體在投射時能在不同關系類型上有所區別。未來需要對知識圖譜中的知識類型進行更具體地劃分,并對不同類型的知識表示進行研究。除了鏈接預測,將知識表示學習應用到關系抽取、實體消歧、實體識別等更多任務中,來進一步地探究以及驗證知識表示學習的有效性。

[1] Singhal A. Introducing the knowledge graph: things, not strings[EB/OL]. http: //googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html, 2012.

[2] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.

[3] Bengio Y, Courville A, and Vincent P.Representation learning: A review and new perspectives [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013.35(8): 1798-1828.

[4] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

[5] Bordes A, Usunier N, Garcia-Duran A, Weston J, Yakhnenko O. Translating embeddings for modeling multi-relational data[C]//Proceedings of In Advances in Neural Information Processing Systems 26. Curran Associates, Inc. 2787-2795.

[6] 安波, 韓先培, 孫樂,等. 基于分布式表示和多特征融合的知識庫三元組分類[J]. 中文信息學報, 2016, 30(6): 84-89.

[7] LinY, Liu Z, Sun M, Liu Y, Zhu X. Learning Entity and Relation Embeddings for Knowledge Graph Completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.

[8] LinY, Liu Z, Luan H, Sun M, Rao S, Liu S. Modeling Relation Paths for Representation Learning of Knowledge Bases[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2015), 2015.

[9] 劉知遠, 孫茂松, 林衍凱, 謝若冰. 知識表示學習研究進展[J]. 計算機研究與發展, 2016, 53(2): 1-2.

[10] Fan M, Zhou Q, Chang E, et al. Transition-based knowledge graph embedding with relational mapping properties[C]//Proceedings of the 28th Pacific Asia Conference on Language, Information, and Computation. 2014: 328-337.

[11] Nickel M,Tresp V, Kriegel H. A three-way model for collective learning on multi-relational data[C]//Proceedings of ICML. New York: ACM, 2011: 809-816.

[12] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C]//Proceedings of AAAI. Menlo Park, CA: AAAI, 2011: 301-306.

[13] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C]//Proceedings of AISTATS. Cadiz, Spain: JMLR, 2012: 127-135.

[14] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C]//Proceedings of NIPS. Cambridge, MA: MIT Press, 2012: 3167-3175.

[15] Wang Z, Zhang J, Feng J, Chen Z. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of AAAI, 2014: 1112-1119.

[16] Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]//Proceedings of KDD, New York: ACM, 2008: 1247-1250.

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 精品伊人久久久香线蕉 | 免费人成又黄又爽的视频网站| 一级毛片免费播放视频| h网址在线观看| 71pao成人国产永久免费视频 | 亚洲日韩每日更新| 狠狠v日韩v欧美v| 午夜福利在线观看成人| 91福利片| 成人日韩精品| 国产va欧美va在线观看| 国产人碰人摸人爱免费视频 | 97国产在线观看| 欧美色丁香| 国产噜噜噜| 亚洲AⅤ无码国产精品| 亚洲欧洲美色一区二区三区| 国产粉嫩粉嫩的18在线播放91| 亚洲综合色婷婷中文字幕| 国产精品私拍99pans大尺度| 国产99在线观看| 91久久国产综合精品| 永久免费精品视频| 日韩黄色在线| 美女无遮挡拍拍拍免费视频| 亚洲午夜福利精品无码不卡 | 国产二级毛片| 人妻少妇乱子伦精品无码专区毛片| 亚洲国产成人精品青青草原| 日韩av高清无码一区二区三区| 亚洲一级色| 亚洲成a人片在线观看88| 国产美女在线观看| 久久九九热视频| 91九色最新地址| 国产欧美高清| 日韩精品无码免费一区二区三区 | 久久一本日韩精品中文字幕屁孩| 久久婷婷六月| 中国成人在线视频| 午夜性爽视频男人的天堂| AV天堂资源福利在线观看| 国产成人无码播放| 99国产在线视频| 在线观看国产精品日本不卡网| 亚洲美女操| 69av免费视频| 成人一级免费视频| 六月婷婷激情综合| 国产性生交xxxxx免费| 久久亚洲天堂| 福利国产微拍广场一区视频在线| 久久精品人人做人人爽97| 啪啪啪亚洲无码| 色婷婷成人网| 91久久偷偷做嫩草影院| 亚洲aⅴ天堂| 婷婷色丁香综合激情| 91久久偷偷做嫩草影院电| 97无码免费人妻超级碰碰碰| 亚洲黄网视频| 亚洲伊人久久精品影院| 91毛片网| 中文字幕精品一区二区三区视频| 午夜精品国产自在| 国产精品55夜色66夜色| 992tv国产人成在线观看| 欧美不卡在线视频| 玖玖免费视频在线观看| 国产成人一区二区| 岛国精品一区免费视频在线观看| 久久网欧美| 国产va在线观看免费| 天堂av综合网| 亚洲欧美成人综合| 色天天综合| 91最新精品视频发布页| 亚洲欧洲日产国码无码av喷潮| 日韩经典精品无码一区二区| 日韩精品一区二区三区swag| 亚洲无线观看| 青青草原国产av福利网站|