田滿鑫 壽黎但 陳珂 江大偉 陳剛



摘 ?要:在知識圖譜(Knowledge Graph)中,知識表示方法旨在通過一種低維稠密的向量表示方法來高效地挖掘不同實體、關系之間復雜語義關系,在知識問答、信息檢索等領域有著重要意義。然而,現有的絕大多數的知識表示方法忽略了時間因素,無法表示應用中隨時間變化的動態知識。針對該問題,本文提出一種基于實體時間敏感度的知識表示方法。該方法將時間信息以不同程度融入不同類型的實體向量表示中,然后進行實體和關系之間語義挖掘。實驗結果表明,這種基于實體時間敏感度的表示方法能夠明顯提高知識圖譜的時態知識補全和預測任務性能。
關鍵詞:知識圖譜;表示學習;時態知識;復雜關系;知識補全
中圖分類號:TP391.1 ? ? 文獻標識碼:A
Abstract:Representation learning in knowledge graph aims to explore the complex semantic relationship between entities and their relations with a low-dimensional,dense vectors representation method,which is of great significance in the fields of knowledge question and answer and information retrieval.However,most of the existing knowledge representation methods ignore the time factor and cannot express the dynamic knowledge of the application over time.For this problem,this paper proposes a knowledge representation method based on entity time sensitivity.This method integrates the time information into different types of the entity vector representation with different degrees,and then performs semantic mining between entities and their relationships.Experimental results show that this entity time sensitivity based representation method can obviously improve the temporal knowledge completion and prediction task performance of the knowledge graph.
Keywords:knowledge graph;representation learning;temporal knowledge;complex relationship;knowledge complement
1 ? 引言(Introduction)
自Google提出知識圖譜概念以來,知識圖譜憑借其強大的語義處理能力而得到學術界和工業界廣大關注。它將知識庫信息以一種三元組(實體1,關系,實體2)的形式進行表達,構成知識網絡。這種高效、簡潔的知識組織方法能夠清楚地描述實體間的關系、概念和屬性,使得知識的表現形式更接近人類的思維表達,因而被廣泛應用在信息檢索、智能問答等方面。
傳統的表示方法采用語義符號進行知識表示,比如萬維網聯盟采用資源描述框架(Resolution Description Framework,RDF)來表示知識三元組。這種表示方法雖然簡潔直白,但由于表示稀疏、計算效率低下等問題,無法進行大規模的知識查詢和推理。近年來,隨著深度學習在人工智能領域的不斷發展,分布式的知識表示方法成為學術研究的熱點。這種分布式知識表示方法將稀疏的符號知識轉換成稠密的向量表達形式,能夠存儲更豐富的語義信息和進行高效的知識計算,具有重要的學術價值和應用意義。鑒于這些優點,研究者們提出多種知識表示模型,如神經網絡張量模型、線性模型和翻譯模型等。這些方法考慮知識表示在向量空間上的語義計算,通過對知識圖譜實體節點、關系邊的學習,使得語義相似的實體之間距離相近。
然而,上述表示方法探究的是知識庫的靜態知識表示。這種知識表示局限于將實體之間的關系、屬性看成靜態聯系,忽略了時間對知識演變的影響。比如,在新型供電列車儲能系統中,(輸電母線、引發…故障、車廂子線)這一知識的有效時間為2018/12/20 00:00:00,而其他時間下發生的車廂供電子線故障并非由輸電母線引起。如果采用傳統的靜態知識表示方法進行時態性知識查詢或推理,那么相關結果準確度、可信度偏低,無法滿足時態知識的表示需求。
針對以上問題,本文提出一種基于實體時間敏感度的知識表示方法ETA-TransE(Entity-Time-Aware TransE)。這種方法不僅考慮了知識圖譜的時態信息和時間對知識表示的影響,還考慮到不同類型實體對時間敏感程度的不一致性,聯合實體類型和時間信息進行時態領域的知識表示和推理學習。具體地,首先對知識庫中帶絕對時間信息的知識三元組(頭實體,關系,尾實體,絕對時間)相對于實體的起始時間進行相對時間計算,使得處在不同時間維度的知識三元組能在相同的時間平面聚焦;然后,針對不同類型實體構建不同的時態轉移矩陣,并通過實體與時態矩陣相乘得到當前時間狀態下的實體表示,使得不同類型實體受同一時間影響的程度不同;最后,在融合時間信息情況下進行知識表示學習,得到實體、關系的語義向量。
本文的主要貢獻如下:
(1)提出一種基于實體時間敏感度的知識表示模型。該模型聯合了實體類型和時間信息,考慮實體在不同時間下表示,解決實體之間的復雜關系。
(2)提出一種基于相對時間粒度的知識處理方法。該方法主要考慮在歷史、人物事件等應用場合下,相對時間粒度能夠更好地挖掘不同知識之間的內在聯系,有效緩解絕對時間所帶來的特征稀疏性問題。
(3)在YAGO和Wikidata帶時間信息的數據集上,與已有的知識表示方法進行了對比工作,驗證了本文所提出的知識表示模型有效性。
圖1 基于實體時間敏感度的知識表示方法
2 ? 相關工作(Related work)
2.1 ? 知識表示學習
近年來,學術研究者針對知識表示學習提出了許多方法和模型,不斷提升知識表示的語義準確度和增強知識補全能力。
Jason等人最早采用使用分布式向量進行知識表示[1],通過頭實體、尾實體在關系上的投影矩陣來計算不同實體的語義相似度。隨后,Rodolphe[2]提出隱變量模型(latent foctor model),基于關系的雙線性變換來探究實體和關系的二階聯系。這些線性模型簡單,但由于矩陣投影方法的協同性較差,無法準確刻畫不同實體、關系之間的語義聯系。
針對線性模型的缺點,Bordes等人提出TransE[3]模型,將關系r看作為頭實體h和尾實體t之間的翻譯過程。這種翻譯模型簡單高效,得到廣泛地應用。TransH[4]模型引入關系超平面進行知識表示,使同一實體能夠在不同關系中扮演不同的角色。TransD[5]、TransR[6]、TransM[7]等采用不同維度的語義空間來表示實體和關系,使得實體和關系支持多元語義關系表達。此外,還有一些方法通過加入外部信息[8-10],增強知識表示的遷移能力。
然而,以上方法都忽略了知識庫的時間因素,沒有考慮知識的時效性問題。當采用傳統的知識表示方法進行帶時間戳的知識圖譜補全、知識查詢或推理時,由于這些模型對時間不敏感,無法有效處理時間信息,使得預測出來的結果嚴重偏離實際情況。
2.2 ? 引入時間信息的知識表示學習
時間作為一種信息因子,是構建包含事件等動態知識的知識圖譜必要組成內容。目前,已經有相關研究工作針對帶時間信息的知識圖譜進行了時態性知識表示學習探究。
Jiang[11]等人在16年首次提出一種基于時態信息的知識圖譜表示方法,采用關系的時間相對性(如出生—死亡)對實體表示進行約束和學習。隨后,Trivedi[12]等人采用循環神經網絡對蘊含時態的知識進行知識表示。雖然這些方法考慮了時間對知識表示的影響,但是沒有直接利用時間信息,只能在模糊的時間范圍內進行知識表示和推理。針對以上缺陷,Shib[13]提出了HyTE模型,該模型是一種基于時間維度的知識表示方法。它構建了不同的時間超平面,然后將三元組的知識信息投影到時間平面上,進行時間維度的知識表示與推理。
雖然HyTE模型直接使用了時間信息,對同一時間范圍內的所有實體、關系進行了時間投影和表示學習,但是沒有考慮到不同類型的實體受時間的影響不同。因此,這種知識表示方法仍然不能準確地表達時態語義信息。針對該問題,本文提出的模型算法能夠較好地緩解該問題,有效地提高時態知識表示的性能。
3 ? 問題定義(Problem definition)
4 ? 方法介紹(Method introduce)
4.1 ? 時態知識圖譜
傳統的知識圖譜沒有涉及時間信息,一般對靜態的知識采用(h,r,t)三元組方式進行表示。而時態性知識圖譜作為一種動態的知識圖譜,會將時間作為一種獨立的維度信息加入知識三元組中,組成(h,r,t,τ)四元組形式來表示知識庫中的知識,其中τ代表四元組的發生時間。這種表示方法能夠較準確地描述事件等知識元素,完整地記錄圖譜中人物履歷或歷史事件發生的過程,體現知識的時態性。
HyTE模型最早將時間信息作為單獨的一個維度融合到知識表示方法中,在絕對時間平面中對各知識進行向量投影,建立知識聯系。考慮到在絕對時間平間中,可能出現知識三元組較少的情況,導致模型難以挖掘不同空間內的知識共性和語義聯系,本文提出一種針對絕對時間信息稀疏問題的處理方案。
其中,和分別代表正確三元組集合和錯誤三元組集合,γ是用于區分正確三元組和錯誤三元組的間隔距離。(h', r ,t')代表錯誤三元組,是由正確三元組隨機替換頭實體或尾實體,構成不符合實際的三元組而產生。該損失函數能在最小化正確三元組得分的同時最大化了錯誤三元組的得分,使正確三元組之間語義聯系更緊密,而盡可能讓錯誤三元組中的實體、關系存在較大的語義差異。
TransE模型雖然簡單,涉及的參數較少,計算復雜度低,但能很好地構建實體和關系之間的語義聯系,非常適合用于大規模知識圖譜的知識表示。本文沿用TransE模型的思想,將關系關系看作受時間影響的實體之間的平移向量,對加入時間維度信息的知識圖譜進行翻譯模型的表示學習。
4.3 ? 融合實體類型的時態知識表示
TransE模型將實體和關系投影到相同維度的低維向量空間,無法解決知識圖譜中實體之間的一對多、多對一和多對多等復雜關系問題。比如知識庫存在(奧巴馬,是…總統,美國)和(特朗普,是…總統,美國)兩個知識。如果僅在總統這種關系下,奧巴馬和特朗普的知識表示結果非常相近,但是在其他屬性領域,該兩者具有較大的差異性,TransE模型無法解決該類問題。在時態性知識圖譜中,我們發現對時間信息特征的利用能夠解決實體之間的復雜關系。作用于同一實體的不同關系受到同一時間約束不一致,而存在相同關系的不同實體對也存在時間差異,比如“出生”發生的時間要早于“死亡”和奧巴馬比特朗普更早就職美國總統。因此,本文所提出的時態知識表示模型能夠較好地區分不同類型關系對不同實體影響。
由于不同類型實體對時間的敏感程度不一致,使得同一時間對不同類型實體的信息變化影響不相同,如人物類型實體存在年輕、年老等狀態,不同狀態下實體的活動范圍和行動能力等不盡相同,而地理類型實體隨著時間演變而幾乎不發生變化。這種實體類型對時間的敏感性特點,能夠影響不同實體的關系作用域,以及不同關系的作用范圍。如果將實體類型考慮到時態知識表示學習中,那么模型能提取更準確的語義特征,以增強時態性知識補全和推理能力。
其中,和分別代表帶時間信息的正確三元組集合和錯誤三元組集合,γ是正確三元組和錯誤三元組之間的間距。在實驗過程中,我們對上述公式中的向量等元素做了如下限制:
5 ?實驗結果及分析(Experimental results and analysis)
實驗包含了三個任務,分別為實體鏈接預測、關系鏈接預測和三元組分類預測任務。與以往知識表示任務評測對象不同,本文的評測對象為帶有時間信息的數據集。
5.1 ? 實驗數據
在開源的知識庫中,Wikidata和YAGO數據集都包含涉及時間的知識數據。本文針對這兩個數據集提取時間信息豐富的數據,得到兩個子集Wikidata12K和YAGO11K,作為我們的評測數據,并劃分成訓練集、驗證集和測試集三部分。其中訓練集用于模型訓練,驗證集用于超參數調優,測試集用于評價不同模型的性能。表1展示了數據集的相關屬性:
對于YAGO數據,為了防止出現數據分布稀疏問題,我們對帶時間信息的數據集進行了數據篩選,按照出現頻率挑選了排名前10的關系數據以及去除只出現一次的實體數據,得到YAGO11K。
針對Wikidata數據,我們做了類似同樣的操作,按照出現頻率挑選了排名前24名的關系數據,以及相關實體數據,組成Wikidata12K數據集,使得數據規模為YAGO11K的兩倍。
5.2 ? 實驗對比方法
為了評估本文所提出來的時態知識表示模型,我們對比了傳統領域的知識表示方法TransE、TransH和TransR,以及融合時間信息的知識表示方法HyTE。
5.3 ? 參數設置
模型包含學習率λ、向量維度d和最大間隔γ。其中λ∈{0.1,0.01,0.05},d∈{50,80,100},γ∈{1,2,4}。驗證集達到最優效果對應的參數分別為0.01、100、4。訓練迭代的次數為1000。
5.4 ? 實驗結果
5.4.1 ? 實體鏈接預測
實體鏈接預測任務旨在預測知識三元組缺失的頭實體或尾實體。給定正確三元組(h,r,t,τ),我們依次去除其中的頭實體和尾實體,即得到(?,r,t,τ)和(h,r,?,τ)兩種形式;然后依次將知識庫中的其他實體填充到對應的缺失位置,計算新構成的三元組得分;最后對該得分進行排序,得到不同三元組的排名。
本文沿用其他知識表示論文的評價指標:(1)Mean Rank:正確三元組的實體得分排名平均值,該指標值越小代表模型性能越好;(2)Hits@10:正確三元組實體排名小于10的占比,該指標值越大則模型表示越準確。除此之外,由于三元組替換頭實體或尾實體后,所構成的新三元組可能已經存在于原知識庫中,這部分三元組會干擾當前正確三元組的實體排名,因此采用了“原始”(raw)和“過濾”(Filter)兩種評估方式。其中,“原始”保留所有三元組再進行排名,“過濾”代表排除已經存在的三元組再進行排名。各模型在數據集Wikidata12K和YAGO11K的測試實驗結果如表2和表3所示。
從以上結果可以看到,本文所提出的ETA-TransE模型雖然在尾實體的MeanRank指標不是最優,但是在其他指標上均有較大程度的提高。在數據集中,相對頭實體,尾實體的實體類型較為豐富,比如頭實體類型以“人物”類型為主,而尾實體除了“人物”類型實體、還包含“地理”“國家”等類型,并且部分實體的類型比較少,尾實體的時態轉移矩陣較難準確地捕捉這類實體語義信息隨時間變化的變化程度,因此Mean Rank指標沒能達到最優。在Hits@10指標上,不管是頭實體鏈接預測還是尾實體鏈接預測,都達到目前最優的結果,說明在時態知識表示方面,ETA-TransE模型能夠較好地捕捉不同時間下實體與關系的語義信息。因此,在帶時間信息的實體補全或推理任務中本文所提的模型具有一定的優勢。
5.4.2 ? 關系鏈接預測
關系鏈接預測是用于評估模型的關系補全能力。給定正確三元組,將關系依次替換成知識庫中的其他關系,得到相應的知識三元組得分;然后對得分排序,得到關系排名。類似實體鏈接任務,該實驗采用的指標為Mean Rank和Hits@1,其中Hits@1代表正確三元組關系排名第一的占比。評估方式也采用“Raw”和“Filter”兩種形式。
從上述結果可以看到,我們提出的模型在兩份數據集上的各項指標均取得最佳效果。在關系鏈路預測方面,TransH比TransE預測效果更好,表明實體之間復雜的關系需要復雜的模型進行不同關系下的實體表示學習;而融入時間信息的HyTE模型能夠較好地預測實體之間的關系,說明時間對關系的影響比較大;在保持前者的優點情況下,本文提出的ETA-TransE模型在時態信息處理方面,擁有更好的關系預測能力。
5.4.3 ? 三元組分類
三元組分類旨在判斷給定的知識三元組是否符合客觀事實,即是否真實存在。由于YAGO11K和Wikidata12K數據集只包含正樣本,本文依照Socher等人提出的方法來構造負樣本。對于驗證集和測試集的正確三元組,我們隨機替換其頭實體或尾實體。而替換的實體必須從當前三元組關系對應的頭實體集合或尾實體集合中選出,使得產生負樣本集合不存在明顯不合理的三元組。為了平衡數據,產生的負樣本數量與正樣本數量相同,即每一條正樣本對應唯一的負樣本。
實驗采用準確率、精確率、召回率和F1值作為帶時間信息三元組分類的評估指標。對于每種關系,我們設置不同的閾值δr,使得在驗證集上達到最佳的準確率。然后針對測試集中帶時間的三元組(h,r,t,τ)計算距離得分,如果該分數小于δr,則表示為正確三元組,否則為錯誤三元組。實驗最終的評測標準為所有關系評估指標的平均值。各模型的三元組分類結果如表5所示。
從上述結果可以看到,本文的ETA-TransE在帶時間信息的三元組分類任務上達到最佳的分類效果。這說明,融合時間信息的知識表示能夠較好地辨別推理得到的三元組是否符合客觀事實,使正確三元組之間的聯系更緊密以及錯誤三元組中實體和關系的存在較大的語義差異。
6 ? 結論(Conclusion)
傳統的知識表示方法由于沒有考慮知識圖譜中的時間信息,在帶有時間信息的知識補全和推理任務中存在較大的性能缺陷。本文針對該缺點提出一種基于實體時間敏感度的時態知識表示方法。該方法在利用時間特征進行知識表示的同時,還考慮到不同實體類型對時間敏感程度不同的特點,采用時態轉移矩陣更準確地捕捉實體、關系與時間的語義聯系。在含有時間信息的YAGO11K和Wikidata12K數據集上的實驗結果表明,本文提出的ETA-TransE方法能夠顯著提升帶時間信息的實體鏈接、關系鏈接和三元組分類任務,能較好地支持時態性的知識補全任務和推理等任務。
參考文獻(References)
[1] Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C].Twenty-Fifth AAAI Conference on Artificial Intelligence,2011.
[2] Jenatton R,Roux N L,Bordes A,et al.A latent factor model for highly multi-relational data[C].Advances in Neural Information Processing Systems,2012:3167-3175.
[3] Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C].Advances in neural information processing systems,2013:2787-2795.
[4] Wang Z,Zhang J,Feng J,et al.Knowledge graph embedding by translating on hyperplanes[C].Twenty-Eighth AAAI conference on artificial intelligence,2014.
[5] Ji G,He S,Xu L,et al.Knowledge graph embedding via dynamic mapping matrix[C].Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015,1:687-696.
[6] Lin Y,Liu Z,Sun M,et al.Learning entity and relation embeddings for knowledge graph completion[C].Twenty-ninth AAAI conference on artificial intelligence,2015.
[7] Fan M,Zhou Q,Chang E,et al.Transition-based knowledge graph embedding with relational mapping properties[C].Proceedings of the 28th Pacific Asia Conference on Language,Information and Computing,2014.
[8] Xie R,Liu Z,Jia J,et al.Representation learning of knowledge graphs with entity descriptions[C].Thirtieth AAAI Conference on Artificial Intelligence,2016.
[9] Xie R,Liu Z,Luan H,et al.Image-embodied knowledge representation learning[J].arXiv preprint arXiv:1609.07028,2016.
[10] Xie R,Liu Z,Sun M.Representation Learning of Knowledge Graphs with Hierarchical Types[C].IJCAI,2016:2965-2971.
[11] Jiang T,Liu T,Ge T,et al.Encoding temporal information for time-aware link prediction[C].Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016:2350-2354.
[12] Trivedi R,Dai H,Wang Y,et al.Know-evolve:deep temporal reasoning for dynamic knowledge graphs[C].Proceedings of the 34th International Conference on Machine Learning,2017.
[13] Dasgupta S S,Ray S N,Talukdar P.HyTE:Hyperplane-based Temporally aware Knowledge Graph Embedding[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:2001-2011.
作者簡介:
田滿鑫(1994-),男,碩士生.研究領域:數據挖掘,知識圖譜.
壽黎但(1974-),男,博士,教授.研究領域:空間數據庫,數據挖掘,數據可視化.
陳 ?珂(1977-),女,博士,副教授.研究領域:時空數據庫,數據挖掘,數據隱私保護.
江大偉(1982-),男,博士,研究員.研究領域:數據庫技術,大數據管理技術,區塊鏈技術.
陳 ? 剛(1973-),男,博士,教授.研究領域:大數據管理.