盧浩文,何元清
(中國民用航空飛行學院計算機學院,廣漢 618399)
隨著民航業的飛速發展,保障飛行安全、提升飛行能力和降低航空安全事件發生率一直是航空安全管理的重要內容,目前航空安全事件發生的原因呈現復雜化和多元化特征,對航空安全事件發展趨勢的預測也面臨新的挑戰[1]。
知識圖譜(knowledge graph,KG)是谷歌公司在2012 年提出的,它將實體(包括概念和屬性)表示成圖上的節點,連接兩個節點的邊表示成兩個實體之間的關聯關系,并最終用以三元組(頭實體,關系,尾實體)為基本元素結構來表示知識[2]。知識圖譜中,E表示實體集合,R表示關系集合,T表示三元組集合。對于知識三元組中的任意知識,我們使用()h,r,t∈T進行表示,其中h∈E代表頭實體,t∈E代表尾實體,r∈R代表頭尾實體之間的關系。
將航空安全事件表示成知識圖譜的形式,可以獲取到歷史航空安全事件的基本信息以及在人員因素、航空器因素、環境因素、管理因素及結果等方面的相關信息[3],并對知識圖譜進行推理分析得到隱患事件的發展結果[4]。航空安全事件領域的體系結構比較獨特,實體的屬性關系也復雜多樣,這給表示學習造成了不小的困難,使得航空安全事件乃至整個航空領域中,基于知識圖譜的表示學習技術研究相對薄弱。目前研究者使用TransE 模型[5]對航空安全事件進行表示學習,但是,TransE 模型在一對多、多對一、多對多以及自反關系上效果不是很好[6]。
鑒于此,本文首先創建航空安全知識圖譜數據集ASIKG,利用TransE 模型的改進模型TransH[7]和TransR[8],分別對ASIKG 進行表示學習,再與TransE表示結果進行對比,找到契合航空安全領域知識圖譜數據特性的表示學習算法。
本文在對民航相關規定和大量航空安全事件語料庫等相關內容進行分析和研究的基礎上構建航空安全事件知識圖譜(aviation safety inci?dent knowledge graph, ASIKG),ASIKG 實例數據來源于課題研究組整理的2006—2021 年航空事故調查跟蹤報告中的873件不安全事件以及其他開源的航空安全事件調查數據。航空事故調查跟蹤報告是官方提供的世界上發生的航空安全事件,一條報告對應一個航空安全事件,將其抽取整理并構建航空安全事件領域知識圖譜。表1 展示了事件報告0628B762 和0812JA848C 抽取后的詳細內容,包括事件名稱、時間、客機型號、所屬公司、航班號、起飛地點、降落地點、出事地點、事件類型、航線類型、航班類型、天氣情況、操作階段、直接原因、人員傷亡、事件結果以及事件等級。

表1 詳細事件示例
事故調查跟蹤報告共抽取整理了964條事件組成航空安全事件知識圖譜,圖譜有6335 個實體,16種關系,15456組三元組,其中,一個事件分別對應16 種關系,每個事件相互獨立,但不同事件連接的尾實體如直接原因、事件結果、天氣狀況等都存在大量相關性,部分結構特點如圖1所示。

圖1 ASIKG部分結構特點示例
將知識圖譜存入Neo4j 中進行可視化呈現,如圖2所示。

圖2 ASIKG局部
可以看到航空安全事件知識圖譜ASIKG 中存在大量一對多和多對一的關系,而存在少量一對一和多對多的關系。針對此,本文進行ASIKG表示學習研究。
基本的轉移假設將關系看成實體間的轉移,后續發展出更復雜的轉移假設,將關系看成經過某種映射后的實體之間的轉移。
基本轉移假設的提出者Boedes 等[5]提出了第一個基于轉移的表示模型TransE,掀起了Trans 系列的研究熱潮。在TransE 算法中,若三元組(h,r,t)成立,則尾實體向量近似等于頭實體向量與關系向量之和,即h+r≈t,若三元組(h,r,t)不成立,則t應當遠離h+r,轉移過程如圖3所示。

圖3 TransE模型實體、關系向量空間
TransE 模型結構簡單,有兩個三元組(川航8633 事件,直接原因,風擋破裂),(大韓航空KE995 事件,直接原因,風擋破裂),兩個三元組中都存在實體“風擋破裂”和關系“直接原因”,TransE 模型只簡單考慮h+r=t,就會根據“風擋破裂”=“川航8633 事件+直接原因”,“風擋破裂”=“大韓航空KE995事件+直接原因”得出結論“川航8633 事件=大韓航空KE995 事件”,很顯然,這樣推理出來的結果并不準確。
為了解決上述問題,2014 年TransH 模型被提出,用來解決這種復雜關系。在TransH 模型中,實體首先被投射到關系特定的超平面,關系被看作超平面上的兩個實體之間的轉移。假設wr∈Rk表示關系r對應的超平面的法向量,則頭實體h和尾實體t在超平面wr上的投影h⊥和t⊥分別為三元組(h,r,t)的評分函數定義為式(1)。
其中:dr為關系r的向量表示,是r對應的超平面的方向向量,轉移過程如圖4 所示。TransH使不同的實體在不同的關系下擁有了不同的表示形式,但由于實體向量被投影到了關系的語義空間中,故它們具有相同的維度。

圖4 TransH模型
TransR 方法的提出是在TransE 和TransH 的基礎之上,TransE 和TransH 雖然都取得了很大進步,但是它們將實體和關系都映射在同一語義空間中,無法充分表示實體包含的多種屬性,以及不同的關系對應不同的實體屬性。TransR模型將知識三元組(h,r,t) ∈T中的實體h,t∈E映射到實體向量空間h,t∈Rd,關系r∈R映射到關系向量空間r∈Rk,且k≠d。并且使用不同的映射矩陣Mr定義從實體空間到各個關系空間的映射。轉移過程如圖5所示。

圖5 TransR模型
具體地,對于給定的三元組(h,r,t),TransR模型使用特定關系r下的映射矩陣Mr∈Rk*d將實體向量h和t從實體空間映射到關系r所在的關系空間中,得到hr和tr如式(2)所示。
在關系r所在的關系空間中,hr,tr,r∈Rk之間存在hr+r≈tr的關系。形式化地,TransR模型對三元組(h,r,t)定義如下評分函數:
實際中,TransR 模型使用最大間隔方法,定義目標函數:
其中:T為正例三元組集合;T'為負例三元組集合;γ為正負例三元組得分的間隔距離。TransR模型通過在關系空間最大化正負例三元組之間的得分差來優化知識表示。
公開數據集使用了兩個通用的知識圖譜語料庫[9],WordNet 的子集WN18RR 和Freebase 的子集FB15k?237。WN18 數據集是覆蓋范圍較大的英文詞匯數據庫;FB15k 的知識來源于維基百科,后被Google 收購并成為當前規模最大的開源通用型知識庫之一。數據集WN18RR 和FB15k?237 去掉了WN18 和FB15k 上存在的所有逆三元組來提高模型預測的準確性。其數據集基本信息如表2所示。

表2 知識圖譜語料庫
本文使用兩個統計量指標評估各個模型性能:平均倒數等級(MRR)和命中數@n(Hits@n)。MRR 指對測試集中的所有正三元組在評估結果中的排名的倒數取均值,若正三元組在結果中的排名越靠前,其倒數值越大,所以MRR 得分越大,模型性能越好。Hits@n 指排名前n的評估結果中正確結果所占的比例。一般地,Hits@10 指正確結果出現在評估結果列表前10 的一個概率。本文使用MRR 和Hits@n 指標對各個表示模型進行鏈接預測對比研究[10]。
實驗參數選擇如下:使用L2 正則化對打分函數進行約束;模型的學習率lr為0.01;實體和關系的嵌入維度為{50;100;200};同時,由于航空安全事件三元組數據相對公共數據集較少,為防止過擬合,設置迭代周期為500。
通過模型建模,我們得到了每個實體和關系的嵌入向量,利用嵌入向量,可以進行知識圖譜的鏈接預測[11]。鏈接預測分為三類:
(1)頭實體預測:(?,r,t)
(2)關系預測:(h,?,t)
(3)尾實體預測:(h,r,?)
利用向量的可加性即可實現,假設t'=h+r,則在所有的實體中選擇與t'距離最近的向量,即為t的預測值。鏈接預測結果如下表所示。

表3 鏈接預測結果(向量維度50)

表4 鏈接預測結果(向量維度100)

表5 鏈接預測結果(向量維度200)
根據實驗結果可以看到,當維度為50 和100 時,對于FB15k?237 數據集,TransR 模型的鏈接預測效果較好;而對于WN18RR 數據集,TransE 模型的鏈接預測效果較好。在ASIKG 數據集中,TransH 模型的鏈接預測效果好于TransE和TransR。
當維度為200 時,對于FB15k?237 數據集,TransR模型的鏈接預測效果較好;對于WN18RR數據集,TransR 模型的鏈接預測效果較好,但是TransR 的hit@10 指標仍小于TransE。由表2可知,WN18RR 數據集中實體數量遠大于FB15k?237數據集中實體數量,而關系數量卻少于后者。由此可知,算法的鏈接預測效果與數據集的結構關系密切。
在ASIKG 數據集中,TransH 模型的鏈接預測效果仍好于TransE 和TransR。結合航空安全事件三元組數據集特點,ASIKG中存在大量1對n和n對1 的關系,而存在少量1 對1 和n對n的關系,對于TransE 適合處理1 對1 關系,TransR適合處理n對n關系,結合ASIKG中的關系是16種固定關系,將實體投影到超平面的TransH 更適合航空安全事件知識圖譜的表示學習工作。
在基于轉移的知識圖譜表示學習研究中,知識圖譜表示學習的效果與知識圖譜數據結構類型息息相關,本文構建的航空安全事件知識圖譜ASIKG 中存在大量一對多和多對一的關系,而存在少量一對一和多對多的關系,相對于TransE 和TransR,TransH 模型更適合ASIKG 的表示學習工作。在后續的研究中,將嘗試結合神經網絡等深度學習算法對ASIKG 中的關系和實體進行充分表示學習。