999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向民航事故報告的異構圖摘要模型研究

2023-06-08 08:10:12何元清
現代計算機 2023年8期
關鍵詞:語義報告文本

何元清,鄭 鑫

(中國民用航空飛行學院計算機學院,廣漢 618307)

0 引言

民用航空事故跟蹤調查報告記錄事故發生全過程,監管者會通篇閱讀報告,提煉總結要旨,為本次事故提出原因分析和安全建議,同時指出監管疏漏之處,確定下一步工作重點。事故報告內容繁雜且專業性極強,目前主要依靠民航領域專家人工編寫事故發生原因概要,但面對海量且迅速增長的航空事故跟蹤調查報告,僅依靠專家不僅面臨效率困境還容易出現分析疏漏。如何快速、深入、準確地整理事故原因提煉事件詳情是制約事故報告利用率的關鍵問題。實現民航事故報告自動摘要可極大減輕專家閱讀工作量,自主篩選出重點信息,對提升民航專家工作效率,推理事故影響因素,調整民航監管工作重點具有重大意義。

目前文本摘要技術已經廣泛應用于新聞、微博用戶發言、商業服務評價等領域。Cheng等[1]在CNN/Daily Mail 中檢索出大量新聞文章構建出新聞語料庫,并為每個句子打上標準標簽,以及創建了來自此新聞語料的詞匯數據集。Zhou[2]等提出了端到端模型NEUSUM,首次將選擇策略融入打分模型中,并在CNN/Daily Mail數據集中達到當時最好效果。Zhong 等[3]細分析數據集對神經網絡摘要模型的影響因素,探討通用領域模型移植到專業領域的可能性,展示了充分挖掘數據集以及增添外部知識對模型的重要性。隨后,Zhong 等[4]提出Summary?level(篇章級)抽取式摘要的思想,即高質量摘要應當整體與原始文檔在語義空間上盡可能相似,并在CNN/Daily Mail 數據集上得到驗證。研究者盡管在摘要領域取得不斷進步,但大多集中在新聞領域。Zhong 等[5]從美國退伍軍人受傷后應激障礙訴訟案例中構建了法律領域摘要數據集,采用深度學習的抽取式方法獲取摘要,但出現語義缺失的問題;程坤等[6]針對中文新聞文本特點提出增加線索詞、標題相似度等因素來改進MMR(maximal marginal relevance)[11]算法;施國梁等[7]提出專利文本領域摘要模型,指出專利文本結構復雜、內容繁多,而當前通用領域下的模型所生成的摘要內容單一重復且不夠簡潔流暢。以上研究工作主要集中在公共領域,部分研究者開展法律、專利等特殊領域文本摘要,但卻難以直接移植模型,須對領域內數據集詳細分析。

與上述領域研究相比,民航事故調查報告內容繁雜,包含事故詳情,事故原因總結、專家意見等內容,文本中經常出現“飛行器名稱、故障名稱、零部件名稱”等一系列專業詞匯,這些內容直接影響摘要生成質量。這些因素導致現有的文本摘要模型在民航事故領域難以取得高質量摘要。因此,面向航空事故跟蹤調查報告的自動文本摘要技術成為了切實且緊迫的需求。

針對上述問題,為深度挖掘航空事故跟蹤調查報告文中語義關系,融入專業詞匯指導摘要生成,提出基于實體要素異構圖的抽取式文本摘要模型。基于圖神經網絡構建實體節點與句子節點多粒度異構圖,結合注意力機制構建EHGA(entity heterogeneous graph abstract model)模型。針對EHGA 模型有效性實驗所采用的文本數據來自各個國家飛行事故調查局發布的民航事故調查跟蹤報告,使用真實事故報告中事故詳情部分作為輸入。實驗結果表明,EHGA模型通過引入實體節點內部信息補充,在進行抽取式摘要時能取得較不錯的結果。于ROUGE[8]評分體系下顯示出較好的摘要抽取能力,極大減輕摘要的冗余程度,擴大摘要信息覆蓋范圍,相比傳統的序列到序列模型,在ROUGE?1、ROUGE?2 和ROUGE?L 上平均取得6.23%,4.67%和6.01%的性能提升。

1 EHGA 模型介紹

針對民航事故調查跟蹤報告文本設計基于實體要素異構圖的文本摘要方法,總體架構如圖1 所示。模型分為3 個主要部分,分別是實體抽取模塊、融合實體要素的異構圖注意力模塊和句子抽取模塊,本節將分別對以上部分進行詳細介紹。

圖1 實體要素異構圖摘要模型

1.1 實體抽取模塊

為使用實體要素來豐富句子之間的關聯關系,采用BERT?BiGRU?CRF 模型的方法獲取民航事故調查跟蹤報告中實體元素,其優勢在于結合了BERT[9]模型和BiGRU(Bi?directional gate recurrent unit)模型的優點。BERT 是已經在大型文本語料庫中訓練過的模型,其基于雙向Trans?former Encoder連接,內部采用多頭注意力機制,可以高效獲取文本中的語法結構和語義特征;之后利用BiGRU?CRF[10?11]模型標注實體,此模型充分考慮文本中上下文語句的連貫信息,從而使抽取的實體不是獨立分類。

圖2是實體抽取模塊的總體架構圖,以“泛非航空A332 的黎波里復飛過程中墜毀”為例,輸入“泛非航空A332 的黎波里復飛過程中墜毀”在BERT 層映射為token 值,然后在BERT層進行特征抽取獲得輸出向量,再到BiGRU 層理解上下文語境,經過前后雙向傳播得到包含雙層維度的輸出向量,最后經過CRF 層計算路徑分數最大值,獲得準確度最高的標注序列。

圖2 BERT?BiGRU?CRF模型結構

在獲取實體要素的同時,所輸入的文本數據被送入預訓練模型BERT中生成對應向量,為更加充分地對上下文語義內容進行學習,將預訓練獲取到的向量送入基于BiGRU 的特征提取層進一步凝合信息,之后便得到圖模型所需的句向量。

1.2 異構圖構建

傳統圖模型直接在句子間建立連接,而EHGA 模型構建一個多粒度信息的異構圖,以實體要素作為句子間的中介節點,由此形成的異構圖擁有更豐富的語義信息。在此圖中,有兩種基本粒度類型節點:句子和實體,其中實體來自實體抽取模塊。實體節點作為基本語義節點,代表詞級信息;句子節點對應文檔句子,代表全局信息。若實體出現在句子中,則將實體節點與句子節點連接,而句子結點間不直接相連,采用TF?IDF值作為邊的初始值。

因此給定圖G={V,E},其中V表示節點集,E表示節點之間的邊,則異構圖可以被定義為V=Vw∪Vs和E={e11,…,emn}。其中,Vw={w1,…,wm}表示文檔中m個唯一實體,Vs={s1,…,sn}對應文檔中n個句子。E為邊的權重矩陣且eij≠0(i∈{1,…,m} ,j∈{i,…,n}),其含義為第j個句子包含第i個實體。

1.2.1 圖節點表示

與其他模型相比,BERT 通過位置編碼和MLM(mask language model)得到符合上下文語境的詞向量,使其更符合原文含義,因而采用BERT 生成實體向量,句向量則需要充分考慮文本前后文采用BERT+BiGRU 訓練。令Xw∈?m×dw和Xs∈?n×ds表示實體向量和句子向量特征矩陣,dw表示實體向量維度,ds表示句向量維度。經過實體提取模塊得到實體向量表示Xz∈?p×dz,可以得到由BERT 所學習到的實體語義特征lw,和經過BiGRU 獲取句子級全局特征gs,最后經過Average?polling 層拼接,得到句向量的最終表示,具體如下:

詞節點出現的程度可以衡量文檔的冗余程度,實體節點可以聚合更多句子的信息來豐富圖結構信息。Xz∈?q×dz表示實體節點語義特征矩陣,q是實體節點數量,dz是在民航事故調查跟蹤報告中抽取實體的特征矩陣維數。

1.2.2 邊表示

為進一步概括句子節點之間的關系,定義句子-實體邊(如果一個句子包含一個實體)來模擬句子之間存在的豐富聯系。句子節點可以通過實體節點建立彼此之間的聯系,從全局層面觀察全文句子隱含關聯,實體與句子構成的邊被稱為wTs。

由此得到異構圖G={V,E},V=Xw∪Xs,E=wTs。

1.3 異構圖注意力機制模塊

EHGA 模型通過引入圖注意力網絡(graph attention networks,GAT)[12]來更新語義節點表示,具體表現如圖3所示。

圖3 融入實體節點異構圖注意力模型

民航事故調查跟蹤報告正文作為輸入,第i句的向量表示記為hi∈?dh(i∈(1,…,n)),hz∈?dh(z∈(1,…,m))表示實體節點向量,eiz∈?n×m表示實體節點與句子節點的邊特征矩陣,則整個圖注意力層設計如下:

其中,Wa,Wq,Wk是可訓練參數,γiz表示句子節點i與實體節點z之間的注意力權重計算,EHGA 模型對γiz進行歸一化操作得到αiz便于不同句子節點的重要性比較,如公式(3)。對于句子節點hi與其他相連的所有實體節點hz進行信息聚合, GAT 層整體運算過程如以下表達式所示:

其中μi是句子節點hi在其所有鄰接實體節點上學習到的向量表示,因此也具有特定的語義信息。為了在學習過程中提取更多特征,EHGA模型采用多頭注意力機制,如下所示:

考慮到圖神經網絡常見的過渡平滑以及梯度消失問題,EHGA 模型參考transformers 中殘差連接設計,避免因迭代次數過多而引起的梯度消失問題。因此在圖注意力網絡中句子節點hi的特征向量表示為

在每個圖注意力層后,引入一個前饋網絡(FFN)層對特征進行進一步壓縮,獲得最終的句子稠密向量表示,其計算過程如下。

1.4 句子選擇模塊

在真實句子選擇時,往往會出現句子級分數較低但是整體摘要分數較高的情況,為了保證最終摘要結果的可讀性和重要信息的覆蓋度,EHGA 模型采用Trigram blocking 策略。對所有候選句子依據概率排序,依次選擇概率最高的句子,如果被選擇的句子與當前摘要存在三元組重疊(trigram overlapping)[13],則認為其冗余,反之則將其加入摘要,并從剩余候選句子中排除此句,反復進行以上操作直到滿足摘要所設定的長度閾值。EHGA 模型采用交叉熵作為損失函數衡量真實摘要和預測結果之間的距離,損失函數公式為

其中:yi表示對應句子hi的真實標簽,yi= 1 表示第i個句子應該包含在摘要中。

2 實驗及結果分析

2.1 數據集及實驗環境介紹

2.1.1 數據集構建

本次實驗使用來自各個國家飛行事故調查局所發布的民航事故調查跟蹤報告數據集,包含由2010—2016 年世界各地民航事故調查跟蹤報告共861篇,并對文本進行清洗、標注,構建航空事故報告數據集,有效數據842對,數據集統計結果如表1所示。

表1 數據集統計

實體數據集則通過民航局頒布的《民用航空器事故征候》《民用航空器征候等級劃分辦法》《事件樣例》《民用航空器事故和飛行事故征候調查規定》《民用航空安全信息管理規定》等規范性文件確定實體名稱,包括航空事件、航空事件原因、航空地面事件等類型規范實體名和報告中一些不規范實體名稱,因此實體要素對于摘要的生成具有科學性與準確性。

2.1.2 實驗環境介紹

本次實驗CPU 使用Intel Core I9-10900X,內存96 GB,GPU 為Nvidia GeForce RTX 3090 24 GB 一塊。采用深度學習框架PyTorch,實驗環境PyCharm,Python 3.8 版本。EHGA 模型使用預訓練語言模型BERT 初始化句子節點表示,其詞向量的維度是768。對于實體的選擇,每個文檔選擇前10 個關鍵短語。在異構圖注意力模塊設置頭數K= 8。每個頭中句子節點的隱藏向量維度為128,最終連接節點向量的維度為768。采用ROUGE(Recall?Oriented Un?derstudy for Gisting Evaluation)中的RG?1、RG?2和RG?L。

在訓練過程中,實驗設置訓練的批量大小為32,訓練輪次24,使用Adam 優化器,設置學習率為5e-4。

2.2 實驗結果分析

2.2.1 基準模型

為證明EHGA 模型的有效性,將其與幾個優秀的文本摘要模型進行比較。

(1)Lead?n:選取文中前n個句子作為文章摘要,常用于新聞領域。

(2)TextRank[14]:以句子間相似度構建圖模型。

(3)Summer RuNNer[15]:是基于序列分類器的循環神經網絡對句子分類訓練模型,采用兩層雙向GRU(gate recurrent unit)和循環神經網絡(recurrent neural network,RNN)來對句子進行編碼。

(4)BERTSum[16]:采用預訓練模型BERT 獲取文檔中每個句子的句向量編碼,通過貪心策略選擇最優的top?n個句子。

2.2.2 模型檢測

本實驗以ROUGE 評分體系作為文本自動摘要的評價標準,采用ROUGE?N(N 為N?gram),ROUGE?L,ROUGE?S 等數值作為對當前所得摘要的評價,其計算方式如下:

2.2.3 基線模型結果分析

本組實驗是在民航事故調查跟蹤報告數據集上進行EHGA 模型與上述4 個模型對比,結果如表2 所示。可以看到,EHGA 模型與其他模型相比ROUGE 指標提升顯著,證明EHGA 具有更好的摘要效果。

表2 基線模型對比試驗

EHGA 模型通過采用異構圖來融入內部信息實體節點,可以有效豐富模型的語義信息,提高摘要性能,并且依照實體更貼近原文內容;同時圖結構可以跨越簡單上下文的關系而獲得更遠距離的語義信息,對抽取處更貼近原文的句子具有指導作用。與Lead?n 模型相比,選取前n句作為摘要時更適合有總結句的文本,而航空事故報告是平鋪直敘,顯然不適合。與Text?Rank 相比,EHGA 模型以實體要素作為句子關鍵程度的指標,重點關注的是句子,而TexkRank 更加關注關鍵詞,偏離原文主旨。與SummaRuNNer 相比,EHGA 模型引入實體要素輔助模型理解文本含義,而SummaRuNNer 則只依靠神經網絡學習文本特征,使得模型會過分關注某一方面而造成文本冗余。

2.2.4 消融實驗

為驗證EHGA 模型中各個模塊的效果而開展了消融實驗,實驗結果如表3所示。EHGA 是在圖神經網絡(GNN)的基礎上增加了實體要素節點,效果較GNN 在ROUGE?1,ROUGE?2 和ROUGE?L 3 種評價指標上均有明顯提高。說明增加實體要素可以使模型盡可能關注到與實體相關的句子,而達到專有名詞指導文本摘要生成效果。其實驗結果如表3所示。

表3 消融實驗對比

2.2.5 案例展示

為進一步展示EHGA 模型的實驗效果,以“美國航空公司MD-82 飛機圣路易斯發動機起火事故調查報告”為例對輸出摘要進行評價分析,具體如表4。

表4 抽取式摘要樣例展示

通過表4的樣例展示,EHGA 模型依據實體要素能夠較為全面地概括報告內容,實體要素的加入能夠在圖注意力機制中篩選出與事故關聯性強的句子,能夠擴大信息的覆蓋范圍,關注不同層次信息,多維度概括文本內容,因此可見實體信息對于文本摘要的生成具有指導意義。

3 結語

EHGA 模型針對民航事故調查跟蹤報告,提出基于實體要素異構圖注意力機制抽取式摘要模型。把詞語、實體和句子構建為異構圖,以注意力機制獲得句子重要程度,聯合評分機制獲得最終摘要。實驗證明,針對事故報告這一特定領域的摘要任務,融入實體要素能夠提升摘要選擇覆蓋度和準確性,生成高質量摘要。同時也驗證了,基于異構圖網絡進行文本數據分析,更加關注句子間隱含的深層關系。

同樣,在研究過程中發現人工摘要存在大量總結式、概括式和推理式詞語,這些無法在原文中找到對應,無疑給抽取式摘要帶來極大的挑戰。因此在下一步研究中,擬繼續在異構圖中添加更多外部知識,提升摘要性能。

猜你喜歡
語義報告文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一圖看懂十九大報告
報告
南風窗(2016年26期)2016-12-24 21:48:09
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
報告
南風窗(2015年22期)2015-09-10 07:22:44
報告
南風窗(2015年7期)2015-04-03 01:21:48
認知范疇模糊與語義模糊
主站蜘蛛池模板: 综合网久久| 亚洲日韩高清在线亚洲专区| 露脸真实国语乱在线观看| 欧美成人免费午夜全| 成人免费视频一区二区三区| 在线欧美日韩国产| 亚洲中文精品人人永久免费| 日韩久久精品无码aV| 九九热精品在线视频| 亚洲国产中文在线二区三区免| 国产精品三级专区| 欧美日韩国产综合视频在线观看 | 欧美无遮挡国产欧美另类| 91娇喘视频| 国产日韩精品一区在线不卡| 亚洲欧洲日韩国产综合在线二区| 四虎永久在线视频| 四虎永久在线精品国产免费| 日韩123欧美字幕| 波多野结衣一区二区三区四区| 在线va视频| 麻豆精品在线视频| 免费精品一区二区h| 亚洲一区二区无码视频| 五月激情综合网| 高清不卡毛片| 欧美日韩成人在线观看| 国产精品福利一区二区久久| 日韩在线永久免费播放| 直接黄91麻豆网站| 国产导航在线| 国模极品一区二区三区| 国产精品视频白浆免费视频| av手机版在线播放| 亚洲精品欧美重口| 日韩免费毛片| 无码日韩精品91超碰| 亚洲欧洲一区二区三区| 日韩免费成人| 香蕉视频国产精品人| 国产麻豆福利av在线播放| 99爱视频精品免视看| 国产玖玖视频| 色婷婷在线影院| 91在线丝袜| 亚洲无码一区在线观看| 国产人成乱码视频免费观看| 国产成人在线无码免费视频| 91系列在线观看| 国产色婷婷| 国产精品亚洲五月天高清| 伊伊人成亚洲综合人网7777| 国产h视频在线观看视频| 九九香蕉视频| 露脸一二三区国语对白| 国产日韩欧美中文| 亚洲无码高清视频在线观看| 奇米精品一区二区三区在线观看| 91成人在线免费视频| 久久国产毛片| a欧美在线| 亚洲中文字幕无码爆乳| 婷婷六月综合网| 国产九九精品视频| 国产成人艳妇AA视频在线| 欧洲一区二区三区无码| 国产欧美在线观看视频| 欧美日韩专区| 国产成人高清精品免费| 最新国产在线| 波多野结衣一级毛片| 青草视频网站在线观看| 九九久久精品免费观看| 久久国产香蕉| 欧美激情综合| 天堂在线亚洲| 国产精品第5页| 成人在线第一页| 国产精品三区四区| 中文字幕自拍偷拍| 伊人久热这里只有精品视频99| 91丝袜乱伦|