999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

火災應急領域知識圖譜問答方法研究

2023-07-12 08:44:14,查俊,2
軟件工程 2023年7期
關鍵詞:方法模型

潘 茹 ,查 俊,2

(1.安徽建筑大學電子與信息工程學院,安徽 合肥 230601;2.清華大學合肥公共安全研究院,安徽 合肥 230601)

0 引言(Introduction)

據國家消防救援局的公開數據統計,2021年,全國消防救援隊伍共接報處置各類警情195.6萬起,其中共接報火災74.8萬起,占總警情的38.2%,是社會單位常見、危害較大的災害[1]。火災的應急救援行動往往受限于應急人員火災知識的積累,然而當前火災應急的相關知識和應急預案常常以多元化、非結構化的形式分布在互聯網和相關書籍中,基于傳統的搜索方式和問答系統對特定場景進行精確搜索的難度較大。因此,研究基于知識圖譜的問答方法,為用戶提供精確的火災應急知識具有重要意義[2]。

目前,主流的知識圖譜問答方法研究有基于語義解析的方法和基于信息檢索的方法兩類[3-6]。前者主要通過規則或結構將問句查詢解析為問句語義邏輯形式,然后在知識庫中執行該邏輯形式的表達式,以尋找答案集合,但該方法依賴人工解析語義關系,預測未知關系困難。后者通過鏈接問句主題實體臨近的子圖,應用排序算法選擇最高位置的實體檢索答案,該方法泛化性強,但推理過程強依賴上游任務的輸出結果,易將錯誤傳播至下游任務,降低了推理過程的可解釋性。因此,本文基于傳統的信息檢索式的知識圖譜問答方法,提出一種基于火災應急領域知識圖譜的問答Pipeline改進方法,旨在解決下游推理對上游結果的強依賴、答案推理的效率低下,以及小規模知識圖譜模型訓練的過擬合等問題。

1 火災應急知識圖譜問答方法(Fire emergency knowledge graph Q&A method)

火災應急知識圖譜問答方法主要分為兩個階段:第一個階段為火災應急領域問句理解,對火災應急領域提問進行火災領域實體識別、火災領域實體鏈接,以獲取問句中的實體并鏈接到火災應急領域知識圖譜中;第二個階段為答案檢索與推理,基于第一階段獲取到的火災領域實體,進行實體路徑生成、排序和答案檢索,具體內容如下:先針對上一步驟中獲取的火災領域實體在知識庫中的子圖,基于特定的規則生成路徑,再通過路徑排序模型為生成的路徑進行排序,同時基于特征融合的方法對前期特征進行整合,避免問句理解階段的錯誤傳播,最后將路徑還原為知識圖譜中的三元組,經過知識圖譜的查詢語句檢索答案返回給用戶。

火災應急領域知識圖譜問答方法框架圖如圖1所示。以問句“請幫我找到森林火災的應急預案”為例,首先對問句進行實體識別,得到“應急預案”和“森林火災”兩個實體,“應急預案”的圖譜流行度較高,其得分為1.0,“森林火災”由命名實體識別模型評判得分為0.58。在傳統Pipeline方法中,直接將得分較高的“應急預案”作為結果進行唯一輸出,從而導致在實體鏈接及路徑排序階段輸出的三元組中,找不到“森林火災”實體的相關路徑,最終得到一個不準確的答案。但是,本文所提方法將實體識別、實體鏈接及路徑排序階段的特征分數予以保留,即使“森林火災”實體在上游任務中的得分較低,但也不會舍棄該實體,而是在答案推理階段通過特征融合進行重新排序,讓“森林火災”這條路徑上的三元組獲得較高的得分(0.86),從而輸出(“森林火災”-“應急預案”-A)的結果,為用戶提供了更精準的回答。其中,圖1中的火災領域實體識別、火災領域實體鏈接、候選路徑排序模型使用了遷移學習的策略,在外部的知識圖譜問答語料上進行了預訓練。

圖1 火災應急知識圖譜問答方法框架圖Fig.1 Framework of fire emergency knowledge graph Q&A method

2 火災應急領域問句理解(Question comprehension for fire emergency domain)

2.1 火災領域實體識別

本文主要使用BERT(Bidirectional Encoder Representations from Transformers,雙向Transformers編碼器)+CRF(Conditional Random Field,條件隨機場)模型、詞典匹配及規則提取三種方法聯合進行實體的識別抽取。其中,BERT+CRF模型輸入的是將火災應急領域問句字符串基于BERT的詞典轉換后的字詞向量,經過多個Transformer編碼器計算處理后,輸入CRF模型中進行序列BIO標注(O表示非實體;B-M 表示實體詞開頭的第一個字符或單字符的實體;I-M 表示實體詞的中間或結尾字符),經過CRF標注處理后輸出一個概率矩陣,得到候選實體集合Ma及每個實體對應的概率分數。模型結構如圖2所示。

圖2 BERT+CRF模型結構圖Fig.2 Structure diagram of BERT+CRF model

詞典匹配的方法主要借鑒了最大匹配算法的思想。設Q為多個問句的集合,對于一個給定的問句q∈Q,由長到短獲取問句中的連續子串str n,對句子進行遍歷。如果連續子串對應圖譜中的某個實體GE,則將該字符串記錄到候選實體集合Mb中,并從問句中刪除,以此類推,直至子串的長度為0,則結束對該問句的匹配。詞典匹配算法偽代碼如下。

規則提取法是基于火災應急領域預設的包括特定地點、人名、專業術語、書名號等信息的特定規則,提取子串作為實體,記錄到候選實體集合Mc中。

最終,令i作為問句的編號,則q i表示第i個問句,將上述三種方法的實體識別結果進行合并,得到q i的候選實體集合為Mi=Ma∪Mb∪Mc,多個問句集合Q的候選實體集合為M={M1,M2,…,Mi},并記錄所有結果。

2.2 火災領域實體鏈接

實體鏈接是將問句中的實體對應到火災應急知識圖譜的實體項中。具體步驟如下:首先,進行實體還原,實現問句中不完整實體的還原。例如,問句為“藥廠火災該怎么處置?”,抽取到的實體為“藥廠火災”,則需要還原為知識圖譜中記錄的實體項“醫藥廠火災”。其次,基于實體鏈接詞典尋找問句中的實體對應的一個或多個火災應急知識圖譜中的具體實體項。最后,若問句中的實體鏈接到多個實體項,則進行實體消歧處理,模型結構如圖3所示,將問句和鏈接到的實體分別作為Text1和Text2輸入BERT模型中進行處理,再將BERT輸出結果的起始位置[CLS]標簽通過Concat(連接層)與下游任務進行拼接,接著經過一個Dense(全連接層)提取特征,并添加Dropout(隨機失活層)防止模型訓練的過擬合,通過Sigmoid函數完成標簽的概率計算,其核心工作是計算用戶提出的問句與實體相關屬性的相似度,計算公式如下:

圖3 實體消歧模型結構圖Fig.3 Structure diagram of entity disambiguation model

其中,Mi是編號為i的問句中的候選實體集合,E i是對應Mi鏈接到知識圖譜后的實體集合,q是原問句。最終的輸出結果為[0,1]中的某個值,該值越接近1,則說明實體項越符合問句的語境;反之,則說明實體項與問句無關,可能不是用戶所提問的實體。

3 火災應急領域答案推理(Answer reasoning for fire emergency domain)

3.1 候選路徑生成

本文采用基于模板生成路徑的方式,定義了spa和apo兩種查詢基線,通過這兩種查詢基線進行單跳或多跳路徑擴展。其中,spa即實體(主體)-關系/屬性-答案,以實體作為頭節點,經過關系尋找答案;apo即答案-關系/屬性-實體(客體),以實體作為尾節點,經過關系尋找答案。本文盡可能地窮舉了路徑生成的方案,詳見表1。表1中涵蓋了常見的單實體單跳路徑、單實體多跳路徑。

表1 路徑生成模板Tab.1 Path generation template

3.2 候選路徑排序

本文路徑排序模型結構與實體鏈接階段的實體消歧模型類似,但模型的輸入不同,這里將問句和候選路徑分別作為Text1和Text2。需要說明的是,該模型僅計算實體候選路徑與原問句的相似度,并且不關心它所對應的實體是否是問句的中心實體。

考慮到候選路徑過多時會導致問答系統的響應效率低下,因此引入Beam Search算法針對路徑排序模型進行優化。首先重置一個路徑集合P0,i表示當前進行的跳數,當進行第i跳時,基于實體路徑生成方法,從實體臨近的子圖中尋找三元組路徑并與P i-1的路徑結合;其次將當前跳生成的每一條路徑與原問句計算語義相似度,記錄其得分;接著將其得分進行排序,保留k個得分排名靠前的路徑,將其他得分較低的當前跳路徑刪除;最后到達最大跳數時,停止循環。Beam Search優化算法偽代碼如下。

在本文領域中的具體應用為當目前擴展的關系跳數為1跳時,直接執行相似度計算模型,對所有單跳路徑進行相似度計算,并記錄得分;當目前擴展的關系跳數為2跳及以上時,保留前一跳排名前3名的路徑,在這些路徑上進行跳數擴展;約束最大的擴展跳數目前為3跳。

3.3 特征融合

在傳統的Pipeline方法中,對問句進行上游任務處理時就會直接提取核心實體作為唯一確定的問句實體,從而導致問答系統十分依賴實體識別階段模型的精確度,一旦模型輸出的實體出現錯誤,則會將錯誤傳播至實體鏈接及實體路徑排序階段,那么問答系統下游任務進行的工作將徒勞無益,最終難以找到正確的答案。

在本文提出的改進Pipeline方法中,采用Task specific(任務專一化)思想,每個任務模塊都專注其當前任務,只記錄模型當前輸出的實體集合及評分結果,不會直接以模型評分的高低確定某一個實體或路徑。即本文所提方法將實體識別、實體鏈接和路徑排序中每一個實體及其路徑的得分予以保留,并將其作為置信度進行特征融合重新排序。此方法可有效防止實體識別、實體鏈接階段出錯時,基于錯誤的實體找到錯誤的路徑和答案的情況。特征融合示意圖如圖4所示。

圖4 特征融合示意圖Fig.4 Schematic diagram of feature fusion

本階段將當前生成的所有候選路徑集合中所對應的相關特征進行融合,其中針對每一條候選路徑定義了6個相關特征。

(1)S1表示火災領域實體識別階段的三種方法聯合抽取到的實體特征得分。對于通過BERT+CRF模型得到的實體,記其特征得分為BERT+CRF模型的預測分數;對于通過詞典匹配和規則提取方法得到的實體,本文直接對該特征進行賦值,記其特征得分為1。

(2)S2表示實體鏈接階段中獲取的實體特征得分。若火災領域實體進行鏈接時只鏈接到一個實體項,則認為該火災應急知識圖譜中的實體是唯一的具體實體義項,記該實體的特征得分為1,否則記為基于實體消歧模型給出的得分。

(3)S3屬于路徑模型特征得分,直接記為候選路徑排序模型給出的分數,即計算問句與候選路徑的語義相似度。

(4)S4屬于路徑基礎特征得分,將候選路徑中的字符長度與問句中的字符長度進行比值計算。設問句中的字符長度為n,候選路徑中的字符長度為m,則S4=m/n。

(5)S5屬于路徑基礎特征得分,表示用戶問句與候選路徑的字級別相似度。采用Jaccard相似度計算方法,設A為給定問句中每個字符的集合,B為給定問句中所對應的候選路徑中每個字符的集合,則該特征得分的計算公式如下:

(6)S6屬于路徑基礎特征得分,表示用戶問句與候選路徑的詞級別相似度。對于給定的問句,先使用jieba分詞庫進行分詞,從而將句子分成若干個詞,再使用Jaccard計算分詞后的問句與路徑的詞級別相似度。

收集上述特征,并基于XGBoost(極限梯度提升樹)算法對以上6個特征進行融合計算[7]。計算結果為每一條候選實體路徑對應的特征融合得分,輸出范圍為[0,1]中的某個值,該值越接近1,則說明當前候選路徑的各項特征越符合問句,即當前候選路徑的答案節點作為標準答案的置信度越高;越接近0則表示當前路徑所對應的答案不能回答用戶的提問。

最終,對排名最高的候選路徑提取其實體節點和關系,查詢知識庫,并返回答案節點,回答用戶針對火災應急領域的提問。

3.4 遷移學習策略

由于本文在實體識別、實體鏈接和路徑排序中都使用了涉及億級別參數量的預訓練語言模型,而在火災應急知識圖譜的問答場景中,訓練語料中的三元組數量級和問答對僅為百級別,訓練時極有可能導致嚴重的過擬合或預測錯誤。因此,本文采用遷移學習策略,利用外部語料訓練出一個成熟的通用領域知識問答模型,再遷移至火災應急領域,采用凍結部分網絡層的策略進行模型微調,使得問答模型既具有回復通用領域問題的能力,又能夠在火災應急領域的問題上體現其專業性。外部語料使用的數據集源自biendata競賽平臺開展的CCKS2021生活服務知識圖譜問答評測任務,其中問答語料使用的是由北京大學和北京三快在線科技有限公司人工構建與標注的8 500條問答數據,本文將其以8∶1∶1的比例劃分為訓練集、驗證集和測試集。知識圖譜使用的是由開放領域知識庫PKUBASE及生活服務領域數據集融合得到的知識庫數據,本文將其導入Neo4j數據集中,構建知識圖譜,其中包含65 535 841個三元組、16 867 071個實體項和408 755個屬性項。

4 實驗(Experiment)

4.1 實驗數據介紹

本文依據維基百科、百度百科、國家消防救援局、互聯網上的其他資料以及相關科普書籍梳理了544個三元組、192個實體、93個關系,其中包括火災、火災事件、可燃物、滅火器、滅火方法、Person(響應人或責任人)6 類概念;InstanceOf、Subclass Of、使用、依附于、參與燃燒、引發火災、所屬類別、調用、選用滅火器9種關系類型;中文名、含義、外文名、概念、分類、原理、撲救要點、注意事項、災害特性、特別警示、特性、級別、結構、適用范圍、使用方法、條件、蔓延方式、后果、撲火原則19種屬性類型。將上述火災應急領域相關語料整理成csv文件儲存Neo4j數據庫中,構建知識圖譜。

此外,為方便問答方法的結果驗證,本文搜集并整理了100個火災應急領域的問題,人工標注了涉及的實體和三元組路徑。示例如下:

問題:A類火災的特性?

實體:A類火災

三元組:A類火災-特性-答案

答案:固體物質火災,一般在燃燒時能產生灼熱的余燼。

4.2 實驗結果與分析

本文實驗在進行模型訓練時,采用Adam 作為參數優化器,設置其學習率為0.000 5,Dropout設置為0.5,訓練最大迭代次數設置為100次,批大小參數Batch Size設置為128;在計算模型誤差時,選用二元交叉熵損失函數。

實驗一:將本文所提方法與傳統Pipeline 方法、傳統Pipeline進行遷移學習的方法,以及傳統Pipeline和汪洲等提出的特征融合相結合的方法進行對比實驗[8]。

在火災應急領域知識圖譜問答語料中隨機抽取100個句子作為測試集語料,評估指標采用準確率P,設Q為問句集合,為問句的個數,TA為預測答案正確的問句個數,計算公式如下:

實驗一的結果見表2。從表2中可見,傳統Pipeline加入遷移學習后方法的準確率為83.0%,與單獨使用傳統Pipeline方法相比,準確率有了顯著的提升,說明本文提出的遷移學習策略可以有效地解決火災應急領域問答語料較少導致的泛化性差的問題。傳統Pipeline加入的特征融合方法的準確率為79.0%,比傳統Pipeline加入遷移學習后方法的準確率低4.0%,說明本文的模型在經歷遷移學習后更加優秀。本文所提方法與傳統Pipeline加入遷移學習后方法相比,準確率提升了6.0%,證明本文所提方法能夠提升火災應急領域知識問答的準確性和可擴展性。

表2 火災應急領域問答語料的預測結果Tab.2 Forecast results of Q&A corpus for fire emergency domain

實驗二:嘗試在CCKS2021生活服務知識圖譜問答數據集上,將本文所提方法與傳統的Pipeline進行第一組對比實驗;再將本文所提方法與CCKS2020新冠百科知識圖譜問答評測任務的前兩名方案進行第二組對比實驗,其中第一名為基于特征融合的中文知識庫問答方法[8],第二名為基于預訓練語言模型的檢索-匹配式問答方法[9]。評估指標采用平均F1值,設Q為問句集合,i為問句的編號,Mi為在第i個問句中模型預測的答案集合,A i為在第i個問句中實際為正確的答案集合。計算公式如下:

實驗二的預測結果見表3,可以看到本文所提出的問答模型的性能仍顯著超越傳統Pipeline方法,但是與競賽的先進方案相比還是有一定的差距,分析原因具體如下:第一,CCKS競賽中的問句大多都是多跳復雜問句,本文模型在多跳復雜問句的表現上采用了模板擴展的思路,有時未能覆蓋PKUBASE知識庫的全部路徑,導致路徑遺漏從而輸出錯誤答案。第二,沒有考慮包含條件約束的問句的處理方法,例如“北京外環內最近的一家酒店的名稱叫什么?”這類問句,蘊含著限制條件和數值表達式,這種限制條件并未納入本文的考察范疇。

表3 CCKS2021生活服務問答數據集的預測結果Tab.3 Forecast results of CCKS2021 life service Q&A dataset

5 結論(Conclusion)

本文面向火災應急知識圖譜設計了一種基于傳統信息檢索式的知識問答Pipeline改進方法,首先采用Task specific思想將實體識別、實體鏈接及實體路徑排序三個階段的模型輸出結果作為重要特征進行保留,并利用XGBoost算法進行特征融合,以避免上、下游任務的誤差傳遞問題;其次引入Beam Search算法提升傳統路徑排序階段的推理速度,旨在提高問答的搜索效率;最后提出遷移學習策略解決火災領域小樣本模型學習問題。

實驗表明本文提出的方法與傳統方法相比獲得了不錯的提升效果,可為火災應急知識的獲取提供精確的查詢手段。但是,本文對多意圖問句的理解和路徑生成策略的研究較為欠缺,本文的路徑排序模板較難覆蓋多意圖的復雜問句。此外,本文沒有對含有限制條件的問句進行約束,因此進一步提升問答模型的性能指標、響應速度,并側重于復雜問句的理解和約束,是研究人員接下來的研究目標。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 看看一级毛片| 老司机午夜精品视频你懂的| 亚洲精品无码在线播放网站| 自拍中文字幕| 国产精品嫩草影院av| 热久久综合这里只有精品电影| 久久久久久久久亚洲精品| 茄子视频毛片免费观看| 国产精品自拍合集| 日本人又色又爽的视频| 国产91视频免费| 2021亚洲精品不卡a| 91无码视频在线观看| 免费在线国产一区二区三区精品| 少妇精品在线| 成人中文字幕在线| 午夜福利视频一区| 国内黄色精品| 高清久久精品亚洲日韩Av| 91色爱欧美精品www| 第九色区aⅴ天堂久久香| 日本免费福利视频| 国产精品天干天干在线观看| 久草视频福利在线观看| 亚洲午夜综合网| 亚州AV秘 一区二区三区| 一级毛片免费高清视频| 亚洲人成人伊人成综合网无码| 中文字幕有乳无码| 一级毛片免费不卡在线| 久久美女精品国产精品亚洲| 97国产在线观看| 午夜啪啪福利| 4虎影视国产在线观看精品| 亚洲h视频在线| 视频一区亚洲| 久久久久国产一区二区| 99久久精品国产精品亚洲| 国产凹凸一区在线观看视频| 亚洲人成人无码www| 五月激情综合网| 毛片大全免费观看| 精品国产网| 99久久国产综合精品2020| 国产精品浪潮Av| 亚洲国产精品成人久久综合影院| 欧美黄色a| 丁香婷婷久久| 国产免费久久精品99re丫丫一| 国产日韩精品欧美一区喷| 中文字幕 欧美日韩| 亚洲日本中文字幕乱码中文| 天堂亚洲网| 久久国产高潮流白浆免费观看| 免费看一级毛片波多结衣| 国产尹人香蕉综合在线电影 | 香蕉色综合| 99久久这里只精品麻豆| 国产波多野结衣中文在线播放| 最新日本中文字幕| 色综合综合网| 99ri国产在线| 国产欧美网站| 在线视频亚洲欧美| 农村乱人伦一区二区| 99热国产这里只有精品无卡顿" | 五月激情综合网| 一边摸一边做爽的视频17国产 | 精品成人免费自拍视频| 国产尤物视频网址导航| 韩国自拍偷自拍亚洲精品| 2019国产在线| 成人一级黄色毛片| 中文字幕亚洲另类天堂| 亚洲欧美精品日韩欧美| 日韩精品资源| 亚洲狠狠婷婷综合久久久久| 在线观看免费国产| 欧美日韩第三页| 国产欧美日韩资源在线观看| 国产在线视频二区| 国产91色在线|