中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2025)08-0146-07
Abstract:China isoneofthecountries withthe mostserious naturaldisasters inthe world.Typhoons,arthquakesfoods and ther disasters ocur frequently,posing a huge threat tothesafetyof people'slives and property.Facing thecomplexityand urgency ofdisasteremergencymanagement,Knowledge Graphtechnology has graduallybecomearesearch hotspot inthis field byvirtueofitsadvantagesiniformationintegration,elationsipingandknowledgereasonig.However,theeterogeity andqualityofisasterdataarenotufor,hichliitstheabilityoftraditioalNaturalLanguageProcessngmethodstotract Knowledge Graph information.Therefore,this paper proposes aLarge Language Model knowledge extraction method based on distributedpromptstrategy.Troughrequirementhints,domainknowledgehintsandfew-shothints,theLargeLanguageModel can automatically extract entitiesand relationships from unstructured data, which improves the automation and accuracy of KnowledgeGraphconstruction.InordertoverifytheefectofKnowledgeGraphbasedonLargeLanguageModelinpractical application,thispapertakes thetyphoondisasteremergencyplanasanexampletocostruct thecoresponding Knowledge Graph and its intelligent question and answer system.
Keywords:Knowledge Graph;Large Language Model; knowledge extraction; inteligent questionandanswer
0 引言
災減災要求。
隨著氣候變化的影響日益顯著,極端天氣事件如暴雨、洪水、臺風等變得更加頻繁且劇烈。這不僅增加了災害發生的可能性,對人民生命財產造成了極大威脅,而且自然災害種類多且在中國不少地區發生頻率很高,加大了災害管理的復雜性和挑戰性。因此,迫切需要提升我國自然災害應急管理和綜合減災的能力,從而最大程度減少自然災害給中國經濟和社會造成的損失,實現“兩個堅持、三個轉變”的新時期防
為了有效應對災害管理帶來的挑戰,中國各地區都制定了詳盡的自然災害應急預案。這些預案通常包括災害預警系統的建立與完善、應急響應機制的構建、救援隊伍的培訓與裝備配備、疏散路線的規劃以及災后重建計劃等多個方面。此外,隨著科技進步和社會發展,災害應急預案也需要不斷地更新和調整,以適應新的形勢和技術要求。然而,隨著互聯網領域的發展,各種數據來源不斷涌現,數據量呈指數級增長,自然災害相關數據在種類和數量上也隨之增多,這對數據整合、處理和分析的能力提出了更高要求。因此,從海量數據中獲取有效數據,并利用這些數據為人們提供智能化服務,成為當今時代研究的一項重要課題。
知識圖譜是一種結構化的語義知識庫,能夠將復雜的知識以可視化和結構化的方式組織起來,建立起實體、關系和屬性之間的關聯網絡,更加直觀、方便地存儲和檢索信息。依托知識圖譜在領域知識學習、組織和推理追溯方面的優勢,通過知識圖譜技術從文本數據中獲取自然災害應急領域關鍵知識,完成“數據一信息一知識”的轉變,從而提高自然災害應對效率,促進應急預案電子化、結構化、數字化、智能化發展,提升整體災害應對能力。在自然災害應急領域,知識圖譜的構建需要提取實體、屬性、實體信息等關鍵信息,通過相互關聯的信息形成網狀結構。然而,在實際的災害應急應用中,數據來源多、數據領域受限、數據質量不統一,限制了傳統自然語言處理方法對實體、屬性及關系的提取,從而制約了知識圖譜的應用。
大語言模型是一種基于深度學習的人工智能模型,專門設計用于處理和生成自然語言。這類模型通常是基于Transformer架構,經過在大量的文本數據上進行訓練,能夠理解、生成、翻譯和總結文本,還可以進行對話、回答問題以及執行各種自然語言處理任務。因此,大語言模型在信息抽取方面展現出強大的理解、學習和表達能力,優秀的學習能力使得大語言模型可以通過少量的示例學習新任務,快速適應不同的信息抽取任務,而不需要大量的特定任務的數據集。
本文提出基于大語言模型的自然災害應急知識圖譜的構建方法和應用研究。利用大語言模型等技術可提取海量數據中的關鍵信息,為知識抽取階段提供了極大的便利,從而能更好更快地構建自然災害應急知識圖譜。
1研究背景
知識圖譜的構建通常包括知識獲取、知識表示、知識融合和知識推理等過程。在知識獲取方面,研究者們采用自然語言處理、信息抽取等技術,從文本、數據庫、傳感器數據等多種數據源中獲取災害相關信息,并將其轉化為結構化的知識表示。賀海霞等人通過提取關鍵詞,分析建立關鍵詞之間的聯系以發現災害應急相關知識[。在知識表示方面,圖譜中的知識通常以節點(實體)和邊(關系)的形式表示。為了提升災害領域知識圖譜的表示能力,研究者李澤荃等人從致災因子、承災體、孕災環境等角度分解識別復雜的災害場景,從而提升對災害事件的場景感知能力[2];Yan等人提出了動態知識圖譜的概念,即能夠隨著時間和事件的發展動態更新圖譜中的知識[3]。
隨著自然語言處理技術的迅猛發展,大語言模型在知識圖譜構建中的應用逐漸成為研究熱點。大語言模型通過海量文本數據的預訓練,具備了強大的語義理解和生成能力,能夠有效地從非結構化數據中提取實體和關系[4。與傳統的信息抽取方法相比,大語言模型可以更準確地處理復雜語境下的語言表達,減少了人工標注的需求,提升了知識圖譜構建的自動化程度[5]。近年來,研究者們開始探索利用大語言模型進行知識圖譜的自動構建。Brown等人提出了利用GPT-3模型生成領域特定知識圖譜的框架,能夠從文本中自動提取和鏈接實體,顯著提升了知識圖譜構建的效率[。此外,Zhang 等人也對基于BERT模型的實體對齊方法展開了研究,通過上下文理解,解決了異構數據源之間的實體識別和對齊問題,為知識圖譜的跨領域融合提供了新的思路[]。
在災害應急領域,大語言模型通過分析多源文本數據,快速提取實體和關系,生成包含災害信息的知識圖譜,實現對災害的實時監測和預警[8。Liu等人利用BERT模型自動提取地震相關事件,并構建了動態更新的地震知識圖譜,用于實時監測和分析[。在應急響應和決策支持方面,知識圖譜結合大語言模型的推理能力,能夠提供更加智能化的決策支持。通過對歷史災害數據和當前態勢的綜合分析,系統能夠預測災害的發展趨勢,并生成相應的應急措施。例如,王喆等人開發了一套基于GPT-3的應急響應系統,該系統能夠通過自然語言與決策者進行交互,自動生成針對不同災害場景的應急預案[0]。
2自然災害應急知識圖譜構建
2.1知識圖譜構建流程
知識圖譜構建采用自頂向下與自底向上相結合的構建方法。從本體構建出發,進而確定各本體之間的關系,最后確定各本體與屬性的關聯關系,實現自頂向下構建知識圖譜模式層。由于自然災害應急領域文本數據源多為非結構化數據,傳統自然語言處理方法進行知識抽取處理難度較大,本文采用基于GPT-4的方法對關鍵實體屬性信息進行知識抽取,隨后進行知識融合,將相似度較高的實體屬性信息歸一化處理,并設計知識圖譜底層存儲方式,實現自底向上構建知識圖譜數據層。最后進行模式層到數據層的映射,完成知識圖譜的構建。
2.2 模式層構建
知識圖譜本體是對領域內概念及其關系的一種形式化、規范化的描述,可以為數據層中的要素、屬性分解提供理論框架基礎。知識圖譜模式層主要由實體、關系、屬性等知識類的層次結構和層級關系組成,用來對數據層的具體知識形式進行約束。本文從自然災害應急領域出發,構建自然災害事件、災害應急任務、災害數據、模型方法4類核心要素的自然災害應急領域本體,并確立各實體間、實體與屬性間的關系,表1為本體及本體屬性,圖1為自然災害應急領域本體間關聯關系。

2.3基于大語言模型的數據層構建
知識圖譜的數據層以事實三元組為基本單位,是知識圖譜體系結構中的核心部分,負責存儲和管理實際數據實體及其關系,構成了知識圖譜的基礎,支撐著整個知識圖譜的構建與應用。
自然災害領域文本數據源多為非結構化數據,這限制了傳統自然語言處理方法對知識的有效抽取。基于此,本文提出了基于大語言模型的知識抽取模型,該模型通過大語言模型的提示工程和少樣本學習能力,將知識抽取的序列標記任務轉化為大語言模型的文本生成任務。與傳統的非結構化數據知識抽取方法相比,此方案無須大量數據標注和模型訓練。利用大語言模型自身的語義理解能力,結合少量的數據樣例和提示工程,模型可學習到文本的語義表示,并可以通過不斷微調來提高在特定任務上的表現。
本文以GPT-4作為基礎模型[],進行關鍵實體屬性信息的知識抽取。首先,將源文本按照段落進行截斷,并設計了多種提示(prompt)以提高信息提取的準確性。在提示設計中,采用了分布提示的策略,包括需求提示、領域知識提示和少樣本提示。
需求提示:明確模型的任務角色,清晰傳達用戶的目標和期望。通過羅列具體細節,使模型理解并聚焦于用戶所需的信息,從而確保信息抽取的精確度。
領域知識提示:通過提供與任務相關的背景信息和標注語料,幫助模型理解領域特征和數據特點。此提示增強了模型對特定領域的感知能力,提高了抽取結果的專業性和可靠性。
少樣本提示:通過提供具體示例,指導模型逐步掌握每個操作步驟。這不僅有助于模型更好地理解任務,還顯著提升了模型在分析與執行中的表現,降低了生成錯誤的發生率。
這些提示的綜合應用,顯著提升了模型在知識抽取任務中的表現,并提高了任務完成的質量和效率。以下是基于GPT-4進行自然災害信息抽取的部分示例。
2.3.1實體信息抽取提示示例
{需求提示}你是一名自然災害領域的信息抽取專家,任務是從以下文本中提取關鍵實體及其相關屬性。具體需要提取的實體包括:災害類型、發生時間、發生地點、災害影響、救援措施、負責機構等。請為每個實體提取其相關的屬性信息,并輸出格式為:“實體:屬性”。
{領域知識提示}以下文本涉及自然災害事件的報道或研究,重點在于描述災害的基本信息及其影響。需要提取的實體和屬性包括但不限于:災害類型(如地震、颶風)、災害名稱、發生時間(具體日期或時間段)、發生地點(城市、國家或區域)、災害影響(引發次生災害、直接受影響或被疏散的人數、死亡人數、經濟損失等),以及救援措施(如政府或組織采取的行動)和負責機構。請注意,某些術語在災害領域有特定含義,如“風速”常與臺風、颶風相關聯,“風眼”指臺風的中心區域等。
{少樣本提示}文本:“2023年7月,京津冀首都圈海河流域發生特大暴雨,引發嚴重的洪澇和地質災害,造成550萬余人受災,上百人遇難失蹤,直接經濟損失超過1600億元。‘
輸出示例:
-災害類型:暴雨-發生時間:2023年7月-發生地點:京津冀首都圈海河流域
-災害影響:洪澇、地質災害,550萬余人受災,上百人遇難或失蹤,經濟損失超過1600億元
{輸入文本}請按照上述示例,從以下文本中提取關鍵實體及其屬性信息,并按示例格式輸出。{INPUT_TEXT}
2.3.2 關系信息抽取的提示示例
{需求提示}你是一名自然災害信息抽取專家,現提供文本及其對應實體,你的任務是依據文本提取出實體關系。給定的實體包括:災害類型、發生時間、發生地點、災害影響、救援措施、負責機構等。請輸出實體之間的關系,如“災害類型-發生時間”“災害類型-發生地點”“災害類型-災害影響”“災害類型-救援措施”“負責機構-救援措施”等。輸出格式為:“關系類型:實體1-實體2”。
{領域知識提示}以下文本涉及自然災害事件的報道或研究,重點在于描述災害的基本信息及其影響。需要提取的實體和屬性包括但不限于:災害類型(如地震、颶風)、災害名稱、發生時間(具體日期或時間段)、發生地點(城市、國家或區域)、災害影響(引發次生災害、直接受影響或被疏散的人數、死亡人數、經濟損失等),以及救援措施(如政府或組織采取的行動)和負責機構。請注意,某些術語在災害領域有特定含義,如“風速”常與臺風、颶風相關聯,“風眼”指臺風的中心區域等。
{少樣本提示}文本:“2023年7月,京津冀首都圈海河流域發生特大暴雨,引發嚴重的洪澇和地質災害,造成550萬余人受災,上百人遇難失蹤,直接經濟損失超過1600億元。\"
輸出示例:
-災害類型:暴雨-發生時間:2023年7月-發生地點:京津冀首都圈海河流域-災害影響:洪澇、地質災害,550萬余人受災,上百人遇難失蹤,經濟損失超過1600億元{輸入文本}請按照上述示例,從以下文本中提取關鍵實體及其屬性信息,并按示例格式輸出。{INPUT_TEXT}
2.4知識融合與知識加工
知識融合與知識加工是指在知識圖譜構建過程中,對新獲取的知識進行整合,以消除矛盾和歧義的過程。本文通過對所提取的相同類別實體和對應的實體屬性數據進行相似度計算,再通過調整語義相似度閾值,實現對實體間語義相似度低于閾值的實體,及其屬性數據進行標準語義替換,完成知識融合。最后,利用文本匹配進行知識加工,從而形成大規模的知識體系。
依靠模式層框架,經過知識融合和加工后的實體及其實體屬性數據與概念層中的實體和實體屬性一一對應,完成實體與屬性的匹配,最終形成完整的知識圖譜。
3 臺風災害應急預警實例分析
3.1 臺風災害應急圖譜構建
在臺風災害管理過程中,知識圖譜的典型應用包括面向臺風路徑預測、災害影響范圍與強度分析、應急資源調配等應急任務。通過整合歷史臺風數據、氣象觀測數據和地理信息,臺風災害應急知識圖譜能夠有效支持臺風路徑的預測和模擬,幫助識別可能受災的地區,并評估臺風可能造成的破壞程度。此外,臺風災害應急知識圖譜還能夠輔助應急管理部門快速調配救援物資和人員,優化應急響應決策,提高應對臺風災害的效率和準確性。
按本文所述的知識圖譜構建方法,首先需構建臺風災害應急知識圖譜的模式層,確立臺風災害事件、災害應急任務、災害數據、模型方法這四類本體,并對本體概念層次關系、本體屬性關系以及概念間的語義關系進行定義。模式層的構建情況如圖2所示。
隨后進行臺風災害知識圖譜數據層構建,在模式層的指導下,從臺風災害相關文本數據中,利用經過臺風災害知識樣本學習后的大語言模型GPT-4,以輸入提示句的方式將臺風災害相關實體及關系進行抽取。知識抽取完成后,從這些臺風災害文本數據中獲取到6個臺風災害評估模型、災害數據實體50個、模型方法實體共3568個,經知識融合后所得實體共2520個,臺風災害知識圖譜節點及關系的數量統計如表2所示,構建好的部分臺風災害應急知識圖譜數據層如圖3所示。


3.2 知識圖譜可視化應用
3.2.1 可視化分析
本文結合相關應急預案及各種數據,采用基于正則匹配、基于分布提示的大語言模型等多種方式進行知識抽取,再通過知識融合與加工構建出關于自然災害應急的知識圖譜。并將此知識圖譜存入Neo4j圖數據庫中,從而能夠更加直觀地看到各種數據之間的關系。
3.2.2 數據查詢
Python中存在Py2neo庫,可實現利用Python對Neo4j圖數據庫進行操控。由于Python語言簡單易學,使得不熟悉Cypher查詢語言的人也能熟練操縱圖數據庫。因此,本文在圖數據庫中進行數據查詢時,利用Py2neo庫事先將數據查詢通用模板語句寫好,隨后通過輸入所需關鍵字,實現在Neo4j中進行數據查詢。
3.2.3 應急預案智能問答
在自然災害應急預案問答系統中,基于構建好的知識圖譜模型,設計問答系統的模型,包括自然語言理解模塊、問題匹配模塊、知識檢索模塊、答案生成模塊以及問答歷史查詢模塊等。其中,自然語言理解模塊用于將用戶提出的自然語言問題轉換成可理解的結構化查詢語言;問題匹配模塊用于將用戶問題與知識圖譜中的問題進行匹配,找到相關知識;知識檢索模塊用于從知識圖譜中檢索出與問題相關的知識;答案生成模塊用于根據檢索到的知識生成回答;問答歷史查詢模塊方便用戶翻看歷史查詢記錄,并根據用戶查詢關鍵字生成問答標簽庫。
本文采用自然語義處理包(NLTK)、深度學習框架(PyTorch)實現智能問答模塊設計。考慮到Python具有豐富的第三方庫,能更容易實現智能問答,并且Python的Web框架Django提供了豐富的內置功能,能高效實現數據管理、用戶請求處理等功能,故采用Python的Web框架Django作為后端服務,處理業務邏輯,負責自然語言理解、知識檢索、答案生成等功能。其中,自然語言理解是基于語言模型處理用戶的自然語言輸入,將用戶的問題解析為知識圖譜中的實體和關系,系統在知識圖譜中找到與用戶問題相關的節點和關系,使用相似度計算等技術匹配用戶問題與知識圖譜中的預案信息,使系統能夠自動識別用戶的問答意圖;知識檢索是Django后端調用圖數據庫獲取與用戶問題相關的知識節點實現的;答案生成是在檢索到相關知識后,系統將數據轉化為自然語言回答。對于簡單的問答,系統直接從知識圖譜提取相關信息;對于復雜的問答需求,可以使用語言模型進一步優化答案生成,使回答更加連貫自然。
在問答頁面設計方面,為滿足一次開發、多端部署,支持微信小程序、H5、安卓和iOS等多平臺,并能與后端的API無縫對接,快速獲取和展示Django后端的數據的需求,采用uni-APP框架實現問答界面設計,負責與用戶交互,實現問題輸入、答案展示和問答歷史管理。其中,在問題輸入與答案展示方面,uni-APP提供的用戶輸入界面支持多種輸入方式,如語音、文字等,讓用戶能夠方便地提出問題;回答展示界面則根據問題類別動態調整展示形式,如文字展示、圖片展示等。問答歷史查詢與管理通過每次用戶的問答請求與響應結果都存儲在后端數據庫中,用戶可通過前端查著并檢索歷史記錄來實現。智能問答系統流程圖如圖4所示。

4結論
為解決自然災害應急領域中數據龐雜、關鍵知識匱乏的現狀,同時為解決傳統人工標注和深度學習方式進行知識抽取需要具備廣泛的領域知識和信息處理能力,且數據標注工作煩瑣這一構建過程中的難題,本文構建了基于大語言模型的自然災害應急預案知識圖譜,并利用上述知識圖譜、Django框架和uni-APP框架構建出一套基于知識圖譜的應急預案問答系統,實現了自然語言理解、問題匹配、知識檢索、答案生成、問答歷史查詢等功能。
本文在知識圖譜概念層設計上較為簡易,后續將對概念層進行進一步細分,進而使數據展示顯得更加直觀。在數據方面,由于目前尚處于初步探索階段,所收集的數據量終究有限,后續也將進一步尋找更多數據,對知識圖譜做進一步完善。隨著大語言模型的興起,將大語言模型與知識圖譜相結合也將成為未來研究的一個嶄新方向。
參考文獻:
[1]賀海霞,劉濤,杜萍.地震災害應急管理知識圖譜構建研究[J].蘭州交通大學學報,2023,42(3):113-123.
[2]李澤荃,徐淑華,李碧霄,等.基于知識圖譜的災害場景信息融合技術[J].華北科技學院學報,2019,16(2):1-5.
[3]YANYC,LIULH,BANYK,etal.DynamicKnowledge Graph Alignment [EB/OL].[2024-09-2].file:///C:/Users/wy/Downloads/16585-Article%20Text-20079-1-2-20210518.pdf.
[4]ZHUYQ,WANGXH,CHENJ,etal.LlmsforKnowledge Graph Constructionand Reasoning:RecentCapabilities and Future Opportunities[J].World Wide Web,2024,27(5):58-58.
[5]ZHANGBW,SOHH.Extract,Define,Canonicalize:AnLLm-Based Framework forKnowledge Graph Construction[JOL].arXiv:2404.03868v1 [cs.CL].[2024-09-28].https://arxiv.org/html/2404.03868v1.
[6]BROWNTB,MANNB,RYDERN,et al.LanguageModelsare Few-ShotLearners[J/OL].arXiv:2005.14165[cs.CL].[2024-09-28].https://arxiv.org/abs/2005.14165?context=cs.
[7]ZHANGJY,ZHANGZX,ZHANGHH,etal.FromElectronic HealthRecordsto TerminologyBase:ANovelKnowledge Base EnrichmentApproach[J].Journal of BiomedicalInformatics,2021,113:103628.
[8] ZIAULLAH AW,OFLIF,IMRAN M.MonitoringCritical Infrastructure Facilities During DisastersUsing Large LanguageModels[J/OL].arXiv:2404.14432[cs.SI].[2024-09-28]. https://arxiv.org/abs/2404.14432?context=cs.CL.
[9]LIUYC,KUO CL.Constructing Spatio-temporal DisasterKnowledge Graph from Social Media[J].AGILE: GIScienceSeries,2024,5:37.
[10]王喆,陸俊燃,楊棟梁,等.融合GPT和知識圖譜的洪澇應急決策智能問答系統研究[J].中國安全生產科學技術,2024,20(4):5-11.
[11]OPENAI,ACHIAMJ,ADLERS,etal.Gpt-4 TechnicalReport [J/OL].arXiv:2303.08774[cs.CL].[2024-09-28]. https://arxiv.org/abs/2303.08774?utm_source=chatgpt.com.
作者簡介:徐歡(2004—),男,漢族,浙江杭州人,本科在讀,研究方向:大語言模型的知識圖譜構建與增強技術;吳夢飛(1995一),女,漢族,浙江湖州人,講師,工學碩士,研究方向:自然語言處理;孫文學(1989一),男,漢族,山東濟寧人,講師,工學碩士,研究方向:智能計算、深度學習。