霍娜
【關鍵詞】應急決策案例 本體 信息抽取
在應急領域中,決策者依據應急案例的內容以及基本特征,從知識元的層面將應急案例的結構進行規劃,進而提出一種基于基于應急案例本體的信息抽取的方法。這種方法可以作為一些應急案例本體信息抽取的模型,使其他應急案例結合自身的規律,實現對該應急案例半自動化的信息抽取工作,將信息抽取的結果存儲在數據庫中,可以為以后的應急案例情景模擬仿真以及對應急案例的研究提供客觀的,科學的數據。大量實驗表明,該方法具有可行性和有效性。
1 信息抽取以及抽取過程的分析
所謂的信息抽取,是一項從一段文本中抽取出特定的一些信息內容,與此同時對其進行信息結構化處理,最后將處理后的信息整合在一個數據庫中以便使用者查詢應用的工作。信息抽取被廣泛的定義為是一門交叉性的學科,它涉及多個知識領域,例如人工智能,統計學,計算機網絡技術以及信息學等等。
信息抽取的實際過程較為繁瑣復雜,Web頁面的信息抽取研究大體上是集中在Wrapper的生產技術研究的基礎之上的。Wrapper又名為規則包裝器,它半自動的完成Web頁面信息抽取的程序,Wrapper的作用是對Web頁面的結構進行分析,另外分析頁面之上信息資源進行描述,最后Wrapper形成對Web頁面格式的信息抽取原則,這樣就實現了利用Web頁面上相關的原則對應急案例事件中對相關信息的抽取工作了。
2 信息抽取系統實現的流程
這里我們以煤礦事故案例中的煤與瓦斯突發案例為例,對其信息的抽取系統流程進行淺析,說明怎樣構建煤與瓦斯突發事例信息抽取的模板工作。
首先,進行應急案例信息抽取的工作人員應該積極參與專家訪談活動,對與煤礦事故有關的案例進行系統的分析工作,解讀與之有關的文獻信息。進行信息抽取的人員對煤礦事故中的知識元進行選取,歸納以及整合工作,構建完整的知識元數據庫。數據庫包含的項目內容很多,例如承災體知識庫={礦井、礦工、煤層、瓦斯傳感器、通風機}等;事件知識元數據庫={煤與瓦斯突出,瓦斯爆炸,透水等}。接下來信息抽取的人員從承災體數據庫中選擇礦井、機港、瓦斯傳感器以及礦工4個知識元,在事件知識元的數據庫中選取煤和瓦斯,最后依據兩組知識元構建案例信息抽取模板。這里的案例信息抽取模板由兩部分版塊組成,即前景模板和后景模板。后景模板和前景模板需要進行的共同內容是對礦井,礦工以及瓦斯傳感器這些知識元的屬性類型進行準確的定位;明確各個知識元的取值類型以及他們各自的取值長度和取值范圍。
3 信息抽取規則的構建
當信息抽取系統的流程實現了,那么就必須保證數據庫中存儲的信息資源與該應急案例的文本是相互匹配協調的,那么就應該建立與之有關的抽取規則,使抽取獲得更高的準確率。抽取的規則它本身作為一種確定的信息抽取方式,雖然它涵蓋的自然語言較為片面,但是在眾多的方法中,抽取規則的正確引領下使信息抽取獲得更高的準確率。
本文以下為了達到對信息抽取規則明確表述的效果,同時為了使實施的程序更為的簡潔,在此基礎上提高信息抽取工作的質量,作者將信息抽取的規則分為前置抽取規則和后置抽取規則兩種類型。前置信息抽取規則是指待抽取的屬性信息的匹配方式在正則表達式的前端開展進行的,例如在某小區的一次火災事故中,對于燒傷人數的屬性信息抽取的規則為“\\d{1,4}/m人/n燒傷”,這里等待抽取信息的匹配式為“\\d{1,4}”,它應該在抽取規則的前端。萬變不離其宗,后置信息抽取與其道理是相同的。這樣做的優勢在于在進行抽取程序的有關編寫工作時候,就省去了針對每一條規則單獨對其抽取代碼進行編寫的步驟了,只有對前置和后置這兩種抽取類型通用的抽取代碼進行相應的編寫就可以了,最終使制定抽取的不隨著模板的變化而進行改動,各個數據以及數值穩定的存在數據庫中。
信息抽取規則的構建過程分為以下幾個步驟完成:
(1)進行信息抽取工作人員依據知識元的屬性以及自身的特點,總結具有涵蓋待抽取屬性信息的句子,形成句子集。這里我們依然以煤礦事故案例中的煤與瓦斯突發案例為例,那么形成的句子集就包括“瓦斯傳感器,空氣縮壓機”等等。
(2)對句子集進行逐個的理解,分析其屬性特征,形成正確的表達式,進行系統的編寫流程。
(3)在編寫的進程中,聯系約束模板中屬性的外界條件,使用正則表達式對句子集的程序進行編寫環節。
(4)將相似結構的正則表達式進行相關的合并工作,例如對各個知識元屬性狀態的描述進行統一聯合編寫,與此同時進行的工作是將抽取規則的類型真正的確定下來,使抽取規則有條理的,科學的呈現在數據庫中,展示在人們面前,為人所用。
(5)信息抽取的工作人員在不斷的實踐探索中,對建立的抽取規則不斷的更新改革,進而使正確的屬性信息抽取規則日益完善。當然,建立者需要將信息抽取的規則輸入進數據庫中,他們可以成建規則庫,這樣就實現了抽取規則與知識元屬性之間形成多對一關系的目的。
應急事件案例信息抽取的模板是經過組織以后,對待抽取對象的結構化知識元的表示方法,主要作用是對結構性知識元進行相應的刻畫。應急事件案例的信息抽取模板與傳統的信息抽取模板相比較,它保證了待抽取信息的精確性能,更可觀的是,它使信息抽取的結果更真實,不怕考驗。
4 結束語
我們知道,災害的帶來總會給人造成各種損失,阻礙生產生活的順利進程。所以對應急事件開展及時有效的處理工作,其意義是重大的,信息抽取工作的開展也是迫在眉睫,因而作為不同領域的決策者應該保持清晰的頭腦,對該領域相關的知識元進行信息抽取的工作,總結知識元的屬性以及內涵,進行規范的編寫程序,存儲以便利用。這樣在應急事件之下,人們就可以準確的搜集解決問題的方案,及時清除應急事件中的障礙。
參考文獻
[1]蔣德良.基于規則匹配的突發事件結果信息抽取研究[J].計算機工程與設,2010.
[2]王文俊,楊鵬,董存祥.應急案例本體模型的研究及應用.計算機應用,2009.