饒慧
摘 要:社會的發展和科技的進步,使得我國各項社會事業都不斷繁榮,信息科技的發展,也為信息抽取技術的發展奠定了良好的基礎。信息抽取技術是一種對語言進行處理的技術,在社會生活中的應用范圍也不斷擴大,本文主要信息抽取技術在情報監測領域內的應用進行詳細的分析與研究,以便為信息抽取技術的發展提供借鑒。
關鍵詞:信息抽取技術;情報監測;應用
0 引言
進入新世紀以來,互聯網技術在人們生活中的作用愈來愈大,信息科技的發展使人們對各種信息資源的獲取變的更加方便和快捷,人們可以借助各種搜索引擎,找出自己所需的各種信息,然后瀏覽相關的網頁得到信息。面對網絡日益復雜的環境,人們都在對獲取信息的方式不斷進行創新和探索,而且,各種信息也日益變得更加透明、公開,很多信息都被放在網絡中以便大家閱讀、檢驗和交流,這就為人們信息的獲取創造條件。在美英等軍事比較發達的國家,網絡情報的搜集是整個情報工作的重要環節。在國內,各種計算機網絡的使用使我國情報工作的手段和環境都有了很大變化,傳統情報思想已經和現代化國防的要求有很大脫離,老式搜集情報的方式也逐漸落后于時代潮流,這就需要位信息抽取技術在情報監測領域的應用提供了契機,下面對其進行詳細的介紹。
1 信息抽取技術概述
信息抽取主要指從一段文本內抽取出指定的信息,并把這種信息的形式結構化,然后填進數據庫內一般用戶進行查詢和使用,這一技術在20世紀60年代中期開始研究,主要是從自然語言的文本內獲得各種結構化信息。國外已經有了很多信息抽取技術應用的領域,比如在外交、恐怖襲擊、自然災難等。信息抽取和信息檢索有一定的聯系,但也有很大的相關性。信息抽取是對信息檢索的深化,信息檢索可以查找出和查詢條件有關的各種文本,而信息抽取則是從文本內抽取特定的信息,其主要的任務就是抽取指定信息然后填進預先的數據庫內。信息抽取和自然語言理解也有很大的關系,使一種淺層的應用,自然語言理解是信息抽取中必須涉及的,是對多樣化的內容進行處理和分析,而信息抽取的針對性則比較強,其分析檔案一般是針對特定類型,所以不需要理解去全部信息的內容,只要對相關的內容進行分析即可。
2 信息抽取的方法
從自然語言理解到信息抽取技術,一直存在兩種不同的主義斗爭,也就是理性和經驗主義,在信息抽取系統內,針對這兩種不同的主義,對信息進行抽取的方法也有兩種:第一,理性知識的工程方法,主要由專家專門對語料庫進行整理和分析,進而人工對各種模板和規則進行制定,可以把規則方法為基礎。第二,以經驗為基礎自動進行訓練的方法,給出經過標注的文檔組合,借助機器來學習對模板進行推導,以及使模板能夠自動進行填充的規則,也可以借助統計學方法進行抽取,設計對自然語言進行處理的技術。和原來的方法有所不同,我們可以把經驗和理性相結合,人工對模板和規則進行制定,也要自動對文檔進行訓練。
3 信息抽取技術在情報監測中的應用
3.1 設計的具體思想
首先是針對各種外文信息的抽取,對情報監測這一特殊領域,我們要對各種國外的信息進行研究,對國外的信息進行抽取,需要翻譯成漢語,然后按照一定形式提供給用戶。接著要根據具體的領域進行信息抽取,比如國防的經費,可以從國外關于國防經費英文的文本內抽取特定事實的信息,以便對世界各國有關國防經費變化的情況進行監測。例如,可以從國防經費的預算和其他的報道內,找出相關軍事研究和發展的費用,裝備武器研究的費用,更新和購置武器的費用,軍隊具體開支的各種費用等。在這里,可以提出一個有效而快速的方法,具體的流程如下:首先使用相對成熟的信息檢索,將所需英文的文檔下載進本地,使之成為本地文檔;接著借助信息抽取的工具抽取出英文的信息,將有用的信息充實進相關的數據庫內;最后要和相關的翻譯系統相連接,因為數據庫內信息大都比較零散、簡單,因此翻譯的工作也就比較簡單,提交給用戶的就是各種結構化中文的信息。
3.2 對文本進行預處理
這是一種初使的工作,這一環節主要對詞性進行標注。因為信息抽取的任務具有特殊性,抽取出的信息一般在某一領域內數量比較有限,因此,文本內和抽取的任務有關的信息可能只有很小的一部分。這就需要設計過濾器,其作用主要是對文本內的句子逐詞進行掃描,然后按照語料庫的設計對所需信息的單詞進行判斷,如果這一句內沒有所需的單詞,就將其刪除,以便使計算機的資源得到節省,提高抽取的效率,最后會形成帶有標注句子的序列。
可以設置一些符號當做拆分符,這樣就可以得到具體句子的序列。根據每個不同句子,對具體單詞的詞性進行標注,句子的序列標號在文本被可以借助SN=1、2、3進行標示。
3.3 詞法的分析
按照詞條的相關規則與專業的詞庫,對詞條的句法、詞法與語義的信息等進行標注。首先在專業的詞庫內進行搜索和匹配,如果沒有匹配項,再去詞條庫進行搜索。在這里需要注意一點,對信息進行抽取時需要時特定領域內特定的信息,講究準確性,所以并不是完全自然語言處理的過程,需要盡量應用相關領域的知識。如果專業的詞庫內有信息,就可以直接對其進行標注,不必根據單詞詞法匹配的規則進行再次匹配。
3.4 對模式進行匹配
在一些特定的領域內,知識庫的完善對信息收取有很大幫助,可以建立以下知識庫:第一,命名實體的規則,命名實體主要指真實存在的抽象或者具體的實體,比如地點、人和公司等,一般都有唯一標識的符號進行表示,這是文本內基本的元素。要按照領域內的知識建立命名實體的規則系統,在這里存儲大量領域內或者和領域有關的實體。第二,概念的層次庫。需要建立概念的層次庫,以便使所得信息的結果變的更加精確。第三,共指關系的規則,通常,我我們所關心的關系和實踐都在文本內不同的位置中散布,其中,涉及實體一般都很多不同的方式進表達,而且有很多和事實有關的信息在文本內隱藏。為了能夠全部且準確的抽取出文本內的信息,信息抽取系統需要對文本內共指關系進行識別,并進行一些必要推理,然后進行合并,對相同的實體或者事件信息的片段進行描述。共指關系的規則內定義命名實體多種不同表達的方式,還對指代關系識別的方式有所規定,對指代的關系進行識別遵守鄰近進行匹配原則。
3.5 機器的翻譯
因為我們抽取的信息是英文的文本,因此最后所得數據庫內也是英文的信息,這就就需要接入相關翻譯的系統,然后得出我們所需的結果。
4 結語
綜上所述,信息抽取技術在情報監測內的應用具有重要的意義,可以使抽取信息的速度得到加快,更加直觀。快速的展現所需信息,提高總體的效率。隨著社會的發展,其精度也在不斷提高,層次不段深化,使用的范圍也在不斷擴大,因此,需要引起相關人員的重視,不斷對其進行改進和完善,切實發揮出信息抽取技術在情報監測領域的價值,促進情報監測領域的發展。
參考文獻
[1]李濤,李銀勝,柴躍廷.一種產品情報的在線檢索和智能分析方法與系統:CN,CN 101866340 A[P].2010.
[2]劉劍蘭,朱東華.信息抽取技術在情報監測中的應用[J].情報學報,2004,23(6):661-666.
[3]冷伏海,白如江,祝清松.面向科技文獻的混合語義信息抽取方法研究[J].圖書情報工作,2013,57(11):112-119.
[4]鄭彥寧,鄧擘.信息抽取技術在情報學中的應用分析[J].情報理論與實踐,2008,31(5):769-772.