999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文體和詞表的突發事件信息抽取研究

2018-10-19 03:03:32邱奇志周三三劉長發
中文信息學報 2018年9期
關鍵詞:信息

邱奇志,周三三,劉長發,陳 暉

(武漢理工大學 計算機科學與技術學院,湖北 武漢 430000)

0 引言

我國正處于經濟和社會的轉型期,公共安全保障基礎相對薄弱,其與經濟高速發展的矛盾日益突出,形勢嚴峻[1]。同時近年來在經濟全球化、國際政治風云多變的影響下,全球范圍內各類突發事件頻發,波及范圍廣,持續時間長,給社會和諧穩定、人民幸福生活帶來了極大的危害,應急管理亦因此引起了各級地方政府的高度重視和大力支持。

相比于美、英、日、澳等國家領先的應急管理能力,我國應急管理尚處于初級建設階段,依然存在以下問題[2]: 管理體制不健全、運行機制不成熟、原有的應急工作基礎薄弱、救援力量及財力投入不足等。從信息處理的角度來看,解決應急管理復雜性的根本方法就是建立涵蓋突發事件常識、經典案例、相關決策、處置方法等內容的突發事件知識系統,其中突發事件案例庫和專家庫是支持應急管理決策的核心。[1]

近年來,國內學者已開展了突發事件案例庫的研究,邵荃等[3]從消防視角考慮了火災基本情況、作戰指揮和災后經驗三個方面,建立了城市火災案例庫,共構建200余條數據;廖振良等[4]則專注研究突發性環境污染事件;于璐等[5]研究了供應鏈突發事件應急系統,構建了GBR-GRA供應鏈突發事件應急系統。

以上研究發現突發事件案例庫具有如下幾個問題: 信息不全,有大量數據缺失;多采用人工構建方法;事件類型單一,多為特定場景下對某類突發事件的研究,鮮有針對四種類型[6]的全面研究。人工智能、數據挖掘、自然語言處理等技術的蓬勃發展為突發事件案例庫的構建提供了更為科學合理的解決方案,本文旨在采用成熟的自然語言處理方法解決應急管理領域中的文本處理問題,提出合理、科學的抽取自由文本信息的方法,解決了繁瑣冗雜的人工操作,不僅省時省力,而且具有較高的準確率。

近年來,信息抽取已經在金融、醫藥、物流等許多領域得到了成功應用[7-9]。趙小明等[8]提出一種基于統計的金融領域多元關系信息抽取算法,研究收購類事件描述句及事件角色,分別設計了單分類器和多分類器的算法,結果表明多分類器算法比單分類器識別算法F-Measure提高了1.90%。沈元一等[9]提出一個互聯網藥品信息抽取和監測的整體解決方案,對互聯網商品信息進行全面、準確、實時、自動的抽取,有效保障了互聯網藥品交易的質量和服務。原歡[10]采用基于規則的信息抽取方法,提出了基于GATE的貨物動態郵件信息抽取方法,應用貨物動態郵件驗證了方法的科學性和有效性。

與此同時,也有學者將信息抽取技術應用于應急管理領域[11-13],吳平博等[12]在建立了統一事件框架的基礎上,利用句型模板抽取了新聞事件的基礎信息,并且通過實驗表明,該方法的召回率以及精度分別達到了60.82%和94.84%,但僅限于火災、礦難和空難這三類新聞事件。余晨等[13]針對海事突發事件提出了一種基于規則的信息抽取方法,通過定義規則抽取海事新聞中的時間、地點、船舶名和事故類型。實驗結果表明,該方法的準確率均在94.52%以上,但僅限于單一的海事領域網站。

對突發事件信息來源的分析和研究顯示,突發事件信息來源通常較為單一,最常見的來源為Web新聞和政府公文,這兩類文本具有極其鮮明的文體特色,現有研究多忽略了這一事實。本文結合課題的研究目標,提出了基于文體和詞表的突發事件信息抽取方法,針對新聞文體所具有的規律性,將網絡自由文本轉換為結構化的數據,完成突發事件的信息抽取工作,構建數據量較大的突發事件案例庫,為評估現有突發事件和風險措施的有效性提供數據支撐,具有重要的經濟價值和社會意義。

1 突發事件的信息抽取

信息抽取(information extraction,IE)[14-15]是指把文本中包含的無結構、無組織的信息進行一系列處理,轉化成統一格式的結構化數據保存起來。輸入信息抽取系統的是各種非結構化的文檔,輸出的是結構化的信息點,信息點從各類文檔中被提取出來,按照一定格式儲存到數據庫中。

信息抽取的方法大致可分為基于統計的方法和基于規則的方法?;诮y計的方法以強大的統計學原理為基礎,具有較高的可移植性,但準確性不高;基于規則的方法以領域知識為基礎,具有較高的準確性,但跨應用領域的移植性幾乎為零。

本文的研究目標是合理、高效地實現突發事件信息結構化,結構化的突發事件信息能更有效地用于應急管理各個方面,可作為突發事件案例庫的一部分,或案例推理系統的一部分為應對未來突發事件提供決策輔助。待處理的數據來源為新聞或其他政府網站上的突發事件新聞報道,根據應急決策系統的應用需求,結構化的突發事件信息主要包含兩大類屬性:

(1) 突發事件基本屬性: 從事件的角度描述突發事件,包括事件摘要、事件類型、發生時間、發生地點;

(2) 突發事件類型屬性: 從應急管理的角度,可將突發事件分為自然災害、事故災難、公共衛生事件和社會安全事件[1,16-17]。

不同類型的突發事件具有不同的屬性,比如突發公共衛生事件具有引發原因、表現形式等屬性,而事故災難突發事件則具有因果演進之類的屬性。本文主要研究突發事件中的傷亡屬性和自然災害、火災事件中特有的經濟損失屬性抽取方法。

1.1 抽取流程

通過對突發事件Web新聞的文體特征和數據組織結構的分析和研究,本文以基于規則的信息抽取方法為核心,融合統計學和機器學習方法,制定了信息抽取規則和流程,基本思想如下:

首先,在領域專家的指導下確定待抽取的數據屬性集合,比如,前文所述突發事件的基本屬性和類型屬性。

其次,分析數據源中各屬性的呈現方式,為不同的屬性制定不同的抽取方案,如“時間”屬性的呈現方式具有極強的文體特征,通常會出現在文章的開始部分;而“事件類型”屬性的呈現方式則具有極強的領域特征,如在報道地震這種自然災害時,常會出現“余震”“震中”等專業術語。規定“時間”屬性抽取策略為基于文體,而“事件類型”則是基于詞表。

最后,制訂抽取所需要的規則集合,構建抽取所需要的領域詞表。

圖1為本文進行突發事件案例信息抽取的架構圖。從新聞網站獲取的信息首先經過簡單篩選等預處理,得到初始新聞語料庫;接著借助構建的詞表從初始新聞語料庫中對突發事件進行識別和分類。本文在研究新聞文體的基礎上,采取基于規則及其他輔助方法對突發事件新聞信息,包括突發事件時間、地點、傷亡情況、經濟損失和事件摘要進行抽取。其中,抽取突發事件摘要,使用的是最大邊界相關法MMR(maximal marginal relevance)算法,抽取地點時加入了命名實體識別的方法,抽取傷亡情況和經濟損失時使用基于詞表的方法。圖1是本文的信息抽取架構圖,由三個模塊組成:

圖1 突發事件信息抽取架構圖

(1) 信息獲取模塊。利用網絡爬蟲爬取新聞網站內容作為初始新聞語料庫。

(2) 事件識別與分類模塊。對初始新聞語料庫進行預處理,根據基礎詞表和子關鍵詞,判斷新聞報道是否為突發事件,并在此基礎上對突發事件分類。

(3) 信息抽取模塊。完成突發事件基本屬性的抽取,實現突發事件屬性信息的結構化抽取。

1.2 評價指標

本文采用準確率、召回率和F度量(F-Measure)作為突發事件信息抽取方法的評價指標。計算標準見式(1)~(3)。

(1)

(2)

(3)

P為準確率,R為召回率,c1為抽取信息中正確的個數,c2為抽取信息的個數,c3為樣本的個數,β為權重系數,決定在評價抽取結果時是側重準確率還是側重召回率,通常設定1、2或1/2,β取值為1時,準確率和召回率一樣重要。

2 基于文體和詞表的信息抽取方法

2.1 基于文體的信息抽取

引言中已提及,數據來源為Web新聞或其他政府網站上的突發事件新聞報道,本文研究發現突發事件新聞報道具有以下規律性:

(1) 有固定語言體裁,且內容真實可靠;

(2) 闡明事件所表達的中心。標題突出新聞的要點,并在首段對新聞的核心事件進行描述;

(3) 遵循新聞特定體裁所要求的慣例。

本文針對新聞報道所具有的文體規律性展開研究。

文體style一詞源于拉丁語stilus,本義指用于在蠟板上寫字的骨制、木制或鐵制的尖頭筆,后引申為此種工具所寫的東西、文章、作文風格和體裁、作文或說話的特殊風格等[18-20]。傳統意義上的文體學者有以下觀點[21-22]: 布封(De Buffon)認為“文體就是人本身”(the style proclaims the man);斯威夫特(J .Swift)認為是“在恰當的地方使用恰當的詞,這就是風格的真實意義”(proper words in proper places make the true definition of a style)。在當今互聯網時代,又衍生了具有時代特點的文體內涵,如計量文體學[23],即結合當今的信息技術對文本進行定量分析,采用機器自動處理,以發現文本中的潛在規律。

由此可見,目前對文體的認識并不統一,但至少有兩點是學者較為普遍接受的: 一是文體是寫作者或說話者獨特的語言選擇;二是文體是對規范或常規語言用法的偏離,即有標記的語言使用方式。前者是從文體生成方式講,后者則強調其表現方式。綜合兩種觀點,可做出如下界定[18]: 文體是寫作者或說話者對語言規律性選擇的結果,這種個性化選擇使該文本不同于常規表達方式,其規律性表現出一定的穩定性。本文針對前人研究中存在的問題,充分利用突發事件新聞報道的文體規律性進行信息的抽取。

2.1.1 新聞文體的特征

新聞文體在廣義上指的就是消息,具有“5W1H”特點,即誰(Who)、何時(When)、何地(Where)、何事(What)、為何(Why)以及過程如何(How),以敘述為主要形式,新聞通過以上六要素組織文字。敘述方式主要是圍繞“倒金字塔型”展開[24]。文字力求客觀、真實,語言簡潔平實。

新聞一般由五大部分構成: 標題、導語、主體、背景和結語,基于本文的研究目標,著重分析新聞的標題和導語。標題通常是新聞內容的提要,導語則是新聞的第一句話或新聞的首段,其體現是用簡明的文字概括出新聞報道的事實或中心。

2.1.2 基于文體的時間屬性抽取

根據文體特點及對突發事件新聞的廣泛閱讀發現: 通常突發事件新聞報道在新聞導語中都會用最精煉簡潔的文字客觀闡述事件,且由于新聞遵循倒金字塔結構組織全文,采用“頭重腳輕”按重要性遞減安排全文結構,因此新聞的發生時間在新聞標題和新聞首段被提及概率在98%左右。

在對新聞時間抽取中,目前有研究者使用報道時間作為新聞發生時間,該方法適合微博、微信等實時社交網絡平臺,但對于非實時新聞,則存在較大的誤差。在突發事件的時間屬性抽取中,本文主要完成的工作是時間的識別和時間格式的轉換。

通過分析研究大量新聞報道,特別是新聞網站上的新聞報道,發現Web形式的新聞報道具有以下文體特征:

(1) Web頁面上通常存在三個時間,即新聞的發表時間、新聞報道時間和事件發生時間[25],其含義為:

? 新聞的發表時間,記為pt,一般在新聞標題的下方會詳細給出發表新聞的時間。

? 新聞的報道時間,記為rt,一般在新聞的開頭,以“電”或“訊”結束。

? 事件的發生時間,記為et,在新聞內容中給出,多出現在新聞標題和導語部分。

這三者的大小關系為: et<=rt<=pt,即事件的發生時間早于新聞的報道時間,新聞報道時間早于新聞的發表時間。如圖2是一個新聞網頁時間屬性的示例。

(2) Web新聞的時間表達方式和精度也呈現一定的規律性:

? pt常精確到“年”“月”“日”“時”“分”“秒”,rt一般僅涉及“月”“日”,而et可能在rt基礎上繼續細化或者只提及“上午”“下午”“凌晨”“時”“分”“秒”等時間信息。

? 時間格式通常有以下幾種形式,某年某月某日、YYYY-MM-dd、YYYY/MM/dd、YYYY.MM.dd和YYYY-M-dd等。

圖2 新聞網頁時間屬性示例

在時間屬性抽取的執行過程中,使用了簡單高效的正則表達式對時間值進行判斷,如圖2所標識的各個時間信息中,“2017-11-07 22: 04”為Web新聞的發表時間pt,“11月7日”為新聞的報道時間rt,“6日下午15點”為事件的發生時間et。算法能夠對新聞中涉及的各類時間信息進行抽取并轉換成統一格式返回。

基于以上分析,時間屬性抽取見算法1。

算法1 時間屬性抽取算法

2.1.3 基于文體的事件摘要屬性抽取

文摘通常是指在給定字數限制范圍內,去繁為簡,以簡短、凝練的文字幫助人們獲取全面準確的全文信息,提高閱讀效率,節省時間,同時也能夠幫助人們去篩選海量信息。自動文摘是自然語言處理的一個分支,即摘取原文中的部分句子概括全文的主要內容,因此本文使用非監督性自動文摘從原始新聞中提取摘要,作為突發事件“事件摘要”屬性值。

在摘要的監督性和非監督性機器學習方法中,前者通常會產生重復語句的摘要。因此很多衍生出的監督性模型采用增加句間關系的方式來解決該問題,但同時也增加了復雜度。非監督性方法中,應用最多的是最大邊界相關法MMR和基于圖(graph)的TextRank模型,前者在多樣性上優于后者。本文的單篇新聞自動摘要就是基于MMR模型。MMR是一種重新確定文檔序值的方法,如式(4)所示。

(4)

Di為當前句子,Q為當前文章的句子集合,S為當前摘要的句子集合,R為當前非摘要的句子集合,λ為相關性系數。

sim1計算的是句子的重要性分值,sim2計算的是句子與已經被選擇成摘要的句子之間的相似度最大值,MMR方法在相似度和去冗余的計算中,按照文體的特點考察了句子的位置重要性,實現了對不同文體文摘的個性化和句子的多樣化。

2.2 基于詞表的突發事件屬性抽取

2.2.1 詞表的構建

詞表在自然語言處理中扮演著重要的角色,比如在中文分詞、新詞識別、命名實體識別等工作中起著不可或缺的作用。在信息抽取中采用領域詞表已經成為提高準確率的重要方法。

2013年,Google開源了用于詞向量計算的工具Word2Vec,它可以在海量數據集上進行高效的訓練,它包含CBOW(continuous bag-of-words)和Skip-Gram兩種核心架構,在對大量語料進行訓練的基礎上,量化了詞與詞之間的相關程度,同時解決了自然語言處理中的近義詞和相關詞的問題。如使用Word2Vec計算“?;贰毕嚓P詞,返回結果為“危險品”“儲油區”“倉儲”等。Word2Vec所具有的強大統計學和機器學習基礎,使其在自然語言處理領域得到了廣泛的應用。

本文詞表以突發事件類型劃分為主線,分為基礎詞表和擴充詞表,表1是構建詞表的部分內容?;A詞表由領域專家構建;擴充詞表則利用Google Word2Vec構建,以基礎詞表為核心,無監督地生成擴充詞表,考慮到詞表的規模和系統的效率,選取了相關度最高的前10個詞構成子關鍵詞,共同組成了擴充詞表。至此完成了詞表的構建。

表1 詞表(部分)

2.2.2 基于詞表的突發事件識別與分類

如圖1所示,在進行突發事件屬性抽取之前,首先要完成對突發事件新聞的識別,本文基于上節構建的詞表進行突發事件新聞的識別及分類。

綜合考慮信息抽取的準確率和效率,本文對匹配子關鍵詞個數進行了測試,實驗結果如圖3,(橫軸為子關鍵詞個數,縱軸為突發事件分類準確率)該實驗采用中文維基百科語料庫訓練模型,實驗結果顯示當子關鍵詞個數為2時,準確率達到最高,為91.84%,因此選定子關鍵詞個數為2。

圖3 子關鍵詞個數實驗結果

在此基礎上,基于詞表的突發事件識別與分類的具體實現見算法2。

算法2 突發事件的識別與分類算法

2.3 基于文體和詞表的突發事件屬性抽取

2.3.1 基于文體和詞表的地點屬性抽取

命名實體識別在自然語言處理領域中占有很重要的地位,能在文本中識別具有特定意義的實體,如人名、地名、機構名或其他專有名詞。

細究文體結構和新聞敘述方式發現,雖然新聞的發生地點在新聞標題和新聞首段被提及的概率在98%左右,但通常在標題中提及的地點范圍較大,而在正文中,會對發生地點進行詳細闡述,呈現位置具體化、粒度縮小的趨勢。因而本文采用命名實體識別和詞表的方法,獲取突發事件詳細地點。

本文根據中國地名,建立各省市詳細的地名表,由于地名具有明顯的層次結構,本文采用樹結構存儲,層次清晰,簡單明了。在對新聞中地名實體進行識別后,遍歷地名結構樹,從而得到突發事件完整地點。

2.3.2 基于文體和詞表的傷亡屬性抽取

突發事件傷亡信息描述,主要存在新聞的標題、導語和主體三個部分。首先,標題中涉及傷亡信息為最終傷亡結果,以醒目、直接的表達方式呈現事件

結果引起人們的普遍關注。其次,導語部分提及的傷亡信息是新聞整體客觀性描述,通常會在主體部分進行詳細展開。新聞報道要求全面、公正、客觀,在新聞報道中對傷亡結果信息都是言簡意賅,不存在形式上的多樣性。

因此,對突發事件傷亡信息的抽取,本文結合文體特點,并構建傷亡詞表,同時定義相關規則進行突發事件傷亡屬性抽取。由于四種類型事件的抽取傷亡表達上既有共性又有特性,因此先建立傷亡的公共詞表,又針對其存在的特殊性構建了各自的專有詞表,二者共同識別突發事件的傷亡情況,如表2所示。

在著重研究上海大學公開的中國突發事件語料庫(Chinese emergency corpus,CEC)、暨南大學突發事件案例庫等資料的基礎上,通過使用正則表達式,定義如下的抽取規則:

規則1(程度副詞1)?(數詞)*(程度副詞1)?(人類數量詞)?(受災對象)?(修飾詞)?{傷亡觸發詞}+.{1,4}|{觸發詞}+(數詞)*(程度副詞1)?(人類數量詞)?(受災對象)?

? 程度副詞1: 左右、大約、多、上下、余、近、至少等

? 數詞: 阿拉伯數字,中文數字,“兩”(如: 兩死兩傷)

? 人類數量詞: 人、名、例、位、個等

? 受災對象: 人、兒童、學生、老師、居民、工人、消防員、司機、師生等

? 修飾詞: 不同程度、全部、當場、受……(如: 二十余人不同程度受傷)

? 傷亡觸發詞: 見表2

? ?: 表示匹配前面字符0~1次

? *: 表示匹配前面字符0~n次

? +: 表示匹配前面字符1~n次

? .: 表示匹配任意字符

圖4為傷亡屬性抽取示例。

圖4 傷亡屬性抽取示例

上述表達式在未造成人員傷亡、沒有人受傷、未收到人員受傷等信息時無法抽取。針對上述情況,補充如下規則:

規則2(0傷亡詞表)+.{1,6}(人類數量詞)?(受災對象)?({傷亡觸發詞})

? 0傷亡詞表: 未、沒有、無人、尚無、尚未等

由于標題和正文中均有可能對傷亡情況進行描述,其中標題中的傷亡信息通常是對整體事件的概括,當標題中提及傷亡信息時,為了避免信息重復抽取,不需重復抽取內容中的傷亡信息;當標題中未出現傷亡情況但文章中提及傷亡情況時,根據構建的傷亡詞表和定義的規則獲取傷亡結果。傷亡屬性抽取過程見算法3。

算法3 傷亡屬性抽取算法

2.3.3 基于文體和詞表的經濟損失屬性抽取

對事件結果經濟損失屬性的抽取,類似于傷亡屬性抽取,采用文體、詞表和規則相結合的方法。其中所構建的經濟損失屬性詞表見表3。

表3 經濟損失屬性詞表

針對經濟損失存在的特點,使用正則表達式方法,定義如下的抽取規則:

規則3(經濟損失觸發詞)+(程度副詞2)?(數字.數字)+(數詞)*(程度副詞2)?(單位量詞)+

研究發現,上述匹配模式無法對如下表達進行正確匹配,“倒塌房屋30戶99間,重損2 769戶9 626間……”,針對此類情況,定義如下規則:

規則4(經濟損失觸發詞)+(程度副詞2)?(數詞)+(單位量詞)?(數字)+(單位量詞)?

? 經濟損失觸發詞: 見表3

? 程度副詞2: 約、左右、已達、多、至少、余、近等

? 數字: 阿拉伯數字、中文數字、“兩”等

? 數詞: 十、百、千、萬、十萬、百萬、千萬、億、十億、百億、千億

? 單位量詞: 元、人民幣、美元、間、公頃、平方米、頭、畝、公里、戶、只、根、米、m3、處等

? .: 為轉義字符,代表普通圓點符號

圖5是經濟損失的示例。

圖5 經濟損失抽取示例

3 實驗與分析

3.1 實驗環境

本文實驗環境配置如下。

(1) 硬件環境

CPU: Intel(R) Core(TM) i5-6200U CPU @2.3GHz 2.40 GHz 4核

內存: 8GB

硬盤: 250GB

(2) 軟件環境

操作系統: Windows 10

開發平臺: Python 3.6.2

IDE: PyCharm 2017.2.1

本文算法由Python語言實現,包括網絡爬蟲、數據預處理、Word2Vec、核心算法實現等。選擇中文維基百科語料庫,訓練Word2Vec模型,采用Python結巴分詞進行命名實體識別。

3.2 數據源

3.2.1 突發事件語料庫構建

本文選擇湖北地區新聞為研究對象,新聞網站選擇影響力大、涉及范圍廣、及時更新、權威性高的網站。

通過對各大網站的瀏覽和分析,選擇合適新聞板塊,使用Python 3.6編程語言,PyCharm編程工具,編寫爬蟲獲取新聞內容,保存新聞標題、報道時間、新聞內容、新聞鏈接。

網絡爬蟲獲取的新聞,會存在少量的字符亂碼和異常數據,需要對數據預處理。筆者對新聞語料主要進行如下兩個步驟的處理:

(1) 去除新聞在文本爬取保存過程中發生的字符亂碼,主要是一些Unicode字符,如xa0等;

(2) 網站轉發其他網站新聞進行多次鏈接跳轉或者分頁處理大量的圖片新聞,會導致新聞內容嚴重缺失,筆者設定當新聞內容字數少于30個字符時,舍棄這條新聞。

爬取新聞共獲取11 865條新聞,經過上述預處理共收集8 123條內容完整新聞。以此為初始語料庫建立突發事件研究數據集[注]https://gitee.com/Amos698/TuFaShiJianGongKaiShuJuJi。經過突發事件識別與分類,共篩選出1 432篇突發事件相關內容,此數據集相比其他研究數據集具有以下優點:

(1) 數據信息完整,數據集涵蓋范圍廣;

(2) 采用非監督自動構建方法,節省人力物力;

(3) 數據規模大,至少是其他數據集的四五倍;

(4) 內容豐富,不再是單一的事件類型,而是涵蓋四類突發事件信息來源。自然災害類事件,如地震、臺風等;公共衛生事件,如登革熱、食物中毒事件等;事故災害,如交通事故、火災等;社會安全事件,如恐怖主義、群體性突發事件等。

3.2.1 公開語料庫CEC

CEC語料庫由上海大學劉宗田教授的《面向事件的本體研究》人工標注所構建完成。以六元組形式標識事件[26],形式化地定義事件e為:e=(A,O,T,P,S,L),其中事件六元組中的元素稱為事件要素,分別表示動作(action)、對象(object)、時間(time)、地點(place)、狀態(status)、語言表現(language expressions)。以此六元組表示新聞各個角色之間的聯系。CEC語料庫采用XML格式存儲,共包含五種類型的突發事件,分別是地震、火災、交通事故、恐怖襲擊、食物中毒,共332篇。

3.3 實驗結果及分析

3.3.1 突發事件語料庫實驗結果與分析

在爬取新聞,對初始語料庫進行預處理之后,通過事件識別與分類模塊,將獲取突發事件新聞。本文隨機選取其中100篇突發事件新聞進行測評,通過專家評價實驗結果的正確性,結果如表4所示。

(1) 從“時間”屬性結果中可以看出,時間屬性識別效果最好。主要是新聞事件中時間表達形式固定統一,有規律可循,但在個別新聞事件中出現了連續的事件流,導致時間信息沒有正確抽取,因此突發事件時間屬性抽取準確率和召回率為94.00%。

表4 突發事件信息抽取結果

(2) 從“地點”結果中可以看出,對地點屬性識別效果的準確率和召回率均為84.00%。分析發現: 其一,由于結巴分詞自身的弊端,無法完全準確識別出地點名詞和實體名詞;其二,本文選取的新聞語料中,存在部分交通事故類型,此類事件的發生地點,都是一些相關路段,例如“沿京港澳高速下行線由北往南行駛至孝昌段……”,根據詞性標注和詞表信息,不能正確識別出地點名詞,也無法根據詞表信息返回事件發生地點;其三,由于地點名詞本身的限制,部分地點并不在詞表中,導致事件發生地點無法被識別。

(3) 從“傷亡”結果中可以看出,傷亡屬性抽取準確率高于召回率,究其原因: 其一,傷亡詞表需要進行完善,某些事件發生頻率低,缺少此種表達規律;其二,個別事件側重描述細節,比如“清潔工周某在送往醫院途中不幸身亡”,并不存在傷亡數量,規則無法識別周某,進而推導出一人死亡。因此,傷亡屬性識別效果準確率為89.47%,召回率為77.27%。

(4) 經濟損失多存在于自然災害類型和火災事故中,此新聞語料中涉及經濟損失的新聞較少,共有13條。從結果中看出,經濟損失屬性抽取的準確率和召回率最差,主要有以下原因: 其一,詞表不夠全面,需要對其進行擴充。由于災害事件造成的損失各種各樣,同時存在地域特色,需要閱讀足夠多的數據,不斷完善詞表;其二,經濟損失描述時,多涉及具體的實體,有些實體在新聞中出現比較低頻。因此,經濟損失識別效果準確率只有80.00%,召回率只有61.54%。

(5) 從“事件分類”結果中可以看出,事件分類識別效果準確率和召回率為92.00%。究其原因,在事件識別時,出現了交叉事件類型的關鍵詞,導致類型識別不準確。

3.3.2 CEC語料庫實驗結果與分析

本文同時使用上海大學公開的CEC語料庫進行測試,隨機選擇其中100條新聞,重復3.3.1中的實驗,實驗結果如表5所示。

從表5可以看出,使用公開語料庫的準確率和召回率普遍高于突發事件語料庫,主要是因為CEC語料庫是半結構化的語料庫,經過眾多專家學者精心挑選,結構規范,表達具有一定的規律性,在進行信息抽取時,獲得了較好的效果。此外,其“地點”屬性抽取結果低于前者,主要原因是100條新聞數據中包含了大量的交通事故類型突發事件,導致抽取過程中一些路段名無法識別,因此地點屬性識別效果準確率只有79.38%,召回率為77.00%。

表5 CEC信息抽取結果

4 結束語

本文提出了切實有效的結構化突發事件案例信息的實施方案,從應急管理的角度來看,結構化案例信息是高效開展應急管理的基礎,一方面是構建突發事件案例的基礎工作,另一方面也是應急決策中案例推理的基礎工作;從自然語言處理的角度來看,本文所提出的基于文體和詞表的信息抽取方法融合了基于規則和統計方法的優點,同時利用新聞文體特點,對于結構化Web信息進行了有效的探索,對于其他應用領域的信息抽取具有較高的實踐價值。

由于詞表不夠完善、分詞軟件自身的局限性、Web新聞表達的多樣性及編寫規則不全面,造成“經濟損失”和“地點”識別準確率和召回率較低。同時,由于存在交叉事件導致事件,分類的準確率有待進一步提高。

未來的工作中,我們將嘗試采用機器學習和規則相結合的方式,進行快速、高效的信息抽取,考慮在其中引入語義語法分析,解決規則制定繁瑣、擴展性較差的問題,同時能夠對命名實體識別進行深入學習,提高識別的準確率。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产欧美日韩精品第二区| 在线观看网站国产| 在线视频精品一区| 久久精品一卡日本电影| 久无码久无码av无码| 亚洲国产成人久久77| 亚洲天堂伊人| www.av男人.com| 白浆免费视频国产精品视频| 色婷婷色丁香| 国产va在线观看免费| 国产精品护士| 2022精品国偷自产免费观看| 网友自拍视频精品区| 国产超碰一区二区三区| 在线观看欧美国产| 制服丝袜 91视频| 国产主播一区二区三区| 国产h视频在线观看视频| 幺女国产一级毛片| 欧美黄色网站在线看| 中文字幕久久亚洲一区| 日韩在线视频网站| 成人国产精品2021| 91av国产在线| 久久综合色天堂av| 免费一极毛片| 亚洲人免费视频| 成人夜夜嗨| 亚洲精品日产AⅤ| 91无码人妻精品一区| 国产精品视频公开费视频| 国产成人一区在线播放| 国产精品自在在线午夜| 尤物视频一区| 亚洲日韩Av中文字幕无码| 欧美国产精品不卡在线观看| 久久一日本道色综合久久| 国内精品小视频福利网址| 72种姿势欧美久久久久大黄蕉| 精品人妻系列无码专区久久| 东京热av无码电影一区二区| 精品视频免费在线| 无遮挡国产高潮视频免费观看| 亚洲毛片网站| 国产美女主播一级成人毛片| 久草热视频在线| 香蕉蕉亚亚洲aav综合| 免费又爽又刺激高潮网址| 国产一区二区三区视频| a毛片免费在线观看| 一级在线毛片| 91黄视频在线观看| 国产成人无码播放| 99国产在线视频| 国产网友愉拍精品视频| 少妇极品熟妇人妻专区视频| 天堂在线视频精品| 亚洲午夜片| 国产专区综合另类日韩一区| 欧美一区二区自偷自拍视频| 亚洲六月丁香六月婷婷蜜芽| 色综合日本| 国产精品欧美激情| 欧美专区日韩专区| 99精品在线看| www.91中文字幕| 毛片一级在线| 国产美女免费网站| 国产男女免费完整版视频| 精品国产www| 国产精品久久精品| 国产真实乱了在线播放| 亚洲一区网站| 免费人成视网站在线不卡| 亚洲精品亚洲人成在线| 茄子视频毛片免费观看| av在线5g无码天天| 免费中文字幕在在线不卡| 久久久噜噜噜| 亚洲男人天堂2018| 国产在线高清一级毛片|