王紅斌+郜洪奎



引言
事件提出到現在一直受到學術界的關注,從而引起國家的重視。2009年,中國重點支持的科研項目之一是突發性災難事件的研究。中國是大國,交通事故發生頻繁;中國希望通過相關研究可以預防災難和減少事故的發生。事故處理部門主要關心事故發生時間、地點、人員傷亡以及哪個路段、哪個時間容易發生事故,從而采取措施來最大限度的減少傷亡。對于事件的研究不僅具有理論研究價值,還具有實際的應用前景。
事件抽取已有部分研究,并已取得較好的研究成果。國內外對事件抽取研究大致分為兩類:基于規則的方法和機器學習方法。基于規則的方法是事先制定一個字典,然后用待選詞與字典進行匹配。國內外基于規則方法的相關研究如下:Alan D采用二元分類器和多元分類器方法來進行事件抽取研究,并且在ACE英文語料庫進行了實驗,取得較好的結果;對于中文事件的抽取研究,吳平博等人采用預先定義的模版來制定規則,從處理的文本中抽取事件信息來填充句型模板中的槽。張毅采用面向規約挖掘的事件相關性分析研究事件。熊宗炬和熊志斌針對特定領域突發事件的研究,并給出了原型系統。李超等人針對音頻事件的研究。上述事件抽取都限定特定領域,缺乏普遍性。
結合上述國內外事件抽取發現,基于規則方法在一定范圍內效果相當不錯,但是它依賴具體環境,可移植性差,對于一些沒有統計到字典的詞,識別不出來。而且字典的制定費時費力,需要領域專家的指導。由于這些突出問題導致對事件抽取研究都轉向了機器學習,機器學習方法可以解決當前這些面臨的問題。國內外運用機器學習的相關研究例如:該方法采用以文檔相關性的研究方法和跨越不同事件的推理演繹方法;楊爾弘根據中文特點,采用語句聚類的方法獲得事件的信息結構(事件模板),并以此為標準進行抽取事件;趙妍妍等人結合Ahn等人的工作對機器學習需要的特征進行了改進;付劍鋒等人采用依存分析進行深入的挖掘詞與詞間的句法關聯性。但是機器學習方法需要大量的語料和眾多的特征作為支持,現如今語料資源的缺乏和特征的選取也影響了機器學習的提高。而且這兩種抽取方法均沒有考慮詞語問詞性特征以及詞語之間的依賴性和事件句之間的關聯。
針對以上情況,本文提出了一種新的事件抽取方法充分考慮核心詞和其他詞語的特征、句間關系和詞語間的依存性。采用本文提出的這種方法實驗發現,在事件識別和事件要素提取均有明顯提高。
1事件識別
事件這一概念被提出,且有較多含義,百度百科上定義為產生重大影響,并且對社會和人類產生深刻影響。事件,反映著自然界中的運動以及產生和變化的行為,是人類進行探索和發掘知識的基本單位。在自然語言處理和信息檢索領域,檢索的主題被稱作事件。美國國防高級研究計劃委員會上認為事件是比話題小的概念。事件是話題的子集,多個事件共同組成一個話題。事件表示為在“特定時間特定地點發生”。大會上指出話題的識別和跟蹤包括五大步奏,其中最重要的就是事件識別。國際上定時召開的ACE評測會議極大促進了事件抽取的向前發展,大會認為事件通常是一種狀態轉向另一種狀態,并把“事件”定義為含有參與者,時間,地點等特征的集合。綜合以上不同領域對事件的研究發現,盡管事件這一概念在不同領域內定義不同。但是,事件的定義都包括行為(一般由動詞、名詞或動名詞來描述)、事件的參與者、事件發生的地點和時間等要素。下面給出了事件的正式定義。
定義1事件(Event):特定時間特定地點發生、由參與者參與、表現出若干動作。
例如:
(1)2016年8月14日,在市中心,一輛公交車與多輛小轎車發生追尾,小轎車司機當場死亡,公交車司機受重傷。
定義2事件觸發詞(Event Denoter):文本中清晰的表示發生事情的詞語,即事件的動作要素。文獻表明事件觸發詞一般為動詞,名詞,動名詞。
例如:
(2)北京時間2016年8月16日,澳大利亞發生了5.7級地震。
在事件識別和事件抽取兩大任務中,關鍵任務還是事件識別,事件的識別在兩大任務中起到決定性作用。例如:張三患上了高血壓,癱瘓在床。
(1)小李在工作期間由于大意摔成癱瘓。
(2)強大的暴雪致使公路癱瘓。
(3)黑客攻擊網絡導致12306癱瘓。
上面三個例子,觸發詞都是癱瘓,但是只有句子1才符合要求,才是真正事件。因此,對于事件識別,不能孤立考慮句子,要結合依存分析把觸發詞以及距離觸發詞相近的詞以及這些詞的詞性、位置信息、句子間的關聯性、依存關系等作為事件識別的特征。
2 word2vec和依存關系
2.1word2vec
計算機只認識0和1。因此,進行自然語言處理,首先要將現實世界存在的文本或文檔轉化為計算機認識的語言。最直觀的方法就是向量模型表示方法。也就是用0和1表示表示文本或文檔,在某一位置存在的用1表示,其余用0。采用該方法可以把對文本的處理轉化為向量空間上的運算。Word2vec是2013年谷歌推出的一款高效的將文本語言轉化為向量的工具。Word2vec在自然語言處理中可以用于很多用途,例如同義詞、聚類等。
本文主要借助word2vec進行擴展同義詞,該工具具有訓練速度快,可以在較短時間內訓練出大量數據。實驗前,需要對數據進行預處理等操作,然后在采用word2vec工具把數據轉化為向量。采用word2vec進行數據處理的流程圖如下圖1所示:
在本文實驗中,為了更好的進行數據訓練,需要不斷調整訓練中參數變化。例如訓練中具體的算法和相應的模型以及訓練窗口的大小等因素。本文中采用的參數如下圖2所示:
經過訓練后得到詞向量模型,然后就可以調用word2vec提供的方法進行相似度計算,得到同義詞。本文的同義詞擴展是根據ACE定義的8大類33小類事件出發,根據初始定義的種子觸發詞采用該方法進行擴展。最后,分別使用計算每個種子詞相似度較高的詞語,再對每個種子詞的相似度得分列表進行加權平均,從而得到最終的相似度列表。采用word2vec進行挖掘查找同義詞,對于查找和種子觸發詞的同義詞可以進行加權,而對于只與其中某個種子詞相關,與其他種子詞相似度較低的詞將得到相似度得分的打壓和降權。endprint
2.2依存關系
依存關系是進行句法分析的重要方法。采用依存分析發現句子中中心詞和其余詞語的關系,并且轉化為語義依存來描述。當前領域內的主流方法是基于短語的句法分析。首次提出基于依存結構句法分析概念是在1984年,由Hudson在提出。依存分析概念提出后,就受到學者們一致好評和廣泛的推廣。依存關系主要包括兩個部分:一個是核心詞、另一個是依賴詞。依存關系的基本原理是充分挖掘句子中詞與詞間的關系,轉化為描述自然語言的語法結構。詞語間有聯系和相互支配,反映出詞語間的不對等現象,這種相互間具有方向性的關系就被稱為“依存關系”。依存關系中,定義箭頭發出的是支配者,箭頭指向的就是從屬者。例如:2013年6月7日,習近平和奧巴馬在美國加州安納伯格莊園會談,依存分析表示如下圖3所示:
“2013年6月7日,習近平和奧巴馬在美國加州安納伯格莊園會談。”上述事件句中,Root是全句核心節點。HED代表的是核心詞,核心詞是“會談”;“會談”也是本事件句的觸發詞。依存關系表示中,COO表示并列關系,LAD表示左附加關系,SBV表示主謂關系,ATT表示定中關系。詞語間的依存關系是用帶箭頭的有向弧表示。在圖中,箭頭的發起端代表的詞是依存詞,箭頭的指向端代表的詞是核心詞。在“2013年6月7日,習近平和奧巴馬在美國加州安納伯格莊園會談”事件句中,美國、加州、安納伯格、莊園都是表示地點的事件要素。經過分析可知,只有莊園是真正的地點要素。首先采用word2vec轉為向量,然后采用依存分析詞語之間關系。依存分析表示地點詞是按照核心詞和依賴詞順序排列,真正的地點要素是后面的依賴詞。本例中美國是加州的核心詞、安納伯格是莊園的核心詞、加州是莊園的核心詞。本文根據依存關系只要出現地點詞最終地點要素均是依賴詞。依存分析是依賴于分詞之上的,因此分詞的效率直接影響依存分析的結果。因此本文采用的分詞工具是中科院的ICTCLAS,依存分析采用的是斯坦福大學Stanford。
3實驗
3.1事件識別
本實驗先對數據進行預處理等操作,然后在此基礎上運用word2vec工具進行詞向量處理和依存分析相結合進行事件識別。實驗所用語料是來自網絡上搜集關于事件的報道,采用SVM和最大熵作為分類器。實驗用的訓練語料是80124篇、測試語料為812篇。采用準確率(P)、召回率(R)、F值作為評價指標。實驗進行事件識別選用的特征有詞、詞和詞法、詞和句間關系。事件識別對比實驗如下圖4所示。
(1)以詞(Word)為特征;
(2)以詞和詞法(Word+POS)作為特征;
(3)以詞和句間聯系(Word+ContacO作為特征;
(4)上述全部特征(AU Features)作為特征
從圖4對比實驗可知,選擇句間關系和依存關系這些特征來識別事件效果要好于單獨用詞作為特征識別事件。事件識別中,特征選擇越多,事件識別的效果越好。
4結束語
本文提出了一種結合word2vec和依存分析的事件識別和事件要素抽取方法。實驗結果表明,該方法在事件識別中可以提高事件識別的準確率和召回率以及F值。但是對于事件要素對象上,存在一些問題。例如人稱代詞沒有具體指出指代上下文的哪一個對象。因此,下一步是考慮如何解決事件要素中出現的人稱指示代詞。endprint