吉久明+王鑫+李楠+陳錦輝+孫濟慶



〔摘 要〕本文將觸發詞分為時間類和非時間類,對觸發詞提取算法進行改進,以一定量導電塑料行業新聞為基礎語料構建兩類觸發詞詞表,并采取時間類觸發詞優先的事件句識別策略。基于該觸發詞詞表對導電塑料和太陽能行業新聞語料進行事件句識別算法有效性實驗,開放測試的召回率和準確率分別超過98%和95%。該結果表明:將觸發詞進行基于時間特性的分類,并優先使用時間類觸發詞提取事件句,能取得顯著的效果。
〔關鍵詞〕事件句;抽取;觸發詞優先
〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)12-0046-04
〔Abstract〕This paper focused on efficient event sentences extraction algorithm.A trigger phrase extraction algorithm to extract events sentence based on time or nontime trigger word was presented.Some trigger words were extracted from industry news corpus about conductive plastics based on the algorithm,the opening beta on industry news corpus about conductive plastics and solar higher than 98% recall ratio and 95% accuracy ratio,which indicated the effectiveness of algorithm.
〔Key words〕event sentence extraction;trigger word priority;time trigger word;nontime trigger word
當前有關事件抽取研究中主要以特定行業新聞事件抽取研究為主,包括金融、軍事、法律、交通等行業,所采用的方法包括模式匹配、觸發詞和本體方法,觸發詞方法的使用頻率最高,且綜合效果(微平均)較優于單純的模式匹配算法[1]。
觸發詞也稱事件關鍵詞,通過對事件句的統計分析后發現,出現某類術語或詞匯的句子文本中含有事件句的概率非常高,如:包含“發生”、“襲擊”、“研制”、“生產”、“舉行”、“舉辦”、“開幕”等動詞的句子,“今年三月份在地鐵3號線發生乘客猝死事件”、“周杰倫將于2010年6月11日在臺北小巨蛋舉辦周杰倫超時代演唱會”等基本為事件句。因此,通過建立事件觸發詞詞典獲得事件句集合再進行事件抽取能取得較好的效果。
一般地,收集事件觸發詞的方法主要有兩種:一是建立特定的觸發詞模型,通過已有事件句中詞匯的分析統計,提取事件句觸發詞;二是由領域專家基于領域經驗手工構建。手工構建方法主要依賴專家經驗,一方面需要較長時間、較多人力投入,另一方面動態增加的海量事件文本也是一大挑戰,觸發詞模型方法正好彌補了手工方法的缺陷,理論上更容易提高新增事件文本中觸發詞的查全率,但觸發詞模型的有效性仍有待進一步提升,如文獻[2],在構建相似詞匯鏈的基礎上,提出了一種基于詞匯的TFIDF值、在文中的位置及相似詞匯鏈長度的事件關鍵詞模型,提取一定數量的事件關鍵詞,對較大樣本的實驗有約74%的事件關鍵詞為可接受的[2],自動提取事件觸發詞仍需要進一步研究[3-5]。
觸發詞方法強調了觸發詞對提高事件抽取召回率的重要意義,尤其對于觸發詞表相對固定的行業領域事件抽取而言,能提高事件抽取的效率;模式匹配方法更突出句法或語義角色對提高事件抽取準確率的重要意義,對于句法或語義角色相對固定的事件抽取任務,同樣能提高事件抽取的效率。因此,將觸發詞方法和模式匹配方法結合使用,理論上應能取得較好的召回率、準確率,也能保證一定的效率水平,但實際效果還有待提高,如文獻[6]或文獻[7]基于觸發詞及其鄰近特征的動態權重的KNN算法或支持向量機判別事件句,準確率分別為81.8%和87.8%[6-7],且由于涉及特征選擇,實際執行效率不理想。筆者曾設計了一種基于觸發詞句型模版的行業新聞事件句提取算法,由于過分強調“詞”的形式,所選擇的多數觸發詞所提取的句子準確率很低,如:“研制”事件抽取準確率僅為61.19%,因此需要事先編制大量的觸發詞句型模版,盡管如此,仍僅有少量觸發詞句型模版抽取事件的準確率超過80%[8]。但筆者發現:若將“研制”改為“研制了”、“制造”改為“制造了”,則僅基于該兩種觸發詞的事件抽取準確率即可提高到90%以上。
因此筆者認為,對于觸發詞表相對固定的行業新聞,提高基于觸發詞的事件抽取準確率的方法主要在于提高觸發詞的“專指性”,即利用中文語言的特征尋找具有很強的事件提示功能的觸發詞或詞組合。而若簡單地統計事件中的高頻詞,則不易獲得這類觸發詞。故本文將進一步研究獲得高“專指性”新聞事件觸發詞的有效方法,進而提高基于觸發詞的事件句抽取的準確率。
1 基于觸發詞的行業事件抽取
1.1 語料特征分析——以導電塑料行業新聞為例
以“導電塑料”及其同義詞或近義詞為檢索詞,利用搜索引擎檢索相關導電塑料行業新聞,共獲得658條語料記錄。根據新聞撰寫的規定和相關理論,新聞導語句一般會報導新聞的五個要素——何時、何地、何人、何事、何因[9],這五要素正是新聞事件句的必備元素,而后續的文字則是對新聞事件的補充說明,因此理論上可從導語部分抽取事件。但事實上658篇語料中,事件句分散在導語及第2、3、4、5、6句,如下列語料的第②句為行業新聞事件句。
①生意社6月8日訊:想象一下,把一個USB端口插入一張紙,將它變為一個平板電腦。②這可能需要一段時間,但是北卡羅萊納州立大學的研究人員已經按照這些想法去研究如何將傳導納米涂層應用于簡單的紡織品,如梭織棉布,或者甚至一張紙。
因此,為減少大量非事件句對事件抽取的干擾,本文暫針對新聞語料的前6句研究新聞事件句觸發詞的提取。
1.2 行業新聞事件句觸發詞詞表構建
事件即某時發生在某地的某事,或某人某時在某地參與(見證、實施、做出、取得了)了某動作(決定、成果),對于新聞事件而言,其中的時間元素必不可少,但由于語境的關系,常有事件句的時間元素被省略的現象。如下列語料:
①人民網上海2月10日電:(記者姜泓冰)防偽紙幣、穿戴設備……柔性電子技術研究已成國際熱點。②近日,復旦大學一團隊……取得突破性進展……。③復旦大學信息科學與工程學院仇志軍副教授……,相關論文已發表于1月27日出版的國際權威性學術期刊《自然-通訊》(Nature Communications)。
該語料中第②句、第③句均為事件句,兩句講述的是同一件事,但第③句的時間元素被省略了。若以“取得”或“提出”為觸發詞提取事件,則兩句均被命中,需要進一步依據其出現的次序進行甄別;而若以“近日”作為新聞事件觸發詞提取事件句,則可忽略第③句。
同時,筆者注意到以下現象:①通過設定觸發詞準確率閾值的方法能提高整體的事件提取準確率。例如,限定在訓練語料中的準確率超過95%的候選詞為觸發詞,則整體準確率將超過95%。②若過分強調觸發詞的準確率,則召回率一定會大大降低,但由于兩個或兩個以上的詞組合召回事件句的準確率可能大于單個詞召回事件句的準確率,故有時可適當通過使用詞的組合形成觸發詞的方式在保證準確率的同時提高查全率。例如,同一子句中含有“據”和“報道”的句子為事件句的可能性大于含有“據”或“報道”的句子為事件句的可能性,含有“據”和“報道”的事件句可通過兩詞的組合召回。③將訓練語料分為事件句和非事件句,選擇召回事件句但不召回非事件句的詞或詞組合是保證事件句提取的準確率的有效途徑。
因此,設計基于時間元素優先的事件觸發詞字典構建方法。算法描述如下:
Step 1 收集各種表示近期的時間類觸發詞,如:近日、年…月…日、今日、今天、剛剛、日前、前日、昨日、本周、上周、明天、昨天、正在、下周、周一、周二、周三、周四、周五、周六、周日、近期、最近、前不久、不久前、本月、上月、下月、下個月、上個月、今年等;
Step 2 收集一定數量的行業新聞語料;以“。”、“?”、“!”為分隔符將語料切分為句子;人工提取新聞事件句;
Step 3 將包含Step 1中詞列表的事件句過濾掉;
Step 4 從Step 3中的新聞事件句中發現未列入Step 1中的時間類詞匯,若該詞召回新聞事件句的準確率大于給定的閾值P,則添加到Step 1的列表中,并進行同義詞擴充;
Step 5 重復Step 4,直至無法提取新的時間類觸發詞;
Step 6 對前6句進行分詞并統計詞頻(每句出現計1次);
Step 7 選擇詞長大于2,僅屬于新聞事件句詞表且頻次大于等于3(非同一事件)的動詞或動名詞列入非時間類觸發詞表,并進行同義詞擴充;
Step 8 當上述觸發詞或觸發詞組合的召回率大于R,算法終止,否則進入Step 9;
Step 9 將事件句中不包含在非事件句中的2個詞的共現對(即兩詞不同時出現在非事件句,但同時出現在同一事件句中),且共現頻次大于等于3的2個詞共現對列入非時間類觸發詞組合列表,直至召回率大于R。
由于時間類觸發詞對于行業新聞事件句的提取具有較高的召回率和準確率,一般而言,應優先抽取含有時間類觸發詞的事件句,且每段新聞語料僅需提取一句即可。但對于一些含指代對象的語料,如語料3:
復旦大學信息科學與工程學院副教授仇志軍……取得突破性進展……。相關論文近日在《自然—通訊》上發表。
該語料所描述的事件與語料2描述的事件相同,若以“近日”為觸發詞,則提取到的事件句為“相關論文近日在《自然—通訊》上發表。”,該句主語為指代詞“相關論文”,因此,更詳細的信息需要使用其前句進一步補充。因此,設計以下行業新聞事件句提取方案:
Step 1 首先構建含有各種指代詞的列表,如:這、相關、他、她、該、我、上述等;
Step 2 抽取各語料中含有新聞事件觸發詞的句子各一句(記為句子1,依觸發詞的次序而行,每段語料僅抽取一句);若基于“年…月…日”所得事件句的發生時間與當前系統日期的差大于N年,則繼續以其后的觸發詞抽取事件句;若所得句子的句首字為Step 1中的指代詞,則將句子1的前句與句子1合并為1句。
其中N為參數,可根據實際需要進行設置。
2 實驗結果與分析
2.1 新聞事件觸發詞提取
本次實驗關注導電塑料制備行業的新聞事件,訓練語料描述詳見1.1,觸發詞算法中的R=P,均設為95%,所抽取的時間類觸發詞及相應的準確率詳見表1。
上述觸發詞從658篇語料中共抽取到701條事件句,其中:37句事件句主語部分存在“行業新聞事件句提取方案”Step 2中的指代詞,需要補充前1句;不具新聞性的僅5句,這5句均含有事件發生的明確時間,故可根據系統時間進行過濾。進一步可以對上述觸發詞進行同義詞擴充,如:“周一”、“周四”可以擴展為:周二、周三、周五、周日等。
為進一步獲得語料中新聞事件句的非時間類觸發詞,抽取各篇的前6句共1 322句中的新聞事件句114句。依據觸發詞提取算法Step 6~7,提取訓練語料新聞事件句中準確率為100%的非時間類觸發詞及召回的句子數見表2。
計算這些時間類和非時間類觸發詞對于前述訓練語料的事件句抽取召回率和準確率分別為93.48%和99.34%,故繼續采用觸發詞提取算法Step 9,提取訓練語料新聞事件句中準確率為100%的組合類非時間類觸發詞組合召回的句子數見表3。
注:表3中不含“+”的詞組合表示兩個詞組成的一個詞,含有“+”的詞組合表示兩個詞分別出現在同一句的同一部分(即不含“,”等子句分隔符)。
至此,上述時間類觸發詞表、非時間類觸發詞表的事件句召回率為96.2%、準確率為99.34%,達到算法終止條件。雖然本文選擇了導電行業新聞語料作為提取事件句觸發詞詞表的語料,但從表3可以看出,所得觸發詞均不具行業相關性,因此可以應用于不同行業的語料的事件句識別。
2.2 開放測試實驗
隨機收集了2015年以來導電塑料行業新聞語料20篇(簡稱開放語料1)、太陽能電池行業新聞語料20篇(簡稱開放語料2),共含58條新聞事件句,其中含時間類和非時間類觸發詞的事件句分別為33條、41條,測試3.1中提取的觸發詞表提取事件句的效果。
2.2.1 時間類觸發詞事件抽取效果
使用前文提取的時間類觸發詞表A召回的句子數見表4,準確率均為100%。
2.2.2 非時間類觸發詞事件抽取效果
對41篇語料通過非時間類觸發詞表提取語料中的新聞事件句,召回率達到98.27%,各觸發詞的抽取準確率均超過95%,召回句子數見表5。
3 結束語
本文提出的事件觸發詞抽取技術與已有的觸發詞提取技術不同,在選擇觸發詞時,更強調“專指性”。首先充分利用事件句必備的時間元素及事件觸發詞相對固定的特點,將觸發詞分為時間類和非時間類。利用一定數量的語料事件句抽取準確率很高的兩類觸發詞或詞組合字典,優先使用時間類觸發詞提取出多數事件句后,再以非時間類觸發詞或詞組合提取余下的事件句,開放測試效果良好。
參考文獻
[1]趙小明,朱洪波,陳黎,等.基于多分類器的金融領域多元關系信息抽取算法[J].計算機工程與設計,2011,32(7):2348-2351.
[2]Bao Jiana,Li Tingyu,Yao Tianfang.Event Information Extraction Approach based on Complex Chinese Texts[C]∥IEEE Computer Society.445 Hoes Lane-P.O.Box 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2012:61-64.
[3]Li Peifeng,Zhu Qiaoming,Diao Hongjun,Zhou guodong.Joint modeling of trigger identification and event type determination in chinese event extraction[C]∥COLING 2012 Organizing Committee.Powai,Mumbai,400076,India:COLING 2012 Organizing Committee,2012:1635-1652.
[4]Pei-Feng Li,Qiao-Ming Zhu,Guo-Dong Zhou.Using compositional semantics and discourse consistency to improve Chinese trigger identification[J].Information Processing & Management,2014,50(2):399-415.
[5]魏小梅,黃鈺,陳波,等.生物事件觸發詞識別方法研究[J].計算機科學,2015,(10):239-243.
[6]Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,et al.Chinese event extraction based on feature weighting[J].Asian Network for Scientific Information,2010,9(1):184-187.
[7]趙小明,朱洪波,陳黎,等.基于多分類器的金融領域多元關系信息抽取算法[J].計算機工程與設計,2011,32(7):2348-2351.
[8]陳錦輝.導電塑料產業新聞事件抽取技術應用研究[D].上海:華東理工大學,2015.
[9]孫曉彥.新聞寫作技巧與范例[M].北京:藍天出版社,2011.
(責任編輯:馬 卓)