999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

泰語新聞事件觸發詞抽取研究

2017-04-18 00:29:10彭籍沖
價值工程 2017年11期

彭籍沖

摘要:自然語言領域內事件抽取是信息抽取中一項重要的研究課題。事件觸發詞的識別與抽取在事件抽取中扮演著重要角色。針對目前缺少對泰語觸發詞識別與抽取的技術研究,提出了通過中文事件觸發詞入手構建初始泰語新聞事件觸發詞表,并根據初始泰語新聞事件觸發詞表自動抽取泰語觸發詞。實驗結果表明此方法很好有效的實現了泰語新聞事件觸發詞的識別與抽取。

Abstract: The research of event extraction in natural language processing field is an important research topic in information extraction area, and the recognition and extraction of event trigger word plays a decisive role in event extraction. For the current situation that lacks of technology research of Thai trigger word recognition and extraction, propose to build the initial Thai news events trigger words table by Chinese event trigger words, and extract Thai trigger word automatically based on initial Thai news events trigger word table. Experimental results show that this method can effectively realize the Thai news events trigger word recognition and automatic extraction.

關鍵詞:事件抽取;新聞事件;泰語觸發詞表;觸發詞抽取

Key words: event extraction;news events;Thai trigger word table;trigger word extraction

中圖分類號: TP311 文獻標識碼:A 文章編號:1006-4311(2017)11-0226-03

0 引言

隨著全球化的推進,中國與泰國之間政治、經濟、文化交流日益頻繁。中泰兩國之間各方面交往的新聞報道越來越多,而新聞報道能客觀地反映一個國家對不同領域的政策和態度。對泰國新聞事件進行有效的抽取,有利于更好地了解泰語新聞報道的內容,以便更好地處理中國與泰國的國際關系。因此,對泰語新聞事件抽取研究至關重要。

新聞事件抽取主要把人們感興趣的新聞以結構化的形式呈現出來,如什么時間,什么地方,發生什么事,由哪些人參與或被涉及。事件在不同領域有著不同的定義,在信息抽取(Information Extraction,IE)中,事件是指某個特定的時間和環境下發生的、由若干角色參與、表現出若干動作特征的一件事情,通常情況下是句子級。在ACE(Automatic Content Extraction)評測會議中,事件定義為由事件觸發詞及事件元素構成。可見,事件觸發詞識別與抽取是事件抽取的關鍵。因此,本文將參照ACE2005[1]有關事件抽取的相關定義,開展泰語新聞事件觸發詞的抽取研究。

1 國內外研究現狀

作為信息抽取的一個熱門研究領域,事件抽取研究主要聚焦在中英文兩方面。Ahn[2]用英語句中的每一個詞作為實例,使用二元分類的方法判別句中的詞是否為觸發詞,用多元分類方法識別它所屬事件類型。這種方法能夠自動識別觸發詞和事件類型。但是,句子中的每一個詞作為實例用于訓練機器學習模型導致引入大量的反例,造成正反例嚴重失衡。Hilda Hardy[3]提出了基于數據驅動的方法進行篇章級的事件識別,并進一步證明了選取特征向量用于訓練常見學習算法比人工定義規則模型進行事件識別用時更短而且不受專業限制。Ji Heng[4]提出基于規則的方法對觸發詞、事件參與者和角色進行判斷的方法實現同一話題集文檔的事件抽取,不再局限于對一篇文檔進行事件抽取。由于考慮了全局信息,即話題集簇中的所有相關文檔,該方法取得了很好的效果。趙妍妍[5]提出根據對構建的初始中文觸發詞表,先采用類似TF*IDF的方法過濾存在一詞多義現象的觸發詞,再使用《同義詞詞林(擴展版)》擴充觸發詞表,不僅提高了召回率,而且解決了由于語料小構建的觸發詞表有限的不足。侯立斌[6]提出了通過LDA模型對詞語聚類來解決詞形特征過擬合問題,并使用基于字的事件觸發詞檢測的方法解決中文自動分詞與標注與觸發詞邊界不一致問題。LongTian[7]以CEC語料庫作為訓練語料及測試預料,提出了結合擴展事件觸發詞表與機器學習的方法進行事件觸發詞的自動抽取。實驗結果表明提取中文事件觸發詞的F值達到了71.2%。朱少華[8]采用基于馬爾科夫邏輯網絡,利用觸發詞或核心詞素同指與相關一致性推理規則,學習訓練語料中候選觸發詞填充真假事件的概率和觸發詞實例間的關系,進行中文觸發詞推理,巧妙地利用同一文檔中各個觸發詞實例之間的一致性關系,此方法觸發詞識別的F值達到了73.79%。

2 泰語新聞事件觸發詞抽取

首先,本文根據CEC[11]語料庫創建初始中文觸發詞表;使用《哈工大信息檢索研究室同義詞詞林擴展版》[12]對初始中文觸發詞表進行擴展;調用百度翻譯API端口[13],將中文觸發詞翻譯為泰語,生成初始泰語觸發詞表。然后,對泰語新聞文本句子進行預處理,其中包括分詞、標注詞性、抽取實體,將抽取出的實體構建候選觸發詞集。最后,根據初始泰語觸發詞表計算候選觸發詞集中詞的權重值,進而實現使用初始泰語觸發詞表對泰語新聞事件觸發詞的識別與抽取。泰語新聞事件觸發詞抽取過程如圖1所示。

2.1 構建中文初始觸發詞表

根據CEC語料構建一張中文初始觸發詞表。CEC語料庫,包含五類新聞文本:地震、火災、交通事故、恐怖襲擊、食物中毒,共計332篇。其中已經對事件、觸發詞、事件類型、事件元素進行標注。構建的部分初始中文觸發詞表如表1所示。

2.2 擴展初始中文觸發詞表

由于語料規模太小覆蓋面不夠廣泛,許多事件類型的觸發詞無法召回。如:新聞句E1印尼蘇門答臘島附近海域1個月來發生多次強震。“強震”不在地震類事件觸發詞表中,E1就很難被識別為地震類事件。而“強震”與地震類事件觸發詞表中“余震”在同義詞詞林中被標記為同類詞。Id14E02#余震、強震。所以根據文獻[14]提出的使用《哈工大信息檢索研究室同義詞詞林擴展版》對觸發詞表進行擴展來解決語料小召回率低的問題。然而,還存在一些觸發詞在同義詞詞林中有兩種編碼。如在同義詞詞林中查詢“震動”可得到以下兩個詞條:Id14E01=顫動、抖動、顛簸、顛、震、簸蕩、震蕩、振蕩、振動、震動、共振;Je02B01=觸動、感動、打動、撥動、震動、激動、震撼、撼動、撼、動。這種情況我們判定此項詞條中是否含有其他詞在同事件類觸發詞表中。Id14E01=詞條中存在“震”、“振動”同在地震類事件觸發詞表中,而Je02B01=詞條中并不存在多個(多余兩個)詞同屬地震類事件觸發詞。這種情況下,即把Id14E01=中的所有詞匯擴展到地震類事件觸發詞表中。根據以上方法對初始中文觸發詞表進行擴展。部分擴展觸發詞表如表2所示。

2.3 泰語觸發詞表的生成

2.4 基于泰語新聞事件觸發詞表抽取泰語新聞事件觸發詞

根據泰語新聞事件觸發詞表抽取泰語新聞事件觸發詞。由于泰語文本中不采用標點符號或是空格進行句子分割的使用特性與目前缺少對泰語文本句子切分的相關研究,本文開展對泰語新聞句子進行泰語新聞事件觸發詞抽取。首先,根據文獻[15]將泰語新聞句預處理,包含分詞、標注詞性;其次,提取出其中的名詞、動詞(文獻[16]統計表明觸發詞基本為名詞、動詞,此舉很大程度上縮小候選觸發詞集的范圍);最后,構建候選泰語新聞事件觸發詞集。

3.2 實驗結果與分析

本文從中泰雙語新聞網[17]選取1000個泰語新聞句子作為實驗數據。將其中750個泰語新聞句作為訓練語料,250個泰語新聞句作為測試預料。對訓練預料進行標注,參照CEC標注標準,標記出事件、觸發詞、事件類型。由于在泰語觸發詞提抽取方法研究方面,目前未見相關研究論文。因此,本文僅給出了我們方法的實驗結果,實驗結果如表4所示。

實驗結果表明,由于泰語分詞、詞性標注準確率對泰語觸發詞識別及抽取有著較大影響及泰語新聞標注語料過于單一的這些原因,導致根據抽取泰語觸發詞的準確率不高,但召回率比較理想。

4 結語

目前泰語新聞事件抽取研究處于起步階段,本文提出通過中文觸發詞表構建泰語觸發詞表,并通過泰語觸發詞表對泰語新聞文本中觸發詞進行抽取。實驗表明,此方法對泰語觸發詞抽取是可行的。為了實現更好的抽取結果,提高泰語新聞觸發詞抽取的準確率,下一步的工作重心是擴大泰語標注語料,結合泰語語言特性構造特征向量,并結合機器學習的方法進行泰語新聞事件觸發詞抽取研究。

參考文獻:

[1]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[S]. National Institute of Standards and Technology, 2005.

[2]Ahn D. The stages of event extraction [C]. Arte06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events, 2006:1-8.

[3]Hardy, H., Kanchakouskaya, V., Stzalkowski, T. Automatic Event Classification Using Surface Text Features[C]. AAAI 2006 Workshop on Event Extraction and Synthesis, Boston, MA (2006).

[4]Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]. ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. 2008:254-262.

[5]趙妍妍,王嘯吟,秦兵,等.中文事件抽取中事件類別的自動識別[C].第三屆學生計算語言學研討會.中國遼寧沈陽,2006.

[6]侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件識別研究[J].計算機工程,2012,38(24):191-195.

[7]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.

[8]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.

[9]朱少華,李培峰,朱巧明.基于MLN的中文事件觸發詞推理方法[J].北京大學學報自然科學版,2016,52(1):89-96.

[10]張金花.漢泰語對比淺析[J].群文天地,2012(2):98-98.

[11]孫漢萍.漢、泰語的同異性比較[J].當代教育理論與實踐, 1995(2):34-39.

[12]付劍鋒.基于事件的中文語料庫標注方法[P].中國專利:201010126360.8,2010.

[13]http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.2009.

[14]http://api.fanyi.baidu.com/api/trans/product/index.

[15]Qin B, Zhao Y, Ding X, et al. Event Type Recognition Based on Trigger Expansion[J]. Tsinghua Science and Technology, 2010, 15(3):251-258.

[16]趙世瑜,線巖團,郭劍毅,余正濤,洪玄貴,王紅斌.基于條件隨機場的泰語音節切分方法[J].計算機科學,2016,43(3):54-56,83.

[17]付劍鋒.面向事件的知識處理研究[D].上海:上海大學, 2010.

[18]http://th.hujiang.com/zt/zhngtaixinwen/.

主站蜘蛛池模板: 精品成人一区二区三区电影| 亚洲视频色图| 国产视频欧美| 露脸国产精品自产在线播| 国产极品粉嫩小泬免费看| 欧美一级夜夜爽| 中国丰满人妻无码束缚啪啪| 国产主播在线一区| 色老头综合网| 欧美第一页在线| 欧美一区二区人人喊爽| 亚洲一区网站| 国产 在线视频无码| 国产极品美女在线播放| 亚洲无线一二三四区男男| 亚洲欧美日韩精品专区| 色丁丁毛片在线观看| 高清无码手机在线观看| 国产亚卅精品无码| 国产99久久亚洲综合精品西瓜tv| 97视频在线精品国自产拍| 免费国产高清视频| 国产精品久久久久鬼色| 丁香亚洲综合五月天婷婷| 久夜色精品国产噜噜| 亚洲大尺码专区影院| 日本久久免费| 亚洲高清在线天堂精品| 一本大道香蕉久中文在线播放| 欧美成人亚洲综合精品欧美激情| 亚洲欧美色中文字幕| 色哟哟国产精品一区二区| 中国毛片网| 日韩第九页| 青青草原国产av福利网站| 欧美日本中文| 无码精油按摩潮喷在线播放| 国产免费羞羞视频| 在线视频一区二区三区不卡| 激情無極限的亚洲一区免费| 亚洲欧美极品| 丁香六月综合网| 九色在线观看视频| 国产精品无码作爱| 9久久伊人精品综合| 在线色综合| 国产二级毛片| 韩国自拍偷自拍亚洲精品| 国产一级裸网站| 国产理论最新国产精品视频| 久久久精品无码一二三区| 国产中文一区a级毛片视频| 亚洲欧美不卡中文字幕| 免费av一区二区三区在线| 中文字幕在线视频免费| 成人午夜视频免费看欧美| 99久久精品免费看国产免费软件| 日韩高清一区 | 精品福利视频网| 欧美亚洲一区二区三区导航| 免费a在线观看播放| 草草线在成年免费视频2| 无码视频国产精品一区二区| 久久精品只有这里有| 欧美黄网站免费观看| 亚洲欧美一区二区三区麻豆| 久久久久免费看成人影片| 少妇人妻无码首页| 亚洲精品国产综合99| 亚洲精品卡2卡3卡4卡5卡区| 精品欧美视频| 日韩在线2020专区| 人妻21p大胆| 亚洲女同一区二区| 国产区在线看| 人妻丰满熟妇AV无码区| 人妻丝袜无码视频| 久久久久国产一级毛片高清板| 丁香综合在线| 中文字幕有乳无码| 亚洲国产中文精品va在线播放| 欧美亚洲一二三区|