999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合事件信息的復雜問句分析方法*

2011-03-21 08:06:28劉小明樊孝忠劉里
關鍵詞:語義信息

劉小明 樊孝忠 劉里

(北京理工大學計算機學院,北京100081)

問句分析是自動問答系統首要的工作,是后續信息檢索和答案抽取的前提和基礎,對問答系統的整體性能具有重要的影響.對用戶以自然語言提問的問句,問句分析通過詞法、句法、語義甚至語言等多種處理,提取問題中的各種信息,并以計算機能夠處理的形式表征出來.因此,問句分析的目的主要是為后續信息檢索和答案抽取提供合適的問題結構化表示形式.

問句分析一直是問答系統研究的重點和難點[1],國內外學者對此進行了廣泛且深入的研究.文獻[2]中研究了并列結構識別的問題.文獻[3]中通過識別問句主題和焦點來檢索問句.賈君枝等[4]利用框架語義學原理,構建面向問句分析的語義框架,實現對問句的語義分析.陳康[5]將句子中具有固定語義且位置相對固定的部分稱為語義塊,據此提出基于語義塊的問句表征.范士喜等[6]提出的問句信息塊標注(QICA)分析方法與文獻[5]中方法相似,先根據語義將問句中的信息分為5類,然后對問句中的信息分類標注完成問句分析工作.上述方法都取得了不錯的效果,但對含有事件信息的復雜問句處理的準確率不高[5].

復雜問題處理的一個難點是如何處理其中包含的事件信息[5].特別是在一些特定的受限領域,如計算機故障診斷領域問答系統中,問句描述的是計算機出現故障的信息,這些故障信息由一系列的領域事件構成.例如,在問句“顯示器黑屏是怎么回事?”中,“黑屏”為一領域事件,對理解該問句起決定性作用.

復雜問句S1“打開電腦或重新啟動電腦的時候,主機的電源指示燈亮,顯示器沒有顯示,主機發出嘀嘀的報警聲”中,“打開”、“啟動”、“亮”、“顯示”和“報警”5個事件決定了問句的語義信息,其中“打開”和“啟動”是并列事件,但因其修飾成分不同,所以是不同的兩個事件.

由此可見,正確處理事件相關信息是分析復雜問句和提高系統性能必須解決的問題.為此,文中提出了一種融合事件信息的復雜問句分析方法,該方法利用事件抽取技術獲取復雜問句中若干事件,以事件語義模型表征事件,用多個事件語義模型實例表征整個復雜問句的完整語義信息.在事件語義表征的基礎上,利用事件要素計算事件的相似度,再由事件的相似度計算完整問句的相似度.最后通過實驗驗證融合事件信息的復雜問句分析方法的有效性.

1 事件

客觀世界是運動的,運動的世界是由事件描繪的.事件由時間、空間、參與者要素、過程狀態等要素構成,這些要素描述了參與事件的一個或多個實體之間發生相互作用的情景、方式、程度或效果等信息[7].語言描述事件的基本方式是(Event(do What),Who,Whom,Where,When,How),其意義是描述在一定的時間(When)和空間(Where)環境中,實體(Who,Whom)之間發生了什么樣的作用(Event(do What)),以及作用發生的方式、效果、程度等(How).

1.1 事件語義模型

事件由事件觸發詞(Event)觸發,事件觸發詞是標識事件的動詞或者動詞性名詞,是表示事件發生的術語[8].事件發生的空間(Where)、時間(When)、參與者(Who,Whom)和事件發生的狀態、方式、程度或效果(How)等要素是事件的論元,事件觸發詞和事件論元構成了事件完整的語義信息.例如,對于句子“昨天在中關村我買了一臺筆記本電腦”,其事件觸發詞和事件要素標識如下:

基于以上敘述,定義事件的一個形式化描述,稱之為事件語義模型.

定義1事件語義模型Event={A,O,M,H,T,L}.其中:A為施事要素Who;O為受事要素Whom,M為事件內容或者動作要素Event,將事件觸發詞也看作是一項事件要素;H為作用的效果;T為時間要素When;L為空間信息Where.

根據事件語義模型的定義,句(1)中“買”事件表示為Event(買)={A=我,O=一臺筆記本電腦,M=買,H=了,T=昨天,L=在中關村}.

1.2 事件相似度計算

比較兩個事件需要計算兩個事件的相似度.事件語義模型的定義表明,事件是一種包含多種屬性信息的復雜數據對象.文獻[9]中給出了一種包含多種類型屬性的復雜數據對象的通用相似度計算方法,定義復雜對象i(i={xi1,xi2,…,xin})和j(j={xj1,xj2,…,xjn})的相似度so(i,j)為

式中:αf為屬性f的權值為對象i和j關于f的相似度;如果屬性值xif或xjf缺失,則指示項0,否則

文獻[7]中將事件定義為由動作、對象、時間、環境、斷言和語言表現6種事件要素構成的一個6元組,文獻[10]中基于此定義,通過計算事件的語法和語義相似度、詞語序列相似度、時間重合度,并按照各要素對事件描述能力的強弱規定了權重因子的大小,最后綜合事件所有要素的相似度得到事件的相似度.在計算機故障診斷領域,問題涉及的事件具有如下特性:(1)若事件觸發詞即事件的動作要素語義信息不同,則兩個事件是不同的.例如,句子“顯示器黑屏”中的“黑屏”事件和“顯示器進水了”中的“進水”事件,即使這兩個事件的施事要素相同,都為“顯示器”,但卻是不同的事件,兩個事件的相似度為0.(2)事件的作用效果要素對事件的修飾成分具有決定性的影響.例如“指示燈亮”和“指示燈不亮”對事件“亮”的修飾不同,意義完全相反.(3)其余要素如時間和空間信息分別以一定的權值影響事件.

因此,計算機故障診斷領域中事件的相似度雖然也是由事件的所有要素共同確定的,但不是各個特征相似度的簡單組合,而是事件的動作要素和事件的作用效果對事件的相似度具有決定性,其它要素對事件按照一定的權重施加影響.這與一般的多種屬性的復雜數據對象之間的相似度是不同的.據此改進式(2),計算機故障診斷領域中事件實例ei和ej的相似度為

式中:αp(p=A,O,T,L)為施事、受事、時間和空間4種元素的權重,權值由領域專家根據具體的應用設定,其中如果屬性值pi和pj同時缺失或者同時出現,則指示項s(pi,pj)為事件要素pi和pj之間的相似度.參照文獻[11],將事件要素看作義元,則事件要素之間相似度計算公式為

式中:d為pi和pj在義元層次體系中的路徑長度,是一個正整數;h(pi)和h(pj)分別為義元pi和pj的層次深度.

例如,句子Si=“顯示器沒有顯示”和Sj=“顯示器顯示黑屏”都包含有“顯示”事件,分別表示為ei和ej.那么事件ei和ej的相似度以及各個要素的相似度計算結果如表1所示.

表1 事件ei和ej及其要素之間的相似度1)Table 1 Similarities between event ei and ej and their elements

根據以上要素,假設除事件的動作要素和作用效果要素外,其余各個要素間的權重相同.按照式(3),事件ei和ej的相似度sE(ei,ej)=1×0.8×(1+1+1+1)/4=0.8.

2 基于事件語義模型的問句分析

事件信息的語義表征是復雜問句“理解”的關鍵.基于事件信息的問句分析就是提取并形式化地表征問句中事件的語義信息,然后用事件語義模型形式化表征問句中的各個事件及事件元素信息,由各個事件語義模型的實例組成的集合描述整個問句的語義信息,為信息檢索和答案提取提供形式化支持.基于事件語義模型的問句分析包括預處理、事件語義信息提取和事件語義信息表征3個步驟.文中以問句S1為例來說明這3個步驟.

2.1 預處理

預處理包括分詞、詞性標注和命名實體識別.首先對問句S1進行分詞和詞性標注,結果如下:

打開/v電腦/n或/c重新/d啟動/v電腦/n的/ude1時候/n,/wd主機/n的/ude1電源/n指示燈/n亮/vi,/wd顯示器/n沒有/d顯示/v,/wd主機/n發出/v嘀嘀/o的/ude1報警/vn聲/n.

命名實體識別利用領域實體關鍵詞庫確定問句中的實體,并根據領域本體確定實體之間的相互關系和實體的屬性.根據領域實體關鍵詞庫,對分詞、詞性標注的結果進行掃描,確定其中的實體關鍵詞.對發現的實體關鍵詞,查詢領域本體庫,獲取實體及其之間的關系.領域本體庫中包括了實體、實體屬性和實體之間的關系,即計算機部件及其屬性信息,以及部件間的關系信息.該示例中,掃描問句發現的實體關鍵詞有“電腦”、“主機”、“顯示器”、“電源”和“指示燈”,因此確定該問題的實體集合Entity={entity1=電腦,entity2=主機,entity3=顯示器,entity4=電源,entity5=指示燈,entity6=報警聲};關系集合Relation={r1=HAS_A(電腦,主機),r2=HAS_A(電腦,顯示器),r3=HAS_A(主機,電源),r4=HAS_A(電源,指示燈)}.實體及其屬性信息是事件抽取時事件論元的備選項.利用實體關系判定一個詞在不同句子中指示的是否為同一個實體.如主機和顯示器都有電源和指示燈兩個子部件實體,顯然顯示器電源與主機電源是不同實體.該內容不是文中的研究重點,故不再詳述.

2.2 事件抽取和表征

事件抽取包括事件識別和事件要素的識別兩部分.事件識別是根據領域事件關鍵詞庫,在問句預處理結果中掃描事件關鍵詞;事件要素的識別即事件論元的識別,是對發現的事件確定與之相關的實體、時間、空間和作用效果等信息.

事件識別需要一個領域事件觸發詞集合,該集合包含特定領域中可能表示事件信息的所有動詞和詞性.如果問句中某個詞是集合中的一個元素,且詞性與觸發詞集合中標識的相同,則認為該詞觸發了一個領域事件.

事件論元識別采用哈爾濱工業大學信息檢索研究中心共享的LTP服務接口[12],通過調用該接口中的語義角色標注功能,獲取事件觸發詞的語義角色,再對比預處理階段獲取的實體信息,將賦予語義角色的領域實體作為事件的施事或受事論元.簡單地將獲取的標記ArgTmp語義角色的詞作為事件的時間要素,標記ArgLoc的詞作為空間要素.

根據上述事件語義模型和事件的抽取結果,將事件表征為由多個要素構成的事件語義模型實例.在例句S1中,領域事件關鍵詞有“打開”、“啟動”、“亮”、“顯示”和“報警”.其中,“打開”和“啟動”是電腦的動作,副詞“重新”是“啟動”的修飾語;“亮”是指示燈的動作;“報警”是主機的動作,產生的結果是“滴滴”的實體“聲音”;“顯示”是顯示器的動作,結果是“沒有”.“報警”是“主機”的操作,即“主機”發生了“報警”事件.因此,問句S1的事件集合Event={“打開”,“啟動”,“亮”,“顯示”,“報警”}中的各個事件及其語義模型實例如表2所示.

表2 問句S1的語義表征Table 2 Semantic representation of question S1

2.3 復雜問句的相似度計算

研究發現,復雜問句的事件構成了問題的主干,在計算機故障診斷領域更是如此.因此將包含事件的問句作為一種特殊的文本,表示為由多個事件語義模型表征的事件向量.根據事件語義模板和事件相似度定義,參考文獻[13]中基于事件的文本相似度計算方法,定義基于事件的復雜問句相似度計算方法如下:

式中:sS(Si,Sj)為問句Si和Sj的相似度;sE(eik,ejk)為事件eik和ejk的相似度;分別為Si和Sj包含的事件個數;n為Si和Sj包含的全部事件個數

3 實驗及分析

3.1 實驗設計

實驗數據一部分來源于某自動客服系統的用戶常用問句(FAQ)庫,另一部分則取自補充FAQ庫,從網絡如“百度知道”、“搜搜問問”、“太平洋電腦網快問”等知識問答專欄抓取.總共有104個與顯示器相關的問句,作為領域備選問句集合Q.

對領域備選問句集合Q中的問句進行分詞和詞性標注,將所有詞性標注為動詞的詞語組成備選事件觸發詞備選集合.然后,領域專家人工審核每個事件的觸發詞,確定與顯示器故障相關的特有的事件動詞或名詞性動詞,組成顯示器故障相關的事件觸發詞集合W.

從備選問句集合中選取包含有事件觸發詞的問句,再人工除去無關及無效問句,得到實驗所需的領域事件復雜問句2500個,組成實驗數據集合TQ.實驗中使用的部分問句和事件如表3所示.

表3 復雜問句及其事件示例Table 3 Samples of complex question and its related events

計算用戶問句與問句庫中各個問句的相似度,取閾值為0.75,將相似度大于該值的問句認為是與用戶意義一致的問句,有多個答案的取第一個作為有效答案,并判定其正確性.

3.2 實驗結果及分析

基于詞頻統計(TFIDF)的方法、基于知網的方法、基于語義依存的方法[14]、基于語義塊的方法[5]是目前中文問句分析中具有代表性的方法,文獻[5-14]中都對這些方法及其性能進行了詳細的敘述,這里不再贅述.為驗證事件語義信息對問句分析的效果,采用這4種方法與基于事件信息的復雜問句分析方法進行實驗.實驗中使用相同的TQ數據,并采用準確率(準確率=答對的問題數/問題總數)來衡量這些方法的性能.

初步實驗是單獨利用基于事件信息的問句分析方法,有1157個問句取得了正確的結果,其準確率只有46.28%.但其中事件論元識別正確的有1450個問句,取得了79.79%的準確率.由此可見,單獨使用事件語義信息并不能取得理想的識別效果.

因此,考慮在利用問句關鍵詞詞頻特征和語義信息特征方法的基礎上增加領域事件語義信息.進一步的實驗是:首先從問句中抽取關鍵詞,根據知網和領域本體對關鍵詞進行同義詞、領域關聯擴展.將關鍵詞及其擴展結果作為查詢條件,利用基于TFIDF的方法在FAQ庫中查詢,將返回的前10條作為備選結果.然后,根據事件語義信息對備選結果進行分析,利用基于事件的問句相似度計算方法來計算備選結果與用戶問句的相似度.最后,將相似度最高的常用問句作為最后的返回結果.幾種方法的實驗結果如表4所示.

從表4可知,基于TFIDF的方法、基于知網的方法、基于語義依存的方法和基于語義塊的方法都取得了較高的準確率;而文中融合事件信息的復雜問句分析方法利用了問句中事件的結構化語義信息,進一步提高了對復雜問句的分析效果,準確率高達78.6%.

表4 幾種方法的實驗結果Table 4 Experimental results of severalmethods

4 結語

文中將事件提取技術用于自動問答系統的復雜問題分析,定義了一個表征事件的事件語義模型和抽取方法,給出了一種事件相似度計算方法,并以此為基礎設計、實現了融入事件信息的復雜問句分析方法.事件語義模型有效地表征了問題中的事件語義信息,事件向量表征了問題中的完整事件語義信息,因此,融入事件信息的問句分析方法在利用關鍵詞詞頻特征和詞義特征的基礎上,還利用了事件的語義信息,可為自動問答系統后續的信息檢索和答案提取提供更為準確和豐富的結構化語義信息,提高了自動問答系統的準確度.

一個事件的發生往往會對另一個事件產生影響,將事件之間的相互影響稱為事件之間的關系.現階段對復雜問句分析的研究僅利用事件集合來表征問句,沒有利用事件之間的關系信息.事件之間的關系對問句更深層次語義理解的影響將是下一步研究的內容.

[1]鄭實福,劉挺,秦兵,等.自動問答綜述[J].中文信息學報,2002,16(6):46-52.Zheng Shi-fu,Liu Ting,Qin Bing,et al.Overview of question answering[J].Journal of Chinese Information Processing,2002,16(6):46-52.

[2]Fan Shi-xi,Wang Xuan,Wang Xiaolong.Combination of roughest theory and maximum entropy model for conjunctive structure detection in QA system[C]∥Proceedings of the Sixth International Conference on Machine Learning and Cybernetics.Hong Kong:IEEE,2007:3051-3056.

[3]Duan Hui-zhong,Cao Yun-bo,Lin Chinyew,et al.Searching questions by identifying question topic and question focus[C]∥Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Columbus:Association for Computational Linguistics,2008:156-164.

[4]賈君枝,邰楊芳.漢語框架網絡問答系統的問句分析設計與實現[J].現代圖書情報技術,2008,165(6):11-15.Jia Jun-zhi,Tai Yang-fang.The design and implementation of question analysis for Q&A system based on Chinese FrameNet[J].New Technology of Library and Information Service,2008,165(6):11-15.

[5]陳康.受限領域問答系統的問句分析研究[D].北京:北京理工大學計算機學院,2008.

[6]范士喜,王曉龍,王軒,等.面向真實環境的問句分析方法[J].電子學報,2010,38(5):1131-1135.Fan Shi-xi,Wang Xiao-long,Wang Xuan,et al.Real environment oriented question analyzing[J].Acta Electronica Sinica,2010,38(5):1131-1135.

[7]劉宗田,黃美麗,周文,等.面向事件的本體研究[J].計算機科學,2009,36(11):189-192.Liu Zong-tian,Huang Mei-li,Zhou Wen,et al.Research on event-oriented ontologymodel[J].Computer Science,2009,36(11):189-192.

[8]趙妍妍,秦兵,車萬翔,等.中文事件抽取技術研究[J].中文信息學報,2008,22(1):3-8.Zhao Yan-yan,Qin Bing,Che Wan-xiang,et al.Research on Chinese eventextraction[J].Journal of Chinese Information Processing,2008,22(1):3-8.

[9]敖成龍,蘇英,龔元明.基于相似度的復雜數據對象比較[J].北京理工大學學報,2003,23(5):593-595.Ao Cheng-long,Su Ying,Gong Yuan-ming.Comparison of complex data objects based on similarity[J].Transactions of Beijing Institute of Technology,2003,23(5):593-595.

[10]單建芳,劉宗田,周文.事件相似度計算[J].小型微型計算機系統,2010,31(4):731-734.Shan Jian-fang,Liu Zong-tian,Zhou Wen.Event similarity calculation[J].Journal of Chinese Computer Systems,2010,31(4):731-734.

[11]劉群,李素建.基于《知網》的詞匯語義相似度計算[J].中文計算語言學,2002,7(2):59-76.Liu Qun,Li Su-jian.Word similarity computing based on How-net[J].Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.

[12]哈工大信息檢索研究中心.語言技術平臺[EB/OL].(2006-09-05)[2010-09-10].http:∥ir.hit.edu.cn/demo/ltp/.

[13]仲兆滿,劉宗田,周文,等.基于事件的文本相似度計算[J].廣西師范大學學報:自然科學版,2009,27(1):149-152.Zhong Zhao-man,Liu Zong-tian,Zhou Wen,et al.Eventsbased text similarity computing[J].Journal of Guangxi Normal University:Natural Science Edition,2009,27(1):149-152.

[14]李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2003,12(12):15-17.Li Bin,Liu Ting,Qin Bing,et al.Chinese sentence similarity computing based on semantic dependency relationship analysis[J].Application Research of Computers,2003,12(12):15-17.

猜你喜歡
語義信息
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
修辭的基礎——語義和諧律
當代修辭學(2010年1期)2010-01-23 06:35:10
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产成人高清精品免费软件| 中文字幕日韩视频欧美一区| 亚洲最大综合网| 国产精品天干天干在线观看| 国产尤物jk自慰制服喷水| 成人av手机在线观看| 欧美日韩国产在线人成app| 嫩草影院在线观看精品视频| 久久久久国色AV免费观看性色| 中美日韩在线网免费毛片视频 | 色综合中文综合网| 久久成人免费| 亚洲精品在线影院| 亚洲欧美另类日本| 综合网天天| 一区二区三区精品视频在线观看| 99视频在线观看免费| 亚洲最猛黑人xxxx黑人猛交 | 性网站在线观看| hezyo加勒比一区二区三区| 欧洲熟妇精品视频| 少妇露出福利视频| 丁香五月激情图片| 亚洲精品777| 91麻豆国产视频| 亚洲天堂网在线播放| 亚洲一区无码在线| 香蕉网久久| 最新国产精品第1页| 亚洲成av人无码综合在线观看| 国产精品太粉嫩高中在线观看| 99视频在线精品免费观看6| 四虎影视永久在线精品| 亚洲IV视频免费在线光看| 国产精品网址你懂的| 91精品伊人久久大香线蕉| 99re热精品视频国产免费| 国产成人免费视频精品一区二区| 精品成人一区二区三区电影| 国产午夜精品鲁丝片| 亚洲国产天堂久久综合226114| 中文字幕久久亚洲一区| 欧美成人午夜影院| a欧美在线| 2021国产精品自产拍在线| 亚洲欧美另类专区| 色香蕉网站| 欧美第一页在线| 日韩欧美国产综合| 国产区免费精品视频| 亚洲av无码久久无遮挡| 小说 亚洲 无码 精品| 国产一国产一有一级毛片视频| 朝桐光一区二区| 99人体免费视频| 2020极品精品国产| 99久久精品国产麻豆婷婷| 中文字幕亚洲专区第19页| 国产又粗又猛又爽视频| 天天色天天综合网| 日韩一区精品视频一区二区| 亚洲精品天堂自在久久77| 亚洲黄色激情网站| 亚洲成人高清在线观看| 欧美精品色视频| 国产成人喷潮在线观看| 国产视频 第一页| 最新亚洲人成无码网站欣赏网| 亚洲国产精品日韩欧美一区| 亚洲欧美日韩中文字幕一区二区三区| 国产一区二区三区精品久久呦| 91免费精品国偷自产在线在线| 激情网址在线观看| 欧美一区国产| 露脸国产精品自产在线播| 激情乱人伦| 蝌蚪国产精品视频第一页| 亚洲天堂网2014| 女同久久精品国产99国| 国产成人亚洲精品无码电影| 热99re99首页精品亚洲五月天| 直接黄91麻豆网站|