郭雁軍
北京交通大學電子信息工程學院,北京 100044
完整的“WHY”問答系統分為兩個步驟:1)從文章所有的句子中找出與問句相關的句子,稱作“資訊檢索”的部分。2)從相關句子中找出問句的答案,稱作“答案獲取”,這部分是問答系統主要研究的重點。常見的“答案獲取”方法是利用“實體名標記”(NamedEntityTagging,簡記為NE)的技術,再加上“問句與上下文相似度的計算”。從簡單的關鍵字比對,到復雜的語意以執行判斷,都可能會用到上下文與問句相似度計算方法
在閱讀理解問答系統(ReadingComprehension,簡記為RC)的研究上,Anandetal.(2000)和 RiloffandThelen(2000)有相關研究。系統針對單篇文章,找到問句的答案。TREC問句系統與這類問答系統主要的不同點是答案來源為多篇相關文章,答案可能重復出現多次,有較多機會找到答案,但復雜也會比較多。閱讀測試問答系統則相反,答案可能只出現在文章中一次,所以需要較復雜的方法來找到不是那么明顯的答案,但是另一方面影響的因素會較少,本文主要研究閱讀理解問答系統。
自動問答的關鍵技術主要包括:語料的深加工、關鍵詞匹配與賦值、答案句的確定等。
“WHY”問句自動問答的實現首先要求對語料進行深加工,關鍵技術主要包括名詞短語標注、去掉停用詞、語料中的各個詞語的詞干化(Stemming)、指代消解、字根還原、同義詞擴展。
在本論文中,主要研究了基于規則的“WHY”問句自動問答技術,所用到的策略主要有通用的關鍵詞匹配策略(也稱為WordMatch策略),這個策略能夠初步確定包含關鍵詞的句子的得分,WordMatch策略將在第二章重點介紹,然后針對“WHY”問題,制定專用的句子得分策略。
在系統的處理過程中由于語法和語意的多樣性,系統不會像人一樣主觀理解一些潛在的規則,所以得出的結論存在誤差,只有結合了語意和語境才會使系統判斷準確,這方面得工作將在以后得研究中進行。
答案主要是根據WordMatch策略以及針對“WHY”問題專用的得分策略確定。
評價是任何自然語言處理技術的系統中一個關鍵的部分,也是最有爭議的一個部分。評價對自動問答系統等各種問答系統提供了很多的好處,一個好的評測環境將會對整個系統質量的提高起促進作用。因此好的評價方法也就成為了一個迫切等待解決的問題。
國際 上 一般采用的評測標準與 T REC(The Text REtrieval Conference)評測標準一致 , TREC Conference(http://trec.nist.gov)被認為是最具權威的信息檢索技術評測規范。
選擇評價方法主要考慮了以下一些因素:評價自動化實現,不需要人參與;應該和人工評價的基準一致等。
針對每個不同的問題,可采用3種評價指標[Hirschman et al.1999]:Precison&Recall(準確率和召回率 ) ,HumSent準確率及AutSent準確率。無論哪種評價指標,系統最終得分為問題集中所有問題得分的平均值。我們在進行語料深加工時,提供了問題答案的關鍵詞 , Precision&Recall與 A utSent準確率均基于問題答案的關鍵詞來做出評價。
Precison&Recall在詞這一級別,將系統的返回結果與正確答案進行比較。

就形成正確答案的難易程度而言,Precison&Recall與AutSent有明顯的優勢,因為它們僅依賴于出版商提供的答案關鍵詞,而HumSent則需要人工的對每一個問題加以標注。
[1]沈天左,陳信希.以網絡內容為基礎的問答系統“why”問 句的研究.國立臺灣大學資訊工程系.
[2]付鴻鵠.基于Web的開放領域問答系統研究.中國科學院研 究生生院.
[3]崔桓,蔡東風,等.基于網絡的問答系統及信息抽取算法 的研究[J].中文信息學報.