王榮波,孫小雪,黃孝喜,劉和平
(1.杭州電子科技大學 計算機學院,浙江 杭州 310018;2.浙江大學 軟件學院,浙江 杭州 310000)
基于指代消解的漢語句群自動劃分方法
王榮波1,孫小雪1,黃孝喜1,劉和平2
(1.杭州電子科技大學 計算機學院,浙江 杭州 310018;2.浙江大學 軟件學院,浙江 杭州 310000)
漢語句群自動劃分是將篇章劃分成包含不同主題的文本片段,在信息提取、文摘生成、語篇理解及其他多個領域有著極為重要的應用。指代消解是識別篇章中先行詞和照應詞關聯起來的過程,消解不同表達是自然語言理解的基礎之一。針對目前的句群劃分工作的重點在于劃分出主題之間的邊界而較少利用其本身指代關系來進行語言理解,或者因指代模糊而得到錯誤的劃分結果的問題,提出了一種基于指代消解的句群自動劃分方法。該方法從對篇章的指代情況消解出發,利用適合中文的多層過濾指代消解方法得到指代鏈信息,以消除不同名詞代表相同實體、代詞指代不明的問題。結合指代鏈信息,并同時考慮篇章銜接詞因素,設計并進行了基于多元判別分析(Multiple Discriminate Analysis,MDA)的一組評價函數J評價句群劃分驗證實驗。實驗結果表明,所提出的方法能夠有效地進行句群自動劃分,統計正確分割平均Pμ提高了7%左右。
句群劃分;指代消解;多層過濾;多元判別分析
在中文信息處理技術的發展過程中,人們發現傳統的中文語法單位“詞語”、“句子”能夠承載的信息量太小,而“段落”、“篇章”承載的信息量又太大。……