吳鋒文
(四川外國語大學中文系,重慶 400031)
漢語復句信息處理,是計算語言學的重要議題,也是中文信息處理領域的一項基礎性課題。當前中文信息處理正面臨“句處理”攻堅階段[1],要取得“句處理”的重大進展,復句的句法語義判定問題必須受到重視[2]。
計算機對漢語復句進行自動句法分析,其核心任務是對分句間的層次結構和語義關系進行判定,這種判定工作是以分句的確認和關系詞語的識別作為基礎的。據吳鋒文(2011),有標復句可劃分為充盈態和非充盈態兩類,標記充盈態模式與復句實例的層次關系之間存在“一對一”的映射關系,其復句實例可以采用基于規則方法來識別;標記非充盈態模式與復句實例間不存在“一對一”的映射關系,因而非充盈態有標復句層次關系的確定需要引入分句間的語義分析[3]。目前面向機器語義理解還很薄弱,而“在句法分析中加入語義信息,將句法語義綜合分析”則成為自動句法分析領域的共識[4]。因此,計算機要能夠進行漢語“句處理”,充分挖掘可供計算機理解的形式化句法語義知識已成共識。
根據邢福義(2001)、姚雙云(2008)歸納,復句在大規模文本中所占比重達35%~60%,而二重復句、三重復句又是最常見的復句類型[5],因而加強對由四個分句構成的復句(四句式復句)的句法語義關系的判定研究極有意義。故本文將面向機器“句處理”的研究對象限在“二標四句式”復句,著重探討“二標四句式”復句的層次劃分和語義關系。……