安帥飛,畢玉德,張 婷
(解放軍外國語學院,河南 洛陽 471003)
當前,語篇層面上的復句處理仍是機器翻譯等應用系統面臨的難點之一,如何將復句自動離析為單句成為許多人研究的重點。吳鋒文[1]回顧了漢語復句二十年前的研究,概述了邢福義團隊的漢語復句信息工程、張仕仁[2]在復句“功能結構樹”及胡金柱等[3]在復句關系詞提取等的研究工作。韓國語復句處理方面,劉洋等[4-5]利用連接詞尾對并列類復句進行“解構化”處理,提出了對韓漢復句機器翻譯的改進建議,并有效地實現了接續復句的自動提取實驗。定語從句屬于嵌套類復句,本文從定語從句入手,重點分析如何從嵌套類復句自動離析出單句的問題。
韓國語中,僅有一對主謂關系的句子稱為單句,有兩組或兩組以上主謂關系的句子稱為復句[7]。根據語言的遞歸性,復句又劃分為嵌套的包孕句與組合的接續句。韓國語句子分類體系如圖1所示[8]。

圖1 韓國語句子分類體系圖
其中,韓國語包孕句下屬的定語從句包孕句即為本文的研究對象*本文僅討論單句作定語從句的情況,暫不討論復句作定語(“”)和多重定語(“……”)問題。。
韓國語定語從句的基本構成為:定語修飾成分、冠形詞形詞尾、被修飾的中心詞。可將其形式化為:AC→AM+ETM+Head*AC是定語從句(attributive clause)的簡寫;A是定語(attributive)的簡寫,M是modifiers修飾語的簡寫;ETM是冠形詞形詞尾在“韓國語21世紀世宗計劃”語料標注體系的標注形式。。
根據定語修飾成分AM與中心詞Head的關系,可將定語從句分為關系定語從句和同位定語從句[9]。
關系定語從句中,中心詞Head充當定語修飾成分AM中的主語、賓語等句子成分。

同位定語從句中,中心詞Head不作為AM的句子成分,與AM為同指關系。

另外,分析定語修飾成分AM的內部構成,可將定語從句分為長定語從句和短定語從句。長定語從句中,定語修飾成分AM是整個句子。短定語從句中,定語修飾成分AM是主語、謂語、賓語、狀語等單句中的句子成分。所有的長定語從句均屬于同位定語從句[10]。


綜上,定語從句的分類如圖2所示。

圖2 定語從句分類圖
按照動詞中心論觀點[11],根據定語修飾成分AM中謂詞的不同,本文將定語從句分為動詞類AM、形容詞類AM、系詞類AM定語從句分別進行說明。
在語料觀察實驗中,利用WordSmith軟件的Concord功能,將關鍵詞設為ETM,共現詞設為VV,從處理結果中選取500句定語從句進行人工觀察分析,歸納總結動詞類AM定語從句的類型*形容詞類、系詞類AM定語從句的觀察實驗與此相同,下文不再贅述。。
(1) 關系定語從句


除動詞之外,動詞類AM中往往還含有主語、賓語、狀語等。根據語言學規律,結合在語料庫中歸納分析,關系定語從句的構成可擴展為以下15種類型。
① 【主】+VV(+EP)+ETM+NP

主語在語料中的標記形式為:NP+主格助詞JKS。因此,該類定語從句的形式化表示為“【NP+JKS】+VV(+EP)+ETM+NP”。
② 【賓】+VV(+EP)+ETM+NP;

賓語在語料中的標記形式為:NP+賓格助詞JKO。因此,該類定語從句的形式化表示為“【NP+JKO】+VV(+EP)+ETM+NP”。
③ 【狀】+VV(+EP)+ETM+NP


在定語修飾成分AM中,主語、賓語、狀語等會交叉出現,且韓國語語序自由,各成分位置并不固定。各成分相互交叉,組合為以下形式。
④ 【主賓】+VV(+EP)+ETM+NP*受篇幅所限,組合類從句不再舉例說明。下同。
在語料中體現為【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。
⑤ 【主狀】+VV(+EP)+ETM+NP
在語料中體現為【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
⑥ 【狀主】+VV(+EP)+ETM+NP
在語料中體現為【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。
⑦ 【賓主】+VV(+EP)+ETM+NP
在語料中體現為【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。
⑧ 【賓狀】+VV(+EP)+ETM+NP
在語料中體現為【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
⑨ 【狀賓】+VV(+EP)+ETM+NP
在語料中體現為【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。
⑩ 【主賓狀】+VV(+EP)+ETM+NP
在語料中體現為【NP+JKS】+【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
在語料中體現為【NP+JKS】+【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。
在語料中體現為【NP+JKO】+【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
在語料中體現為【NP+JKO】+【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。
在語料中體現為【[AVM1—AVM6]】+【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。
在語料中體現為【[AVM1—AVM6]】+【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。
(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。
② 短定語從句中,定語修飾成分AM中不含終結詞尾,中心詞Head與長定語從句相同,基本構成為“VV(+EP)+ETM+NP”。短定語從句的AM、ETM構成與關系定語相同,同樣可擴展出15種組合類型,不再詳述。
(1) 關系定語從句

定語修飾成分AM中,除了基本的形容詞之外,往往還含有主語、狀語等。因此,關系定語從句的構成可擴展為以下四種類型:
① 【主】+VA(+EP)+ETM+NP
主語在語料中的標記形式為“NP+主格助詞JKS”。因此,該類定語從句的形式化表示為“【NP+JKS】+VA(+EP)+ETM+NP”。
② 【狀】+VA(+EP)+ETM+NP

③ 【主狀】+VA(+EP)+ETM+NP
該類結構在語料中體現為【NP+JKS】+【[AVM1—AVM6]】+VA(+EP)+ETM+NP。
④ 【狀主】+VA(+EP)+ETM+NP
該類結構在語料中體現為【[AVM1—AVM6]】+【NP+JKS】+VA(+EP)+ETM+NP。
(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。
② 短定語從句中,定語修飾成分AM中不含終結詞尾,中心詞Head與長定語從句相同,基本構成為“VA(+EP)+ETM+NP”。短定語從句的AM、ETM構成與關系定語相同,同樣可擴展出四種組合類型,不再詳述。
(1) 關系定語從句

(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。

實驗時,按照前述定語從句句法結構特征,歸納分析其在語料中的左右邊界規則和內部構成間的共現關系規則,構建定語從句識別規則集。根據識別規則集,對標注語料進行匹配運算,自動識別出定語從句。在此過程中,分析錯誤的識別結果,迭代完善規則集,最終自動識別出定語從句。具體流程如圖3所示。

圖3 韓國語定語從句自動識別實驗流程圖
本文所用語料共80萬句,來源于兩處:①韓國政府為推動韓文信息化發展,自1998年開始實施、2007年建成的“21世紀世宗計劃”標注語料庫。該語料庫涵蓋新聞、小說、雜志等。本文從中選取了50萬句。②網站抓取、后期整理后,獲得政治、軍事、外交、安全、經濟、科技等新聞語句,利用UTagger分詞器(標注體系與“21世紀世宗計劃”標注語料相同)進行分詞處理,得到30萬句標注語料。
本文自動識別的對象是定語從句,其基本結構為“謂詞+ETM+NP”。謂詞分為單一謂詞和復合謂詞,在所用的標注語料中,單一動詞、形容詞被標記為VV、VA,派生動詞、派生形容詞的標記為“NNG -XSV、NNG -XSA”,合成動詞、合成形容詞的標記為VV-EC-VV|VX、VA-EC-VA|VX。為方便后期處理,在實驗之初,使用正則表達式將復合動詞、復合形容詞的標記形式統一替換為VV和VA。


表1 慣用型詞表

續表
定語從句的識別規則包含左右邊界規則和從句內部結構的共現關系規則。
3.2.1韓國語定語從句的左右邊界規則
根據第二節分析的定語從句句法結構特征,觀察其在語料中的左右邊界特征表現,并借此來界定定語從句。
(1) 左邊界界定
通過觀察語料及實驗迭代分析,發現定語從句的左邊界存在以下情況:
① 句子以定語從句開頭,左邊緊鄰詞不存在。

② 左邊界緊鄰詞為連接詞尾EC

EC作為連接復句的標志詞,可作為其后定語從句的左邊界。
③ 左邊界緊鄰詞為冠形詞形詞尾ETM

該類定語從句含有雙(多)重定語,本文從基本單元入手,分層級解決嵌套問題。
④ 左邊界緊鄰詞為補助詞JX

句中出現兩個主語,主句的主語出現在從句的主語前,充當從句的左邊界。
⑤ 左邊界緊鄰詞為主格助詞JKS

⑥ 左邊界緊鄰詞為副詞格助詞JKB

⑦ 左邊界緊鄰詞為賓格助詞JKO

⑧ 左邊界緊鄰詞為逗號SP、括號SS、特殊符號SW等

(2) 右邊界界定
① 關系定語從句的右邊界界定


② 同位定語從句的右邊界界定

3.2.2韓國語定語從句內部構成的共現關系規則
根據3.2.1中的左右邊界規則,得到了基本的定語從句,但對于含主語、狀語、賓語等修飾成分的句子,無法判斷主語等成分歸屬于主句還是從句。本文輔以定語從句內部構成間的共現關系規則解決這一問題。
(1) 根據語言學特征,結合在語料中的觀察分析,得到確定的共現關系規則有四條:
② 根據左右邊界規則抽取出的成分中,如含有兩個主語(出現兩個JKS),前一個JKS標識的主語歸屬于主句,后一個JKS標識的主語歸屬于從句;
③ 根據左右邊界規則抽取出的成分,如是同位定語從句,主語、狀語、賓語等修飾成分歸屬于從句;
(2) 對于無法確定歸屬的定語從句,計算內部構成成分間的共現頻率,根據頻率值來近似地估計各成分間的緊密關系,以判斷其歸屬。下面以判斷【NP+JKS】是否歸屬于形容詞類AM定語從句為例進行說明。
在形容詞類AM定語從句中,首先找到主語成分【NP+JKS】,其出現在ETM前,將該NP賦值為a1,然后找到定語從句的中心詞,將該中心詞賦值為a2,將AM中的形容詞賦值為a3。計算并比較共現概率Count(a1,a3)/Count(a1)*Count(a3)與Count(a2,a3)/Count(a2)*Count(a3)。如果Count(a1,a3)/Count(a1)*Count(a3)的值大于Count(a2,a3)/Count(a2)*Count(a3),則認定主語成分【NP+JKS】與形容詞的結合緊密度高于被修飾的中心詞,【NP+JKS】歸屬于定語從句。反之,【NP+JKS】歸屬于主句。實驗時,為解決數據稀疏問題,本文采用了加一平滑,對每個統計項都進行了加一處理[15]。
根據定語從句的識別規則集,對80萬實驗語料進行匹配運算,實現了定語從句的自動識別。將其中部分結果翻譯展示如表2所示。

表2 定語從句自動識別實驗結果表
為驗證規則的可行性,本文借助了廣泛應用于信息檢索和統計學分類領域的正確率(P值)、召回率(R值),以及二者的加權平均F值,用來評價實驗結果[16]。評測時,另外從新聞、小說、雜志三類語料中分別選取了500句進行實驗,然后將人工分析得到的結果與程序自動識別的結果相比較,結果如表3所示。

表3 實驗結果比對表
分別計算P、R、F的值結果如表4所示。

表4 實驗評測結果表
經過比較分析,得到了實驗中錯誤識別的定語從句有以下三個類型。
(1) 特殊符號(SW)導致的錯誤

(3) 語料標注錯誤

本文通過分析定語從句的句法結構特征,對其左右邊界和內部構成成分的共現關系進行歸納總結,構建了定語從句識別規則集,實現了定語從句的自動識別。從嵌套類復句中自動離析出定語從句,為提高韓漢機器翻譯、信息檢索等應用系統的效能打下了堅實的基礎。
本文主要討論了單句作定語從句的情況,針對復句作定語及多重定語問題,以后將做進一步的分析研究。
[1]吳鋒文.漢語復句信息處理研究二十年[J].中文信息學報,2015,29(1):13-18.
[2]張仕仁.漢語復句的結構分析[J].中文信息學報,1994,8(4):43-54.
[3]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復句關系詞提取算法研究[J].計算機工程與科學,2009,37(10):90-93.
[4]劉洋,畢玉德,李健.基于句法知識的復句解構對韓漢復句機器翻譯改進芻議[J].洛陽師范學院學報,2017,36(2):49-53.
[5]劉洋,畢玉德,李健.基于語言知識的韓國語復句自動識別策略及實現[J].東北亞外語研究,2017,17(2):42-49.
[6]安帥飛,畢玉德.韓國語名詞短語結構特征分析及自動提取[J].中文信息學報,2013,27(5):205-210.
[7](韓)李翊燮.韓國語語法[M].郭一誠,譯.北京:世界圖書出版公司,2012:331.
[9]張光軍,江波,李翊燮.韓國的語言[M].北京:北京大學出版社,2009:311-312.
[11]畢玉德.現代韓國語動詞語義組合關系研究[M].北京:民族出版社,2005:27-28.
[13]韋旭升,許東振.新編韓國語實用語法[M].北京:外語教學與研究出版社,2006:613-617.
[14]李姬子,李鐘禧.韓國語助詞和詞尾詞典[M].張光軍,譯.北京:外語教學與研究出版社,2010.
[15]宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008:78-79.
[16]馮志偉,胡鳳國.數理語言學[M].北京:商務印書館,2012:367.

安帥飛(1991—),博士研究生,主要研究領域為自然語言處理、模塊識別。E-mail:anshuaifei2013@sina.cn

畢玉德(1967—),教授,博士生導師,主要研究領域為自然語言處理、韓國語句法語義學。E-mail:biyude@gmail.com

張婷(1984—),博士研究生,主要研究領域為自然語言處理、領域本體構建。E-mail:tinaam@sina.com