○劉小蝶 閆慧穎 晉耀紅
(北京師范大學 中文信息處理研究所,北京100875)
在現代漢語中,“和、與、跟、同”這四個虛詞既可當連詞又可當介詞。如何區別這組連介兼類詞,一直是現代漢語語法研究中一個頗費周章的問題。劉靜輝(1984)歸納出三種方法:互換法、代替法、插入法。沈錫倫(1987)提出四種方法:分解法、互換法、插入法、調換位置方法。玉柱(1988)認為分解法、互換法和調換位置法并不能對所有動詞都適用,而插入法是最有效的分辨方法。上述研究主要是面向人的研究,靠實驗和轉換來嘗試,判斷的標準是語義是否改變。
本文的研究是面向專利的漢英機器翻譯的,此判斷標準對于目前無法理解語言的機器而言是無能為力的,各種鑒別方法對于機器也是不可操作的。在依賴語言知識的規則機器翻譯系統中,系統只能按照給定的標記識別連詞和介詞。本文以專利語料為研究對象,以“語義為主、形式為輔”,從句子層、短語層和篇章層三個層面對兼類單用時進行考察并總結規律,希望能在此基礎上構建形式化的規則庫指導機器對兼類詞進行識別。
語料是來自NTCIR-9 PatentMT①訓練集中的2000句專利語料句對,包括漢語和英語參考譯文,我們對例句進行逐條分析,歸納總結規則。
“和、與、同、跟”都具有連詞和介詞的詞性,在專利領域這種書面語體中出現的頻率如表1所示,可知四詞在專利文本中的使用上比重差別很大,“和”和“與”的比重占98%。本文主要考察“和”和“與”兩個兼類詞。

表1“和、與”在2000句專利語料中的頻率
在專利語料中,“和”主要有三種詞性:名詞、介詞和連詞。名詞出現的語言環境比較容易確定:“和”前一定有“的”或“之”,可能位于句尾。
所以本文考察的重點內容是:“和、與”在作連詞和作介詞時(為行文方便,下文以“和”代替“和、與”兩個兼類詞),跟哪些詞語搭配使用?例如,作連詞時,其連接的前后項表達式為“X1和X2”,是聯合結構,此結構是一個復數范疇,其作為一個整體時比單數范疇增加了數量多概念,這種需要在漢語語言表達上有所體現,需要考察哪些動詞、名詞、形容詞、副詞、方位詞要求與其搭配的短語一定是復數范疇。其中“動詞、形容詞”一般做核心謂詞,對主賓語有語義需求,而“副詞、方位詞”數量較少只需跟形式掛鉤。下面從語義和形式兩方面進行探討。
1.語義方面。(1)句子層面的考察。在句子層面,“和、與”兼類詞做介詞還是連詞的一個難點是“X1和X2”在句子開頭時,即在“X1和X2 V(O)”結構中,“X1和X2”是聯合結構作主語,還是“和X2”作介賓短語。張誼生(2000)從核心謂詞的語義要求的角度,即按照“X1和X2”與核心謂詞搭配后如何充當該詞語的關涉對象和陳述對象,將其分為三類:零涉詞語、單涉詞語、雙涉詞語。跟零涉詞語搭配時,“X1、X2”都不充當關涉對象,都是陳述對象,“和”必定是連詞;“和”跟單涉詞語搭配時,“和”必定是介詞;跟雙涉詞語搭配時,“X1、X2”可以都是陳述對象,又可以互為關涉對象,“和”詞性的判定需要依賴篇章層面的信息。
(2)短語層面的考察。在短語層面,據考察主要有如下四種情況:
1)任何一個小句都可以采用加“的”的句法手段,變成一個短語。經考察,零涉謂詞的句子只能變成“V(O)的X1和X2”,其中“和”是連詞;單涉謂詞的句子只可以變成“和X2 V(O)的X1”,其中“和”是介詞;雙涉謂詞可以變成“和X2 V(O)的X1”或“和X1 V(O)的X2”,其中“和”都是介詞。
2)框架“PRON+和X的NP”,PRON代表代詞,NP沒有太多限制,但一般是雙涉動詞產生的效應,可以雙涉動詞加上語素的形式構成,其中“和”都是介詞。
3)在“X1和X2”中,當“X1、X2”都是動詞或形容詞時,“和”是連詞。從連詞的意義來說,連詞連接至少兩個項,不限于連接名詞性短語,也可以連接動詞或形容詞[5]。但介詞一般只介紹對象而非動作。所以,如果兩個動詞、形容詞由“和”連接,可以判定為是連詞。
4)在“X1和X2”中,當“X1、X2”都是標號時,“和”是連詞。在專利語料中出現較多的是對發明的裝置、部件的詳細介紹,出現許多數字或數字與字母構成的指示性標號。如果“和”兩邊緊挨著的是標號,則優先是連詞。
(3)篇章層面的考察
此部分主要考察框架“X1和X2 V(O)”下,其中V是雙涉動詞或雙涉形容詞時,“和”的詞性。如果后續句的句首一般是用表示復數的代詞加以復指、用表示單數的代詞(如“前者、一方面、這”等)加以分指,如果后續句的句首是動詞、虛詞或者用表示單數的人稱代詞,“和”一般是介詞。
2.形式方面。漢語重意合,具有較少的形態變化。但是考察一定的語料發現,漢語的副詞、方位詞或短語對“和”的區分具有重要的提示信息。
當“X1和X2”與總括標記、相互標記、協同標記、獨立標記、復指標記搭配使用時,“和”是連詞。總括標記、協同標記、相互標記、獨立標記一般出現在動詞前,總括標記如“相繼、共同、都、全部、全、之間、中的至少一個、中的任何一個、中的任意一個”等相互標記如“互相、彼此、互為”等,協同標記如“一起、一塊兒、同時”等,獨立標記如“各自、分別”等,復指標記主要是同位短語中復指前面的內容的標記,一般出現在聯合結構的后面,如“兩者、二者、之一、雙方、兩個”等。
在框架“和X2”中,如果“和”前為空,即句首是“和”,或者如果“和”前是虛詞“并且、雖然、但是、可、將”等或虛詞的組合時,則判定為介詞。
本文對專利文本中的介詞和連詞兼類的情況進行了考察,以“和”為代表從語義和形式兩個方面從句子、短語和篇章三個層次對連介兼類詞進行研究,并歸納了一些規則。未來的工作重點是將本文的考察成果形式化為規則和知識庫應用于一個基于規則的語義翻譯系統,并根據英語轉換和生成的需要調整或者改進兼類詞的識別。
【注釋】
①是由日本國家科學咨詢系統中心策劃主辦的NTCIR中建立的一個標準測試集,作為咨詢檢索與自然語言處理研究的基礎語料。
②“X1和X2”由“和”連接的前項X1和后項X2,“X1和X2V(O)”中V指的是核心謂詞,(0)指的是賓語,可有可無。
[1]劉靜輝.怎樣辨別連詞“和”與介詞“和”[J].語文教學與研究,1984.
[2]沈錫倫.從“和”看介詞和連詞的區別[J].漢語學習,1987.
[3]玉柱.關于介詞和連詞的區分問題[J].漢語學習,1988.
[4]張斌,張誼生.現代漢語虛詞[M].華東師范大學出版社,2000.
[5]晉家泉.連詞“和”連接謂詞性詞語芻議[J].濱州師專學報,1995(9).