才藏太,索南才讓,才讓加
(1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016; 2. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008; 3. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008; 4. 西北民族大學(xué) 社會(huì)科學(xué)研究院,甘肅 蘭州 730030)
自圖彌桑布扎創(chuàng)造藏文字以來(lái),已有1400年的歷史。這期間,以他的《三十頌》和《音勢(shì)論》原著為藍(lán)本加以注釋和擴(kuò)充,形成了以虛詞和動(dòng)詞為核心的具有顯性結(jié)構(gòu)特征的傳統(tǒng)藏文語(yǔ)法體系。綜觀藏文語(yǔ)法研究,歷代有關(guān)藏文語(yǔ)法書(shū)籍和研究成果汗牛充棟,數(shù)不勝數(shù)。藏文傳統(tǒng)語(yǔ)法研究對(duì)藏文字的構(gòu)成、詞的時(shí)態(tài)變化、虛詞的關(guān)聯(lián)方法、藏文句子的結(jié)構(gòu)等方面做出了細(xì)致的描述,但是對(duì)藏語(yǔ)短語(yǔ)層面沒(méi)有進(jìn)行深入的研究。隨著自然語(yǔ)言信息處理的不斷發(fā)展和完善,逐漸從原來(lái)的以詞為單位的語(yǔ)法分析方法轉(zhuǎn)換成以短語(yǔ)為處理單位的語(yǔ)法分析的思想[1]。尤其在句法分析、機(jī)器翻譯、文本檢索等領(lǐng)域短語(yǔ)的應(yīng)用較為成熟。
鑒于以上原因,我課題組對(duì)藏語(yǔ)短語(yǔ)的結(jié)構(gòu)、藏語(yǔ)短語(yǔ)與藏語(yǔ)句子的界定、藏語(yǔ)短語(yǔ)的分類、藏語(yǔ)短語(yǔ)在詞典庫(kù)中的標(biāo)記方法等層面做了深入的研究。為基于藏語(yǔ)短語(yǔ)的藏文句法分析、統(tǒng)計(jì)機(jī)器翻譯、藏文文本檢索等領(lǐng)域的研究打下了堅(jiān)實(shí)的基礎(chǔ)。
為了更深入地區(qū)分藏語(yǔ)短語(yǔ)和藏語(yǔ)句子,首先要了解藏語(yǔ)短語(yǔ)和藏語(yǔ)句子的定義。
從功能層面來(lái)講,藏語(yǔ)短語(yǔ)和藏語(yǔ)句子的主要區(qū)別表現(xiàn)在能否表示相對(duì)完整的意思,如能則為句子,否則為短語(yǔ)。
從結(jié)構(gòu)層面來(lái)講,藏語(yǔ)短語(yǔ)和藏語(yǔ)句子的主要區(qū)別表現(xiàn)在以下四個(gè)方面。
對(duì)于英語(yǔ)短語(yǔ)的劃分(bracket)和標(biāo)注,比較大的研究項(xiàng)目有英國(guó)Lancaster大學(xué)UCREL的Lancaster Treebank[8]和美國(guó)的Pennsayvania大學(xué)的Penn Treebank[9]。前者的標(biāo)記集較大,通過(guò)組織成不同的層次描述了詳細(xì)的短語(yǔ)句法信息。而后者的標(biāo)記集則較為簡(jiǎn)練,只有14個(gè)句法標(biāo)記,但它的特點(diǎn)是增加了四個(gè)表明不同空元素(Null Elements)的標(biāo)記。在國(guó)內(nèi),漢語(yǔ)短語(yǔ)的劃分和標(biāo)注,主要有北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所完成的“漢語(yǔ)短語(yǔ)標(biāo)注標(biāo)記集的確定”[10]。此文提出了一個(gè)用于漢語(yǔ)短語(yǔ)劃分和標(biāo)注的句法標(biāo)記集,為漢語(yǔ)短語(yǔ)標(biāo)注的自動(dòng)處理和人工校對(duì)提供了一個(gè)統(tǒng)一的規(guī)范。
在藏語(yǔ)短語(yǔ)的研究過(guò)程中,主要借鑒了文獻(xiàn)[10]的內(nèi)容,因?yàn)闈h語(yǔ)和藏語(yǔ)畢竟同屬一個(gè)語(yǔ)系,在研究思路以及語(yǔ)言的功能、結(jié)構(gòu)等方面有共同特點(diǎn)。文獻(xiàn)[10]中,漢語(yǔ)短語(yǔ)劃分為:
① 名詞性短語(yǔ),如: 漂亮的帽子;
② 名詞性準(zhǔn)短語(yǔ),如: 工人們;
③ 動(dòng)詞性短語(yǔ),如: 看電影;
④ 動(dòng)詞性準(zhǔn)短語(yǔ),如: 看一看;
⑤ 形容詞性短語(yǔ),如: 特別安靜;
⑥ 形容性準(zhǔn)短語(yǔ),如: 紅了;
⑦ 副詞性短語(yǔ),如: 虛心地;
⑧ 介詞性短語(yǔ),如: 在北京;
⑨ 區(qū)別詞性短語(yǔ),如: 這件;
⑩ 時(shí)間詞性短語(yǔ),如: 戰(zhàn)爭(zhēng)初期;
見(jiàn)到上述漢語(yǔ)短語(yǔ)的分類之后,發(fā)現(xiàn)漢語(yǔ)短語(yǔ)的類別及其標(biāo)記集不能直接借用到藏語(yǔ)處理的研究中,漢語(yǔ)和藏語(yǔ)雖屬同一個(gè)語(yǔ)系,但畢竟是兩門(mén)完全不同的語(yǔ)言。從這兩門(mén)語(yǔ)言的語(yǔ)法結(jié)構(gòu)的特點(diǎn)分析,主要區(qū)別有以下三條:
面向語(yǔ)言信息處理的藏語(yǔ)短語(yǔ)的分類體系主要依據(jù)藏語(yǔ)傳統(tǒng)語(yǔ)法分類體系,根據(jù)藏語(yǔ)信息處理的特點(diǎn)和要求,并參考了漢語(yǔ)短語(yǔ)分類研究成果,按照語(yǔ)法功能和便于計(jì)算機(jī)自動(dòng)分析和處理的原則劃分短語(yǔ)。大類之間不允許出現(xiàn)交叉,包括標(biāo)注形式層和語(yǔ)義層;小類間允許出現(xiàn)標(biāo)注形式層交叉,但不允許出現(xiàn)語(yǔ)義層交叉。
該分類體系將藏語(yǔ)短語(yǔ)劃分為八個(gè)大類,分別是名詞短語(yǔ)、動(dòng)詞短語(yǔ)、形容詞短語(yǔ)、數(shù)量詞短語(yǔ)、判斷短語(yǔ)、固定短語(yǔ)、時(shí)間短語(yǔ)和代詞短語(yǔ)。其中:
(1) 名詞短語(yǔ)包括名補(bǔ)結(jié)構(gòu)的名詞短語(yǔ)、后綴結(jié)構(gòu)的名詞短語(yǔ)、偏正結(jié)構(gòu)的名詞短語(yǔ)、并列結(jié)構(gòu)的名詞短語(yǔ)、方位和處所結(jié)構(gòu)的名詞短語(yǔ)、復(fù)指名詞短語(yǔ)等六個(gè)子類。
(2) 動(dòng)詞短語(yǔ)包括賓動(dòng)結(jié)構(gòu)的動(dòng)詞短語(yǔ)、并列結(jié)構(gòu)的動(dòng)詞短語(yǔ)、遞補(bǔ)結(jié)構(gòu)的動(dòng)詞短語(yǔ)、動(dòng)補(bǔ)結(jié)構(gòu)的動(dòng)詞短語(yǔ)、受施結(jié)構(gòu)的動(dòng)詞短語(yǔ)、偏正結(jié)構(gòu)的動(dòng)詞短語(yǔ)、方位和處所結(jié)構(gòu)的動(dòng)詞短語(yǔ)、主謂結(jié)構(gòu)的動(dòng)詞短語(yǔ)等八個(gè)小類。
(3) 形容詞短語(yǔ)包括并列結(jié)構(gòu)的形容詞短語(yǔ)和偏正結(jié)構(gòu)的形容詞短語(yǔ)等兩個(gè)子類。
(4) 數(shù)量詞短語(yǔ)、判斷短語(yǔ)、固定短語(yǔ)、時(shí)間短語(yǔ)和代詞短語(yǔ)沒(méi)有劃分子類。
標(biāo)記代碼的制定原則是依據(jù)國(guó)際通常做法,標(biāo)記代碼主要采用英文術(shù)語(yǔ)的字母。例如,“名詞短語(yǔ)”采用NP、“數(shù)詞短語(yǔ)”采用MP作為標(biāo)記代碼。 藏語(yǔ)獨(dú)有的或使用英文術(shù)語(yǔ)字母標(biāo)記不便的,依據(jù)國(guó)內(nèi)通常做法,標(biāo)記代碼采用漢語(yǔ)拼音字母,如“判斷短語(yǔ)”采用漢語(yǔ)拼音的首字母作為標(biāo)記代碼PP。藏語(yǔ)短語(yǔ)的標(biāo)記代碼、子類信息、短語(yǔ)結(jié)構(gòu)及藏文實(shí)例等詳細(xì)內(nèi)容如表1所示(見(jiàn)下頁(yè))。
表中最左邊一列表示藏語(yǔ)短語(yǔ)中八個(gè)大類的標(biāo)記代碼,用NP、VP、AP、MP、PP、GP、TP和RP分別代表藏語(yǔ)短語(yǔ)中的名詞短語(yǔ)、動(dòng)詞短語(yǔ)、形容詞短語(yǔ)、數(shù)量詞短語(yǔ)、判斷短語(yǔ)、固定短語(yǔ)、時(shí)間短語(yǔ)和代詞短語(yǔ)。第二列是藏語(yǔ)短語(yǔ)的名稱。第三列表示藏語(yǔ)短語(yǔ)的名詞短語(yǔ)、動(dòng)詞短語(yǔ)和形容詞短語(yǔ)中分類出來(lái)的子類標(biāo)記代碼,其余的數(shù)量詞短語(yǔ)、判斷短語(yǔ)、固定短語(yǔ)、時(shí)間短語(yǔ)和代詞短語(yǔ)沒(méi)有劃分子類。因此,此處表格內(nèi)容為空。表格第四列為子類名稱。第五列代表藏語(yǔ)短語(yǔ)的結(jié)構(gòu),其中小寫(xiě)英文字母代表詞性;大寫(xiě)英文字母表示短語(yǔ);“+”表示連接;“/”代表“或者”;“[ ]”表示可有可無(wú);“...”表示前面的詞重復(fù)連接;短語(yǔ)結(jié)構(gòu)中出現(xiàn)的藏文表示固定搭配的藏語(yǔ)虛詞;“;”前后是不同的短語(yǔ)結(jié)構(gòu),例如,名補(bǔ)結(jié)構(gòu)的名詞短語(yǔ)(NPM)中,名詞是中心詞,名詞后面的形容詞、方位詞或助詞用來(lái)修飾前面的名詞。又如,在偏正結(jié)構(gòu)的短語(yǔ)中,整體的功能和其中一個(gè)成分的功能相同,這個(gè)成分就是中心詞。偏正關(guān)系的名詞短語(yǔ)的中心詞是名詞,前面部分是修飾中心詞的定語(yǔ),定語(yǔ)部分由名詞或名詞短語(yǔ)、動(dòng)詞或動(dòng)詞短語(yǔ)、形容詞(除單音節(jié)的形容詞以外)或形容詞短語(yǔ)、代詞充當(dāng)。定語(yǔ)和中心詞之間用屬格助詞,有時(shí)屬格可省略,但其意義及功能不變。為了控制篇幅,不作一一列舉。最后一列是藏文實(shí)例。
隨著自然語(yǔ)言信息處理技術(shù)的不斷發(fā)展和完善,從原來(lái)的以詞為單位的語(yǔ)法分析方法轉(zhuǎn)換成以短語(yǔ)為處理單位的語(yǔ)法分析的思想。在這樣的背景下,藏文信息處理也不例外,在藏文句法分析、藏漢機(jī)器翻譯、藏文文本檢索等領(lǐng)域都要用到藏語(yǔ)傳統(tǒng)語(yǔ)法不太被關(guān)注的藏語(yǔ)短語(yǔ)。因此,本文對(duì)藏語(yǔ)短語(yǔ)的定義、藏語(yǔ)短語(yǔ)與藏語(yǔ)句子的區(qū)別等方面進(jìn)行了研究。在此基礎(chǔ)上對(duì)藏語(yǔ)短語(yǔ)進(jìn)行分類,并規(guī)定了信息處理中藏語(yǔ)短語(yǔ)類別單位的標(biāo)記代碼。下一步,我們將在建立大規(guī)模藏語(yǔ)語(yǔ)料庫(kù)的基礎(chǔ)上進(jìn)行藏語(yǔ)短語(yǔ)的自動(dòng)抽取研究,進(jìn)而建立藏語(yǔ)短語(yǔ)信息庫(kù),為基于藏語(yǔ)短語(yǔ)的藏文句法分析、統(tǒng)計(jì)機(jī)器翻譯、藏文文本檢索等領(lǐng)域的研究奠定堅(jiān)實(shí)的基礎(chǔ)。
表1 藏語(yǔ)短語(yǔ)的分類及其標(biāo)記代碼
續(xù)表