內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁
基于統(tǒng)計(jì)的蒙漢短語(yǔ)結(jié)構(gòu)分析
內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁
雙語(yǔ)短語(yǔ)對(duì)齊是當(dāng)今雙語(yǔ)信息檢索和輔助機(jī)器翻譯研究的熱點(diǎn)和難點(diǎn)問(wèn)題。詞匯是語(yǔ)言的建筑材料,計(jì)算機(jī)在處理自然語(yǔ)言時(shí)一般都是以詞為單位進(jìn)行處理的。所謂的雙語(yǔ)對(duì)齊是源語(yǔ)言查找對(duì)應(yīng)的目標(biāo)語(yǔ)言的一項(xiàng)工作。蒙漢雙語(yǔ)短語(yǔ)結(jié)構(gòu)對(duì)齊工作在機(jī)器翻譯、蒙漢語(yǔ)言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。本文對(duì)蒙漢詞匯標(biāo)注和蒙漢短語(yǔ)對(duì)齊難點(diǎn)問(wèn)題分析等方面進(jìn)行了重點(diǎn)闡述。
蒙漢短語(yǔ);標(biāo)注;難點(diǎn)
在自然語(yǔ)言的研究處理中,凡涉及到句子、語(yǔ)法、語(yǔ)義等的研究項(xiàng)目,都以詞為單位進(jìn)行研究處理。在句法研究中詞語(yǔ)組成句子,沒(méi)有詞語(yǔ)就沒(méi)有詞組詞成句,因而也就沒(méi)有句法。還有,在眾多的研究課題中詞匯研究是一項(xiàng)龐大的語(yǔ)言工程,需要我們?nèi)ネ度氪笈康娜肆臀锪Α?/p>
要檢索蒙漢雙語(yǔ)詞語(yǔ)我們須設(shè)置對(duì)齊詞匯,這需要備好蒙漢雙語(yǔ)詞典。在拆分完詞、標(biāo)注完相應(yīng)的詞性后,要對(duì)齊蒙文詞語(yǔ)和漢文詞語(yǔ)。檢索對(duì)齊詞語(yǔ)往往還會(huì)涉及到檢索速度的快與慢的問(wèn)題,因此我們要設(shè)計(jì)好數(shù)據(jù)庫(kù)。
20世紀(jì)80年代以來(lái),語(yǔ)料庫(kù)研究受到了各國(guó)研究者的重視。 LOB語(yǔ)料庫(kù)的研究者利用統(tǒng)計(jì)方法設(shè)計(jì)了一個(gè)標(biāo)注系統(tǒng)。在此標(biāo)注系統(tǒng)中應(yīng)用了130個(gè)標(biāo)記,其中標(biāo)注的700多個(gè)詞典詞條是從Brown語(yǔ)料庫(kù)中摘取的。LOB語(yǔ)料庫(kù)中還建立了700多個(gè)詞綴的詞綴表。在此標(biāo)注系統(tǒng)中首先對(duì)部分語(yǔ)料進(jìn)行了人工標(biāo)注,其次對(duì)標(biāo)注過(guò)的語(yǔ)料進(jìn)行了統(tǒng)計(jì)分析,為得出標(biāo)記與標(biāo)記同現(xiàn)的頻率,從而產(chǎn)生一個(gè)標(biāo)記同現(xiàn)的頻率矩陣。標(biāo)注系統(tǒng)(CLAWS)中還采用了對(duì)短語(yǔ)進(jìn)行標(biāo)注的方法來(lái)修正詞性標(biāo)注結(jié)果。對(duì)整個(gè)LOB語(yǔ)料庫(kù)的標(biāo)注正確率在96%左右,算法的時(shí)間復(fù)雜度和空間復(fù)雜度是指數(shù)級(jí)的。
DeRose等人對(duì)統(tǒng)計(jì)方法作了一些改進(jìn),設(shè)計(jì)了一個(gè)標(biāo)注系統(tǒng)(VOLSUNGA),在此系統(tǒng)中利用了動(dòng)態(tài)規(guī)劃算法。此算法主要考慮了語(yǔ)料庫(kù)中詞和詞性之間存在的統(tǒng)計(jì)關(guān)系。VOLSUNGA中即使沒(méi)有使用任何規(guī)則正確率也達(dá)到了96%以上。DeRose等人主要對(duì)二元語(yǔ)法模型下應(yīng)用了詞性自動(dòng)標(biāo)注的動(dòng)態(tài)規(guī)劃算法,其時(shí)間復(fù)雜度和空間復(fù)雜度是線性的。迄今為止,統(tǒng)計(jì)方法主要采用詞性與詞性之間的同現(xiàn)概率和馬爾可夫語(yǔ)言模型來(lái)消除歧義。相比之下統(tǒng)計(jì)方法可以避免規(guī)則方法的許多缺陷。例如,統(tǒng)計(jì)方法主要應(yīng)用數(shù)據(jù)統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)可以應(yīng)用有指導(dǎo)或無(wú)指導(dǎo)的學(xué)習(xí)方法從語(yǔ)料庫(kù)中得到,從而避免那些人工獲取規(guī)則的繁瑣過(guò)程。同時(shí),統(tǒng)計(jì)方法獲取的知識(shí)具有以下優(yōu)點(diǎn):客觀性好、一致性強(qiáng),比起規(guī)則的方法對(duì)生詞和不規(guī)范的句子的處理能力有較大的提高。
詞匯是語(yǔ)言的建筑材料,計(jì)算機(jī)在處理自然語(yǔ)言時(shí)一般都是以詞為單位進(jìn)行處理的。所謂的雙語(yǔ)對(duì)齊是源語(yǔ)言查找對(duì)應(yīng)的目標(biāo)語(yǔ)言的一項(xiàng)工作。我們所研究的對(duì)齊是在句子、短語(yǔ)和詞級(jí)別的對(duì)齊。詞匯對(duì)齊是源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯之間的最高語(yǔ)義相似度的查找。到目前為止我們主要應(yīng)用的對(duì)齊方法有:基于統(tǒng)計(jì)的詞匯對(duì)齊方法,其主要思想是:對(duì)大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),獲得對(duì)譯詞的翻譯概率。基于詞典的詞匯對(duì)齊方法,應(yīng)用這種方法是因?yàn)?雙語(yǔ)詞典中擁有兩種語(yǔ)言的翻譯信息,是獲取雙語(yǔ)對(duì)齊詞匯的重要資源庫(kù)。但應(yīng)用這種方法的主要缺點(diǎn)是詞典中所覆蓋的方方面面的內(nèi)容較少。
源語(yǔ)言-蒙古文詞與詞之間是有空格的,但我們所研究的目標(biāo)語(yǔ)言-漢語(yǔ),詞與詞之間并沒(méi)有分詞分界標(biāo)志,所以我們需要分詞軟件對(duì)目標(biāo)語(yǔ)言進(jìn)行分詞。分完詞的源語(yǔ)言和目標(biāo)語(yǔ)言需標(biāo)注詞性。
分完詞、標(biāo)上詞性后的蒙漢雙語(yǔ)詞匯舉例如下:

2007年/t10月/t15日/t,/wp中國(guó)/ns共產(chǎn)黨/nz第十七/m次/q全國(guó)/ ng代表/ng大會(huì)/ng在/p北京/ns人民大會(huì)堂/nz隆重/aq開(kāi)幕/vi。/wp
(1)提出問(wèn)題
所謂蒙漢語(yǔ)言詞對(duì)齊是在源語(yǔ)言和目標(biāo)語(yǔ)言中找到詞匯級(jí)別的翻譯對(duì)。詞匯對(duì)齊在機(jī)器翻譯、蒙漢語(yǔ)言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。如下面例題所示。

(2)難點(diǎn)問(wèn)題
與此同時(shí),詞語(yǔ)對(duì)齊方面的研究課題是公眾認(rèn)可的難點(diǎn)研究項(xiàng)目。主要存在的問(wèn)題如下:
①蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊不滿足前后順序,經(jīng)常出現(xiàn)交叉現(xiàn)象,比如:{,電視}和{,看}這兩個(gè)詞的前后位置就顛倒了。

②蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊模式非常復(fù)雜,有一對(duì)一、一對(duì)多、多對(duì)一和多對(duì)多等多種復(fù)雜的對(duì)應(yīng)關(guān)系,如下面例題中我列舉出了一對(duì)一和一對(duì)多的情況:{,他}屬于一對(duì)一的情況;{,買(mǎi)了}屬于一對(duì)多情況。

③相同的詞語(yǔ)在同一個(gè)句子中出現(xiàn)多次,但是這些詞語(yǔ)在目標(biāo)語(yǔ)言里的位置是不知道的。
④蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊匹配關(guān)系很難確定,在人工翻譯的過(guò)程中遣詞、造句過(guò)于靈便,從而給機(jī)器翻譯帶來(lái)了很大的不便。例如:把""翻譯成"一錢(qián)不值",這種翻譯現(xiàn)象表現(xiàn)出了人工翻譯的典型特色。

⑤蒙古語(yǔ)言的特點(diǎn)以及蒙漢語(yǔ)言之間的固有差異,比如慣用搭配、成語(yǔ)、諺語(yǔ)等。
⑥在蒙漢語(yǔ)言的翻譯過(guò)程中有添加詞語(yǔ)、減掉詞語(yǔ)、省略詞語(yǔ)、指代關(guān)系不明等多種現(xiàn)象。
[1]王曉龍,關(guān)毅。計(jì)算機(jī)自然語(yǔ)言處理[M]。北京:清華大學(xué)出版社,2005:85-95.
[2]劉冬明。漢英雙語(yǔ)平行語(yǔ)料庫(kù)中對(duì)齊方法的研究[D]。山西大學(xué)出版社,2004,4:4-9.
[3]劉冬明,楊爾弘,方瑩。漢英雙語(yǔ)平行語(yǔ)料庫(kù)的詞義標(biāo)注[J]。中文信息學(xué)報(bào),2004,19(6):50-51.
[4]嘎日迪,斯日古楞。蒙古文信息處理技術(shù)及自然語(yǔ)言理解[M]。呼和浩特:內(nèi)蒙古大學(xué)出版社,2006:121-122.
張跟兄(1980-),講師,研究方向:計(jì)算機(jī)軟件開(kāi)發(fā)領(lǐng)域。
富木仁(1980-),助理研究員,研究方向:計(jì)算機(jī)開(kāi)發(fā)領(lǐng)域。