999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計(jì)的蒙漢短語(yǔ)結(jié)構(gòu)分析

2016-12-26 09:47:07內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院張跟兄富木仁
電子世界 2016年21期
關(guān)鍵詞:詞匯方法

內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁

基于統(tǒng)計(jì)的蒙漢短語(yǔ)結(jié)構(gòu)分析

內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁

雙語(yǔ)短語(yǔ)對(duì)齊是當(dāng)今雙語(yǔ)信息檢索和輔助機(jī)器翻譯研究的熱點(diǎn)和難點(diǎn)問(wèn)題。詞匯是語(yǔ)言的建筑材料,計(jì)算機(jī)在處理自然語(yǔ)言時(shí)一般都是以詞為單位進(jìn)行處理的。所謂的雙語(yǔ)對(duì)齊是源語(yǔ)言查找對(duì)應(yīng)的目標(biāo)語(yǔ)言的一項(xiàng)工作。蒙漢雙語(yǔ)短語(yǔ)結(jié)構(gòu)對(duì)齊工作在機(jī)器翻譯、蒙漢語(yǔ)言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。本文對(duì)蒙漢詞匯標(biāo)注和蒙漢短語(yǔ)對(duì)齊難點(diǎn)問(wèn)題分析等方面進(jìn)行了重點(diǎn)闡述。

蒙漢短語(yǔ);標(biāo)注;難點(diǎn)

1.引言

在自然語(yǔ)言的研究處理中,凡涉及到句子、語(yǔ)法、語(yǔ)義等的研究項(xiàng)目,都以詞為單位進(jìn)行研究處理。在句法研究中詞語(yǔ)組成句子,沒(méi)有詞語(yǔ)就沒(méi)有詞組詞成句,因而也就沒(méi)有句法。還有,在眾多的研究課題中詞匯研究是一項(xiàng)龐大的語(yǔ)言工程,需要我們?nèi)ネ度氪笈康娜肆臀锪Α?/p>

要檢索蒙漢雙語(yǔ)詞語(yǔ)我們須設(shè)置對(duì)齊詞匯,這需要備好蒙漢雙語(yǔ)詞典。在拆分完詞、標(biāo)注完相應(yīng)的詞性后,要對(duì)齊蒙文詞語(yǔ)和漢文詞語(yǔ)。檢索對(duì)齊詞語(yǔ)往往還會(huì)涉及到檢索速度的快與慢的問(wèn)題,因此我們要設(shè)計(jì)好數(shù)據(jù)庫(kù)。

2.現(xiàn)狀

20世紀(jì)80年代以來(lái),語(yǔ)料庫(kù)研究受到了各國(guó)研究者的重視。 LOB語(yǔ)料庫(kù)的研究者利用統(tǒng)計(jì)方法設(shè)計(jì)了一個(gè)標(biāo)注系統(tǒng)。在此標(biāo)注系統(tǒng)中應(yīng)用了130個(gè)標(biāo)記,其中標(biāo)注的700多個(gè)詞典詞條是從Brown語(yǔ)料庫(kù)中摘取的。LOB語(yǔ)料庫(kù)中還建立了700多個(gè)詞綴的詞綴表。在此標(biāo)注系統(tǒng)中首先對(duì)部分語(yǔ)料進(jìn)行了人工標(biāo)注,其次對(duì)標(biāo)注過(guò)的語(yǔ)料進(jìn)行了統(tǒng)計(jì)分析,為得出標(biāo)記與標(biāo)記同現(xiàn)的頻率,從而產(chǎn)生一個(gè)標(biāo)記同現(xiàn)的頻率矩陣。標(biāo)注系統(tǒng)(CLAWS)中還采用了對(duì)短語(yǔ)進(jìn)行標(biāo)注的方法來(lái)修正詞性標(biāo)注結(jié)果。對(duì)整個(gè)LOB語(yǔ)料庫(kù)的標(biāo)注正確率在96%左右,算法的時(shí)間復(fù)雜度和空間復(fù)雜度是指數(shù)級(jí)的。

DeRose等人對(duì)統(tǒng)計(jì)方法作了一些改進(jìn),設(shè)計(jì)了一個(gè)標(biāo)注系統(tǒng)(VOLSUNGA),在此系統(tǒng)中利用了動(dòng)態(tài)規(guī)劃算法。此算法主要考慮了語(yǔ)料庫(kù)中詞和詞性之間存在的統(tǒng)計(jì)關(guān)系。VOLSUNGA中即使沒(méi)有使用任何規(guī)則正確率也達(dá)到了96%以上。DeRose等人主要對(duì)二元語(yǔ)法模型下應(yīng)用了詞性自動(dòng)標(biāo)注的動(dòng)態(tài)規(guī)劃算法,其時(shí)間復(fù)雜度和空間復(fù)雜度是線性的。迄今為止,統(tǒng)計(jì)方法主要采用詞性與詞性之間的同現(xiàn)概率和馬爾可夫語(yǔ)言模型來(lái)消除歧義。相比之下統(tǒng)計(jì)方法可以避免規(guī)則方法的許多缺陷。例如,統(tǒng)計(jì)方法主要應(yīng)用數(shù)據(jù)統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)可以應(yīng)用有指導(dǎo)或無(wú)指導(dǎo)的學(xué)習(xí)方法從語(yǔ)料庫(kù)中得到,從而避免那些人工獲取規(guī)則的繁瑣過(guò)程。同時(shí),統(tǒng)計(jì)方法獲取的知識(shí)具有以下優(yōu)點(diǎn):客觀性好、一致性強(qiáng),比起規(guī)則的方法對(duì)生詞和不規(guī)范的句子的處理能力有較大的提高。

3.標(biāo)注蒙漢對(duì)齊短語(yǔ)

詞匯是語(yǔ)言的建筑材料,計(jì)算機(jī)在處理自然語(yǔ)言時(shí)一般都是以詞為單位進(jìn)行處理的。所謂的雙語(yǔ)對(duì)齊是源語(yǔ)言查找對(duì)應(yīng)的目標(biāo)語(yǔ)言的一項(xiàng)工作。我們所研究的對(duì)齊是在句子、短語(yǔ)和詞級(jí)別的對(duì)齊。詞匯對(duì)齊是源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯之間的最高語(yǔ)義相似度的查找。到目前為止我們主要應(yīng)用的對(duì)齊方法有:基于統(tǒng)計(jì)的詞匯對(duì)齊方法,其主要思想是:對(duì)大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),獲得對(duì)譯詞的翻譯概率。基于詞典的詞匯對(duì)齊方法,應(yīng)用這種方法是因?yàn)?雙語(yǔ)詞典中擁有兩種語(yǔ)言的翻譯信息,是獲取雙語(yǔ)對(duì)齊詞匯的重要資源庫(kù)。但應(yīng)用這種方法的主要缺點(diǎn)是詞典中所覆蓋的方方面面的內(nèi)容較少。

源語(yǔ)言-蒙古文詞與詞之間是有空格的,但我們所研究的目標(biāo)語(yǔ)言-漢語(yǔ),詞與詞之間并沒(méi)有分詞分界標(biāo)志,所以我們需要分詞軟件對(duì)目標(biāo)語(yǔ)言進(jìn)行分詞。分完詞的源語(yǔ)言和目標(biāo)語(yǔ)言需標(biāo)注詞性。

分完詞、標(biāo)上詞性后的蒙漢雙語(yǔ)詞匯舉例如下:

2007年/t10月/t15日/t,/wp中國(guó)/ns共產(chǎn)黨/nz第十七/m次/q全國(guó)/ ng代表/ng大會(huì)/ng在/p北京/ns人民大會(huì)堂/nz隆重/aq開(kāi)幕/vi。/wp

4.蒙漢對(duì)齊短語(yǔ)的提出及難點(diǎn)問(wèn)題

(1)提出問(wèn)題

所謂蒙漢語(yǔ)言詞對(duì)齊是在源語(yǔ)言和目標(biāo)語(yǔ)言中找到詞匯級(jí)別的翻譯對(duì)。詞匯對(duì)齊在機(jī)器翻譯、蒙漢語(yǔ)言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。如下面例題所示。

(2)難點(diǎn)問(wèn)題

與此同時(shí),詞語(yǔ)對(duì)齊方面的研究課題是公眾認(rèn)可的難點(diǎn)研究項(xiàng)目。主要存在的問(wèn)題如下:

①蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊不滿足前后順序,經(jīng)常出現(xiàn)交叉現(xiàn)象,比如:{,電視}和{,看}這兩個(gè)詞的前后位置就顛倒了。

②蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊模式非常復(fù)雜,有一對(duì)一、一對(duì)多、多對(duì)一和多對(duì)多等多種復(fù)雜的對(duì)應(yīng)關(guān)系,如下面例題中我列舉出了一對(duì)一和一對(duì)多的情況:{,他}屬于一對(duì)一的情況;{,買(mǎi)了}屬于一對(duì)多情況。

③相同的詞語(yǔ)在同一個(gè)句子中出現(xiàn)多次,但是這些詞語(yǔ)在目標(biāo)語(yǔ)言里的位置是不知道的。

④蒙漢雙語(yǔ)詞語(yǔ)之間的對(duì)齊匹配關(guān)系很難確定,在人工翻譯的過(guò)程中遣詞、造句過(guò)于靈便,從而給機(jī)器翻譯帶來(lái)了很大的不便。例如:把""翻譯成"一錢(qián)不值",這種翻譯現(xiàn)象表現(xiàn)出了人工翻譯的典型特色。

⑤蒙古語(yǔ)言的特點(diǎn)以及蒙漢語(yǔ)言之間的固有差異,比如慣用搭配、成語(yǔ)、諺語(yǔ)等。

⑥在蒙漢語(yǔ)言的翻譯過(guò)程中有添加詞語(yǔ)、減掉詞語(yǔ)、省略詞語(yǔ)、指代關(guān)系不明等多種現(xiàn)象。

[1]王曉龍,關(guān)毅。計(jì)算機(jī)自然語(yǔ)言處理[M]。北京:清華大學(xué)出版社,2005:85-95.

[2]劉冬明。漢英雙語(yǔ)平行語(yǔ)料庫(kù)中對(duì)齊方法的研究[D]。山西大學(xué)出版社,2004,4:4-9.

[3]劉冬明,楊爾弘,方瑩。漢英雙語(yǔ)平行語(yǔ)料庫(kù)的詞義標(biāo)注[J]。中文信息學(xué)報(bào),2004,19(6):50-51.

[4]嘎日迪,斯日古楞。蒙古文信息處理技術(shù)及自然語(yǔ)言理解[M]。呼和浩特:內(nèi)蒙古大學(xué)出版社,2006:121-122.

張跟兄(1980-),講師,研究方向:計(jì)算機(jī)軟件開(kāi)發(fā)領(lǐng)域。

富木仁(1980-),助理研究員,研究方向:計(jì)算機(jī)開(kāi)發(fā)領(lǐng)域。

猜你喜歡
詞匯方法
本刊可直接用縮寫(xiě)的常用詞匯
一些常用詞匯可直接用縮寫(xiě)
本刊可直接用縮寫(xiě)的常用詞匯
學(xué)習(xí)方法
一些常用詞匯可直接用縮寫(xiě)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
本刊可直接用縮寫(xiě)的常用詞匯
主站蜘蛛池模板: 夜夜操国产| 亚洲日韩日本中文在线| 天天综合网亚洲网站| 国产乱子伦视频三区| 免费人成网站在线观看欧美| 久久久久亚洲精品成人网| 在线播放国产一区| 中文字幕 欧美日韩| 成人伊人色一区二区三区| 欧美亚洲国产一区| 久久亚洲国产视频| 欧美自拍另类欧美综合图区| jizz在线观看| 亚洲第一福利视频导航| 国产乱子伦视频在线播放| 亚洲丝袜第一页| 午夜性爽视频男人的天堂| 久久精品无码中文字幕| 午夜免费小视频| 欧美日韩在线亚洲国产人| 亚洲精品成人福利在线电影| 九九九精品视频| 熟妇丰满人妻| 三上悠亚一区二区| 成人午夜亚洲影视在线观看| 91成人试看福利体验区| 国产精品无码作爱| 国产特一级毛片| 国产精品无码作爱| 欧美日韩在线成人| 亚洲精品老司机| 在线高清亚洲精品二区| 国产成人综合日韩精品无码不卡| 天天综合网亚洲网站| 国产人成午夜免费看| 极品国产在线| 国产欧美日韩视频怡春院| 日韩毛片免费观看| 美女被躁出白浆视频播放| 日韩欧美一区在线观看| 中文字幕亚洲专区第19页| 国产你懂得| 亚洲国产日韩一区| 天天干天天色综合网| 亚洲人成影院在线观看| 天天综合天天综合| 伊人网址在线| 久久综合丝袜日本网| 日韩精品毛片| 久久成人免费| 久久影院一区二区h| 久久久久国色AV免费观看性色| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲人网站| 成人午夜视频网站| 成人在线亚洲| 一级爱做片免费观看久久| 久久a毛片| 人妻中文字幕无码久久一区| 久久99热66这里只有精品一| 无码专区第一页| 91区国产福利在线观看午夜| 欧美三级不卡在线观看视频| 999精品在线视频| 凹凸精品免费精品视频| 2020精品极品国产色在线观看| 日本91视频| 72种姿势欧美久久久久大黄蕉| 香蕉视频在线观看www| 婷婷色一二三区波多野衣| 欧美日本在线观看| 欧美激情成人网| 91美女视频在线观看| 国产又爽又黄无遮挡免费观看 | 国产在线专区| 91成人试看福利体验区| 欧美啪啪一区| 亚洲中文字幕在线观看| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲福利片无码最新在线播放 | 粉嫩国产白浆在线观看| 亚洲区欧美区|