999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英漢分詞問(wèn)題的混合翻譯系統(tǒng)設(shè)計(jì)

2019-05-04 13:57:40仲佳琳楊宇李奕琛
都市生活 2019年1期
關(guān)鍵詞:規(guī)則

仲佳琳 楊宇 李奕琛

摘 要:在解決處理中文文本的分詞的問(wèn)題中,分詞是基礎(chǔ)的一項(xiàng)。本文針對(duì)分詞問(wèn)題提出統(tǒng)計(jì)與規(guī)則混合運(yùn)用的解決方法,先運(yùn)用PMI,又用語(yǔ)言規(guī)則來(lái)彌補(bǔ)統(tǒng)計(jì)方面解決不了的問(wèn)題,即混合翻譯系統(tǒng)設(shè)計(jì)。

關(guān)鍵詞:計(jì)算語(yǔ)言學(xué) 機(jī)器翻譯 統(tǒng)計(jì) 規(guī)則

詞的分割是中英文差異中最基本的一項(xiàng)。英文的單詞是天然分開(kāi)的,詞就是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位。但中文句子中沒(méi)有直觀的詞的界限,詞也不是最小的語(yǔ)言單位。因此分詞在計(jì)算語(yǔ)言學(xué)中是最為基礎(chǔ)的一項(xiàng),與此同時(shí)會(huì)碰到歧義現(xiàn)象。比如:a. 她憑自己的才能得到了這份工作。b. 你這樣的人才能夠留下來(lái),是我們的幸運(yùn)。a句中的“才能”明顯是一個(gè)詞,而b句中的“人才”和“能夠”卻應(yīng)該分開(kāi)。在這個(gè)過(guò)程中,針對(duì)固定詞表進(jìn)行“一刀切”顯然不可取。

由此本文提出了針對(duì)分詞問(wèn)題的混合機(jī)器翻譯系統(tǒng)的設(shè)計(jì):基于統(tǒng)計(jì)的機(jī)器翻譯SBMT----- 基于規(guī)則的機(jī)器翻譯系統(tǒng) RBMT。

首先是統(tǒng)計(jì)方法中基于深度學(xué)習(xí)的點(diǎn)互信息PMI,即如何運(yùn)用PMI進(jìn)行中文分詞。從點(diǎn)互信息的定義來(lái)看,它表示某兩個(gè)字符(漢字)的組合出現(xiàn)在語(yǔ)料庫(kù)中的概率,與各自出現(xiàn)概率乘積的比的對(duì)數(shù)。點(diǎn)互信息定義如下:

其主要基于語(yǔ)料庫(kù),并計(jì)算詞語(yǔ)間的語(yǔ)義相似度。若概率越大,兩字相關(guān)性就越緊密,關(guān)聯(lián)度越高。所以直觀上可以理解為兩個(gè)字符在語(yǔ)料庫(kù)中組成詞語(yǔ)的可能性。若兩個(gè)事件不相關(guān)也不互斥,那么同時(shí)發(fā)生的概率p(a,b)=p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;如果兩個(gè)事件相關(guān),那么同時(shí)發(fā)生的概率p(a,b)>p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;如果兩個(gè)事件互斥,同理可得PMI(a,b)<0。比如通過(guò)計(jì)算,“中國(guó)”這個(gè)詞的PMI值是1.8448,即可取;而“我病”的PMI值是-0.9099,即不成詞。

因?yàn)闈h語(yǔ)的特殊性,在分詞的過(guò)程中也存在歧義,而不是簡(jiǎn)單詞性有可能的不同而導(dǎo)致的歧義,這與英文不同。比如以下兩個(gè)句子:

a. 她憑自己的才能得到了這份工作。

b. 你這樣的人才能留下來(lái),是我們的幸運(yùn)。

通過(guò)計(jì)算,“才能”一詞在兩個(gè)句子中都有可能被標(biāo)記出來(lái),即在任何句子中都會(huì)被計(jì)算為同一個(gè)詞。但正確的分詞應(yīng)是如下: b. 你/這樣的/人才/能夠/留下來(lái),是/我們的/幸運(yùn)。如果分詞出現(xiàn)錯(cuò)誤,整個(gè)句子的翻譯會(huì)變得非常奇怪, 如:*b. 你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。

在自然語(yǔ)言處理的過(guò)程中,句法分析既可以彌補(bǔ)基于統(tǒng)計(jì)方法分詞的漏洞問(wèn)題,又可以解決分詞后的詞語(yǔ)歧義問(wèn)題。從整個(gè)句子為單位的角度,基于語(yǔ)言規(guī)則,有效限制基于統(tǒng)計(jì)的分詞任務(wù)。若是依靠統(tǒng)計(jì)方法,就會(huì)出現(xiàn)這種機(jī)械性的計(jì)算的句子:你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。

通常來(lái)講,句子是由一個(gè)名詞詞組加上一個(gè)動(dòng)詞詞組構(gòu)成的。那么這句話逗號(hào)前的半句話就會(huì)單獨(dú)成句,整體被歸為一個(gè)名詞短語(yǔ)和動(dòng)詞短語(yǔ)齊全的簡(jiǎn)單從句,因?yàn)椤澳氵@樣的人才能夠留下來(lái)”的確能獨(dú)立成句,但逗號(hào)后面的“是我們的幸運(yùn)”無(wú)法與其銜接。雖然前半句可以獨(dú)立成句,在語(yǔ)法上也沒(méi)有問(wèn)題,但它卻不是整句話的含義。因此,沒(méi)有了語(yǔ)言規(guī)則的界定,就無(wú)法把整個(gè)句子考慮其中。

在人機(jī)交互的過(guò)程中,計(jì)算機(jī)沒(méi)有思維能力,而所有的指令只能是絕對(duì)精準(zhǔn)的信息 。只有通過(guò)形式語(yǔ)言的角度,才能把中英文文本處理的法則變成計(jì)算機(jī)能“理解”的信息。for循環(huán)結(jié)構(gòu)的設(shè)計(jì)就是把兩種不同的方法套用在形式語(yǔ)言for循環(huán)的思想里。在實(shí)際的機(jī)器翻譯過(guò)程中,情況會(huì)更加復(fù)雜多變,但可以確定的是,自然語(yǔ)言中的一個(gè)句子不應(yīng)存在歧義,一個(gè)句子只有一個(gè)理解。當(dāng)混合兩種解決方法設(shè)計(jì)時(shí),就涉及到對(duì)整個(gè)系統(tǒng)的反復(fù)執(zhí)行。

最后,雖然基于規(guī)則的機(jī)器翻譯系統(tǒng)存在一定的缺陷,但要解決翻譯方面的問(wèn)題,最根本地還是要回歸到語(yǔ)言層面,而不是完全寄托于高端技術(shù)或程序設(shè)計(jì)。要取得機(jī)器翻譯的進(jìn)步也不能單單依靠語(yǔ)言學(xué)理論,更要靈活運(yùn)用統(tǒng)計(jì)模型和理論。

參考文獻(xiàn)

[1] John Hale. Finding Syntax in Human Encephalography with Beam Search.arXiv:1806.04127v1 [cs.CL] 11 Jun 2018.

[2] 王金銓?zhuān)?王克非. 計(jì)算語(yǔ)言學(xué)視角下的翻譯研究.外國(guó)語(yǔ). 2008, (5).

[3] 楊憲澤. 基于實(shí)例的機(jī)器翻譯處理方法. 計(jì)算機(jī)工程. 2003, (12).

[4] Roger T. Bell.Translation and Translating- Theory and Practice Raymond W. Yeung. Information Theory and Network Coding[M]. Springer; 2008.

[5] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3):379-423.

[6] Bo Zheng, Wanxiang Che, Jiang Guo, Ting Liu. Enhancing LSTM-based Word Segmentation Using Unlabeled Data.Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, 2017.

[7] Chomsky, Noam. Aspects of the theory of syntax. Cambridge, Massachusetts: MIT Press,1965.

作者簡(jiǎn)介:仲佳琳(1998-),女,籍貫:吉林省長(zhǎng)春市,民族:漢 職稱(chēng)(無(wú))學(xué)歷:在讀本科生。研究方向(翻譯,計(jì)算語(yǔ)言學(xué))

第二作者姓名:楊宇 單位(南開(kāi)大學(xué)數(shù)學(xué)科學(xué)學(xué)院數(shù)學(xué)系)

第三作者姓名:李奕琛 單位(南開(kāi)大學(xué)計(jì)算機(jī)控制與工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系)

猜你喜歡
規(guī)則
拼寫(xiě)規(guī)則歌
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
依據(jù)規(guī)則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷(xiāo)售規(guī)則
規(guī)則的正確打開(kāi)方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統(tǒng)規(guī)則
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
啦啦操2010—2013版與2013—2016版規(guī)則的對(duì)比分析
主站蜘蛛池模板: 国产精品七七在线播放| 国产精品久久久久久久伊一| 欧美午夜网站| 欧美.成人.综合在线| 性欧美在线| 久久午夜影院| 亚洲自偷自拍另类小说| 国内自拍久第一页| 亚洲IV视频免费在线光看| 国产成人高清精品免费软件| 亚洲第一中文字幕| 亚洲男人天堂网址| 亚洲欧美人成人让影院| 在线观看国产精品日本不卡网| 青青草国产免费国产| 欧美97色| 女人天堂av免费| 免费毛片视频| 欧美成人午夜影院| 中文无码毛片又爽又刺激| 亚洲欧洲美色一区二区三区| 久久情精品国产品免费| 国产成人免费高清AⅤ| 97视频免费在线观看| 一本大道香蕉高清久久| 国产丝袜无码精品| 免费 国产 无码久久久| 久久美女精品| 久久久受www免费人成| a毛片基地免费大全| 国产在线观看成人91| 亚洲小视频网站| 91破解版在线亚洲| 成人永久免费A∨一级在线播放| 91丝袜在线观看| 亚洲欧美精品在线| 成人国产免费| 国产成人毛片| 2020亚洲精品无码| 免费看美女自慰的网站| 国产美女视频黄a视频全免费网站| 人妻精品久久无码区| 色综合天天综合| 免费99精品国产自在现线| 久久超级碰| 无码专区国产精品一区| 任我操在线视频| 国产第一福利影院| 国产99视频精品免费视频7| 婷婷五月在线| 亚洲综合天堂网| 一区二区三区精品视频在线观看| 亚洲全网成人资源在线观看| 成年女人18毛片毛片免费| 亚洲女人在线| 免费国产黄线在线观看| 国产手机在线小视频免费观看 | 国产本道久久一区二区三区| 高清无码手机在线观看| 亚洲第一成网站| 精品人妻一区二区三区蜜桃AⅤ| 中文毛片无遮挡播放免费| 久久久无码人妻精品无码| 精品人妻无码中字系列| 亚洲欧美成人网| 国产又爽又黄无遮挡免费观看| 国产95在线 | 东京热av无码电影一区二区| 日韩欧美中文在线| 一本大道香蕉久中文在线播放| 91精品国产情侣高潮露脸| 日本在线视频免费| 国产区人妖精品人妖精品视频| 国产免费精彩视频| 国产女人在线| 全部免费毛片免费播放| 国产成人凹凸视频在线| 色噜噜综合网| 三级国产在线观看| 国产91麻豆免费观看| 亚洲精品午夜无码电影网| 中文字幕在线播放不卡|