999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計方法從文本中抽取分詞詞典

2020-04-14 04:54:29黃超
電腦知識與技術 2020年4期

摘要:常見的機器翻譯方法有兩種,一種是已經(jīng)發(fā)展得比較完善的統(tǒng)計機器翻譯,另一種是出現(xiàn)不久的神經(jīng)機器翻譯。這兩種翻譯方式首先都需要將文本劃分成詞或短語,對于一些語種,如中文,詞并不是明顯分開的,必須要分詞。分詞的時候,需要使用詞典,通常詞典是人工生成人工添加。本文提出了一種方式,可以從復數(shù)文本中自動提取分詞詞典。

關鍵詞:機器翻譯;分詞;詞典

中圖分類號:TP393

文獻標識碼:A

文章編號:1009-3044(2020)04-0213-02

收稿日期:2019-10-15

基金項目:本文工作得到國家重點研發(fā)計劃(2017YFB0802300)資助作者簡介:黃超,男,碩士研究生,主要研究方向為信息安全。

Extracting Word Segmentation Dictionary from Text Based on Statistical Method

HUANG Chao

(School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)

Abstract:There are two common methods of machine translation,one is the statistical machine translation that has been developed relatively well,and the other is the neural machine translation that appears soon.First of all,both of these translation methods need to segment the text into words or phrases.For some languages,such as Chinese,the words are not clearly segmented so the text must be segmented into words first.W hen segmenting text into words,it is necessary to use a dictionary that is usually generated and added manually.This paper proposes a way to automatically extract word segmentation dictionary from plural text.

Key words:machine translation;word segmentation;dictionary

隨著互聯(lián)網(wǎng)的發(fā)展,機器翻譯在各行各業(yè)中都變得越來越重要。人們在生產(chǎn)生活中往往會查找一些外文的資料,這時就需要機器翻譯來幫助人們翻譯外文資料。為了提高翻譯的準確度和流暢度,國內外各個研究機構都對機器翻譯進行過非常深入的研究?,F(xiàn)在,機器翻譯方法主要有兩種,一種是統(tǒng)計機器翻譯,這種翻譯方式是基于統(tǒng)計模型,將一個短語翻譯成另一種語言中含義最為接近的短語[1]。另一種就是神經(jīng)機器翻譯,這是一種出現(xiàn)不久的翻譯方法,基于神經(jīng)網(wǎng)絡[2-4]。相比于統(tǒng)計機器翻譯,神經(jīng)機器翻譯可以更多地考慮語法和語義對翻譯影響,從而獲得更好的翻譯準確度。

以上兩種翻譯方法,首先都要將文本劃分成單詞或短語,才能進行接下來的翻譯步驟。對于一些語種,,如英文,其單詞是自然劃分的。而對于另一些語種,如中文,其單詞不是自然劃分的,所以在翻譯之前需要進行分詞?,F(xiàn)在已經(jīng)有比較成熟的中文分詞工具,如結巴分詞。這些分詞工具都需要根據(jù)詞庫對文本進行劃分,而現(xiàn)在的詞庫都是人為生成人為添加的。

本文將介紹一種基于統(tǒng)計方法的從復數(shù)文本中抽取分詞詞典的方法,并驗證該方法的可行性。由于現(xiàn)階段沒有標準可以評價一個詞典優(yōu)異性,所以本文的實驗結果更多地依據(jù)經(jīng)驗。

1 詞典抽取

1.1 數(shù)據(jù)預處理

中文和英文不同,在很多字符集中,英文的ASCII碼是-致的,而中文的ASCII碼往往是不一致的,所以首先要統(tǒng)一字符集。在本文中,使用GBK作為統(tǒng)一的字符集。中文有簡體和繁體,同一個字的簡體和繁體的ASCII碼是不一樣的,所以,在預處理時,本文將所有的中文都轉換成簡體。

1.2 數(shù)據(jù)統(tǒng)計

本文提出的方法,是統(tǒng)計一個字之后接下來的字的個數(shù)。在統(tǒng)計時,需要將無效的字符除去。無效的字符有這幾類。一是ASCI碼大于0的字符,在GBK編碼中,所有中文字符的ASCII碼都小于0。二是中文標點符號,在GBK編碼中,中文標點符號字符的ASCII碼也小于0,但是這不是有效的字符,必須除去。三是以GBK編碼表示的數(shù)字和希臘字母等,去除的原因和中文標點相同。在去除上述字符的同時,也將其作為一個句子的分割。

1.3 提取詞典

在做完統(tǒng)計之后,就可以進行詞典的提取。統(tǒng)計的結果中,一個字之后會有很多不同的字,而且這些字出現(xiàn)的次數(shù)也不相同。這里有一個經(jīng)驗思路,即如果一個字A和另一個字B組成一個有意義詞,那么A后面跟著的字中B出現(xiàn)的次數(shù)就很高,反之次數(shù)就低。所以只需要找出次數(shù)多的字即可。

2 實驗

2.1 實驗設置

本文只針對中文,所以數(shù)據(jù)是中文數(shù)據(jù),其來源是wiki百科。從wiki百科獲得的原始數(shù)據(jù)都是utf-8編碼,并且繁簡混合,所以對其做預處理操作。做完預處理后,進行效果驗證。

2.2 效果驗證

本文使用MySQL數(shù)據(jù)庫存儲統(tǒng)計結果。MySQL數(shù)據(jù)庫提供了非常豐富的數(shù)據(jù)處理函數(shù),例如可以根據(jù)字進行分組,可以求一組數(shù)的最大值,可以對數(shù)據(jù)進行排序,這些有助于詞典抽取。

下表是“臺”字之后的字及其次數(shù),由于數(shù)量較多,所以選擇了其中部分數(shù)據(jù)。

從表格中可以看出,“灣”和“北”出現(xiàn)的次數(shù)遠遠超過其他的字,說明“臺灣”和“臺北”是兩個有意義的詞。

下表是“町”字之后的字及其出現(xiàn)次數(shù)。

從表中可以看出,“町”字后的字出現(xiàn)的次數(shù)都比較少,而且分布非常均勻,可以判斷“町”無法和其他字組成一個有意義

的詞。

3 總結和展望

本文提出一個基于統(tǒng)計方法的從復數(shù)文本中提取字典的方法。這個方法是一個全新的方法,也具有一定的可行性,不過其結果并不理想,還需要進行更深入的研究。

本文從wiki百科中獲得的數(shù)據(jù)其實并不多,這也影響了實驗的效果。同時由于沒有一個標準來評價詞典的效果,所以最后的評價更多地需要通過經(jīng)驗,這也是一個不足。

接下來需要修改模型,進行更多的實驗。而且不能只考慮兩個字的詞,還需要考慮三個字、四個字的詞。通過更加深入的研究,以期能獲得更理想的結果。

參考文獻:

[1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]/Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguisticson Human Language Technology一NAACL '03,May 27-June 1,2003.Edmonton,Canada.Morristown,NJ,USA:Association for Computational Linguistics,2003:48-54.

[2]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.

[3]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[J].arXiv preprint arXiv:1705.03122,2017.

[4]Sutskever I,Vinyals 0,le Q.Sequence to sequence learning

with neural networks[J].Advances in Neural Information Processing Systems,2014:3104-3112.

[通聯(lián)編輯:唐一東]

主站蜘蛛池模板: 亚洲天堂自拍| 国产乱人伦AV在线A| 亚洲天堂日韩在线| 制服丝袜在线视频香蕉| 日本一本在线视频| 国内嫩模私拍精品视频| 国产成a人片在线播放| 国内a级毛片| 二级特黄绝大片免费视频大片| 免费无遮挡AV| av一区二区三区高清久久| 成人字幕网视频在线观看| 99re这里只有国产中文精品国产精品 | 强奷白丝美女在线观看| 国产激情无码一区二区免费| 成人91在线| 国产JIZzJIzz视频全部免费| 无码AV高清毛片中国一级毛片 | 日韩黄色精品| 无码精油按摩潮喷在线播放 | 国产亚洲欧美日韩在线一区| 国产高清免费午夜在线视频| 国内老司机精品视频在线播出| 日韩欧美国产成人| 2020极品精品国产| 性色在线视频精品| 男女男精品视频| 丁香婷婷久久| 再看日本中文字幕在线观看| 久久亚洲国产视频| 欧美日韩国产在线播放| 亚洲视频欧美不卡| 在线不卡免费视频| 四虎精品免费久久| 男女男免费视频网站国产| 十八禁美女裸体网站| 国产亚洲精品自在久久不卡 | 国产亚洲精| a毛片免费在线观看| 国产精品亚洲专区一区| 亚洲男人天堂网址| 中文字幕在线日本| 2021国产在线视频| 国产午夜看片| 国产人碰人摸人爱免费视频| 亚洲妓女综合网995久久| 国产精品jizz在线观看软件| 久久久久国产一级毛片高清板| 成人在线观看一区| 久久综合婷婷| 污污网站在线观看| 免费高清a毛片| 制服丝袜国产精品| 福利视频一区| 国产精品无码在线看| a亚洲视频| 狠狠色婷婷丁香综合久久韩国| 成人免费网站在线观看| 亚洲视频四区| 国产福利2021最新在线观看| 91久久偷偷做嫩草影院精品| 欧美亚洲欧美| 老司国产精品视频91| 亚洲中文字幕97久久精品少妇| 米奇精品一区二区三区| 国产精品自拍合集| 日本在线国产| 三上悠亚精品二区在线观看| 亚洲第一成年网| 亚洲精品无码日韩国产不卡| 色婷婷综合在线| 波多野结衣久久精品| 欧美日韩中文国产va另类| 好紧太爽了视频免费无码| 白浆免费视频国产精品视频| 99ri精品视频在线观看播放| 第一页亚洲| 91色爱欧美精品www| 亚洲一区毛片| a在线观看免费| 日韩精品亚洲人旧成在线| 99热亚洲精品6码|