999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

初中藏文信息處理中自動分詞方法研究

2016-04-29 00:00:00格桑
雜文月刊·教育世界 2016年8期

西藏自治區昌都市洛隆縣初級中學

【摘 要】藏文分詞是藏文信息處理領域的一項不可缺少的基礎性工作,也是智能化藏文信息處理的關鍵所在。在藏文分詞的研究過程中藏文分詞的準確性,直接制約著藏文輸入法研究、藏文電子詞典建設、藏文詞頻統計、搜索引擎的設計和實現、機器翻譯系統的開發、藏文語料庫建設以及藏語語義分析研究等高層藏文信息處理技術的進一步發展。本文借鑒漢語的分詞理論和方法,提出符合藏文特性的分詞方法,以及歧義字段切分和未登錄詞識別等相關問題,并舉例說明。

【關鍵詞】信息處理 藏文分詞 分詞方法

藏文分詞是藏文信息處理中一項不可缺少的基礎性工作。從文本的輸入系統(如智能語句輸入法、語音輸入、手寫輸入),到文字處理(如文本校對)以及語音合成、文本檢索、文本分類、自然語言接口、自動文摘等,無處不滲透著分詞系統的應用,它是藏文信息處理重要基礎之一。眾所周知,英文以詞為單位,以空格隔開。計算機可以容易地理解英文單詞。而藏文句子中,詞與詞之間沒有明顯的分隔符(如空格)。藏文以字(音節字)為單位,連字成句才能描述一個完整的意思。而對由詞組成的藏文句子,必須通過藏文分詞技術才得以理解。把藏文的音節字序列切分成有意義的詞,是藏文分詞的研究工作。通過研究和分析藏文分詞的概念以及國內外相關成果,本文系統地提出了分詞系統中藏文分詞切分單位的劃定原則以及藏文分詞技術方法,結合藏文自然標記斷句、以格助詞來為分塊、塊內匹配與統計相結合的分詞方法,提出了藏文自動分詞方法、格助詞的識別方法、交集型和組合型歧義的識別方法及未登錄詞識別方法。進而提出了藏文自動分詞的基礎理論知識及分詞技術方法。

一、制定藏語詞性標記集規范

為了使藏文與漢文信息處理同步,建立統一的中文多文種信息處理平臺,本項研究借鑒北京大學現代漢語詞類及詞性標記集規范、語料庫詞性標記集,制定了藏語詞性標記集規范。

二、研究了藏文分詞的單位與原則

分詞系統可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規定“分詞單位”。

1.分詞既要符合語言學的一般規則,同時也要便于詞類和句法分析,不能分得過細,也不能分得過粗。

2.分詞單位必須是在藏語言中出現的,而不是憑空臆造的任何字符串。

該成果采用《信息處理用現代漢語分詞規范》和《資訊處理用中文分詞規范》兩者之長,為藏文分詞單位確立兩條基本原則和諸多輔助原則。

三、藏文自動分詞研究

(一)藏文分詞方法

1.格分析法:這是藏語語法理論體系中固有的語法規律,藏語有比較完善的形式邏輯格語法理論體系。格關系理論和方法可以分析藏文句子的語義邏輯關系;可以做格關系的逆過程,就是通過格助詞與格關系來判斷通過格切分后詞匯的準確度。

2.概念層次網絡理論:HNC主要應用在藏文詞匯概念的語義網絡中,藏文詞匯語義網絡用手工+統計的方法創建,其核心是聯想意義和上下位所屬關系。

3.二元屬性描寫方法。

4.匹配方法:在藏文中將格分析之后的藏語短語作為匹配的對象。根據匹配單位的需求可分為最大匹配法和最小匹配,根據消歧需求可分為正向匹配和逆向匹配等。

5.統計方法:主要應用在獲取先驗知識方面,例如,藏文大丁字符信息表、藏文音節(擦青)表,藏文各種語言單位的二元模型、藏文格助詞的配價概率、藏文動詞詞表等。

(二)分詞系統模塊

藏文自動分詞系統,在基于規則和統計的基礎上,增加了聯想回溯算法,引入了句法、語義信息。系統包含預處理模塊、分割模塊、匹配識詞和規則識詞4個模塊。

1.預處理模塊:包括切分句子和語言分類兩個部分。切分句子是將源藏文文本語料依據藏文分句形態標志信息(主要是藏文分句符號)分解成相對獨立的藏文句子,這個過程要考慮英、藏、漢多語種混排文本,即切句要考慮多語言的句子邊界信息。同時要保留原始文本的所有信息,保證文本的原貌不發生變化。語言分類是以句子為處理單位,把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中,根據不同的語言塊進行處理。

2.分割模塊:以預處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進的算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標志,依靠聯想規則將一個音節串語塊分割成更小的語塊,對每個特征詞建立不同的規則來處理特征詞的左右邊界。改進的算法是依據分詞詞表將藏文語塊識別成詞,方法中正向和逆向合一進行,然后判斷并確定歧義結構,將歧義結構交付排歧模塊處理,以便修改錯誤的分詞結果。該分詞系統可以對藏文文本分詞正確率已經達到了95%以上。

(三)藏文分詞測評

1.開放性:易擴充性、可維護性和可移植性等特點。要求在開放環境下切分精度和處理速度穩定在實用的程度。

2.通用性:藏文自動分詞是高層藏語言信息處理的共同基礎。分詞系統應該支持不同的應用領域;支持不同學科領域的應用;支持不同地區的語言處理需要;要適應不同地區的語言風格。

3.獨立性:不同的應用系統對分詞系統的要求不同,因此分詞系統要有不同的版本,系統內部的各種信息資源,以及處理信息資源的各個模塊要具有較高的獨立性,方便裝入系統或者從系統中卸載,提高系統處理精度和處理速度。

該成果從藏文字的產生,藏文的文字、音節、結構、語法特征,討論了藏語詞類劃分,詞與其語言單位的區別,信息處理用藏語詞類,藏語詞性標記集,研究了藏文分詞規范的設計,藏語分詞的基本特征,使用范圍,用途,參考標準、藏語分詞用術語、藏語分詞單位、藏語分詞原則,這些工作在國內學術界相關研究較少。藏文自動分詞是藏文自然語言理解的一項基礎性工程,藏語自然語言理解在機器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領域有著廣泛的應用價值。

主站蜘蛛池模板: 成人在线第一页| 色婷婷天天综合在线| 九九热精品视频在线| 成人在线天堂| 精品无码国产一区二区三区AV| 蜜桃视频一区二区| 亚洲av无码牛牛影视在线二区| 真实国产乱子伦视频| 欧美午夜在线视频| 亚洲第一极品精品无码| 狠狠躁天天躁夜夜躁婷婷| 亚洲女同一区二区| 国产一区亚洲一区| 91精品视频网站| 欧美精品在线看| 国产黑丝视频在线观看| 亚洲一区二区在线无码| 亚洲人成影院午夜网站| 4虎影视国产在线观看精品| 香蕉99国内自产自拍视频| 人妻无码中文字幕第一区| 国产97视频在线观看| 久草视频精品| 成人免费黄色小视频| 国产欧美视频在线| 国产激情无码一区二区APP| 亚洲天堂日本| 国产制服丝袜91在线| 91无码视频在线观看| 色有码无码视频| 女人av社区男人的天堂| 极品尤物av美乳在线观看| 91九色国产在线| 久久久久久高潮白浆| 精品撒尿视频一区二区三区| 97青青青国产在线播放| 亚洲精品无码专区在线观看| 精品亚洲国产成人AV| 免费毛片全部不收费的| 日韩欧美综合在线制服| 一区二区三区四区日韩| 国产极品美女在线| 亚洲91精品视频| 日韩国产高清无码| 欧美笫一页| 久久久国产精品无码专区| 国语少妇高潮| 精品免费在线视频| 国产爽爽视频| 99久久国产综合精品2023| 欧美亚洲一二三区| 国产精品成人一区二区不卡| 久久一色本道亚洲| 成人精品午夜福利在线播放| 无码专区在线观看| 成·人免费午夜无码视频在线观看| 国产精品女人呻吟在线观看| 一区二区三区精品视频在线观看| 国产精品私拍99pans大尺度 | 无码一区18禁| 2021精品国产自在现线看| 成人夜夜嗨| 亚洲无码熟妇人妻AV在线| 精品福利视频网| 美女潮喷出白浆在线观看视频| 国产视频一二三区| 91年精品国产福利线观看久久 | 在线国产三级| 草草影院国产第一页| 凹凸精品免费精品视频| 国产亚洲视频中文字幕视频| 狠狠色综合久久狠狠色综合| 国产真实乱人视频| 日韩AV手机在线观看蜜芽| 国产波多野结衣中文在线播放| 特级aaaaaaaaa毛片免费视频| 国产精品分类视频分类一区| 国产午夜精品鲁丝片| 白浆视频在线观看| 97色婷婷成人综合在线观看| 国产对白刺激真实精品91| 国产麻豆永久视频|