999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于有限狀態自動機的藏文音節組織研究

2021-06-08 12:10:49更桑吉安見才讓
計算機時代 2021年1期

更桑吉 安見才讓

摘? 要: 通過對藏文的字形特征、拼寫規律,以及文法規則的分析和研究,實現藏文詞語的實時檢錯。借助形式語言有限狀態自動機的方法,對藏文字結構中的基字、前加字、上加字、下加字、后加字、再后加字之間的搭配規則設計了狀態圖和鄰接矩陣。該方法提高了藏文文本質量,使原本復雜的書面語法規則變得簡單直觀,從而使符合現代藏文音節組織結構的詞語能實時檢錯。該研究為實現藏文的自動校對提供了基礎。

關鍵詞: 藏文; 文法規則; 有限狀態自動機; 校對

中圖分類號:TP391.1????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-65-03

Research on Tibetan syllable organization using finite state automata

Geng Sangji, Anjian Cairang

(School of computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)

Abstract: By analyzing and studying the characteristics of Tibetan character, the spelling rule and grammar rule, the real-time error detection of Tibetan words is realized. With the help of finite state automata of formal language, this paper designs the state diagram and adjacency matrix for the matching rules among the basic characters, prefix letters, superfixed letters, subjoined letters, suffixed letters and up-adding characters in the Tibetan character structure. This method improves the quality of Tibetan text, makes the complex original written grammar rules simple and intuitive, so that the words in line with the modern Tibetan syllable organization structure can be error detected in real time. This research provides a basis for the realization of Tibetan automatic proofreading.

Key words: Tibetan; grammar rules; finite state automata; proofreading

0 引言

隨著藏區人民對信息數字化需求的提高,學習和利用信息數字化的技術手段來記載和傳承民族文字顯得非常重要,而人工智能領域對藏語信息研究發展有著不可忽略的重要性。通過研究藏文音節和字形結構[1-2],判斷基字所在位置、特殊音節的處理等步驟解決藏文構件元素的識別[3];基于規則和CNN模型、基字定位等方法實現檢錯[4-6],這些方法都各有利弊,因此本研究提出基于有限狀態自動機的藏文音節組織結構的研究方法處理檢錯。

研究藏文或文本校對的主要對象是語言單位,在藏語言中最小的語言單位是字母,其次是音節,音節由字母組成。而字形是字的形狀和結構,藏文字形以一個輔音字母為核心其余字母以此為基礎前后附加和上下疊加組合成一個字的結構,因此人們都說藏文是由字母組合而成的一種拼音文字。藏文字母包括30個輔音字母和四個元音字母,藏文的音節分為七個構件,核心的輔音字符稱為基字,其余的字符按照相對于基字的位置來分別命名,加在基字前面的稱為前加字,基字的上方和下方的分別稱為上加字和下加字,基字后面的稱為后加字和再后加字,元音位置在基字的上或下、上下加字的上方或下方[7]。藏文音節的組合形式比較多樣化,但是總體的組合規則相對固定,藏文音節可以只包含一個輔音字母,也可以包含多個輔音字母(最多六個),由此可知藏文音節中基字是必不可少的一個構件,其他位置的構件都可以空缺。

1 藏文字形結構特點

藏文音節的組織結構或書寫順序是前加字、上加字、基字、下加字、元音、后加字和再后加字七種構件組成,藏文的一個音節最多可包含七個構件,每一種構件都有它不可代替代的作用和功能。藏文字是按照從左至右的順序進行書寫,因此它不僅具有線性結構(橫向拼寫性)同時也具有疊加結構(縱向拼寫性)的一種復雜文字,其中基字所在的水平方向上由前加字、基字、后加字、再后加字的橫向拼寫,基字所在的豎直方向上由上加字、基字、下加字和元音的縱向拼寫,如圖1-圖4所示。

本研究的依據或前提條件須滿足以下條件:

⑴ 藏文音節中所有音節的組合形式必須滿足現代藏文音節的結構;

⑵ 藏文音節結構中所有構件的組合要符合藏文拼寫規律或組合規則。

2 藏文音節組合的語法規則

2.1 基字與前加字

2.2 基字與上加字

上加字有三個(?????),不同的上加字做上置輔音時的基字不相同,組合規則如表2所示。

2.3 基字與下加字

下加字有四個(? ? ? ? ),不同的下加字做下置輔音時的基字也不同,組合規則如表3所示。

2.4 基字與后加字

后加字有十個(???????????????????)與基字的組合規則如表4。

后加字與基字之間的組合規則不像其他組合規則,它沒有明確一一對應的組合規則。

2.5 后加字與再后加字

再后加字是與后加字組合的,再后加字有兩個(???),與后加字的組合規則如表5。

3 基于有限狀態自動機的規則表示

3.1 狀態圖

有限狀態自動機也稱為有限狀態轉移網絡,通常采用狀態圖表示,圖中的每一個結點表示不同的狀態,其中一個圓圈(○)的代表開始狀態,雙圓圈(◎)的代表終止狀態即結束標志,狀態之間用有方向的弧線鏈接表示轉移狀態,弧線上的標記表示轉移的條件,也可看作是輸入符號,轉移也可以是無條件的,即標記為空字符(N)。從狀態轉移網絡的起始狀態開始出發,根據弧線上的條件決定向哪一個狀態轉移,這個過程一直持續下去,直到當前狀態是終止狀態(雙圓圈結點),則狀態過程可以結束[8-9],如圖5所示。

3.2 鄰接矩陣

鄰接矩陣是表示頂點之間相鄰關系的矩陣,用一個二位數組存放頂點之間關系(?。┑臄祿徑泳仃嚪譃橛邢驁D鄰接矩陣和無向圖鄰接矩陣。

有向圖鄰接矩陣的特點是,矩陣中第i行非零元素的個數為第i個頂點的出度(下一個狀態),第i列非零元素的個數為第i個頂點的入度(開始狀態),直至遇到雙圓圈的頂點時結束,用鄰接矩陣表示圖,很容易確定圖中任意兩個頂點之間是否有邊(?。┫噙B,如表6所示。

4 實驗分析

藏文音節組織結構的檢錯研究在精度方面已經達到一定的程度,本文主要在檢錯速度上做研究。選用900個常用的藏文詞語對此方法進行測試,符合現代藏文音節組織結構的詞語能達到實時的檢錯速度,以下是檢錯的流程。

選()字做實例講解,鄰接矩陣最左邊的列為狀態,最上面的行為?。ㄞD移條件)。

⑴ 首先從S0開始,S0的下一個狀態有六個,分別是S1、S2、S3、S4、S5、S6本實驗所選例子第一個字母是(?)也是第一個轉移條件,尋找行為S0,列為S3。

⑵ 列S3做下一個開始狀態變為行S3,下一個狀態有四個,分別是S15、S16、S17、S18第二個轉移條件是上加字(?),行為S3,列為S17。

⑶ 以此類推最后一個轉移條件是再后加字(?),行為S119,列為S131,雙圓圈結束。

5 結束語

音節是構成藏文字最基本的單位,也是文本校對的依據點,藏文音節具有獨特的構造方法,根據不同的組合方法構成了千變萬化的現代藏文,本文以音節為研究對象,借助語法規則描述和分析了音節結構,組成成分及組合規則,采用有限狀態自動機的方法對藏文音節的傳統搭配規則設計了狀態圖和鄰接矩陣,這不僅起到減小人、物力資源的作用,同時提高了文本質量和工作效率,而且書面語法規則變得更加簡單直觀,使得文本校對技術不斷的提高,這對進一步處理藏文文本校對的研究具有重要的意義。但該方法還存在圖形復雜,鄰接矩陣偏長的問題,這在未來工作中仍需不斷優化和改進,不斷突破新技術使得文本校對在精度和速度上得到進一步改善。

參考文獻(References):

[1] 陳小瑩.現代藏文音節結構分析研究[J].智能計算機與應用,2019.9(2).

[2] 才智杰,才讓卓瑪.藏文字形結構分布研究[J].中文信息學報,2016.30(4).

[3] 邊巴旺堆,卓嘎,陳延利,武強.藏文構件元素識別算法研究[J].中文信息學報,2014.28(3).

[4] 王文玲,王雙成.藏文基字定位實現方法與過程[J].中國藏學,2019.4.

[5] 才讓叁智,關白.基于規則的現代藏文音節字檢錯研究[J].西藏大學學報(自然科學版),2017.1.

[6] 色差甲,貢保才讓,才讓加.藏文音節拼寫檢查的CNN模型[J].中文信息學報,2019.33(1).

[7] 毛爾蓋·桑木旦.藏文語法明悅[M].青海民族出版社,2005.[8] 俞士汶.計算語言學概論[M].商務印書館,2003.

[9] 安見才讓.藏文信息處理原理與技術實現[M].青海民族出版社,2017.

收稿日期:2020-09-02

基金項目:國家自然科學基金項目(61862054); 青海省應用基礎研究項目(2019-ZJ-7066)

作者簡介:更桑吉(1994-),女,藏族,青海同德人,碩士研究生,主要研究方向:藏文信息處理及應用。

通訊作者:安見才讓(1969-),男,藏族,青海西寧人,教授,主要研究方向:藏文信息處理及應用。

主站蜘蛛池模板: 婷婷伊人久久| 婷婷六月综合网| 99精品热视频这里只有精品7| 国产麻豆精品在线观看| 国产乱子伦手机在线| 在线国产欧美| 国产成人亚洲精品色欲AV | 亚洲精品视频免费看| 国产亚洲欧美日本一二三本道| 午夜精品国产自在| 国产精品原创不卡在线| 欧美a在线视频| 国内精自视频品线一二区| 国产精品网址在线观看你懂的| 国产一区二区三区夜色| 久久久久人妻一区精品色奶水 | 国产欧美高清| 666精品国产精品亚洲| 欧美日本在线观看| 日韩av资源在线| 国产毛片高清一级国语| 欧美国产成人在线| 91免费精品国偷自产在线在线| 无遮挡国产高潮视频免费观看 | 伊大人香蕉久久网欧美| 久久99蜜桃精品久久久久小说| 中文字幕日韩丝袜一区| 亚洲毛片在线看| 欧美成人午夜影院| 在线无码av一区二区三区| 亚洲二区视频| 国产福利免费视频| 伊人色在线视频| 国产老女人精品免费视频| 夜夜操天天摸| 澳门av无码| 国产理论最新国产精品视频| 亚洲av片在线免费观看| 国产jizzjizz视频| 久996视频精品免费观看| 色老头综合网| 亚洲熟妇AV日韩熟妇在线| 国产午夜一级淫片| 国产精品99一区不卡| 久久综合成人| 香蕉eeww99国产在线观看| 日本成人精品视频| 黄片一区二区三区| 国产成人1024精品| 九九热视频精品在线| 国产欧美精品一区aⅴ影院| 欧美亚洲国产一区| 亚洲日韩第九十九页| 亚洲动漫h| 国产美女91视频| 国产嫩草在线观看| 国产黄在线免费观看| 亚洲色图综合在线| vvvv98国产成人综合青青| 婷婷午夜天| 欧美久久网| 国产91高清视频| 久操中文在线| 欧美亚洲第一页| 在线国产毛片| 欧美成人手机在线观看网址| 欧美日韩成人| 日韩av手机在线| 在线视频97| 精品人妻AV区| 伊人精品视频免费在线| 欧美日韩成人在线观看| 色婷婷成人网| 四虎影院国产| 国产97视频在线观看| 在线视频精品一区| 日本精品影院| 粗大猛烈进出高潮视频无码| 欧美激情综合一区二区| 日韩欧美国产综合| 国产无码制服丝袜| 97国产成人无码精品久久久|