999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征的藏文音節識別算法

2018-10-24 07:46:20張日培姜占才
電子設計工程 2018年20期
關鍵詞:文本

張日培,姜占才

(青海師范大學計算機學院,青海西寧810008)

藏文是我國少數民族文字之一,藏族是應用藏文的主體民族,藏文文語轉換系統的研究與建立對繁榮和發展藏族文化有著重大意義。

經過眾多專家學者的多年努力,主流語種和部分少數民族語種文語轉換系統的研究取得了豐碩成果[1-7]。但現在仍然沒有一套完整實用的藏文文語轉換系統面世。通過對主流語言文語轉換系統成果的分析,發現構建藏文的文語轉換系統必需要解決藏文詞語的分詞識別問題。關于這一問題的研究,文獻[8]提出通過提取特征的方法對藏文進行分詞識別;此之后的研究者們在藏文的特征提取方法上提出有益的見解、取得了一定的成績[9-11]。通過對眾多成果的歸納,目前可用于藏文識別的藏文特征主要有:藏文字符投影特征,筆畫方向特征,筆畫結構特征,小波能量分布特征[12-14]。

以上方法雖均可作為識別藏文字符的特征,但特征提取的計算過程相對繁瑣,對長篇幅藏文的識別效率低,不能達到文語轉換系統的效率要求。本文提出的藏文字符和音節的特征提取算法簡單易行,能夠達到讓計算機先識“偏旁”(即藏文字符)再認“字”(即藏文音節),然后以“字”為基元識別整篇藏文的目的,為藏文文語轉換系統的開發奠定基礎。

1 識別算法的設計

1.1 基字位置判定

在現代藏文文法里,除符合現代藏文文法規律的藏文音節,還有少數特殊的藏文音節無法用現代藏文文法判斷藏文基字位置[16]。

本文主要目的是為藏文文語轉換系統提供藏文字符及音節識別,所以本文對所有藏文音節中基字位置統一做如下規律的基字位置判定。

1)單字音節基字位置判定:因為音節之中只有一個字符,所以基字位置就是當前字符位。

2)雙字音節基字位置判定:首先判斷第一個字符是否為前加字藏文字符,若是則確定基字位置為第二個字符;若不是則基字位置在第一個字符位。

3)三字音節基字位置判定:首先判斷最后一個字符是否為又后加字如果不是則基字位置即為第二個字符位,如果是則基字位為第一個字符位。

4)四字音節基字位置判定:若為四字音節,則基字位置必為第二個字符位。

1.2 藏文文本的預處理

1.1.1 文本規范化

根據藏文的文字特點對不同字體不同格式的藏文文本轉化為同一格式,方便之后對文本圖像中藏文音節的切分與識別,提高系統的計算效率。

規范化處理后的藏文具體格式為:班智達輸入法,字體為BZDHT四號字半緊縮粗體,操作系統為WIN7,文本原文件為左側對齊TXT文檔中光標選中的全藍部分。

1.1.2 圖像二值化

為了提高之后的切分與識別的計算效率,需要將規范化后大小為m×n的文本圖像進行二值化處理。其核心方法為對圖片像素灰度矩陣A進行處理。使其大于某一閾值P的像素xij為黑色(0)或白色(255)。

根據不同的研究需要,確定二值化的閾值p的方法有多種,這里介紹3種方法:第一種為經驗法,即根據經驗設定一個閾值進行二值化;第二種是像素平均值法,即求出整幅圖像的像素平均值并將其作為閾值;第3種是像素直方圖法,即選擇圖像像素分布直方圖的兩個最高峰,然后選兩個最高峰之間的峰谷最低處的像素值作為閾值。

由于首先對藏文文本圖像做過了歸一化處理,并且為了更明顯的突出圖像中的藏文文本結構,所以本文采用了經驗值法。即將由經驗得出的閾值P=200直接賦予算法中。

1.1.3 文本行處理

對文本圖像二值化之后,為方便之后的音節切分,將文本進行行處理,方法是將多行文本轉化為單行文本。將文本圖像像素矩陣做水平投影計算,部分文本圖像與水平投影結果如圖1所示。

圖1 文本圖像與水平投影結果

由圖1得,每兩行中間都有一行0像素作為分割。規范化之后的文本圖像相鄰的兩行0像素分割線的高度為39,所以輸入的文本圖像高度為39的整數倍。對二值化之后的文本圖像像素矩陣以39個像素為一行文本圖像的高度由上至下依次剪切,然后首尾相接,即可實現圖像矩陣的行變換。

經過此變換之后,像素矩陣A可以分為k個39×n的像素子矩陣Ak。因為在TXT文本中藏文文本左側對齊但是右側不一定對齊,所以會造成截圖時右側部分有無效的白色像素,為方便之后計算,在行變換的同時檢測是否有無效的白色像素,如果有則執行刪除操作。

對Ai進行列投影計算得到Si=[ ]s1s2…sn,從后向前依次檢查sn的值是否為0,直到為0的sn出現并且計算此時Si的長度t,然后以值為長度截取Ai,得到新的單行像素矩陣Bi,最后執行首尾拼接操作。

令行拼接之后的像素矩陣為B則:

此時B矩陣即為預處理之后的文本圖像像素矩陣。

1.3 特征的選擇與提取

1.3.1 特征的選擇

在模式識別中特征選擇的評價標準大致可分為4種[17]:基于類內間距離的可分性、基于概率分布的可分性、基于熵的可分性、統計檢驗的可分性。在文本識別領域已經提出的可以選取的特征有:藏文字符投影特征,筆畫方向特征,筆畫結構特征,小波能量分布特征等。

分析以上方法可知選取藏文字符特征的標準可概括為:選取的特征可以準確識別每個藏文字符;選取的特征維數盡量低;特征的計算方法簡單易行。

本文提出一種對圖像矩陣的單向投影進行非線性變換提取特征參數的方法。

1.3.2 藏文字符特征參數提取

單個藏文字符文本圖像在經過預處理后可得到一幅二值圖,其二值圖像素矩陣為0-1矩陣A,A矩陣尺寸為39行m列。計算矩陣A的列投影向量S,則S中的元素sj與A中元素xij計算關系如下:

然后對S中的元素sj做非線性變換,做此變換的目的在于區分字符在不同位置的列投影強度。即對S中的元素sj有如下非線性變換:

最后計算對像素矩陣列投影向量S變換后所提取的特征參數T’:

則根據式(3)(4)(5)可以得出選取的特征參數T’與藏文字符的文本圖像像素矩陣A中的元素xij的關系為:

1.4 字符特征值

由式(6)可知,經過提取后的特征參數,藏文字符的圖像矩陣可以變換為一個存在小數位的特征參數。若用字符特征參數直接進行識別運算會導致識別算法的復雜度上升和計算機存儲空間的浪費。所以本文為方便計算機識別和存儲對提取出來的特征參數T’進行如下變換:

即:T為特征參數T’得出的字符特征值。為了構建音節的特征向量統一以四位數規范特征值。30個輔音字母對應的特征值見表1。

表1 藏文字符與特征值對應表

特征提取算法以字符為基本單位,所以具有上加字或者下加字或者上下加字的基字算作一個基本單位,在提取特征時進行整體特征提取。由于篇幅關系,在表1中沒有給出帶有上加字或者下加字的基字對應的特征值。由表1可知,藏文全部30個輔音字符的特征值都是唯一的,因此,此特征值可識別藏文字符。

1.5 音節切分

1.5.1 音節內字符與音節符的特征值計算

由前文可知已經進行預處理的文本圖像矩陣為B,對B矩陣進行列投影計算后得到列投影向量B’。B’中的元素分為兩類,一類為0元素另一類為非0元素,在列投影計算過程中如果字符沒有任何部分在此列當中,則該列投影的結果即為0。由此可知只要記錄所有前邊的元素不為0的0元素的位置,就可以確定文本中各個字符的列投影區間。列投影示意圖如圖2所示。

每一個投影相對集中的區域就是字符區域或者音節符區域,將各個區域劃分出后分別利用式(6)求各個字符特征參數,再計算其特征值。

圖2 像素矩陣列投影示意圖

1.5.2 音節切分

由藏文文本的書寫規范可知,藏文文本中每一個藏文音節都有音節符作為標記。只要識別出一篇文章音節符的位置,就可以根據音節符位置切分出整篇文章的各個音節。

藏文音節切分的具體步驟:將多行文本轉化為單行文本;對單行文本的圖像矩陣進行列投影運算;識別并且分割出字符或者音節符所在區域;對每一個有效區域進行特征值計算;根據特征值識別出音節符所在位置;根據音節符所在位置切分音節。

1.6 音節特征向量的提取

根據前文所述藏文文法和藏文結構特征,選擇一個四維向量e=[e1e2e3e4]作為一個藏文音節特征向量。ei為組成此音節的字符特征值。音節特征向量中的各個元素e1、e2、e3、e4分別對應一個藏文音節的前加字、基字、后加字、又后加字的特征值。對于單字音節、二字音節、三字音節這些結構不完全的音節缺少的位置對應的特征值為‘0000’。

現代藏文文法中四字音節的又后加字是固定字符,所以為節省存儲空間可令又后加字的特征值為1,即e4=1;若無又后加字則令e4=0。再將得到的音節特征向量做字符串處理,即將特征向量e轉化成字符串E儲存在計算機中。最后得到的音節特征向量為1*13的字符串矩陣,即13維向量。

1.7 音節識別

1.7.1 音節特征庫的建立

首先找出藏文拼寫無誤的訓練文本,訓練文本圖像經過預處理之后切分音節,分別計算各個音節的特征向量e再由特征向量計算音節特征字符串E,對得到的眾多音節特征字符串E進行篩選,使得篩選過后的特征字符串無重復,以此建立單列的藏文音節特征庫。

1.7.2 音節識別

音節的特征向量構成了音節的模式,要識別一個音節是藏文全部5300余個音節中的哪一個,即要識別該模式,必須依據一定的準則。為使識別過程簡單、準確,選擇均方誤差最小準則,即歐氏距離最小準則。

設x是待識別音節的模式,維數為k(k=13),y為特征向量庫中與x同維的模式,則定義它們之間的均方誤差為歐氏距離,即:

yn是全部y中的第n行,n是行號,n=1、2、3……;yni是特征庫中第n行第i個分量。只要求出x與全部y的找到則x就被識別成yn,而yn用其在特征向量庫中的地址n給出。此法即為查表識別法。

1.8 識別算法的完整流程

識別算法流程如圖3所示。

圖3 識別算法流程圖

2 算法仿真實驗

2.1 實驗方案

音節識別仿真實驗必須建立在音節特征向量庫的基礎上,為此要建立藏文音節特征向量庫。

第一部分,預處理仿真實驗,查看預處理效果;

第二部分,音節特征向量提取,建立音節特征向量庫。包含二值化、音節切分、特征提取、基字判斷;

第三部分,音節識別仿真實驗。

2.2 實驗材料

實驗用的藏文文本采用百度文庫中的藏文作文,字體為作文作者隨機選用字體。文本內容為藏文常用語句,主要有敘事、抒情、人文景觀等。將藏文文本word形式下載到WIN7操作系統的電腦中,首先進行文本規范化,即將其復制粘貼進入TXT文檔,調整字體為BZDHT四號字體,分辨率為1920×1080。然后進行截圖采樣。此種文本每一個音節都為有效音節,不存在書寫錯誤,文本結尾以句段符結束。選擇文本如圖4所示。

2.3 實驗程序及步驟

2.3.1 實驗程序

根據文中提出的算法思想利用MATLAB語言對

算法進行編程并將算法中預處理部分和識別部分分別以文件名PTT.m與RGT.m存盤。測試程序對藏文文本圖像二值化、計算藏文字符特征值、藏文音節切分、藏文音節特征值以及特征字符串的計算識別部分做了原始程序設計,更有利于在其他語言環境里進行測試和應用。

圖4 藏文文本樣本

2.3.2 實驗內容

使用文中提出的算法實驗內容如下:對選定的藏文文本樣本進行樣本規范化;對實驗樣本進行二值化處理;對實驗樣本進行行處理,使多行文本轉化為單行文本;切分藏文音節;判斷基字位置并計算音節特征字符串;用訓練文本樣本建立音節特征庫;查表識別;

2.4 實驗結果及分析

2.4.1 預處理算法實驗結果

對選定樣本進行預處理算法測試;

文本圖像二值化、行變換和音節切分的實驗結果分別如圖5、圖6、圖7所示。

圖5 藏文文本二值化圖像

圖6 藏文文本行變換處理部分結果圖像

由圖5可知對圖4所示的文本經預處理和二值化處理得到預期的結果,即確定的字體字號和二值化結果。圖中白色為像素‘1’,黑色部分為像素‘0’,由于背景處灰度值為‘0’故背景和‘0’像素處都為黑色。

圖7 藏文文本音節切分結果圖像

由圖6可知,行變換后已將圖5所示文本圖像轉化為單行的二值化圖像,由圖7可知,切分程序對圖5中的文本實現了準確的音節切分。

2.4.2 音節特征字符串提取算法實驗結果

圖4的實驗樣本共有72個藏文音節,對每一音節逐一提取特征向量,其中包含音節內字符特征提取、音節基字位置判斷、音節特征向量提取和字符串處理,得出了與各音節對應的特征字符串。

2.4.3 音節識別算法實驗結果

為方便對照,表2中給出音節特征庫部分數據:

表2 部分音節特征庫

由于篇幅關系,表3只給出了測試文本前10個藏文音節的查表識別結果:

表3 測試文本前十個藏文音節識別結果

由表3可知,依據均方誤差最小準則(歐氏距離最小準則)的查表識別的識別結果是非常準確的,由此可以推斷,只要音節特征向量庫數據充分,即庫內包含藏文全部5300余個音節的特征向量,就能實現藏文音節的準確識別。

3 結束語

文中提出一種基于音節特征的藏文音節識別算法。該算法主要包含音節特征向量的構建和對音節特征向量庫進行查表識別兩部分。音節特征向量的選擇和提取建立在模式識別的理論基礎上,從理論上保證了對所有藏文音節的高度可分性,并且計算過程簡單易行。音節特征向量庫的建立表示,只要向量庫內數據充分就可以實現藏文全部5300余個音節的準確識別。經仿真實驗驗證該算法在計算速度和識別精度等方面均能達到實際應用的要求,為藏文文語轉換系統的研究與開發奠定了良好的基礎。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产精品乱偷免费视频| 国产综合另类小说色区色噜噜 | 一本一道波多野结衣av黑人在线| 成人午夜视频网站| 亚洲综合专区| 中文字幕色在线| 亚洲国产精品不卡在线| 久久久久久久久亚洲精品| 亚洲欧洲一区二区三区| 日本人真淫视频一区二区三区| 国产主播福利在线观看| 色屁屁一区二区三区视频国产| 在线观看免费国产| 婷婷五月在线视频| 欧美精品v欧洲精品| 亚洲无码37.| 亚洲国产日韩一区| 制服丝袜无码每日更新| 国产精品黄色片| 国产精品白浆在线播放| 亚洲色图综合在线| 国内精品久久久久久久久久影视| 国产精品无码影视久久久久久久| 尤物精品视频一区二区三区| 日韩欧美国产三级| av一区二区无码在线| 欧美另类图片视频无弹跳第一页| 国产日韩AV高潮在线| 国产美女精品人人做人人爽| 91网在线| 久久精品一卡日本电影| 精品无码一区二区在线观看| 最新无码专区超级碰碰碰| 久久国产精品77777| 国产精品美人久久久久久AV| 久久香蕉国产线看观看精品蕉| 亚洲国产综合自在线另类| 手机在线免费毛片| 91精品综合| 亚洲IV视频免费在线光看| 国产白浆视频| 青青草原国产一区二区| 青青草91视频| 国产日韩欧美在线视频免费观看| 亚洲男人在线| 免费日韩在线视频| 亚洲资源站av无码网址| 久久99国产视频| 亚洲欧美日韩中文字幕在线一区| 毛片免费视频| 一区二区日韩国产精久久| 四虎影视库国产精品一区| 欧美啪啪网| 亚洲精品国产首次亮相| 久久人午夜亚洲精品无码区| 播五月综合| 99er这里只有精品| 福利视频99| 国产老女人精品免费视频| 日本免费a视频| 国产99视频精品免费观看9e| 天天综合网亚洲网站| 婷婷在线网站| 国产成人精品视频一区二区电影| 久久香蕉国产线看观看式| 亚洲天堂自拍| 日韩免费成人| 国产亚卅精品无码| 亚洲一欧洲中文字幕在线| 中文字幕在线看视频一区二区三区| 国产精品手机在线播放| 91精品国产福利| 综合天天色| 男女精品视频| 91久久青青草原精品国产| 国产视频大全| 国产一区二区三区在线精品专区 | 欧美精品高清| 国产精品无码制服丝袜| 一本大道香蕉中文日本不卡高清二区| 激情视频综合网| 欧美精品另类|