999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

低數據資源條件下基于結構信息共享的無切分維文文檔識別字符建模

2015-12-13 11:46:56姜志威丁曉青彭良瑞劉長松
電子與信息學報 2015年9期
關鍵詞:優化結構方法

姜志威 丁曉青 彭良瑞 劉長松

1 引言

近年來,基于隱馬爾可夫模型(Hidden Markov Model, HMM)的無切分文檔識別方法逐漸成為主流,通過字符、文本行兩級概率圖模型的框架,能夠有效解決困擾傳統預切分文檔識別方法的字符切分問題。不過,這種方法要求字符HMM建模有較高的準確度,并且需要使用大量的樣本進行學習。對于維吾爾文(簡稱“維文”)文檔而言,在上述兩方面都面臨著較大的困難。首先,維文字符形狀變化有一百多種,并且粘連性和相似性很強,會為字符建模帶來很大的困難;其次,盡管現有維文文檔存量很大,但是制作樣本的顯現形式內容標注卻非常費力、耗時。尤其是在面對一種新字體類型時,很難找到充足且有標注的同類樣本來訓練新模型。所以,如何解決好低數據資源條件下的字符建模問題,實現利用少量樣本來建立高性能的識別系統,對當前的無切分維文文檔識別領域具有迫切的需求和重要的意義。

盡管低數據資源建模的問題在語音識別領域已經有一定的研究成果[1,2],但是在無切分文字識別領域卻剛剛起步。以往的研究工作中,HMM 模型優化和低數據資源建模通常被作為兩個獨立的問題進行研究。前者可以通過HMM狀態結構優化來提高字符建模的準確度[3,4],而后者則主要采用HMM自適應的方法,通過少量新樣本調整已有的通用模型來解決[57]-。但是,字符圖像是一種結構性很強的2維信號,字符HMM狀態是描述其結構的基本單元。所以,即使是在低數據資源的條件下,也應當充分考慮狀態結構帶來的影響。文獻[8,9]以法文文檔識別為背景,提出將HMM狀態結構優化方法與模型自適應方法相結合,用以提高自適應模型對新樣本的識別性能。該方法需要使用少量帶有切分標注的樣本進行模型自適應,以及大量無切分標注的樣本用于狀態結構優化。然而,在維文文檔識別問題中,適應集樣本規模通常都很小,而且具有粘連性的維文文本行也很難給出明確的切分位置標注,所以該方法不能用于改善維文字符建模的問題。

不過,經過觀察可以發現,常用維文字體間的差異主要是形狀扭曲風格的不同,在整體結構上并沒有像法文字體那樣的劇烈變化。于是,本文提出一種基于結構信息共享的無切分維文文檔識別字符建模方法,通過在自建樣本和實際樣本上的相關實驗結果可以表明,該方法不僅可以提高HMM模型對字符結構的描述能力,還可以有效降低模型自適應訓練對新樣本的依賴程度,提高識別系統對新樣本類型的識別性能。

2 HMM中的字符結構信息表達與提取

2.1 基于HMM的無切分文檔識別方法的基本原理

基于HMM的無切分文檔識別方法可以歸納為字符層和文本行層這兩個層級。在字符層面,每種字符都用一個基元HMM模型描述。字符圖像首先被狹長的滑動窗口進行分幀處理,得到一連串的觀測序列{Ot: t = 1,2,… , T },它們被認為是一個隨機過程序列{qt:t = 1 ,2,… ,T }的輸出結果。而其中的 qt都來自于一個有限的集合{sj: j = 1 ,2,…, N },其構成元素 sj被稱為HMM的“狀態”,如圖1所示。觀測與狀態之間的關系只能通過條件概率Pr(Ot|qt= sj)進行估計,本文采用混合高斯模型(Gaussian Mixture Model, GMM)來描述這一概率,如式(1)所示。其中,Mj為狀態 sj觀測的GMM混合分量數,cjm, μjm和Σjm分別為該GMM中第m個高斯分量的權重、均值向量和協方差矩陣。此外,狀態之間在概率上構成一階馬爾科夫鏈,用起始概率πi=Pr(q1= si) 和轉移概率 pij= P r(qt= sj|qt-1= si) 共同描述,其中 i, j = 1 ,2,… , N 。

圖 1 基于HMM的字符圖像建模原理示意圖

當文本行圖像被用于模型訓練時,由于字符模型之間的跳轉可以被作為狀態間的跳轉對待,因此不需要字符間的切分標注信息,即可更新其包含的各個基元模型的參數,這種訓練方法被稱為嵌入式訓練。而當文本行圖像需要解碼識別時,只要尋找到與該圖像觀測序列對準匹配最佳的字符基元模型組合,其組合內容就是文本行的識別結果,而模型間的跳轉時刻,就對應著文本行圖像中的字符切分位置。

2.2 狀態的物理意義與字符結構信息的提取

HMM 作為一種概率圖模型,其狀態的物理意義是對一段圖像觀測序列進行有序聚類的結果,它們在全局上形成概率圖模型的結構,用以描述字符的整體結構;在局部上實現概率圖模型的統計平均,用以描述字符的區域變化風格。為了使每個狀態都被有效用于描述穩定的局部字符結構觀測,避免產生冗余的狀態,狀態自身需要具有典型性;同時,為了降低狀態在與觀測序列對準匹配時所產生的誤差,保證模型對字符圖像進行準確的編碼和解碼,狀態之間也需要具有鑒別性。于是,根據上述兩條性質,就可以設計出相應的狀態優化方法,使得HMM 能夠準確地提取出字符圖像觀測序列中的結構信息。

狀態的典型性可以采用信息熵的形式估計狀態活躍度來評價[10],如式(2)所示,其中 H ( p ) = -p lg p ,α, β和γ是和為1的歸一化因子。由于描述復雜字符結構的 HMM 通常采用自底向上的狀態優化算法,即逐步減少狀態數量,所以狀態冗余的模型中會存在信息熵過小的非典型狀態。于是,可以根據信息論中的最大熵原理,從模型中將信息熵過小的狀態去除,即可完成狀態的典型性優化。

狀態間的鑒別性可以采用分布的KL(Kullback-Leibler)散度來衡量。但由于GMM的KL散度從理論上不具有可計算的解析形式,這里采用文獻[11]中的方法,先估計出此距離的一個緊上界,如式(3)所示。其中,f和g為空間中的兩個具有相同高斯分量數m的GMM 分布,a和b分別為它們的高斯分量權重;()iβ為兩個GMM高斯分量間的映射關系,并要求在此映射關系下,所有高斯分量對之間的距離之和最小。然后,根據相鄰狀態間的距離估計和判斷閾值,就可以確定哪些狀態需要融合。另外,還要對最終狀態數的上、下界限進行控制,以便模型能具有更合理的結構[12],并且采用文獻[8]中的方法來融合相似的相鄰狀態。

另外,在實際的訓練中,為了提高模型準確程度,GMM 高斯分量的產生通常采用自頂向下的方法,即單高斯分布的狀態交替進行參數更新和高斯分裂,直至達到預定的GMM分量數。因此,上述狀態優化方法可以跟隨GMM的分裂過程進行,用于在每一輪參數優化之前,尋找更加準確合理的模型結構和參數,避免參數估計陷入局部極值的風險[13],提高模型對字符結構信息的描述能力。

3 低數據資源條件下基于結構信息共享的字符建模方法

3.1 HMM自適應與最大后驗估計方法

HMM 自適應主要研究模型特化問題,目的是在訓練樣本不足條件下,使一個已有的通用模型能更好地適用于單一識別任務。模型自適應的思路主要有兩種,一種是“微調”通用模型的參數,使其符合適應集樣本的統計特性,如最大后驗估計方法(Maximum A Posteriori, MAP)[5];另一種是假定目標模型參數與通用模型參數間存在線性變換關系,通過估計這個變換的參數,使變換后的模型適用于適應集樣本的識別,如最大似然線性回歸方法[6]。由于本文主要工作是研究模型參數的估計,所以這里只對MAP方法進行分析。

MAP方法以最大化 Bayes理論導出的模型后驗概率作為計算準則。以狀態的均值向量自適應為例,其更新公式如式(4)所示,是一個適應集樣本最大似然估計μMLE與原始模型參數μori之間的線性插值結果。其中,τ為預先給定的學習速率,{ Ot:t=1,2,… ,T}為適應集中的樣本觀測序列,ψ(t)為樣本觀測幀tO在t時刻由當前待更新狀態生成的概率,MLEμ的計算如式(5)所示。

從式(4)中可以看出,如果適應集樣本的規模越大,則自適應的結果MAPμ就會越傾向于適應集樣本的最大似然估計MLEμ;反之,則會傾向于保持原有的通用模型參數oriμ,相當于沒有進行參數調整。因此,MAP方法雖然具有較好的一致性和漸進性,但是在低數據資源條件下,對模型的特化性能提高效果十分有限,難以充分利用新樣本中所包含的信息。

3.2 基于結構信息共享的字符建模方法

針對常用維文字體在字符的整體結構上一致性較高、在變化風格上差異性較大的特點,可以采用先共享通用訓練樣本的字符結構信息,向這些樣本“借數據”,再利用Bootstrap原理學習少量適應集樣本字符變化風格,向這些樣本“要數據”的策略,使得模型最大似然估計對樣本的依賴性得到降低,這就是本文所提方法的主要思路。該方法的流程框圖如圖2所示,上方的圓邊矩形表示訓練所采用的樣本,下方的矩形表示訓練所得的HMM模型;另外,中間5個帶編號的箭頭表示流程中的5個操作步驟,其中①②③為準備步驟,④⑤為新樣本學習步驟。下面將會逐一對各個步驟進行說明。

為了準確地向通用樣本“借數據”,需要確定字符結構共享的時機,既要讓模型從通用樣本中充分提取出結構信息,又要避免模型在通用樣本上過度特化(步驟①)。在上一節所述的字符結構信息提取過程中,由于高斯數增長的初期,大量冗余狀態因缺乏典型性或鑒別性而被去除或合并,所以狀態數將會驟減,模型狀態結構也迅速向相應字符結構的統計特性靠近。當高斯數增長到一定程度后,各個狀態已具有充分的典型性和鑒別性,所以狀態數將不再變化,各個狀態也開始對字符結構的統計特性進行精細描述,使模型逐步特化于當前的訓練樣本。因此,字符結構共享時機應當選擇從通用樣本提取字符結構信息的過程中,所有模型的結構變化剛剛趨于穩定的時刻。此時,將會得到一個低高斯數的基礎模型。

圖 2 低數據資源條件下基于結構信息共享的字符建模方法流程圖

為了高效地向適應集樣本“要數據”,需要生成適應集樣本的切分標注。這些標注信息能夠使文本行圖像樣本轉化為字符圖像樣本,幫助模型向新樣本的字符變化風格進行遷移。對于切分標注的生成問題,可以采用 Bootstrap方法來解決[14]。首先,基于前文所得到的低高斯數基礎模型,用適應集樣本直接訓練得到一個全高斯數的輔助模型(步驟②)。然后,用該模型對適應集樣本進行模型級強制對準(步驟③),即可獲得這些樣本的切分標注信息。

完成上述準備步驟后,即可采用經典的Baum-Welch算法,在逐個模型上進行參數的最大似然估計,完成字符變化風格的遷移學習(步驟④),其原理如下所述。先來分析該算法中樣本觀測 Ot在t時刻由狀態 sj生成的概率表達式,如式(6)所示。其中,αi(t) 和 βi(t ) 分別表示t時刻觀測處于狀態 sj的前向概率和后向概率。由于式(6)的分母僅用于結果歸一化,所以在觀測與狀態進行合理對準匹配的情況下, ψj(t ) 的結果將主要取決于分子中 bj( Ot) 這一項。如果觀測 Ot服從狀態 sj當前的概率分布,則ψj(t)的計算結果會趨向于1;反之,則會趨向于0。因此,這個過程相當于以基礎模型的狀態為中心,對適應集樣本的觀測序列進行有序聚類,并更新模型統計參數的過程。又因為基礎模型中包含了通用樣本的字符結構信息,各個字符模型對應的樣本也能夠被切分標注進行分離,所以步驟④僅使用少量的適應集樣本,就可以實現基礎模型對新樣本字符變化風格的遷移學習,得到一個遷移模型。

最后,按照經典的HMM嵌入式訓練方法,再對遷移模型交替進行多次參數最大似然估計和GMM 高斯分裂操作[15],直到模型的高斯數達到預設值為止(步驟⑤),就可以得到適用于新樣本類型的全高斯數最終模型。由于在前一個步驟中,得到的遷移模型已經偏向于適應集樣本,因此這里可以直接使用無切分標注的適應集樣本進行模型嵌入式訓練。

4 實驗與結果分析

本文實驗主要使用劍橋大學公開的 HTK[16]工具包完成,其它原創性工作通過C代碼實現,并由Perl腳本控制執行流程。實驗中,基于文獻中已有的28維特征提取方法[17],通過一階幀間差分擴展獲得56維特征向量,并采用直線型HMM進行建模。結果評價方面,利用系統識別性能間接衡量各模型準確度的思路,采用 HTK中相對嚴格的字符識別準確率ACC作為評價指標。該指標通過動態規劃算法對齊識別結果與真值內容,然后計算正確識別字符數量與插入錯誤數量之差,占全部真值字符數量的百分比,并且ACC指標也等價于常用的美國國家標準與技術研究院所提出的詞識別錯誤率WER指標,因為二者之和恒定為1。

4.1 實驗相關數據集介紹

本文實驗共需要兩類數據樣本,一類是規模較大、包含多種類型的通用集樣本,用于訓練和測試通用模型,以及提取字符結構信息;另一類是規模較小、類型單一的適應集樣本,用于訓練和測試專用模型。

通用集樣本方面,由于目前維文識別文獻中主要采用的傳統預切分識別方法,都是以單字符圖像樣本數據庫為主,所以尚無統一的標準維吾爾文文檔樣本數據庫。為此,本文專門制作了 THOCRUy360數據庫,其內容來源于《塔里木》雜志社的官方網站[18]。選取的維文語料被整理為360頁文檔,用激光打印機印刷成ALKATIP的Basma, Kitab,Journal, Tor和UKIJ的Tuzb這5種常用字體,如圖3的前5行所示,并根據維文文檔字號偏小的特點,選擇10號字印刷。然后,再用掃描儀以300 dpi的分辨率進行掃描,經過閾值化和行切分處理后,每種字體就可以得到 7887張文本行圖像,包含264583個字符。

圖3 本文實驗所用的維文文本行樣本字體類型示例

適應集樣本方面,直接使用真實的《中共中央關于制定國民經濟和社會發展第十二個五年規劃的建議》(維文版)書籍掃描圖像作為樣本,如圖 3的最后一行所示,并請維文專家給出相應的內容標注。從圖中可以看出,實際書籍所采用的字體與通用集中的5種字體均不相同,主要體現在文本行圖像的質量、字符連接緊湊度、筆畫寬度、孔狀結構尺度、某些字符形狀等多個方面。該樣本集包括 42頁文檔,采用與通用集樣本相同的閾值化和行切分方法。按照文獻[8]中的建議,僅選取正文的字體類型,而不考慮標題等極少的特殊字體。于是,最終的適應集樣本共包含1075個文本行圖像、55363個字符。

另外,本文實驗樣本數據覆蓋維文字母105種、數字10種、各類標點符號14種,共129種字符基元。

4.2 通用樣本的字符結構信息驗證實驗

本小節實驗在通用集樣本上進行,需要將5種字體的文本行樣本在內容相同的前提下,隨機按照70%(5523行,185349字符),15%(1182行,39622字符),15%(1182行,39612字符)的比例進行劃分,分別作為訓練集、驗證集和測試集。

為了形象地說明字符結構信息提取原理,這里以單字體Basma識別系統下維文字符“NG”圖像為例,將其觀測序列進行狀態強制對準,并在對應的圖像中標記出狀態跳轉的位置,展示當前模型的狀態分配情況。模型的起始狀態數被設置為15,均為單高斯模型。由于狀態數量冗余,所以經過初始化后,狀態分配十分零碎。不過,每個狀態都被用于描述一種明確的字符局部結構,如圖 4(a)。經過狀態典型性優化后,描述字符中間尖端部分的3個狀態會被去除,僅留下必要的典型狀態,如圖4(b)。隨后,狀態鑒別性優化將模型精簡為10個狀態,它們彼此之間都具有明顯的差異性,如圖 4(c)。隨著混合高斯數的增長,模型狀態數也會進一步減小直至穩定。再經過嵌入式訓練,最終模型的狀態分配如圖 4(d)所示。可見,HMM 狀態中所包含的結構信息,既對應著2維字符圖像所具有的局部結構,也符合狀態是觀測聚類的物理意義。

下面,本文將比較幾個識別系統在5種字體測試集上的性能,它們分別是5種字體樣本分別直接訓練得到的“單字體基線系統”,5種字體樣本混合后直接訓練得到的“多字體基線系統”,以及采用本文基于字符結構信息的模型優化方法所得到“單字體優化系統”和“多字體優化系統”,相關測試結果如表1所示。

表 1 不同識別系統在通用樣本測試集上的識別準確率評價結果(%)

對于兩個基線識別系統,它們均采用狀態數一致的HMM建立基元模型,并通過在驗證集上的系統識別性能來選擇最佳的狀態數。通過結果比較可以看出,前者使用單一類型的訓練樣本能保證穩定的識別性能,但是未經優化的HMM模型結構會使其對字符的描述能力受到限制;而后者雖然出現模型偏離個別字體的情況,如Basma, Tor,但在其他字體上的識別性能卻會出現反超,如Kitab, Journal,Tuzb,這說明不同字體間確實存在某種可以被共享的信息,但直接混合多字體樣本的方法是不能有效利用這種信息的。

對于兩個優化識別系統,它們均采用了本文方法對模型結構和參數進行聯合優化。由于多字體優化系統能夠共享5種字體之間的共性字符結構,提高字符模型在多字體樣本融合中的準確性,因而其識別性能要優于多字體基線系統,甚至是單字體基線系統。這不僅說明了多字體樣本之間所共享的正是共性的字符結構信息,也驗證了本文提取字符結構信息方法的有效性。另外,單字體優化系統表現出了最好的識別性能,這也說明在訓練樣本充足的情況下,還是應當優先考慮建立單字體的專用識別系統。

圖4 單字體識別系統中維文字符“NG”在不同模型下的狀態強制對準結果

此外,為了更加直觀地說明不同字體之間共享字符結構信息的效果,下面再次以維文字符“NG”為例,在多字體基線系統和優化系統下,分別對 5種字體的該字符圖像進行狀態強制對準。可以看出,在基線系統中,狀態與觀測的對準匹配關系相對雜亂,而且冗余程度較高,如圖 5(a)所示。而在優化系統中,雖然不同字體的圖像觀測存在變化風格上的差異,但各個狀態都能對準匹配到相似的字符結構上,如圖5(b)所示。因此,本文方法的“借數據”思路能為HMM自適應訓練,提供更加豐富且穩健的字符結構先驗知識。

4.3 低數據資源條件下的字符建模實驗

本小節實驗需要將適應集樣本劃分為 4個子集,~分別對應書籍1~10頁(253行,~13116字符),1120頁(266行,13594字符),2130頁(257行,13321字符),31~42頁(299行,15332字符)的內容。4.3.1不同樣本規模下字符建模方法對比實驗 為了研究低資源樣本對字符建模方法的影響,從前3個子集中選取1個、2個和3個子集,它們的規模分別約為通用模型訓練集的1/14, 1/7, 1/5。其中,隨機抽取90%的文本行樣本作為訓練集,剩下的10%作為驗證集。然后,將4號子集作為測試集,用于比較不同識別系統的性能,實驗結果如表2所示。

圖5 5種字體的維文字符“NG”在不同模型下的狀態強制對準結果

第1, 2列結果來自于新字體的基線系統和優化系統,它們只利用適應集中的新樣本來訓練新模型。由于樣本規模很小,所以性能都不是很高。但經過字符結構優化的系統,其識別性能要明顯優于基線系統。第3, 4列結果來自于上一小節中多字體的基線系統和優化系統。由于它們并沒有使用新字體的樣本訓練過,所以其識別性能降低至80%左右。第5, 6列結果對應的系統,是用MAP方法對兩個多字體系統進行自適應訓練所得到的。由于優化系統的模型能更準確地描述字符結構,所以自適應優化系統的識別性能也要高于自適應基線系統4%~5%。而第7列結果來自于本文方法所得到的系統,其識別性能在3種設置下均超過90%,高于采用MAP方法自適應所得到的兩個系統,再次說明字符結構信息對于字符建模的重要作用。

4.3.2 模型遷移學習性能交叉驗證實驗 為了更加準確地評估上述幾種識別系統的性能,這里對表 2中第3種數據集設置進行交叉驗證實驗,即輪流將4個子集中的1個作為測試集,其余3個子集則用于訓練和驗證,實驗結果如表3所示。

表 2 不同樣本規模下各系統對適應集測試樣本的識別準確率評價結果(%)

表 3 各系統對適應集測試樣本的識別準確率交叉驗證結果(%)

通過橫向比較可以看出,本文方法所得系統的識別性能最高,在測試集上的平均識別準確率為95.05%,能夠實現對新字體類型的高性能識別。同時,相比于新字體優化系統、自適應優化系統,它在平均識別準確率上也有 1.55%和 6.24%的提高,即識別錯誤率相對降低 23.85%和 55.76%,證明了本文方法的有效性。

5 結束語

低數據資源條件下的字符建模問題,是當前無切分文檔識別領域中的一個重要研究方向,與實際應用中的樣本規模限制密切相關。因此,本文提出了一種向相對穩定的字符結構“借數據”、向低資源樣本的切分標注估計結果“要數據”的方法。通過對自制樣本和實際書籍樣本的識別測試實驗可以說明,該方法能夠有效解決低數據資源條件下,維文字符建模所存在的關鍵問題,對提高無切分維文文檔識別系統在新樣本類型的適用性上具有重要意義。同時,我們后續也會嘗試將該方法應用于其他民族文字的識別任務中。

[1] 錢彥旻. 低數據資源條件下的語音識別技術新方法研究[D].[博士論文], 清華大學, 2012: 67-85.Qian Yan-min. Study on new speech recognition technology under low data resource conditions[D]. [Ph.D. dissertation],Tsinghua University, 2012: 67-85.

[2] 錢彥旻, 劉加. 低數據資源條件下基于優化的數據選擇策略的無監督語音識別聲學建模[J]. 清華大學學報(自然科學版),2013, 53(7): 1001-1004.Qian Yan-min and Liu Jia. Optimized data selection strategy based unsupervised acoustic modeling for low data resource speech recognition[J]. Journal of Tsinghua University(Science and Technology), 2013, 53(7): 1001-1004.

[3] Gunter S and Bunke H. Optimizing the number of states,training iterations and Gaussians in an HMM-based handwritten word recognizer[C]. 7th International Conference on Document Analysis and Recognition (ICDAR), Edinburgh,Scotland, UK, 2003: 472-476.

[4] Geiger J, Schenk J, Wallhoff F, et al.. Optimizing the number of states for HMM-based on-line handwritten whiteboard recognition[C]. 12th International Conference on Frontiers in Handwriting Recognition (ICFHR), Kolkata, India, 2010:107-112.

[5] Qing H, Chan C, and Chin-Hui L. Bayesian learning of the SCHMM parameters for speech recognition[C]. IEEE 19th International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Adelaide, USA, 1994, I: 221-224.

[6] Leggetter C J and Woodland P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J]. Computer Speech & Language,1995, 9(2): 171-185.

[7] 劉杰. 序列模型中的遷移學習研究[D]. [博士論文], 南開大學計算機與控制工程學院, 2008: 66-89.Liu Jie. Research on transfer learning on sequence model[D].[Ph.D. dissertation], Nankai University, 2008: 66-89.

[8] Ait-Mohand K, Paquet T, and Ragot N. Combining structure and parameter adaptation of HMMs for printed text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(9): 1716-1732.

[9] Ait-Mohand K, Paquet T, Ragot N, et al.. Structure adaptation of HMM applied to OCR[C]. 20th International Conference on Pattern Recognition (ICPR), Istanbul, Turkey,2010: 2877-2880.

[10] Jiang Zhi-wei, Ding Xiao-qing, Peng Liang-rui, et al..Analyzing the information entropy of states to optimize the number of states in an HMM-based off-line handwritten Arabic word recognizer[C]. 21st International Conference on Pattern Recognition, Tsukuba, Japan, 2012: 697-700.

[11] 王歡良, 韓紀慶, 鄭鐵然. 高斯混合分布之間K-L散度的近似計算[J]. 自動化學報, 2008, 34(5): 529-534.Wang Huan-liang, Han Ji-qing, and Zheng Tie-ran.Approximation of Kullback-Leibler divergence between two Gaussian mixture distributions[J]. Acta Automatica Sinica,2008, 34(5): 529-534.

[12] Bicego M, Murino V, and Figueiredo M A T. A sequential pruning strategy for the selection of the number of states in hidden Markov models[J]. Pattern Recognition Letters, 2003,24(9): 1395-1407.

[13] Seymore K, McCallum A, and Rosenfeld R. Learning hidden Markov model structure for information extraction[C].AAAI-99 Workshop on Machine Learning for Information Extraction, Orlando, USA, 1999: 37-42.

[14] Jiang Zhi-wei, Ding Xiao-qing, Peng Liang-rui, et al..Modified bootstrap approach with state number optimization for hidden Markov model estimation in small-size printed Arabic text-line recognition[C]. 10th International Conference on Machine Learning and Data Mining in Pattern Recognition, St. Petersburg, Russia, 2014: 437-441.

[15] Young S, Evermann G, Gales M, et al.. The HTK Book (for HTK Version 3.4)[M]. Cambridge, UK, Cambridge University Engineering Department, 2009: 97-147.

[16] Cambridge University Engineering Department. Hidden Markov Model Toolkit (HTK)[OL]. http://htk.eng.cam.ac.uk/.2014.

[17] Al-Hajj M R, Likforman-Sulem L, and Mokbel C. Combining slanted-frame classifiers for improved HMM-based Arabic handwriting recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(7): 1165-1177.

[18] Official website of magazine “Tarim”[OL]. http://www.tarimweb.com/index.html. 2014.

猜你喜歡
優化結構方法
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
論《日出》的結構
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成人福利免费在线观看| 超清无码熟妇人妻AV在线绿巨人 | 国产精品亚洲一区二区三区z| 色综合天天娱乐综合网| 欧美精品亚洲二区| 狂欢视频在线观看不卡| jizz在线免费播放| 国产精品亚洲一区二区三区z| 日韩无码视频播放| 91人人妻人人做人人爽男同| 中文字幕第4页| 最新国产精品鲁鲁免费视频| 国产精品成人观看视频国产 | 在线观看国产精美视频| 无码精品一区二区久久久| 国产香蕉在线视频| 亚洲AV无码一二区三区在线播放| 亚洲无限乱码| 久操线在视频在线观看| 日韩精品亚洲人旧成在线| 国产女人在线视频| 色欲不卡无码一区二区| 青青草国产在线视频| 91热爆在线| 高h视频在线| 久久国产精品影院| 国产成人精品午夜视频'| 欧美不卡视频一区发布| 国产精品女熟高潮视频| 天天摸天天操免费播放小视频| 一本一道波多野结衣一区二区| 国产欧美日韩免费| 国产美女叼嘿视频免费看| 亚洲欧洲自拍拍偷午夜色| 亚洲精选高清无码| 国产毛片片精品天天看视频| 2021国产精品自产拍在线| 天堂成人在线视频| 国产无码高清视频不卡| 91免费在线看| 亚洲一区国色天香| 99久久国产自偷自偷免费一区| 亚洲国产理论片在线播放| 亚洲精品色AV无码看| 久久综合伊人 六十路| 国产99久久亚洲综合精品西瓜tv| 无码区日韩专区免费系列| 国产精品思思热在线| 亚洲中文在线看视频一区| 草草线在成年免费视频2| 2022国产无码在线| 大香伊人久久| 精品久久久久无码| 精品在线免费播放| 亚洲国产综合精品一区| 亚洲乱伦视频| 久99久热只有精品国产15| 久久青青草原亚洲av无码| 国产成人一区| 91精品伊人久久大香线蕉| 亚洲综合色在线| 欧美a级在线| 国产特级毛片| 欧美一级高清片欧美国产欧美| 成人福利在线观看| 亚洲乱码精品久久久久..| 人禽伦免费交视频网页播放| 欧美狠狠干| 国产第三区| 精品国产福利在线| 亚洲精品波多野结衣| 91精品国产麻豆国产自产在线| 国产在线拍偷自揄拍精品| 国产网站一区二区三区| 嫩草在线视频| 91精品啪在线观看国产91九色| 凹凸国产分类在线观看| 18禁高潮出水呻吟娇喘蜜芽| 国产原创自拍不卡第一页| 欧美19综合中文字幕| 国产呦视频免费视频在线观看| 久久综合激情网|