張志強 張太紅 刁琦 董巒



摘要:音字轉換是漢語言信息處理的一個重要方面,在語音識別、漢語拼音輸入等方面都有廣泛的的應用。本文首先回顧了詞樹的理論知識,然后對詞樹進行求解,最后對詞樹進行剪枝,隨之,對產生的多音字進行處理。基于上面的理論,提出了一種基于語言模型實現音字轉換的高效解碼算法,這種算法涉及到零概率重估、路徑剪枝和多音字處理等多項技術,實驗結果表明這種算法可以達到97.78 %的準確率,與以往的算法相比,效果比較顯著。
關鍵詞:語言模型;n-gram 模型;音字轉換
中文分類號:TP391.1 文獻標識碼A
引 言
語言模型(Language model)[1]是語音識別系統(speech recognition system)[2]的一個重要組成部分。語言模型,通常可分為基于統計的語言模型(Statistical language model)和基于規則的語言模型(Rule based language model)兩大類。在現在的技術條件下,基于統計的語言模型(Statistical language model)處于主流地位,具體是通過對大量的語料進行統計[3],獲得詞與詞之間相互連接信息,為評價一個詞串是否有意義提供基礎依據。
統計語言模型中,n-gram語言模型是公認的研發設計代表[4],因其結構相對簡單,而且易于構建與應用。但是,在實際運用n-gram語言模型時,卻會不斷發現,由于訓練語料稀疏而引起了一定的零概率問題[5]。而采用本文提出的算法,仿真實驗結果表明對解決這一問題則呈現出優質有效的運行效果。本文即針對這一課題內容展開分析論述。