張志強,張太紅,2,董 巒,3
(1.新疆農業大學 計算機與信息工程學院,新疆 烏魯木齊 830052;2.中國農業大學 信息與電氣工程學院,北京 100083;3.河海大學 計算機與信息工程學院,江蘇 南京 210098)
一種基于詞樹的高效解碼算法
張志強1,張太紅1,2,董 巒1,3
(1.新疆農業大學 計算機與信息工程學院,新疆 烏魯木齊 830052;2.中國農業大學 信息與電氣工程學院,北京 100083;3.河海大學 計算機與信息工程學院,江蘇 南京 210098)
音字轉換是漢語言信息處理的一個重要方面,在語音識別、漢語拼音輸入等方面都有廣泛的應用。為了找到一種行之有效的音字轉換解碼算法,在研究拼音分詞與詞樹理論并分析詞樹求解過程的基礎上,提出了基于語言模型實現音字轉換的高效解碼算法。該算法采用零概率重估、路徑剪枝和多音字處理等多項技術,通過對詞樹進行的剪枝處理、對常用詞的處理以及對解碼過程中所產生多音字的處理,實現了普遍意義上的音字轉換。為驗證所提算法的有效性和可行性,基于新疆維吾爾自治區科技計劃項目《多語種民族特色文化信息資源處理及共享服務平臺》所提供的三組數據進行了對比實驗。實驗結果表明,提出的新算法取得了97.78%的轉換準確率,優于其他傳統算法。
拼音分詞;詞樹;語言模型;n-gram模型;音字轉換
語言模型(Language Model,LM)[1]是語音識別系統(Speech Recognition System,SRS)[2]的一個重要組成部分。語言模型,一般分為以統計為基礎的統計語言模型(Statistical Language Model,SLM)和以規則為基礎的規則語言模型(Rule-based Language Model,RLM)。在現有條件下,SLM處于主流地位,通過對大量語料統計[3],獲得詞與詞之間的連接信息,為評價一個詞串是否有意義提供依據?!?br>