摘要:隨著旅游行業的迅猛發展,從早期的紙質資料查詢逐步向語言電子查詢系統發展。針對目前常用的語音查詢系統中經常存在不準確性——非句——給人們在使用時造成的不便,文章主要介紹了語音識別系統的原理、語音識別后處理系統以及針對非句中歧義的處理方法——分詞算法。
關鍵詞:語音識別系統;非句;分詞算法
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2014)36-8754-02
隨著旅游業的快速發展,地圖等紙質資料已經不能滿足人們快速、全面的獲取信息的需求,人們對基于語音識別理論的“所說即所得”的語音電子查詢系統的需要越來越強烈。但已有的語音查詢系統中經常存在不準確性——非句。
非句指的是在語音識別結果里識別出來的文本無法構成完整語句,摻雜了識別錯誤導致語法不正確、不完整的或者錯誤的句子。非句存在某些錯誤或者脫節,導致人或機器無法用正常的自然語言知識形成正確的理解。因此,只有找到好的非句分析知識和方法,才能更有效的傳遞這些錯誤或者脫節,消除其對于人機交互的阻力。
2 語音識別系統
語言識別系統是一種模式識別系統,包括語音特征提取技術、模式匹配準則及模型訓練技術三種主要技術。傳統的語音識別系統的原理圖見圖1:
圖1 語音識別系統原理圖
本文的目標是對語音識別后的文本,采用自然語言理解的方法從語法、語義和語用三個方面對識別的內容進行正確分析,選擇適合的分詞算法,盡量減少非句的出現,提高輸出結果的正確率。……