嵌入式語音合成技術,又稱文語轉換(Text to Speech)技術,能將任意文字信息實時轉化為標準流暢的語音并朗讀出來,相當于給機器裝上了人工“嘴巴”。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,即讓機器像人一樣開口說話。我們所說的“讓機器像人一樣開口說話”,與傳統的聲音回放設備(系統)有著本質的區別。傳統的聲音回放設備(系統),如磁帶錄音機,是通過預先錄制聲音,然后回放,從而實現“讓機器說話”的,這種方式無論是在內容的存儲、傳輸或者方便性、及時性等方面都存在很大的局限性。而通過計算機語音合成技術則可以在任何時候將任意文本轉換成具有高自然度的語音,從而真正實現讓機器“像人一樣開口說話”。
利用文語轉換技術進行語音的合成,需要經歷一個文語轉換的過程。
“語言學處理”在文語轉換過程中起著重要的作用,主要模擬人對自然語言的理解過程 文本規整、詞的切分、語法分析和語義分析,使計算機對輸入的文本能完全理解,并給出后兩部分所需要的各種發音提示。
“韻律處理”為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
聲學處理,主要是根據前兩部分處理結果的要求輸出語音,即合成語音。

文語轉換過程
基于文語轉換技術,可制成文語轉換系統,這個系統實際上可以看作是一種人工智能系統。為了合成出高質量的語音,除了依賴于各種規則,包括語義學規則、詞匯規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。下圖顯示了一個完整的文語轉換系統示意圖(圖略)。文語轉換過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。因此一般說來,文語轉換系統都需要一套復雜的從文字序列到音素序列的轉換程序,也就是說,文語轉換系統不僅要應用數字信號處理技術,而且必須有大量的語言學知識的支持。
嵌入式語音合成技術的本質是基于它能將輸入的語音通過語言轉文本技術轉化為語言代碼。語音是信息的載體,語音識別的基本任務就是將輸入的語音轉化為相應的代碼。通過這個轉化的過程,使人們在存儲和傳輸這樣的語言代碼的時候,無論是存儲空間還是傳輸率都比語音直接存儲和傳輸要方便的多,而且它還可以把連續的語音信號變成一種只需要有限符號集中的代碼,這樣也很容易被計算機或者專用的信息處理單元所理解,便于和人進行交流。因此,該技術可以實現廣泛的應用,如聲控應用、用于自動口語翻譯、把語音識別和合成技術相結合構成的一種超低比特率的語音通信系統等。
國外的語音合成技術發展較早,且前期運用最多的就是共振峰合成器技術。但經過多年的研究與實踐發現,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質難以達到文語轉換系統的實用要求。基于此,自八十年代末期至今,語言合成技術又有了新的發展,特別是1990年基音同步疊加(PSOLA)方法的提出,使基于時域波形拼接方法合成的語音的音色和自然度都有了很大的提高。
國內的漢語語音合成研究起步較晚,二十世紀八十年代初期,國內漢語語音合成研究才逐步興起。但此后,國內漢語語音合成研究基本與國際上的研究同步,大致也經歷了從共振峰合成、LPC合成到應用PSOLA技術的過程。在國家863計劃、國家自然科學基金委、國家攻關計劃、中國科學院有關項目等支持下,漢語文語轉換系統研究近年來取得了令人矚目的進展,其中不乏成功的例子:如1993年中國科學院聲學所研發的KX-PSOLA、清華大學研發的TH_SPEECH;1995年聯想佳音、中國科技大學研發的KDTALK系統等。這些系統基本上都是采用基于PSOLA方法的時域波形拼接技術,其合成漢語普通話的可懂度、清晰度都達到了較高的水平。然而同國外其它語種的文語轉換系統一樣,這些系統合成的句子及篇章“語音機器味”較濃,其自然度還不達到用戶可以廣泛接受的程度,從而制約了這項技術的商品化進程。
總的說來,我國語音合成技術研發與技術應用的發展,同計算機技術的普及和網絡、通信、廣播電視等技術和業務的發展是同步的,可以說,正是信息產業的迅猛發展推動了語音合成技術應用領域的發展和突破,進而刺激了語音合成技術突飛猛進的發展。
我國在語音合成領域的研究選擇了與國外錯位發展的策略,并且目前在逐步縮小與國外關鍵技術領域的差距,在車載語音裝置、計算機聲音輸入或輸出技術、自然語言數據的數字數據處理方法或設備等領域已具有了一定的競爭優勢。
嵌入式語音合成技術在智能家居中的應用
這幾年,智能家居行業發展較快。具體到智能家居領域,嵌入式語音合成技術可以有以下幾個方面的應用:
1、防盜功能:安裝在房間內外的紅外探測器、門磁等,可以探測到任何非法入侵活動,并利用語音合成技術,發出警告,連動開啟相應燈光或電器,對小偷起到震懾作用;同時向用戶發送短信及拔打用戶事先預設的電話進行報警。
2、緊急求助:當用戶家中的老人或小孩獨自在家發生了意外,需要幫助時,只要按一下隨身攜帶的遙控器,系統就會自動拔打用戶的手機,并利用語音合成技術,播報家中的實時情況,以便于用戶盡快采取幫助措施。
3、防火防煤氣泄露:安裝在室內的無線“煙感”、“氣感”在探測到有危險信息的時候會向系統發射信號,系統將自動通過網絡向用戶發送短信,并通過電話拔打用戶預設的電話號碼,此舉可以最大限度地保證用戶家中的財產不受損失。
4、方便控制:無需起身,開門、關燈,只要輕輕一按遙控器就可立刻開啟或關閉燈光,從而大大的方便了用戶的日常生活。
5、科技時尚:通過網絡,用戶可以監控家中的情況,并控制家中的安防系統的開啟或關閉;而通過電話,用戶不僅可遠程控制家中的安防系統,還能有效的控制家中燈光的開啟及關閉。
如今,嵌入式語音合成技術已為很多家居公司的產品提升了內在價值,同時,TTS語音引擎的加載也使得很多家居產品更加具有生動性,便捷性,更富于人性化。
物聯網時代將是全面邁入聲控的時代
其實,語音控制在物聯網領域早有應用,不久之前,美國一家視聽公司就已經透過SIRI對快思聰自動化控制系統進行了控制,用戶可以通過語音進行開啟燈光、調整燈光亮度、啟動家庭劇院、控制空調、切換影音頻道等操作,這也使得家庭自動化的發展往前邁進了一大步。然而,語音交互要真正實現面向大眾,則面臨著技術、使用模式和用戶文化環境等多重挑戰。語音控制雖有一定的優越性,但由于其控制的準確度和穩定性都還存在一定缺陷,一直未能得到規?;膽谩?/p>
不過,中國移動李正茂在中國語音產業聯盟成立之際曾透露:“今后,中國移動將在客戶系統、語音門戶、搜索門戶、智能家居、短信及郵件中逐步提高智能語音功能,包括智能語音翻譯,助推中國移動的業務和服務再上新的臺階?!倍壳?,語音合成技術也已在我國的車載調度、導航、智能家居、安防監控、考勤、播報終端等二十多個領域有了很多成功的案例,這說明,誰能在行業浪潮中放出創新之舉,誰就能夠奪得更多的市場先機。
放眼全球,智能化的語音產品扎堆上陣,一股語音聲控的熱潮已是勢不可擋。雖然面臨一些技術瓶頸,但在技術不斷走向成熟的背景下,將語音技術融入更多領域已成為一種新的發展趨勢,其應用的準確度和穩定性問題也有望迎刃而解。展望物聯網未來的發展,將語音控制技術規?;膽糜谖锫摼W亦將成為未來市場發展的新趨勢之一。物聯網時代,用聲音引領未來,值得期待!