廈門視爾沃電子科技有限公司 楊愛祥
隨著云計算和大數據快速發展,人工智能興起,繼蘋果手機Siri語音控制功能, 亞馬遜ECHO智能音箱上市后,智能語音已經成為風靡全球的一項應用,作為網絡技術快速發展的中國,相繼出現智能語音產品,如代表性的京東與科大訊飛聯合推出的叮咚音箱,科大訊飛發布的靈犀語音助手和訊飛語音云產品,繼而在中國成長了一批智能語音的科技公司。Siri是近場語音,而ECHO則是遠場語音的應用。
智能設備與人交互有三大方式:觸控、手勢和語音,語音交互在家居場景中,更符合自然合理的特性,可以以更少的操作步驟來完成需要的工作,應該逐漸走入主流的是語音的交互方式,近場語音依賴于近距離的使用終端,而遠場語音的應用更具有開放性和便利性,智能液晶電視具有普及面廣,使用頻率高,可視化屏幕大優勢,智能電視上搭載遠場語音智能方案,對于培養用戶習慣有著得天獨厚的優勢。可成為遠場語音發展的有效手段。
電視遠場語音系統構建如圖1所示:

圖1
麥克風拾音:通過麥克風硬件模塊采集語音信號,麥克風排布可多種形式,如線性、L型、球形,不同形狀排布陣列決定著采用麥克風數量,最終的目的都是匹配特定的場景,讓最終遠場交互的精度最優。麥克風的選擇可以是ECM或MEMS麥克風,MEMS麥克風可以是數字的(集成ADC)或是模擬的(如圖2所示)。

圖2
陣列設計主要有雙麥和多麥,雙麥大多應用在諸如電視類只需接收180度音源的產品。多麥應用在電視,音箱,智能家居設備等各類產品,分多麥線性陣列和多麥環狀陣列,可接收360度音源。
語音提取:陣列系統的語音芯片對麥克風在環境中采集的多路語音信號進行一系列的運算,實現回聲消除,降噪處理,提取有效特征指令。過模擬輸出或者IIS格式輸出給電視主芯片。語音處理芯片分兩種。一種是通用CPU運行語音降噪軟件算法。一種是用ASIC芯片硬件處理的方式得到干凈的語音指令信息。
智能液晶電視遠場語音提取、處理方案構建流程如圖3所示:

圖3
語音識別、語義理解:語音識別是把語音轉化為文本信號處理。語義理解是從文字信息提取指令(如上圖語音指令操作節點)。語音識別和語義理解是一門新興邊緣學科,內容涉及語言學、心理學、邏輯學、聲學、數學和計算機科學。綜合應用現代語音學、音系學語法學、語義學、語用學的知識,實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。隨著人類對人機交互語言的不斷探求,以及大數據技術的不斷發展,人們在語音識別,語音理解的道路上,通過不斷的語言重復訓練,如今已經取得一定成果。
智能電視語音業務:智能語音支持一些通用業務和垂直領域定制業務,根據實際產品需求設計,諸如在線視頻點播、菜單操作、智能家居控制,購物、聊天、知識百科、天氣查詢、路況查詢、視頻搜索、音樂搜索等等,這些功能可以集中在液晶電視這個大屏入口上實現。智能電視項目可以搭載遠場語音功能來實現以上業務功能,提高用戶體驗,給予用戶更好的便利性。智能語音業務需要語音廠商的內容生態支撐,語音識別、語義理解代表性廠商主要有主要廠商:科大訊飛、百度度秘、云知聲、思必馳、捷通華聲、騰訊叮當。
智能電視遠場語音功能的設計形態構建:電視產品遠場語音方案的選擇,依據產品定位,結合成本和開發周期,可采用以下3種形態設計(如圖4所示)。

圖4
1.USB端口接入遠場語音功能模塊,可固定在機器上或采用延長的數據線外接,將功能模塊做成音箱或者擺設置于電視柜等。此設計可以由用戶在購買時自行根據喜好購買。
2.遠場語音模塊集成在電視機芯板內,猶如筆記本電腦攝像頭一般,簡潔,美觀,大方。
3.遠場語音模塊做成無線音箱,或集成在無線遙控器等。通過Wifi、藍牙或者RF 2.4 G通訊等方式完成聲音信號的傳遞,此設計能夠給人以無限自由,時尚感。
電視有了遠場語音,就可無論在客廳的任何位置,不用遙控器與電視對話,它都會給你快速的回應。由遠場語音搭載對話式人工智能操作系統,基于語音識別、自然語言處理、機器學習、大數據等技術,借助強大的云端能力,為用戶提供便捷、精準的語音交互體驗,實現各種功能業務、信息等邊看邊查功能。遇看電視過程中的隨時突發需求,用戶不需要起身尋找遙控器,只要對話就可以解決需求,提供完美的體驗。
隨著技術的不斷發展,語音生態內容商會得到進一步的提高,業務擴大,資源的付費門檻將會越來越能夠讓更多智能液晶電視商所接受,智能電視用戶隨意動動嘴,說幾句話,就可以完成自己想要的操作,是未來發展的一個大方向。
[1]董永貴.微型傳感器[M].清華大學出版社,2007.
[2][美]M. Tim Jones著.人工智能.2009.
[3]朱福喜,杜友福,夏定純主編.人工智能引論.2006.