亞馬遜：開辟語音控制新市場

2016-12-27 13:18:34

中國信息化周報 2016年44期

關鍵詞：智慧

相較于Echo，最新的第二代Echo Dot的價格從89.99美元調整為49.99美元，并將于本月在美國上市銷售。

亞馬遜（Amazon Echo）可說是目前最熱銷的物聯網（IoT）裝置，無論你稱它為智慧麥克風、虛擬數位助理、家用機器人、語音控制或R2-D2，這一類以語音為基礎的產品正迅速崛起。

Amazon Echo（及其隨后推出的Dot）開辟了一個新的市場，讓裝置供應商能夠在語音擷取、提高麥克風音訊解析度、更先進的背景雜訊過濾、更好的音場偵測與穩定連線能力等方面展開競爭，以提供更佳音訊品質。

而像XMOS等公司雖然自家晶片并未用于Echo中，但也瞄準了這個新的語音介面市場。XMOS行銷與業務發展副總裁Paul Neil表示，物聯網目前正是一場快速移動的盛宴。為了控制IoT裝置，語音是最自然的使用者介面。Neil說，由于融合了傳統的微控制器（MCU）性能、嵌入式DSP以及靈活的I/O組合，使得其技術成為語音介面的理想選擇。

然而，硬件裝置之間的戰爭只是構成整個智慧麥克風/揚聲器市場的一部份。IHS Markit連網家庭資深分析師Paul Erickson強調，真正的競爭變數來自云端。

為了追求更“聰明”的智慧麥克風（能夠處理復雜的查詢和隨機問題），云端服務領域的競爭越來越激烈。 Google預計將于今年年底推出Google Home與Google Assistant （Google Now的新版本），并借此進入這個市場。Erickson表示，而且市場上盛傳蘋果（Apple）很可能將在2017年攜其Siri進入這個領域。

Amazon Echo——這款IoT裝置如此熱門的另一個原因在于它極具潛力，可實現IoT的重要優點：經得起時間考驗（Future-proofing）。

芯科科技軟件副總裁Skip Ashton解釋，Future-proofing的意思是“確保裝置可隨時間進展持續添加更多功能特性。”例如，Alexa為Echo提供的語音服務功能一開始有70種，如今已經增加到超過1700種了。

Echo可以回答問題、閱讀新聞、為運動評分、控制燈光、從Amazon網站訂購產品以及設定鬧鈴等。使用者還可以利用該裝置向Uber叫車或訂購披薩外送等。

“目前，Echo大約每兩周透過云端更新一次，”Ashton說，“Amazon會在星期五時發送電子郵件給Echo用戶發布新功能，而Echo用戶也對于產品的功能持續增加懷有期待。”

語音介面

已經普遍應用在

市場領域

IHS Markit嵌入式處理器首席分析師Tom Hackenberg剖析Amazon Echo對于電子產業帶來重大影響的原因：智慧麥克風/智慧揚聲器應用對于處理器供應商來說極具價值。

因為這種裝置關鍵之處并不只是提供了“本地智慧”。語音介面正普遍應用在廣大的市場領域。不只是數位助理市場出現，成為智慧型手機App的消費電子裝置版本，還有揚聲器，也不是它唯一的外形應用。

例如，他解釋說，家庭自動化中心和數位助理可以內建于電視、機上盒（STB）、HVAC/環境控制中樞等等。

此外，在車載資訊娛樂方面也存在大量的應用，特別是著眼于其免手持的優點。

透過拆解Echo與Echo Dot并進一步比較后，Hackenberg說，除了存儲的供應商，我發現Echo和Echo Dot的處理元件并沒有明顯的不同。

兩款產品使用的處理器則是相同的。在Echo與Dot的核心采用的是“德州儀器（Texas Instruments；TI）的媒體處理器DM3725”，此外，高通（Qualcomm） Atheros QCA6234應用專用標準處理器則用于提供“連接性”。

Hackenberg解釋說，雖然存儲可能稍微影響性能，但存儲定價是波動的。因此，對于Echo系列的所有產品而言，在其整個生命周期中改變所使用的元件也很平常。

相形之下，“連線模組，尤其是媒體處理器更加復雜，如果不是重大的產品更新，一般并不會改變，”他說。

Hackenberg指出，Atheros處理器專用于作為連接應用標準產品。其設計是以Tensilica定制化XTensa核心為基礎，而且它只做一件事——協調與網路的通訊，以利作業進行。

Erickson補充說，連接能力至關重要，因為它涉及哪些資料可被擷取、傳送與接收云端資料的速度與可靠度等。由于速度/響應的可用性因素，它直接影響到與揚聲器之間的互動有多么“即時”。因此，Wi-Fi的吞吐量、服務品質（QoS）與范圍的改善，都將有所幫助。

所有的“本地”（local）智慧功能是由TI DM3725進行處理。Hackenberg指出，這是一款專為STB、TV、顯示器、視訊游戲系統等各種多媒體應用而設計的系統單晶片（SoC）。

DM3725是一款以ARM Cortex A8為基礎打造的元件，并整合TI的C64x+DSP與3D繪圖加速引擎。“Cortex A8是一款成熟且經濟型的應用處理器，但又完全足夠用于本地執行簡單的任務。”Hackenberg表示。

然而，如果應用變得復雜，而不只是一款揚聲器這么單純，可能就會有所變化。

更好的智慧家庭系統語音

辨識功能

根據Hackenberg，這顆SoC的關鍵就在于整合了DSP，甚至可能是GPU。

“在一個典型的設計中，存在多個輸入感測器（主要是麥克風）。整個音訊輸入首先經DSP高度濾波，使系統快速地理解用戶的語音和環境雜訊之間的差異。”他說。

“它甚至能夠解讀相對于該裝置的位置或甚至發話者是誰；它還建立了一種模式，能夠經過處理以匹配該模式（通常發送至云端）。”他補充說。

但是，GPU做什么呢？

Hackenberg認為，對于本地智慧，GPU可以用于更簡單、但快速且高效的本地模式匹配。

這可以讓裝置仍然回應所儲存的控制模式，例如“降低音量”、“切換頻道”或其他簡單的控制，而無需網路連接，他解釋說，接著，應用核心根據所需提供的回應、啟動/關閉所需的輸入或控制以及必須顯示的內容等條件來執行應用程式。

Amazon Echo和Dot之所以吸引人在于它使用了7麥克風陣列。Amazon聲稱，Echo和Dot由于使用了多支麥克風和波束成型技術，因而能在整個室內都聽到你的聲音——即使是正在播放音樂的環境下。該公司還表示，Echo是一款專業級的調音揚聲器，能以360°沉浸式音效充滿在整個房間當中。根據IHS Markit負責MEMS和感測器的資深分析師Marwan Boustany表示，Echo采用了樓氏電子（Knowles）的MEMS麥克風。

Boustany指出，為聲音頻率提升其訊號雜訊比（SNR）、匹配和性能，將有助于遠場音訊獲取，同時改善語音識別。但最終，演算法才是實現更優質語音辨識的真正關鍵，”他說，“所謂的‘智慧就在于云端可能持續作為關鍵應用，而本地處理則可以提高對于簡單/預定義片語的辨識能力。

他以Cypheras為例表示，這一類的軟體供應商將有利于智慧家庭系統（如Alexa）中的語音辨識功能。

競爭日益加劇

從供應商來看，目前有幾家提供微控制器和連接用ASSP的供應商可能在此領域展開競爭，包括Apple、博通、賽普拉斯、微芯科技、恩智浦、瑞薩、意法半導體以及芯科科技等。Boustany表示，802.11n與BT 4.0的組合并不常見，但有些設計針對較低成本的解決方案或許將會只用藍牙。

媒體處理器較為棘手。雖然多家行動裝置應用處理器供應商都可提供，但對于簡單的應用來說成本太高。根據Hackenberg的觀察，供應商們可能會選擇不提供性能相當的DSP或模式匹配功能。

Boustany還表示，可能會考慮采用Apple Ax、Broadcom BCM7xxxx、海思（Hisilicon） Hi3xxx、NXP i.MX、聯發科MT8xxx、意法STIHxxx、高通（Qualcomm）Snapdragon等。當然，TI或許在成本方面具有最佳DSP支援（對于語音辨識至關重要）的優勢，但其他的這幾家供應商也在不斷地縮小差距中。

XMOS相信該公司將在這個市場上獲得動能。對于諸如Echo這一類的語音助理產品，提高性能的關鍵在于遠場語音擷取能力、波束成型與處理速度等。

Neil認為，憑借著大量的處理能力和嵌入式DSP，XMOS單晶片元件提供了可擴展和差異化的解決方案。