
電池升級,場景拓展
這次系統率先升級的主要是三款產品:天貓精靈CC10電池版、天貓精靈CC MINI和IN糖2智能像素屏音箱,我們首先入手的還是把玩過很多次的天貓精靈CC10電池版。比起之前的天貓精靈CC10,天貓精靈CC10電池版家庭智慧屏最大的提升便是植入了一塊5000mAh超大電芯,可貴的是,整個體積沒有絲毫變化,后仰式L形造型靈動穩重,也非常節省占地空間。電池的植入,讓這款智能家居的交互入口不再懼怕停電的困擾,在全屋移動使用的特性也大大擴展了它的應用場景。作為家庭助手,它能夠在從書房到臥室的過程中依舊實現全程控制,也可以在廚房或餐桌上成為主婦的最愛,不論何處都能滿足全家人的交互所需,而且還具備一定的戶外屬性。比如在郊外遠足或駕車旅行時,借助手機熱點,天貓精靈依舊可以全天候地收看豐富的內容資源。而且其大電池的設計完全可以輕松滿足數小時的影片觀看。
解讀多模態交互
在之前的CC10版本上,我們便能通過語音、觸控等方式實現交互,如今搭載全新系統的CC10支持“唇動喚醒”、“揮手喚醒”等喚醒方式,而用戶則不需再喊出“天貓精靈”的喚醒詞便能與其進行直接交互,加上全領域應用的全雙工自然對話技術,讓人和機器的交流過程全面“擬人化”。
縱觀近兩年的智能音箱產品,交互方式依舊有限,基本停留在語音、觸控之上,而且業界的研究步伐基本上停留在解決視覺、語音等單一模態的交互精準度問題上。形成這樣的局面其實很好理解,在一個上升市場上,采用成熟方案便能掙到錢,似乎開發提升用戶體驗的新功能便不那么必要。但是,在用戶體驗上能夠大膽突破的無一不是行業中的佼佼者——比如拿出iPhone的喬布斯。用過這么多的智能音箱之后,我經常會感受到智能音箱不夠聰明。答案其實很簡單:在當前的人工智能水準下,單方面提升單一模態的識別準確度并不那么有效,特別是機器學習需要過程,用戶使用習慣千差萬別的情況下。以語音交互為例,并不是機器的計算力不夠,而是機器不知道何時該“聽”,何時該“看”,導致無法接收到有效的信息,才會給出“笨拙”的決策和反饋。以往我們總是通過喚醒詞來提示機器,這樣的交互不僅機械化,而且經常出現我上述提及的尷尬狀況。
在天貓精靈之上開啟多模態“自然喚醒”的功能后,只需要盯著機器張嘴說話,天貓精靈會自動識別出用戶的唇動、眼神朝向、表情動作等視覺信息,對照用戶語音便能做出準確的反饋,而不需要喚醒詞的幫助。雖然真實生活場景中,還會受到人臉距離、光線等因素的影響,但是它開創了人機交互“自然喚醒”的一個新的里程碑。升級到5.0的AliGenie系統,正是智慧家庭領域的破冰者。這是智能音箱(智慧屏)上首次將唇動、手勢、語音語義等多種形態的交互信息融合在一起,通過機器的深度學習和多模態感知的方式來理解用戶的交互意圖,并及時給出反饋的創舉。而這樣的創新誕生于阿里旗下其實并不奇怪,“巨大投入+突破性思維”正是阿里巴巴一直以來在各個領域占據高點的基礎。應用在天貓精靈CC10電池版上的AliGenie5.0系統,正是業內第一次把“多模態喚醒”從概念落地到了使用場景,也是業內首次應用在消費電子產品上。
唇動喚醒是什么黑科技
在理解了多模態喚醒概念后,我們再來看看天貓精靈CC10電池版所擅長的唇動喚醒功能。其實這個功能已經充分考慮到用戶的使用場景,將識別范圍分成了“近場、中場、遠場”。在1米左右的距離下,適用于唇動識別;在1~1.5米的距離下,適于揮手喚醒,其實也就是模擬人們見面打招呼的形式,揮手即可說話;而在遠距離下,還是采用傳統的語音喚醒詞“天貓精靈”。
還有一點非常有意思的是,用戶還要可以通過手勢隔空操控CC10,比如上一個、下一個、暫停、播放、點贊、退出、靜音等操作,比如對著機器比劃“噓”的手勢,就可以馬上讓天貓精靈靜音,是不是非常人性化!
天貓精靈的團隊反饋中提及,融合嘴唇、語音的動態信息識別,在免喚醒的對話情景下,能夠幫助機器過濾掉90%以上的環境背景干擾信息,多模態唇動喚醒的整體準確率可在實驗場景下達到99%。在實際使用中,只要在光線充分的情況、周圍噪聲不太大的情況下(測試環境50~60dB的噪聲),CC10幾乎毫無誤差的識別我的每一個語音命令,而以前使用過的智能音箱或多或少會有識別不準的情況。
令人意外的用戶反饋
在收到植入了AliGenie5.0的CC10之后,我將其推薦給數位發燒用戶。除了一位全職媽媽對其贊不絕口之外,她做設計師的先生也對天貓精靈給予了好評。他的意見是這種有親和力、高度擬人化的交互產品非常適合手上經常不得空閑的他使用;而另一位理科直男更是詢問我能否為公司的會議系統開發這樣高效的交互產品,目前使用的會議系統價格不菲,而且交互識別率遠遠不如天貓精靈。
其實我的感受也與這幾位朋友相同,天貓精靈的多模態交互其實遠遠不止于應用在家庭之中,在商用領域上也有著巨大的應用前景。