智能家庭場景下語音用戶界面交互設計研究

2019-06-11 09:56:37吳宇吳聞宇

工業(yè)設計 2019年1期

吳宇吳聞宇

摘要：科技的發(fā)展不斷豐富了家庭生活體驗的可能性，人們對更高生活品質的追求也使得智能家居正在逐步占領家居市場并發(fā)展成為主流，國內外各大廠商都在蜂擁擠入智能語音產品領域，而VUI（Voice User Interface，語音用戶界面）作為一種更自然的交互方式也在快速發(fā)展。文章闡述了語音用戶界面交互特點，并對VUI與GUI在使用場董;及交互方式等方面的優(yōu)劣勢進行對比。提出智能家庭場瑟;下以語交互為核心功能的界面設計方法，并探討語音交互的設計難點及挑戰(zhàn)。

關鍵詞：智能家居;語音用戶界面;語音交互設計;體驗設計

中圖分類號：J524 文獻標識碼：A

文章編碼：1672-7053（2019）01-0140-02

當語音交互、智能匹配和個性化推薦成為新一代的主流交互方式時，以APP為核心的智能家居生態(tài)將經歷從移動互聯(lián)到智能物聯(lián)的轉變。如Amazon Echo和Google Home之類的具備語音功能的家庭助理設備，也在逐漸成為智能家居的控制入口。借助語音，這些設備可幫助用戶控制燈光、定時、播放音樂、查詢天氣等。設備只是載體，決定其產品體驗核心的是背后的語音交互體驗，也是產品價值體現的重要環(huán)節(jié)[1]。作為自然人機交互方式的一種，語音交互是現階段交互形式的創(chuàng)新點[2]，在近年來越來越多地被運用到了智能家居交互場景之中，而對于智能家居場景下語音用戶界面交互設計方法、流程的研究相對匱乏。已有研究更多的是從技術的角度審視智能家居，缺乏從用戶體驗角度對語音用戶界面交互設計的探討，因此語音交互設計需要針對特定場景，做功能與交互體驗的區(qū)別設計。

1 語音用戶界面簡述

VUI（Voice User Interface，語音用戶界面）第一個重要時期起源于20世紀90年代交互式語音應答（Interactive Voice Response，IVR）系統(tǒng)的出現，該系統(tǒng)可通過電話線路理解人說的話并執(zhí)行相應的任務，借此人們可以進行票務預訂、排片查詢、交通信息查詢等操作，到21世紀初，IVR系統(tǒng)已成為主流[3]。

如今我們已處在VUI的第二個時期。各大公司都已推出了自己的語音助手，如微軟的Cortana，谷歌的Google Now，蘋果的Siri，這類集成了視覺和語音信息的載體，可允許用戶同時使用語音和屏幕進行交互，如圖1。自從2014年亞馬遜發(fā)布Echo，智能音箱市場的序幕便被拉開，后續(xù)谷歌推出Google Home，蘋果發(fā)布Home Pod，如圖2。國內相繼推出天貓精靈、若琪、小愛等。除家居互聯(lián)、天氣查詢、音樂播放、對話功能外，各家公司也在不斷深入細化場景，結合定位進行差異化設計，以提升產品附加值，更好地搶占市場份額。

2 VUI和GUI優(yōu)缺點分析

作為兩種主流用戶界面交互方式，VUI和GUI各有所長，也有因其交互形式和特點帶來的劣勢，以下對兩種交互方式的優(yōu)缺點進行對比。

2.1 VUI的主要優(yōu)勢

1）自然直覺性。用語言表達想法是人類的一種本能反應，無論對技術是否了解，絕大多數人都知道自然地進行語言回復，使用VUI可降低用戶學習成本。

2）釋放雙手。在特定場景下，如駕車、做飯、或設備暫時不在手邊時，通過語音輸入可以更加快捷方便地獲取想要的信息，在這種場景下使用VUI比手動輸入圖形化輸出更加合適。

3）無邊界感。GUI是一種預設路徑的交互方式，在相對固定的結構中，引導用戶沿著規(guī)劃好的路徑完成操作。此外，有限的界面顯示能力要求對信息進行分層，在無形中提高了用戶的理解成本。而VUI允許人們使用更加真實自然的表達來獲取反饋，交互流程更加直接，突破了界面層級的限制。

2.2 VUI的主要劣勢

1）輸入輸出和理解的不確定性。 GUI對輸入行為進行了統(tǒng)一，用戶輸入文字呈現在界面上，執(zhí)行動作與返回信息比較確定。而語音交互流程涉及到語音識別（ASR）、自然語言理解（NLU）、對話管理（DM）、自然語言生成（NLG）、語音合成（TTS）等環(huán)節(jié)，用戶輸入內容、系統(tǒng)理解能力的不確定性會導致輸出反饋的不確定性，從而影響用戶體驗。圖3為語音交互技術流程。

2）使用場景有限。VUI在使用時易受環(huán)境、使用場景的限制。在遠場或噪音干擾下語音識別準確率會有所下降。而在一些公共場所中，使用GUI的文字信息模式會更加合適，也會更好地保護用戶隱私。

通過對比發(fā)現，GUI在信息層級清晰性和場景通用性方面更具優(yōu)勢，相較于VUI點狀獲取信息的方式更為高效。而VUI作為一種自然的交互方式，交互體驗更具情感和溫度。兩種方式需互相協(xié)作。

3 智能家庭語音交互界面設計建議

智能家庭場景具有語音信號相對穩(wěn)定、環(huán)境相對安全、用戶各異、需求多樣等特點。雖然目前一些通用的用戶界面設計原則仍適用于VUI系統(tǒng)，但語音交互用戶的輸入是沒有邊界的，從“無形”到“有形”的設計，需在方法和流程上做更專業(yè)和系統(tǒng)的歸納總結。Amazon及Google都已提出了較成熟的VUI交互設計規(guī)范，下面主要針對智能家庭場景提出設計建議。

3.1 人物模型設定

VUI中的人物模型類似小說電影中的“人設”，作為用戶與之溝通的對象，其語氣、音量、語調、語速、性格等特征是用戶接觸的第一感受，人格化的VUI能夠使情感傳遞更具真實性。Amazon Echo定義了虛擬的成熟職業(yè)女性形象，小米智能音箱將二次元形象的小愛同學進行了實體化，無論VUI系統(tǒng)是否有諸如虛擬形象的可視化組件，都需要一個人物模型。在定義人物模型日寸需考慮以下幾點。

1）保持人物模型的一致性。在設計人物模型時，需避免人格特征的過度設計。對于一些相對通用的產品或使用場景，人格設定應盡量含蓄，避免與產品產生不協(xié)調的感覺，導致用戶對產品的信任感降低。保持人物模型一致性也可以給用戶一定的心理預期，得以預測接下來會發(fā)生什么[4]。

2）虛擬形象抽象化。虛擬助理是最常見的虛擬形象之一，如微軟Office早期的虛擬助理Clippy、小米智能音箱的小愛同學等。但虛擬角色并不是提供視覺反饋的唯一方式，許多成功的VUI助理并沒有具象化的虛擬形象，如Google、Siri、Cortanao抽象的視覺反饋同樣能夠有效傳達VUI何時在傾聽、思考、或無法理解用戶輸入的信息。如圖4，微軟Cortana的視覺化“情緒”，在不同情感狀態(tài)下，通過不同形態(tài)的藍色圓圈來對不同的問題進行回復[5]。

3.2 擅用多通道交互

在場景豐富的家庭環(huán)境中，用戶多種感官通道易被同時占用，此時可通過視覺和語音的強關聯(lián)性來強化語音交互。對于一些較為復雜的信息（例如長列表、地圖），可利用視覺通道信息的優(yōu)勢，通過可視化媒介進行語音確認。以智能音箱的喚醒反饋方式為例，分別對比小愛同學、叮咚、天貓精靈的喚醒反饋方式，結果評價顯示用戶最傾向于小愛同學“簡明燈光+簡短提示音”的喚醒反饋形式。雖然燈光反饋可更加直接地告知用戶系統(tǒng)運轉良好，但在家庭場景中，很可能用戶在低頭、看向其他方向時沒有注意到提示燈亮起而錯過喚醒時間，因此需要兩者結合。

3.3 預防錯誤和及時更正

雖然語音識別技術現已有大幅提升，但由于語音輸入的交互流程相較于GUI更加自然，也就意味著系統(tǒng)將會收到用戶大量無用的語音輸入信息，因此應尺量設計能避免用戶輸入錯誤語音的流程，以及預測用戶可能出現的錯誤并及時提示用戶糾正。

1）不要責怪用戶。VUI可能出錯的情況都多種，如未監(jiān)測到語音、監(jiān)測到語音但未識別、語音未被正確識別等。當遇到這種情況時，首要遵循的原則是在任何時候都不要責怪用戶。責怪性的消息會影響用戶對系統(tǒng)的看法，甚至影響用戶的行為表現。

2）增強錯誤提示。使用錯誤提示策略可以引導用戶正確輸入系統(tǒng)所需信息，如使用“抱歉，我沒聽清，請再說一遍您所在的城市”而不是“抱歉，我沒聽清，請再說一遍”。進階錯誤行為提示可為用戶提供更為詳細的幫助。

3.4 關注不同場景下的差異化需求

不同的家居場景下用戶對語音界面交互功能的需求有差異。以智能音箱提醒的響起方式為例，在起床場景中，用戶需要從睡眠狀態(tài)被喚醒;而當用戶在清醒狀態(tài)下集中注意在其他事項上時，需求就變?yōu)樽⒁馊蝿盏霓D換，兩類應用場景下，提醒響起到提醒關閉的流程便有所不同。

4 結語

綜上所述，可以看到語音用戶界面交互設計在智能家庭領域有廣闊的研究前景，但語音交互發(fā)展至今，還有許多技術邊界導致其仍未達到成熟應用的水平，遇到的挑戰(zhàn)貫穿整個設計流程：如噪音干擾下的語音識別準確率有待提升;由于AI目前還不能做到很好地聯(lián)系上下文、缺少人類普遍了解的常識，無法準確識別用戶意圖來進行持續(xù)交談。這些問題都需技術層面的不斷完善。而從用戶對智能語音產品的評價中發(fā)現，用戶對智能語音產品的認知仍信心不高，因此市場和用戶也需要一段時間去教育。在形成系統(tǒng)規(guī)范的語音交互設計方法和流程上，也需要更加專業(yè)的歸納。

本文系東南大學教學改革基金項目（5202007110）。

參考文獻

[1]潘越.淺析物聯(lián)網時代下的交互設計[J].設計，2017（3）.

[2]沙強，孫婷婷.次任務駕駛中智能語音交互行為體驗[J].設計，2016（11）：22-23.

[3]Cathy Pearl.語音用戶界面設計：對話式體驗設計原則[M].王一行譯.北京：電子工業(yè)出版社，2018.

[4]Isbister，K，&Nass，C..（2000）.Consistency of personality in interactive characters：verbalcues，non-verbal cues，and user characteristics.International Journal of Human-ComputerStudies，53（2）：251-267.

[5]Ash M.（2015）.How Cortana Comes to Life in Windows 10.http：//bloqs.windows.com/.2018.