面向老年人認知的語音交互設計分析

2019-11-04 03:50:37倪亞楠

工業設計 2019年9期

倪亞楠

關鍵詞：老年人;語音交互;設計

過去四十年，人與機器的交互方式在不斷朝著智能化、自然化的方向發展。隨著人工智能研究在理論和應用層面的不斷突破，語音交互逐漸成為人們與設備進行交流和傳遞意圖的優先選擇。與傳統交互相比，語音交互更貼近自然語言的表達，學習成本極低，可以很好地解放雙手和雙眼。語言是多維的，它在傳遞信息的同時也蘊含著豐富情感，允許人與設備之間進行更充分地互動。結合當下智能語音的技術能力，在一些具體的互聯網使用場景中，它已經能夠很好地適應老年群體在生理能力與認知特性方面的不足。

1老年人認知特性及互聯網介入分析

老年人感知覺能力的退化，記憶、思維能力的老化，導致了他們對自我能力的評價與結果預期降低，從而對融入互聯網產生消極情緒和抗拒心理。另外，信息的爆發性增長使得界面變得臃腫不堪，不友好的界面加劇了兩者之間的疏離。

1.1感知覺退化與信息可達性

從界面交互所需的能力來看，老年人視覺感受性、靈敏度與色彩辨識力均逐漸下降，聽覺開始變得遲鈍，觸覺的敏感性與定位精準性也降低，這無疑加劇了老年人在對界面信息進行的輸入輸出環節的負擔。手機屏幕大小的局限性使得信息以更加密集的單位進行輸出，對人的感知覺能力提出了越來越高的要求。

1.2記憶、思維老化與感知易用性

隨著老年人記憶衰退與思維老化，同時缺乏互聯網使用經驗，他們在接入互聯網的過程中常常伴隨著很高的學習成本和記憶負擔，因而很容易在界面層級和交互動作中感到不知所措。目前，主流的交互設計規范定義了頁面交互的對象和方式、層級之間的關系和跳轉邏輯、功能模塊的聚合和指引等等。這些規范在易用性和美學上頗具說服力，但卻很少以老年群體作為測試標準（如圖1），老人不僅要熟記各類密碼，并且各種APP的名稱都相對圖標縮小化，對于視力惡化、記憶力衰退的老年人而言簡直是噩夢。

1.3消極情緒與自我效能

自我效能是社會認知理論中一個重要的認知動因，在互聯網環境中即是指個體完成特定界面交互任務的信心。由于老年人物理機能的退化，使得他們的自我效能降低，往往會高估互聯網的使用難度，從而產生十分消極的情緒。由此可見，提升老年人使用互聯網的信心，使其在交互過程中保持積極樂觀的情緒，都能很好地提升他們使用互聯網的意愿。

2語音交互技術現狀與應用趨勢

從計算機語言交互到圖形用戶界面交互，再到語音自然交互，人機交互一直朝著簡單、豐富、高效、自然的方向發展。

2.1語音交互技術現狀

伴隨著計算機技術和人工智能技術的進步，語音交互技術也經歷了從規則技術向統計學習再到深度學習技術的升級進化。深度對話技術借助大規模的深度神經網絡，顯著增強了對話系統的知識學習和應用能力，從而極大提升了語音交互的用戶體驗。

從功能實現角度，一套通用的語音交互系統包含如下環節（如圖2）：（1）語音識別：將用戶的語音表達經過自動化的識別，轉化成文字;（2）自然語言處理：分析用戶表達中的意圖，對任務型對話而言即提煉關鍵詞填進“詞槽”;（3）語音合成：將處理后的最佳結果轉化成自然語言，并合成語音，與用戶進行交互。

2.2語音交互技術的應用趨勢

2.2.1智能音箱興起

自2014年11月亞馬遜率先推出智能音箱Echo，引發全球智能音箱浪潮，隨后谷歌、蘋果、facebook等巨頭紛紛入場布局。在已成為僅次于美國的智能音箱第二大市場的中國，阿里巴巴的天貓精靈、百度的小度音箱、小米的小愛音箱占據了近九成市場份額。

值得注意的是，2017年谷歌推出了自己的帶屏智能音箱Echo show，之后天貓精靈和百度也相繼發布帶屏智能音箱產品（如圖3）。從語音向視覺延伸，在語音交互中融入可視化信息，已經是業界探索下一代語音交互范式的重要趨勢。

2.2.2語音交互與界面交互的融合趨勢

正如人工智能專家吳恩達指出的：人與機器交流最高效的方式是語言，而機器與人最高效的交流方式是語言加上視覺，即需要在聽覺基礎上融入視覺信息彌補語音交互的不足。

目前針對語音交互，并沒有統一的設計原則。因此，參照國內界面交互的設計原則，可總結為如下原則：（1）一致性：符合用戶心理，降低學習成本;（2）通用性：兼容多場景、多需求;（3）高效性：即時響應、有效提示;（4）清晰性：信息傳達準確無歧義;（5）角色為本：人文關懷與情感化。

結合語音交互的特征，其主要在高效性、一致性、角色為本上具備顯著優勢，具體包含：（1）釋放雙手，速度更快;（2）更貼近自然交互，學習成本極低;（3）情感關懷豐富;（4）突破界面限制。其劣勢主要有：（1）在現有技術條件下，信息的輸入輸出以及處理仍然具備不確定性;（2）缺乏實體支撐的語音，引導性與信息反饋均較弱，同時聽覺記憶性也更差。

3老年人語音交互產品的設計分析

語音和視覺結合的多通道交互形式，無法再用經典的界面交互范式（窗口、圖標、菜單、點擊設備）進行定義。對于語音交互系統而言，更加需要明確的是：語音交互對象的角色設定，交互過程中存在的交互模態、采用的交互命令，以及如何利用界面和語音對信息內容進行呈現。

3.1角色

角色是一個擬人化的形象，它的作用是提供智能交互的界面隱喻，清晰地訴說智能系統所能實現的功能，以及其能力的邊界，從而避免用戶不切實際的期待。此處我們可以將其定義為“網上沖浪助理”，所以它的功能便是引導并協助老年人完成一系列的上網任務，如網購、打車、社交聊天、收聽節目等。

角色另一個很重要的作用是人文關懷與情感化。目前，每一個開發智能音箱的公司都會根據其任務性質賦予該角色一個專屬的喚醒詞，以及特定的音色、音調和語速。這樣做的目的就是建立情感化的形象，占領用戶心智。如前所述，老年人接入互聯網的障礙中自我效能低是重要原因之一，因此該系統的語音形象應當語速較慢、聲音清晰洪亮。

3.2交互模態

當智能系統的交互形式不止一種時，就需要明確其所支持的交互模態，以及各個交互模態適用的場景。該智能助理目前支持語音輸入和觸摸輸入，兩者之間有時是獨立的，比如任務的開始往往是通過語音喚醒并用語音輸入任務;而有時又是兼容的，比如在多個搜索結果中進行確認的環節，既可以用觸摸確認也可以語音確認選擇“第幾個”。

3.3交互命令

對于語音交互模態，交互命令包括特定的喚醒詞，任務輸入環節中能被識別的關鍵詞，以及信息確認環節的瀏覽和選中指令。在學習階段，要多主動告知用戶智能助理支持的交互指令和相應的功能。對于觸摸交互模態，交互命令則是一系列點擊、滑動的動作。

3.4信息呈現方式

結合上文對語音交互與界面交互的優劣勢對比，在具體設計中，信息呈現方式需要有針對老年群體的適應性變化：（1）老年人的視力、聽力退化，信息獲取能力下降，而且不同老年人退化的程度不一。因此，界面的圖片、字體大小應當支持語音調節，并且調節后的排版依然適應畫面大小。同時，也需要有信息篩選的策略，比如在網購場景下，引導用戶提出更精確的指令，盡量只展示強相關的搜索結果，減少信息的冗余度。（2）老年人認知反應速度較慢，信息確認耗時較長。因此，信息輸入與展示上應當留有比普通智能系統更長的輸入等待時間，更長的信息確認時間;（3）老年人的普通話標準程度低，意圖表達過于口語化。這首先對語音識別的技術提出了比較大的考驗，此外語言本身就有歧義性和多樣性的特點，所以在產品設計層面需要更加主動的信息反饋機制來降低這種不確定性。例如，以排序的方式提供可能的任務結果供用戶選擇，并以圖文結合的方式呈現出來。對于過于模糊的任務，則可以請求用戶組織語言重新輸入。

4結語

語音交互與界面交互的“視聽融合”，不僅是下一代智能音箱產品的發展趨勢，同時也將大大拓寬語音交互的使用人群和使用場景。在語音技術的能力范圍內，設計者采取主動的設計策略幫助老年人接入互聯網，不僅可以提高老年人的生活水平和便捷程度，從社會和經濟層面也能挖掘老年群體的消費潛力，并大大提高他們的生活自理能力。