

摘? 要:以語(yǔ)音交互的基本原理為基礎(chǔ),通過(guò)分析其關(guān)鍵問(wèn)題,從用戶(hù)體驗(yàn)層面對(duì)人工智能操作時(shí)代的交互設(shè)計(jì)模式創(chuàng)新進(jìn)行探尋,對(duì)AI技術(shù)驅(qū)動(dòng)下的智能語(yǔ)音交互設(shè)計(jì)框架創(chuàng)新進(jìn)行推導(dǎo)。其研究對(duì)推動(dòng)語(yǔ)音交互技術(shù)進(jìn)步和整個(gè)人工智能產(chǎn)業(yè)的前行具有重要意義。
關(guān)鍵詞:語(yǔ)音交互;多維交互;AI智能
中圖分類(lèi)號(hào):TP391? ? ? ? ?文獻(xiàn)識(shí)別碼:A? ? ? ?文章編號(hào):2095-2945(2019)29-0035-02
Abstract: Based on the basic principle of voice interaction, through the analysis of its key problems, this paper explores the innovation of interaction design pattern in the era of artificial intelligence operation from the level of user experience. The innovation of intelligent voice interaction design framework driven by AI technology is deduced. Its research is of great significance to promote the progress of voice interaction technology and the progress of the whole artificial intelligence industry.
Keywords: voice interaction; multidimensional interaction; AI technology
導(dǎo)語(yǔ)
在長(zhǎng)達(dá)70年的人機(jī)交互發(fā)展史中,從基于代碼的命令行界面到基于鼠標(biāo)鍵盤(pán)的圖形用戶(hù)界面到基于觸摸屏的無(wú)形用戶(hù)界面,人機(jī)交互介質(zhì)和方式隨著技術(shù)革新發(fā)生變化。無(wú)形用戶(hù)界面(NUI)需要用戶(hù)以最自然的交流方式與機(jī)器互動(dòng),這離不開(kāi)利用人類(lèi)本能的感覺(jué)通道進(jìn)行信息傳遞和交流互動(dòng)。在人類(lèi)的聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)、嗅覺(jué)、味覺(jué)5個(gè)通道中,視覺(jué)通道占據(jù)最主要位置,聽(tīng)覺(jué)通道其次,而在信息傳遞中聽(tīng)覺(jué)語(yǔ)言的綜合利用率遠(yuǎn)高于視覺(jué)符號(hào),所以,更趨近人類(lèi)本能的交互方式——語(yǔ)音交互受到廣泛關(guān)注。谷歌(Google Home)、亞馬遜(echo)天貓精靈、小愛(ài)音箱等智能語(yǔ)音產(chǎn)品呈現(xiàn)井噴式增長(zhǎng),智能語(yǔ)音產(chǎn)品的需求也越來(lái)越旺盛,不僅改變了人類(lèi)的生活方式,在智慧醫(yī)療、智慧農(nóng)業(yè)、智能制造領(lǐng)域的應(yīng)用正蓄勢(shì)待發(fā)。
1 語(yǔ)音交互基礎(chǔ)
自上世紀(jì)90年代,語(yǔ)音交互經(jīng)歷了第一個(gè)非特定人的語(yǔ)音識(shí)別系統(tǒng)的誕生到IVR互動(dòng)式語(yǔ)音應(yīng)答系統(tǒng)的規(guī)模應(yīng)用再到AI時(shí)代的智能語(yǔ)音識(shí)別的過(guò)程。進(jìn)入AI時(shí)代后,人工智能技術(shù)賦能機(jī)器感知能力、認(rèn)知能力和語(yǔ)言表達(dá)能力。具象地說(shuō),就是機(jī)器能聽(tīng)、能辨、能說(shuō),用戶(hù)與機(jī)器的互動(dòng)如同與老友般自然地交流,這將人機(jī)交互帶入新的階段。
這種最自然的人機(jī)交互方式顯現(xiàn)出以下優(yōu)點(diǎn):(1)輸入速度提升。語(yǔ)音輸入速度遠(yuǎn)快于手寫(xiě)或打字速度;(2)降低輸入學(xué)習(xí)成本。有的用戶(hù)不會(huì)使用輸入法、有的用戶(hù)提筆忘字,但絕大部分用戶(hù)都會(huì)說(shuō)話,說(shuō)話是每個(gè)人的天性;(3)簡(jiǎn)化操作方式。語(yǔ)音喚醒和語(yǔ)音輸入的組合使用,讓用戶(hù)的使用場(chǎng)景更簡(jiǎn)潔。如果你正在開(kāi)車(chē),你只需要對(duì)著機(jī)器說(shuō)話即可完成操作任務(wù);(4)提高機(jī)器情感特征。機(jī)器可以通過(guò)編程調(diào)節(jié)語(yǔ)音、語(yǔ)速、音調(diào)等模仿人的說(shuō)話時(shí)的真實(shí)情景,語(yǔ)音比文字更容易讓用戶(hù)體會(huì)情感。
也具有相對(duì)局限性:(1)環(huán)境要求高。語(yǔ)音輸入對(duì)周?chē)h(huán)境聲音要求較高,在公眾場(chǎng)合或嘈雜環(huán)境中會(huì)降低語(yǔ)音輸入的準(zhǔn)確度,同時(shí),在公眾場(chǎng)合使用語(yǔ)音輸入還容易泄露隱私;(2)用戶(hù)適應(yīng)程度低。習(xí)慣了鍵盤(pán)輸入,改為語(yǔ)音輸入,加之目前的機(jī)器識(shí)別技術(shù)還并未完善,導(dǎo)致用戶(hù)內(nèi)心抵觸語(yǔ)音輸入,同時(shí),打字也能為一部分用戶(hù)帶來(lái)心理愉悅感。
2 語(yǔ)音交互過(guò)程及關(guān)鍵問(wèn)題
語(yǔ)音交互的過(guò)程是機(jī)器接受用戶(hù)的語(yǔ)音信號(hào),將其轉(zhuǎn)化為計(jì)算機(jī)語(yǔ)言并對(duì)其進(jìn)行語(yǔ)義認(rèn)知解析,再喚醒對(duì)應(yīng)領(lǐng)域的內(nèi)容、信息等功能,經(jīng)過(guò)人聲合成,最后反饋給用戶(hù)。
在此過(guò)程中,面臨兩大關(guān)鍵問(wèn)題:(1)機(jī)器對(duì)用戶(hù)意圖的理解;(2)機(jī)器對(duì)用戶(hù)的反饋提升。具體來(lái)說(shuō),就是語(yǔ)音識(shí)別技術(shù)將用戶(hù)的語(yǔ)音轉(zhuǎn)化為文本信號(hào),通過(guò)技術(shù)分析理解用戶(hù)需求,但用戶(hù)語(yǔ)言與用戶(hù)語(yǔ)義之間存在復(fù)雜關(guān)聯(lián),用戶(hù)語(yǔ)義高度依賴(lài)會(huì)話語(yǔ)境,這使得計(jì)算機(jī)單純分析詞匯和語(yǔ)法無(wú)法準(zhǔn)確識(shí)別用戶(hù)語(yǔ)義,從而降低語(yǔ)音交互的智能體驗(yàn)感,如圖1所示。同時(shí),機(jī)器對(duì)用戶(hù)的正確反饋,決定用戶(hù)的交互體驗(yàn),正確反饋不僅依賴(lài)語(yǔ)音識(shí)別技術(shù)的進(jìn)步,還來(lái)源于機(jī)器的反饋交互,但對(duì)話式交互中生硬的語(yǔ)音反饋會(huì)削弱機(jī)器的“人性”,使用戶(hù)心理產(chǎn)生距離感。
3 語(yǔ)音交互設(shè)計(jì)框架
語(yǔ)音交互設(shè)計(jì)是一項(xiàng)交叉技術(shù),需要設(shè)計(jì)師了解用戶(hù)的語(yǔ)言本質(zhì)和機(jī)器的語(yǔ)言邏輯,在用戶(hù)參與設(shè)計(jì)的前提下,不斷完善語(yǔ)音交互的輸入——處理——輸出的交互設(shè)計(jì)流程。語(yǔ)音交互是交互設(shè)計(jì)的一種重要方式,同樣需要遵循交互設(shè)計(jì)的常用步驟。需要設(shè)計(jì)者在以人為中心(用戶(hù)參與為向?qū)В┑那疤嵯拢瑢?duì)交互產(chǎn)品進(jìn)行初步設(shè)計(jì)構(gòu)想,并在不斷的程序開(kāi)發(fā)和實(shí)際評(píng)估過(guò)程中完善交互流程。
智能產(chǎn)品的語(yǔ)音交互設(shè)計(jì)離不開(kāi)“以用戶(hù)為中心”的思維,由上文提到的其兩大關(guān)鍵問(wèn)題,在設(shè)計(jì)過(guò)程中應(yīng)著重增加用戶(hù)參與性研究。
智能語(yǔ)音交互方式與屏幕交互方式相比較,具體有如下特征:從產(chǎn)品導(dǎo)向轉(zhuǎn)變?yōu)檫^(guò)程導(dǎo)向;從屏內(nèi)交互轉(zhuǎn)變?yōu)槠镣饨换?從實(shí)體體驗(yàn)轉(zhuǎn)變?yōu)樘摂M體驗(yàn);從機(jī)器邏輯轉(zhuǎn)變?yōu)橛脩?hù)邏輯;從用戶(hù)行為設(shè)計(jì)轉(zhuǎn)變?yōu)闄C(jī)器行為設(shè)計(jì);從識(shí)別用戶(hù)行為轉(zhuǎn)變?yōu)槔斫庥脩?hù)意圖;從用戶(hù)與設(shè)計(jì)師合作行動(dòng)式的情景預(yù)演方法轉(zhuǎn)變?yōu)橛脩?hù)與設(shè)計(jì)師與語(yǔ)言學(xué)者共創(chuàng)探索式的語(yǔ)境預(yù)演方法;從設(shè)計(jì)師參與式轉(zhuǎn)變?yōu)樵O(shè)計(jì)師決策式。[1]語(yǔ)音交互設(shè)計(jì)框架如圖2所示。
4 語(yǔ)音交互的任務(wù)
對(duì)應(yīng)語(yǔ)音交互的關(guān)鍵問(wèn)題及設(shè)計(jì)框架,智能語(yǔ)音交互的任務(wù)分為兩個(gè)關(guān)鍵部分,即分析用戶(hù)意圖、設(shè)計(jì)機(jī)器反饋。語(yǔ)音交互階段任務(wù)如圖3所示。
分析用戶(hù)意圖:語(yǔ)音識(shí)別技術(shù)將用戶(hù)的語(yǔ)音轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的文本代碼,計(jì)算機(jī)通過(guò)語(yǔ)法特征分析詞句關(guān)系,理解用戶(hù)意圖。但是,在實(shí)際的對(duì)話世界中,用戶(hù)需求和用戶(hù)語(yǔ)言之間存在復(fù)雜的情景關(guān)聯(lián)。比如,用戶(hù)詢(xún)問(wèn),“今天天氣如何?”有些用戶(hù)關(guān)注點(diǎn)可能是是否會(huì)下雨;有些用戶(hù)關(guān)注點(diǎn)則可能是是否要防曬;有些用戶(hù)想要知道溫度如何。這是一種高度依賴(lài)語(yǔ)境和用戶(hù)語(yǔ)音習(xí)慣的語(yǔ)義通道,無(wú)法從單純分析字詞和語(yǔ)法而獲得用戶(hù)需求,無(wú)法完全依靠計(jì)算機(jī)的機(jī)器學(xué)習(xí)能力而獲得,此時(shí),需要語(yǔ)音交互設(shè)計(jì)師的輔助工作。
設(shè)計(jì)機(jī)器反饋:用戶(hù)對(duì)機(jī)器輸入語(yǔ)音后,如何得知機(jī)器理解了自己的完整意圖呢?這取決于用戶(hù)是否得到了合理的機(jī)器反饋。合理的機(jī)器反饋來(lái)源于:(1)正確理解用戶(hù)意圖;(2)以用戶(hù)易于接受的方式反饋,即需要具備“人格化”特征。
5 結(jié)束語(yǔ)
語(yǔ)音交互設(shè)計(jì)是一個(gè)雙向系統(tǒng)研究模式,包含用戶(hù)輸入和機(jī)器輸出的雙層交互系統(tǒng),而這兩者都依賴(lài)于計(jì)算機(jī)的計(jì)算能力。所以,語(yǔ)音交互設(shè)計(jì)對(duì)設(shè)計(jì)師提出了更高的技術(shù)層面的要求和語(yǔ)言基礎(chǔ)知識(shí)的挑戰(zhàn)。[2]傳統(tǒng)的交互設(shè)計(jì)需要用戶(hù)付出學(xué)習(xí)時(shí)間,而語(yǔ)音交互則需要計(jì)算機(jī)順應(yīng)用戶(hù)邏輯。我們都知道,交互設(shè)計(jì)是物理邏輯和行為邏輯間的溝通橋梁,語(yǔ)音交互也不例外,但需求更迫切,要求更高,其設(shè)計(jì)方法的研究還有待進(jìn)一步開(kāi)展。
參考文獻(xiàn):
[1]王希.信息產(chǎn)品設(shè)計(jì)中的視覺(jué)品牌基因塑造策略[J].科技創(chuàng)新與應(yīng)用,2019(15):27-28.
[2]羅仕鑒.服務(wù)設(shè)計(jì)驅(qū)動(dòng)下的模式創(chuàng)新[J].包裝工程,2015(06):1-4.
[3]魯曉波.信息設(shè)計(jì)中的交互設(shè)計(jì)方法[J].科技導(dǎo)報(bào),2007(13):18-21.