

未來(lái)的智能人機(jī)交互技術(shù)可以幫助人類(lèi)從更多繁重的工作中解脫出來(lái)。實(shí)現(xiàn)真正的心的自由。
鍵盤(pán)主導(dǎo)了DOS,Mac和Windows設(shè)備則更依賴(lài)鼠標(biāo),多點(diǎn)觸控成就了iPhone,Kinect讓Xbox360走火,一種人機(jī)交互技術(shù)的革新往往能夠影響一個(gè)產(chǎn)業(yè)。
在全球科技界,人機(jī)交互仍然是創(chuàng)新的熱點(diǎn)領(lǐng)域,其創(chuàng)新應(yīng)用出現(xiàn)在不少熱門(mén)科技產(chǎn)品之中。例如Siri就讓蘋(píng)果iPhone“有問(wèn)必答、能聽(tīng)會(huì)說(shuō)”,微軟Kinect使體感操控成為現(xiàn)實(shí),很多智能電視產(chǎn)品也加入了語(yǔ)音識(shí)別和體感操控的功能。
人機(jī)交互的方式上也日益多元化。英國(guó)的一家科技團(tuán)隊(duì)正在嘗試創(chuàng)建一個(gè)工具,使其能將一套標(biāo)準(zhǔn)手勢(shì)實(shí)時(shí)翻譯成文字。這個(gè)工具被稱(chēng)作“便攜式手語(yǔ)翻譯(Portable Sign language Transhto)”。手語(yǔ)使用者只需對(duì)著手機(jī)或電腦攝像頭做出手勢(shì),該工具就可以立即基于數(shù)據(jù)庫(kù)將其翻譯成文本。他們現(xiàn)在準(zhǔn)備支持英國(guó)手語(yǔ),但這套系統(tǒng)完全可以用于處理美國(guó)手語(yǔ)(ASL)、默啟通手語(yǔ)(Makaton)、國(guó)際語(yǔ)言以及字母等。對(duì)于殘障人士是很大的幫助。
如今智能人機(jī)交互的應(yīng)用越來(lái)越廣泛,“花樣”也越來(lái)越多。
Mirage Table:真人與虛擬影像的互動(dòng)
由微軟推出的Mirage Table(幻影桌面)是一項(xiàng)頗為神奇的技術(shù),它將兩臺(tái)3D投影儀、Kinect體感監(jiān)測(cè)儀、3D眼鏡以及人的動(dòng)作結(jié)合在一起,打造出一個(gè)真人和影像互動(dòng)的效果。通過(guò)Mirage Table,人們的所有動(dòng)作都會(huì)被Kinecc捕捉并轉(zhuǎn)化稱(chēng)3D影像,然后和已有的3D物品進(jìn)行交互,比如用手移動(dòng)影像中的多米諾骨牌、皮球等。同時(shí)一個(gè)實(shí)體物品可以通過(guò)虛擬影像復(fù)制出多個(gè),也可以將移動(dòng)虛擬物品到任何位置。
用戶(hù)只需要佩戴3D眼鏡就可以看到Mirage Table上3D投影的圖像。曲面設(shè)計(jì)可以讓操作者通過(guò)投影儀來(lái)與虛擬畫(huà)面實(shí)現(xiàn)互動(dòng)交流,就像打保齡球一樣。“Mirage Table”還可以實(shí)現(xiàn)人與人之間的雙向?qū)懽鳎ㄟ^(guò)Miragetable,兩個(gè)操作者不僅可以看到對(duì)方并談話(huà),而且一個(gè)人可以與視頻中另一個(gè)人的虛擬對(duì)象進(jìn)行互動(dòng)交流,甚至可以“觸摸”虛擬對(duì)象。還可以一起下象棋、搭積木,甚至研究一些比較復(fù)雜的項(xiàng)目方案等。
如果說(shuō)AR(增強(qiáng)現(xiàn)實(shí))技術(shù)可以在現(xiàn)實(shí)的基礎(chǔ)上模擬出虛擬場(chǎng)景,讓人進(jìn)入虛擬版的現(xiàn)實(shí)世界,那么Mirage Table則可以將用戶(hù)帶入一個(gè)虛擬的世界,想象一下,如果未來(lái)所有的網(wǎng)絡(luò)游戲都可以將用戶(hù)融入其中,在虛擬環(huán)境下直接操作,使用新奇的裝備,實(shí)現(xiàn)驚艷的特效,世界將會(huì)變得多么神奇!
基于Kinect的操控創(chuàng)新
微軟推出的Xbox 360體感外設(shè)Kinect很受用戶(hù)歡迎,但是它的意義并不僅僅是游戲外設(shè),而在于對(duì)^機(jī)交互方式的探索和創(chuàng)新。正因?yàn)槿绱耍琄inect技術(shù)才能被廣泛應(yīng)用到其他創(chuàng)新產(chǎn)品之中,成為智能人機(jī)交互的經(jīng)典產(chǎn)品。
國(guó)外一家專(zhuān)注于人機(jī)交互技術(shù)的創(chuàng)業(yè)公司3GearSystems利用微軟Kinect技術(shù),推出了SDK包,能夠幫助開(kāi)發(fā)者將手勢(shì)動(dòng)作反饋到應(yīng)用軟件之中。這套系統(tǒng)可以幫助3D建模人員更方便快捷地對(duì)模型進(jìn)行拼裝操作,操作過(guò)程可以在普通顯示器之上呈現(xiàn)。開(kāi)發(fā)者只需要購(gòu)買(mǎi)Kinect傳感器和固定裝置就可以在這款SDK包的基礎(chǔ)上,設(shè)計(jì)新的APP產(chǎn)品。
Kinect的作用還不止于此。Oblong實(shí)驗(yàn)室近期公布了一項(xiàng)科研成果,它將Kinect與Xbox上的IE瀏覽器結(jié)合起來(lái),脫離鼠標(biāo)來(lái)操作電腦屏幕,能夠?qū)崿F(xiàn)一系列復(fù)雜的操作,例如拖動(dòng)、擺放屏幕上的個(gè)體,對(duì)三維模型進(jìn)行旋轉(zhuǎn)、縮放,進(jìn)行復(fù)雜的命令操作,或者用手機(jī)、平板或遙控器來(lái)控制大屏幕,甚至可以多人玩游戲、通過(guò)手勢(shì)控制飛行器,在多個(gè)屏幕之間進(jìn)行無(wú)縫切換等。
微軟研究院聯(lián)合華盛頓大學(xué)也研發(fā)出了一種名為Sound Wave的系統(tǒng),該系統(tǒng)可利用計(jì)算機(jī)內(nèi)置的麥克風(fēng)和揚(yáng)聲器,提供與Kinect類(lèi)似的對(duì)象識(shí)別及手勢(shì)識(shí)別功能。sound Wave將計(jì)算機(jī)的內(nèi)置揚(yáng)聲器用做超聲波(18-22KHz)發(fā)射源,其頻率會(huì)隨著你的手或身體的位置的變化而變化。然后,計(jì)算機(jī)的內(nèi)置麥克風(fēng)會(huì)測(cè)量這一頻率變化,并把參數(shù)告訴一套相當(dāng)復(fù)雜的軟件,由該軟件計(jì)算出手勢(shì)和動(dòng)作。
語(yǔ)音交互的行業(yè)應(yīng)用
蘋(píng)果于2010年花2億美金親自將Siri收購(gòu),并將其深度融入到iPhone 4S中。Siri和手機(jī)緊密結(jié)合,可以極大提升設(shè)備的操作簡(jiǎn)易性、環(huán)境適應(yīng)性和真正意義上的智能性。實(shí)際上,不僅僅是Apple自己的iPad、iTV和車(chē)載設(shè)備,所有未來(lái)所謂的智能設(shè)備都將會(huì)使用Sift的模式。
但是智能人機(jī)交互技術(shù)在行業(yè)的應(yīng)用中,還存在一些不足。以語(yǔ)音交互為例,傳統(tǒng)語(yǔ)音交互涉及的主要技術(shù)包括語(yǔ)音識(shí)別和語(yǔ)音合成等都已經(jīng)比較成熟。在多年以前,IBM的語(yǔ)音識(shí)別軟件在PC上就有不錯(cuò)的識(shí)別率了,而微軟名為T(mén)ellme的項(xiàng)目也持續(xù)了多年。然而,即使達(dá)到100%的準(zhǔn)確率,僅限于輸入識(shí)別功用的語(yǔ)音識(shí)別不能代表智能人機(jī)交互的真正意義,它并不是革命性的。要實(shí)現(xiàn)完美的人機(jī)交互,語(yǔ)音技術(shù)就必須跟人工智能技術(shù)結(jié)合起來(lái)。
現(xiàn)在以語(yǔ)音方式為主的人機(jī)交互系統(tǒng)目前主要應(yīng)用在如呼叫中心的IVR系統(tǒng)、智能手機(jī)等終端中的語(yǔ)音撥號(hào),短信朗讀、車(chē)載語(yǔ)音導(dǎo)航系統(tǒng)等。但普遍存在交互模式比較機(jī)械固定(以聲控命令為主)、用戶(hù)體驗(yàn)一般、交互過(guò)程繁瑣等問(wèn)題。小i機(jī)器人是廣受歡迎的一款智能人機(jī)交互產(chǎn)品,這款產(chǎn)品的獨(dú)特之處在于,支持幾乎所有的人機(jī)交互渠道,包括IM、WEB、微博、短信、電話(huà)、手機(jī)應(yīng)用等,通過(guò)文本和語(yǔ)音等方式和用戶(hù)進(jìn)行智能自然的交互。
這款產(chǎn)品在技術(shù)上分為五個(gè)層面,最底層是知識(shí)體系和開(kāi)發(fā)框架,整合了知識(shí)庫(kù)、對(duì)話(huà)庫(kù)、信息服務(wù)等資源,往上一層是機(jī)器人核心引擎和開(kāi)發(fā)框架,能夠?qū)崿F(xiàn)場(chǎng)景管理、知識(shí)推理等功能,再往上則是語(yǔ)義分析層,是機(jī)器人的核心引擎,能夠?qū)⑷祟?lèi)語(yǔ)言轉(zhuǎn)化為機(jī)器可以理解的指令。然后是語(yǔ)義處理層,實(shí)現(xiàn)語(yǔ)音識(shí)別和話(huà)音合成的效果,最后一層是交互界面,可以采集語(yǔ)音,編解碼并輸入結(jié)果。小i機(jī)器人被應(yīng)用到智能家電、電信、金融、網(wǎng)絡(luò)社區(qū)等多個(gè)領(lǐng)域,在自然語(yǔ)言處理、智能人機(jī)交互多渠道接入,機(jī)器人二次開(kāi)發(fā)平臺(tái)方面都做出了很多創(chuàng)新。