智能電視中的人機交互技術(shù)

2014-11-20 08:18:42謝于迪

電視技術(shù) 2014年1期

潘榕，謝于迪

（國家廣播電視產(chǎn)品質(zhì)量監(jiān)督檢驗中心，北京 100015）

智能電視的概念隨著技術(shù)發(fā)展在不斷發(fā)生變化，從模擬電視到數(shù)字電視的變革，從單純的電視功能芯片向多核心多功能的系統(tǒng)級SoC芯片的演進，從簡單的上網(wǎng)到OTT業(yè)務(wù)的廣泛開展，從操縱遙控器到使用各種先進的人機交互技術(shù)，每一次都在為智能電視的概念增添新的內(nèi)容。因此，對智能電視的定義是相對和動態(tài)的，在智能電視的每一個發(fā)展階段都不盡相同。

在現(xiàn)階段，智能電視可定義為：除具備傳統(tǒng)電視功能之外，擁有以高性能處理芯片為核心的硬件平臺、獨立的操作系統(tǒng)平臺、豐富的應(yīng)用軟件和內(nèi)容平臺，具備先進的人機交互功能，支持互聯(lián)網(wǎng)接入，可由用戶主動獲取互聯(lián)網(wǎng)內(nèi)容，下載、安裝和卸載各類應(yīng)用軟件，也可自動提示或下載系統(tǒng)和應(yīng)用更新，持續(xù)對功能進行擴展和升級，從而滿足用戶多樣化和個性化需求的電視產(chǎn)品。

智能電視的核心要素是“智能”。“云電視”曾經(jīng)被視為智能電視更先進的形態(tài)，但云電視的落腳點在“云”，即利用云計算技術(shù)，將電視與網(wǎng)絡(luò)更加密切地結(jié)合起來，拓展了智能電視的網(wǎng)絡(luò)功能，也使智能電視的自我進化成為可能。智能電視除具備“云”的功能外，還必須具備其他能體現(xiàn)其智能化水平的功能。其中，人機交互技術(shù)是非常重要的方面，它是智能電視發(fā)展的技術(shù)瓶頸，在一定程度上決定了未來智能電視的技術(shù)水平。目前，在智能電視中應(yīng)用的人機交互技術(shù)主要有新型遙控、體感技術(shù)、語音識別和多屏互動等四種。

1 新型遙控

自20世紀(jì)30年代電視誕生以來，在較長的一段時間內(nèi)，操作電視的主要方法是手動調(diào)節(jié)電視機上的機械旋鈕和按鍵。1950年，美國天頂電子開發(fā)了一款有線遙控器，開啟了電視遙控的時代。隨后，該公司相繼開發(fā)了基于可見光和超聲波的無線遙控器（見圖1），但由于其局限性，沒有得到廣泛應(yīng)用。1980年，加拿大人保羅·哈里夫納克研發(fā)了第一款紅外線遙控器，迅速成為了主流的電視遙控方式。但智能電視的界面元素和功能更加豐富，應(yīng)用和內(nèi)容的表現(xiàn)方式更加多元，傳統(tǒng)的遙控器已不敷使用。因此，需要用一種新的理念來設(shè)計智能電視遙控器，從而滿足智能電視操控的需要。目前遙控器向簡約化和多功能化兩個方向發(fā)展。

圖1 可見光和超聲波遙控器

1.1 簡約遙控器

簡約遙控器運用了人機工程學(xué)設(shè)計原理，綜合考慮人的思維習(xí)慣、手部生理特征、操控力度、電視功能等多種因素，對遙控器的尺寸、界面布局、使用方式（按鍵或滾輪）以及與電視信息的關(guān)聯(lián)等方面進行優(yōu)化，實現(xiàn)用戶在遙控器上的盲操作。實例產(chǎn)品如圖2所示。

圖2 簡約遙控器（左：蘋果；右：小米）

簡約遙控器一般會有主頁鍵、菜單鍵、移動鍵、選擇鍵等按鍵，而摒棄數(shù)字鍵等普通遙控器上必備的按鍵。這類遙控器適用于操縱智能電視界面，選擇應(yīng)用程序，實現(xiàn)收看流媒體視頻等功能，而不適用于收看廣播電視節(jié)目。在國內(nèi)絕大部分用戶使用機頂盒收看電視節(jié)目的情況下，簡約遙控器已經(jīng)足夠用于操作智能電視，收看電視節(jié)目功能自有機頂盒遙控器來完成。

1.2 多功能遙控器

智能電視遙控器的另一個發(fā)展方向是集多種功能于一身，包括傳統(tǒng)操控、空間操控、語音操控和觸摸操控。傳統(tǒng)操控即普通遙控器的功能。空間操控指可以在空間中自由控制遙控器，實現(xiàn)遙控光標(biāo)自由移動的方式，也稱為“空鼠”，一般裝備陀螺儀和加速度傳感器，根據(jù)人的手部動作，做到傾斜和上下旋轉(zhuǎn)，傾斜和左右旋轉(zhuǎn)，圍著主軸旋轉(zhuǎn)，上下加速度，左右加速度，朝向屏幕加速和遠(yuǎn)離屏幕加速等操控動作，移動光標(biāo)只是它最基本的功能，其主要作用是供人們在體育和休閑游戲中體驗到更多的沉浸式感受，達到娛樂和健身的目的。語音遙控是將語音鍵設(shè)置在遙控器上，用戶可以通過遙控器這一信息轉(zhuǎn)換裝置，將語音信息傳送給電視，從而實現(xiàn)對應(yīng)功能。觸摸操控指在遙控器上有一塊觸摸屏，用戶通過觸摸可以控制電視屏幕上光標(biāo)的移動以及功能選擇（類似于筆記本計算機上的觸摸板），目前也有少量的自帶觸摸功能的電視，但該類電視主要用于教學(xué)、信息查詢等場合。

多功能遙控器實例產(chǎn)品如圖3所示。

圖3 多功能遙控器（左：LG；右：三星）

此外，空間遙控、語音遙控和觸摸遙控由于所需傳送的信息量大，無法采用傳統(tǒng)遙控器的紅外通信模式，而需采用2.4G或5G國際開放頻段的無線傳輸模塊（如藍(lán)牙、WiFi等），它不但具備電壓低、效率高、成本低、可進行雙向高速數(shù)據(jù)傳輸?shù)奶攸c，還可實現(xiàn)快速跳頻，前向糾錯及進行校驗等功能，完全能滿足上述遙控傳輸信息的需要。即使只具備簡單的按鍵（譬如傳統(tǒng)遙控器和簡約遙控器），普通的紅外技術(shù)完全能實現(xiàn)信息的傳輸，現(xiàn)在也有該類遙控器采用藍(lán)牙等傳輸協(xié)議，其目的是為了克服紅外信號直線傳輸?shù)娜毕荩_到遙控信息的無死角覆蓋。

2 體感技術(shù)

人們在人際交往中，多達93%的信息是通過非語言方式傳遞，其中又以肢體語言為主。因此動作識別是人機交互的一種重要形式，能識別動作的技術(shù)一般稱為人體動作感應(yīng)技術(shù)，簡稱為體感技術(shù)，使人們可以不必借助復(fù)雜的設(shè)備，就能很直接地使用肢體動作，身臨其境地與內(nèi)容做互動。在電視中體感技術(shù)主要用于菜單控制和游戲控制，菜單控制一般使用手勢識別技術(shù)，這是動作識別中較簡單和典型的一種方式，游戲控制則較為復(fù)雜，一般使用肢體識別技術(shù)。體感技術(shù)主要使用光學(xué)感測的原理，利用攝像頭通過光學(xué)傳感器主要獲取以2D平面為主的人體影像，再將此人體影像所表達的肢體動作與內(nèi)容進行互動，此外，紅外和聲波等感應(yīng)技術(shù)也可用于體感識別中。根據(jù)識別的不同目標(biāo)，除手勢識別和肢體識別外，體感識別技術(shù)還有面部識別和眼動追蹤等。

2.1 手勢識別

從手勢識別的角度考慮可以把手勢定義為[1]：人手或者手和臂結(jié)合所產(chǎn)生的各種姿勢和動作，它包括靜態(tài)手勢（指姿態(tài)，單個手形）和動態(tài)手勢（指動作，由一系列姿態(tài)組成）。靜態(tài)手勢對應(yīng)模型參數(shù)空間里的一個點，而動態(tài)手勢對應(yīng)著模型參數(shù)空間里的一條軌跡，需要使用隨時間變化的空間特征來表述。手勢識別原理雖然簡單，但在實現(xiàn)時由于背景的多樣性和環(huán)境因素的不可預(yù)見性、人手運動的靈活性和不同個體的差異性、從立體空間到平面空間的投影信息處理的復(fù)雜性等眾多原因，在具體實現(xiàn)時還是有一定難度。

目前在手勢識別方面還沒有專門的標(biāo)準(zhǔn)予以規(guī)范，因此各個企業(yè)開發(fā)的手勢識別技術(shù)各不相同，相同的含義有多種手勢予以規(guī)定，從而使得消費者面對不同的采用手勢識別技術(shù)的產(chǎn)品時需要重新學(xué)習(xí)，非常繁瑣。

企業(yè)自設(shè)定手勢如圖4所示。

圖4 企業(yè)自設(shè)定手勢（Engram Tech.）

2.2 肢體識別

肢體識別不僅要識別人手的動作，還要識別人全身的運動，涉及到的關(guān)鍵技術(shù)是骨骼追蹤，建立人的骨骼模型。通過攝像頭拍攝到實時圖像后，將圖像信息和三維空間數(shù)據(jù)整合，使用者圖像的每個像素都被傳送進一個辨別人體部位及其學(xué)習(xí)系統(tǒng)中。隨后該系統(tǒng)將給出某個特定像素屬于哪個身體部位的可能性，將所有的這些可能性輸入到接下來的處理流程中并且等到最后階段進行判斷。通過所有數(shù)據(jù)的全面對比計算，最后可以描繪出骨骼模型，從而對使用者的肢體動作進行跟蹤。以目前典型的微軟kinect技術(shù)為例[2]，如圖5所示，它可以主動追蹤最多兩名使用者的全身骨架。

2.3 面部識別

面部識別在電視中主要用于電視及其應(yīng)用的加密、性別和年齡的識別等，如電視QQ有“刷臉”登錄功能，如圖6所示。面部識別也需要使用視頻拍攝設(shè)備得到人臉面部圖像，然后再送給機器自動識別。主要有基于幾何特征、基于統(tǒng)計和基于連接機制等面部識別方法。目前，面部識別技術(shù)面臨的困難主要有[3]：1）面部結(jié)構(gòu)相似。不同個體之間的面部及其器官結(jié)構(gòu)相似，有利于面部檢測和定位，但不利于識別個體；2）面部外形不穩(wěn)定。首先是人的面部會有各種豐富的表情，其次面部外形會受頭發(fā)、胡須等因素的影響；3）面部特征受環(huán)境干擾。不同的光照條件（光強、光源方向）、觀察距離和角度，會使面部明暗程度不均勻，影響識別效果。

圖5 kinect骨骼模型

圖6 電視QQ“刷臉”登錄

2.4 眼動追蹤

眼動追蹤是指通過測量眼睛注視點的位置或者眼球相對頭部的運動而實現(xiàn)對眼球運動的追蹤[4]，如圖7所示。目前在電視中主要的方式是通過視頻拍攝設(shè)備來獲取眼睛的位置，根據(jù)眼睛注視點的不同位置，從而判斷用戶預(yù)想的不同行為，譬如換臺、調(diào)節(jié)音量等。海爾的眼球控制電視技術(shù)就是眼動追蹤技術(shù)的具體應(yīng)用。眼動追蹤技術(shù)主要包括兩部分：瞳孔定位技術(shù)和視線估計技術(shù)。眼動追蹤技術(shù)目前需要克服的難點是：1）眼動數(shù)據(jù)提取。人的頭部和身體的運動，會導(dǎo)致場景不停改變，為數(shù)據(jù)提取帶來困難，用戶的自由移動受到限制。2）眼動數(shù)據(jù)解釋。眼球存在固有的顫動和眨眼，導(dǎo)致從眼動數(shù)據(jù)中提取有用信息較為困難，數(shù)據(jù)解釋和分析的精度也會下降。3）用戶意圖識別。用戶移動視線不代表就要發(fā)出一條指令，需要區(qū)分用戶無意和有意的視線移動。

3 語音識別

語音識別是指用戶通過語音對話的形式，將指令發(fā)送給智能電視，令其完成某項工作。語音識別涉及到語義分析和語音識別技術(shù)，是一種讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。

圖7 眼動追蹤技術(shù)應(yīng)用品牌（海爾）

語音識別方法主要是模式匹配法，其關(guān)鍵是語音大數(shù)據(jù)庫的應(yīng)用。在訓(xùn)練階段，用戶將詞匯表中的每一詞依次說一遍，并且將其特征矢量作為模板存入模板庫，經(jīng)過大量收集統(tǒng)計，形成大數(shù)據(jù)庫。在識別階段，將輸入語音的特征矢量依次與數(shù)據(jù)庫中的每個模板進行相似度比較，將相似度最高者作為識別結(jié)果輸出。

目前，語音識別技術(shù)還不是很成熟，它需要解決的問題有：1）對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位，其次要建立一個理解語義的規(guī)則。2）語音信息量大。語音模式不僅對不同的說話人不同，對同一說話人也是不同的，例如，一個說話人在隨意說話和認(rèn)真說話時的語音信息是不同的。一個人的說話方式會隨著時間變化。3）語音的模糊性。說話者在講話時，不同的詞可能聽起來是相似的。這在英語和漢語中常見。4）單個字母或詞、字的語音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。5）環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響，致使識別率低。

目前，在語音識別中，國內(nèi)各個電視整機企業(yè)基本采用訊飛的技術(shù)，整機企業(yè)本身沒有研發(fā)語音識別技術(shù)。因為語音識別技術(shù)是大數(shù)據(jù)時代的典型技術(shù)，需要在數(shù)據(jù)庫中進行大量比較、判定，才能達到較高的識別率，因此對語音識別技術(shù)的研究，是一項復(fù)雜的科學(xué)研究工作，整機企業(yè)花費大量人力物力，對語音識別技術(shù)進行開發(fā)，既不經(jīng)濟，也無必要。除訊飛外，國內(nèi)還有一些具備自主語音識別技術(shù)，包括中科模識科技、捷通華聲、云知聲等。

4 多屏互動

多屏互動是指在不同的操作系統(tǒng)，以及不同的終端設(shè)備之間可以相互兼容跨越操作，通過無線網(wǎng)絡(luò)連接的方式，實現(xiàn)數(shù)字多媒體內(nèi)容的傳輸，可以同步不同屏幕的顯示內(nèi)容，可以通過智能終端實現(xiàn)控制設(shè)備等一系列操作。多媒體內(nèi)容傳輸?shù)墓δ芤卜Q為無線傳屏。能實現(xiàn)多屏互動的技術(shù)協(xié)議主要有：

1）DLNA。由索尼、英特爾、微軟等發(fā)起成立，旨在解決包括個人PC、消費電器、移動設(shè)備在內(nèi)的無線網(wǎng)絡(luò)和有線網(wǎng)絡(luò)的互聯(lián)互通。

2）Miracast。WiFi Alliance于2012年9月19日宣布啟動的WiFi CERTIFIED Miracast認(rèn)證項目。Miracast設(shè)備提供簡化發(fā)現(xiàn)和設(shè)置，用戶可以迅速在設(shè)備間傳輸視頻。

3）WiDi。全稱為 Intel WirelessDisplay，無線高清技術(shù)，它是通過WiFi信號來實現(xiàn)計算機和顯示設(shè)備的無線連接。在英特爾發(fā)布Capella移動平臺之后，WiDi技術(shù)已經(jīng)能夠運用在相關(guān)產(chǎn)品之中。

4）AirPlay。由美國蘋果公司推出的無線技術(shù)。

5）閃聯(lián)。聯(lián)想、TCL、康佳、海信、長城聯(lián)合發(fā)起的協(xié)議標(biāo)準(zhǔn)，支持各種3C設(shè)備智能互聯(lián)、資源共享和協(xié)同服務(wù)，實現(xiàn)“3C設(shè)備+網(wǎng)絡(luò)運營+內(nèi)容/服務(wù)”的全新網(wǎng)絡(luò)架構(gòu)。

但目前這些協(xié)議之間本身無法兼容互通，各家公司必須通過自己的技術(shù)來兼容眾多不同協(xié)議，才能真正實現(xiàn)跨系統(tǒng)平臺操作的多屏互動。因此，在多屏互動技術(shù)方面，還需要整合各個標(biāo)準(zhǔn)，使得多屏互動應(yīng)用具備更好的通用性。

5 發(fā)展趨勢

操作系統(tǒng)、應(yīng)用軟件、視頻資源匯聚和點播、網(wǎng)絡(luò)沖浪等智能電視的各個方面的技術(shù)，都在可預(yù)見的未來能達到非常成熟的程度。而人機交互，卻是智能電視發(fā)展中的難點，也是重點。目前不成熟的人機交互技術(shù)在電視中的廣泛使用，反而降低了用戶對智能電視的接受程度。因此，文中的各項人機交互技術(shù)的未來發(fā)展趨勢，就是要解決目前存在的問題。其中，用語言與電視進行溝通是最自然、最便捷的一種交互方式，隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用，語音識別技術(shù)將快速發(fā)展。另外，可穿戴式設(shè)備（如健康醫(yī)療類的穿戴式設(shè)備）、家用智能電器等設(shè)備通過人的設(shè)定和操作與電視之間進行互動，也是智能電視人機交互技術(shù)的重要發(fā)展趨勢。

[1] 孫麗娟，張立材，郭彩龍.基于視覺的手勢識別技術(shù)[J].計算機技術(shù)與發(fā)展，2008，18（10）：214-216.

[2] 李兆堃.基于Kinect體感技術(shù)的人機交互環(huán)境[J].數(shù)字技術(shù)與應(yīng)用，2013（9）：65-66.

[3] 郝立濤.基于特征臉的面部識別技術(shù)研究[D].石家莊：河北科技大學(xué)，2010.

[4] 劉濤.眼動跟蹤技術(shù)的研究及優(yōu)化實現(xiàn)[D].西安：西安電子科技大學(xué)，2011.