李 瑋
(中國信息通信研究院泰爾終端實驗室,北京 100191)
人工智能是引領新一輪科技革命的戰略性技術,是帶動產業升級、推動經濟高質量發展的動力引擎。伴隨著5G、移動互聯網、云計算及物聯網等技術和基礎設施的建設和成熟,人工智能賦能垂直領域已成為新的產業趨勢[1]。以人工智能技術為代表的人機交互發生了革命性發展,各廠商紛紛搶占智能家居入口進行戰略布局,家庭生活中的電視成為人工智能賦能的最佳載體。
2019年,華為公司首先提出了智慧屏概念并推出了兩款智慧屏產品,將智能語音和AI影像搭載在電視上,并與手機App賬戶綁定,實現更加智能化、友好的人機交互。隨后,長虹、聯想、海爾及榮耀等多個廠商相繼推出智慧屏產品,成為電視領域新的增長點和亮點。整體來看,智慧屏的產品性能和用戶體驗一直在穩步提升,尤其是在人工智能、5G及物聯網等技術和產業發展的趨勢下,智慧屏必將是智能產品研發、生態構造及產業布局的新的突破點和升級范例。
電視的發展經歷了傳統電視、互聯網電視及智能電視等不同的發展階段,其發展特點如表1所示。

表1 電視的不同發展階段及其特點
隨著人工智能、物聯網以及云計算等技術的不斷進步,智能電視創新演進出了新的產品形態——智慧屏,推動智能家居環境多種終端的智能人機交互技術發展。通過更加自然、多模態的交互控制,消費者可以得到更豐富、多形態及定制化的用戶體驗。
智慧屏“智慧能力”的提升主要體現在影音質感、人機交互、家居控制以及業務場景等方面,其中,消費者感知最直接、最明顯的就是人機交互。除了可以使用傳統的實體遙控外,智慧屏搭載的智能語音模塊和攝像頭等設備,為家庭用戶提供了多模態的交互能力,如近遠場語音交互、手勢交互、多屏協同以及姿態識別等AI交互能力,為用戶帶來更加便捷的交互方式,也使得家庭視頻、工作會議以及AI健身等以智慧屏為載體落地到智慧家庭生活中[2]。
本章將著重介紹基于智慧屏的人機交互技術測評研究,主要包括語音交互和手勢交互兩大部分。其中,語音交互圍繞語音采集與識別、語義理解、語音合成與播放以及語音技能等進行研究;手勢交互圍繞手勢采集、識別以及基本操控等進行研究。
2.1.1 語音采集與識別
智慧屏的人工智能語音服務可通過傳聲器或麥克風陣列等拾音設備對語音、連續語音進行單聲道或多聲道的采集,一般支持8 kHz或16 kHz的采樣率,16 bit及以上的采樣精度,并以PCM、OPUS或SPEEX標準進行編碼。對于連續性音頻,可采用30 s或60 s為單位進行切片分割[3]。智慧屏可對采集的音頻進行語言端點檢測,以便區分用戶說話的自然停頓和主觀停止。根據目標用戶群體的語言習慣和使用場景,可設置不同的端點檢測時長,從而實現語音識別響應速度和交互體驗友好的平衡。
智慧屏應支持家庭場景下關鍵詞語音識別,如影視、音樂、健康及教育等領域;應支持數字、電話號碼、中英文混合識別及多方言(普通話、閩南語、粵語、四川話等)識別;在不同的噪聲環境中識別率應至少達到80%,不同噪聲環境聲壓級下的識別率要求如表2所示。

表2 不同噪聲環境聲壓級識別率
此外,智慧屏還應支持聲紋識別即說話人識別,應可根據聲紋識別的結果,實現對不同身份用戶的差異化服務,如系統訪問權限和內容服務的權限等;聲紋識別錯誤拒絕率不應大于10%,錯誤接受率不應大于5%。
2.1.2 語義理解
智慧屏語音交互應支持對簡稱、別名、代碼及數字的理解;支持用戶表達錯字、缺字及模糊說法的容錯理解;支持多輪、全雙工對話的人機交互方式;語義理解正確率應大于90%。
語音交互應支持查詢類技能,通過語音播報加信息展示的形式向用戶反饋;應支持媒資檢索類技能,通過語音播報加搜索結果展示的形式向用戶反饋;應支持技能處理遇到異常場景時通過語音或者文本展示的形式向用戶反饋。
2.1.3 語音合成與播放
智慧屏語音交互應支持離線語音合成,包括中文普通話和英語語種,宜支持多種方言、多音色合成以及個性化合成,包括女聲、男聲及卡通等音色,中英文數字等各種混合音,用戶自定義讀音和分詞。平均意見得分(Mean Opinion Score,MOS)應大于或等于4.0(滿分5.0)。MOS評估標準如表3所示[4]。

表3 合成語音MOS評估標準表
2.1.4 語音搜索
智慧屏語音搜索需覆蓋并同步廠商所合作的媒體內容提供商和用戶安裝的第三方應用的媒體資源。媒體資源包括但不限于影音、教育、健身、游戲及其他應用內的資源,影視媒體搜索標簽應包括名稱、主演、上映時間及類型,宜包括季集、導演、簡介、評分及熱度等信息;音樂媒資搜索標簽應包括名稱、歌手、音樂來源及類型,宜包括地區、簡介、評分及熱度等信息;游戲媒資應包括名稱和類型,宜包括簡介、評分及熱度等信息;應用媒資應包括名稱和類型,宜包括簡介、評分及熱度等信息。語音搜索應支持單維度搜索、多維度搜索、對象關系搜索、多輪搜索及模糊搜索等。
(1)單維度搜索。只限定某一個槽值進行搜索,示例如表4所示。

表4 單維度搜索示例
(2)多維度搜索。對多個槽值進行組合搜索,示例如表5所示。

表5 多維度搜索示例
(3)對象關系搜索。通過親屬、朋友等關系進行信息搜索,示例如表6所示。

表6 對象關系搜索示例
(4)多輪搜索。在已經包含一個或多個槽值的情況下,進行槽值新增或替換,示例如表7所示。

表7 多輪搜索示例
(5)模糊搜索。搜索無結果或者無具體槽值信息時,結合語音發出者的年齡和性別信息進行搜索,示例如表8所示。

表8 模糊搜索示例
2.1.5 語音與IPTV的交互
IPTV內已經有各種成熟的直播、點播、回看及應用等內容服務,語音能力在進行落地時,需要充分考慮與已有內容服務的對接,滿足用戶基本的IPTV功能使用需求。
對于用戶基本的頻道選擇,智慧屏語音可提供實體鍵的語音交互、喚醒語音交互兩種功能之一,用戶按下遙控器上的語音按鍵或講喚醒指令將智慧屏喚醒,說出頻道名稱或者頻道編號,智慧屏將進入選擇頻道播放畫面。例如,用戶對智慧屏說“中央六臺電影頻道”,智慧屏將直接切換到中央第六頻道進行播放。
此外,用戶還可以通過點播實現操控智慧屏播放相關視頻的功能。例如,用戶通過說出音視頻內容的名稱、主演、類型、國家地區及年份等信息或這些信息的組合,可以搜索到滿足條件的音視頻內容,并可通過遙控或語音選中目標,實現播放。
2.2.1 手勢采集
智慧屏應支持使用攝像頭模組或具有視頻圖像采集功能的設備進行手勢信號采集,以獲取用戶發出的手勢信號,包括支持各種角度的手勢采集和真實室內光照條件(自然光和燈光等)下的手勢檢測[5]。
2.2.2 手勢識別
智慧屏應支持靜態手勢(如握拳、OK、數字等靜態手勢)識別,并支持在真實室內光照條件(自然光和燈光等)下的靜態手勢識別,允許存在一定的角度旋轉;應支持動態手勢識別,比如手掌張開左右揮動、手掌從張開到并攏等,并支持在真實室內光照條件(自然光和燈光等)下的動態手勢識別。靜態和動態手勢識別要求如表9和表10所示。

表9 靜態手勢識別要求

表10 動態手勢識別要求
2.2.3 基本操控
智慧屏手勢交互應可實現上下翻頁、返回上級頁面等操作;支持通過手勢交互實現確認和取消等操作;支持實現音量加、減、靜音及取消靜音等操作;支持實現音視頻的播放操控,如播放、暫停、繼續播放、重放、快進及快退等;支持實現對設備的基礎控制操作如打開設置頁面和關機等。
我國智慧家庭產業已經具備一定的基礎,隨著智慧家庭市場容量的日趨擴大,國內廠商之間的競爭也將越來越激烈,對智慧家庭產品的組網通信、個性化服務、主動交互以及隱私保護要求都會變得更高。因此,行業需不斷突破智慧家庭應用服務相關技術,提升智慧家庭產業鏈關鍵環節產品、系統及服務質量,不斷滿足消費者的用戶體驗需求,為家用智慧大屏市場拓展發展空間。