摘 要:這些年AI技術不斷地被運用在各領域,在消費級市場中,AI技術最常見的表現方式之一就是語音交互。過去一兩年電視的語音交互發展普遍是在基礎的電視操作上不斷豐富可應用的場景,本文將通過語音智能技術在電視技術上的應用和對電視產業的影響等幾個方面分析智能語音技術在電視技術上應用現狀和前景。
關鍵詞:智能語音;聲控;語音交互;電視
在今天科技使生活方式得到了很大的改變,很多家電都因科技發展變得更加智能化,電視也因科技發展在人工智能方面不斷取得突破,當你一打開電視不再需要遙控器,便可直接與高清的視覺屏幕直接對話,往日的手控變成了只要你說話便可借助語音聲控在大屏上,選擇自己喜歡的娛樂畫面,因智能化,電視不再只是一個播放工具,它的智能化使你想象畫面變得真實,現在只要大廳有一臺人工智能化的電視,便可隨時變成一個大家庭的娛樂場所,大人小孩都可以直接與電視進行“對話”,讓我們的生活更貼心和諧歡樂。
1 語音智能交互技術介紹
首先我們要了解一下智能語音交互又是什么? 這是基于語音輸入的新一代交互模式,通過說話就可以得到反饋結果。語音交互系統分為四個部分:語音采集、語音識別、語義理解和語音合成。語音采集完成音頻的錄人、采樣及編碼等;語音識別主要是通過語音識別引擎將已采集到的語音數據。依據場景設置條件與語音識別庫中的數據進行匹配,匹配成功后,將結果轉換成文本或命令;語義理解主要是根據語音識別轉換后的文本字符或者命令,完成指定的相應操作;語音合成引擎則將相應的文本內容或命令轉化為聲音輸出。語音識別庫可以選擇放在終端或云端,但因為語音識別庫算法復雜且內容龐大,現在一般都放在云端處理;語義理解庫可以選擇放在終端或云端,這個庫需要和操作系統或某些應用進行耦合綁定,現一般放在終端;語音合成庫同樣也可以選擇放在終端或云端,目前放在云端和終端的均有。
2 語音智能技術在電視上應用
2.1 應用背景
隨著廣播電視的發展,電視頻道數和節目源的日益增多,傳統電視遙控方式弊端也越來越明顯,需要用戶記憶大量電視臺對應頻道,故語音智能技術慢慢被應用在傳統電視市場的需求也變得越來越強烈。
2.2 應用場景
(1)語音遙控開關、選臺功能。最典型的應用就是語音遙控。這是一種依賴智能技術有一個可以用聲音來激活的微型計算機系統,它可以識別人們不同的語言,然后控制電視機的程序。還有一種方式是在智能手機上安裝APP,然后將指令發送到特定的遙控器,遙控器再將指令轉換成紅外遙控信號。這兩種方式都可以實現對普通電視的智能遙控。目前市面上有些專用語音識別芯片設計的智能選臺系統,該系統設計在保留原有遙控功能基礎上,實現以下功能:開關,選臺,以及音量,亮度調節等功能。
(2)視頻圖譜檢索+多輪對話。視頻圖譜檢索很常見了,我們來說說什么是多輪對話。多輪對話的場景還蠻常見的,比如說,“我想看相聲”,然后你看到電視篩選結果沒有你想看的,就可以接著說“郭德綱的”,智能語音必須要結合上下文語義,才能知道你想要的是“郭德綱的相聲”這個結果。
(3)音樂圖譜檢索。打開電視,聽聽音樂,語音輸入“我想聽孫燕姿新歌”,目前多家電視廠商都與某音樂軟件合作,反饋回來的界面則會按照不同方式展示是孫燕姿音樂播放界面,有歌單形式,或是圖片形式等。
(4)短視頻新聞。如今網絡短視頻這么火,在電視上看看短視頻也不錯,可以搜索到“最近的娛樂新聞”,體育新聞等,由于電視廠商選擇的合作單位不同導致資源形式的豐富程度也會有所不同。
(5)圖像識別。圖像識別,顧名思義,就是對電視內容中的圖像進行識別,常見的有對人臉、花草、書籍、建筑等的識別。想想看,當你和朋友一起看熱播劇,但小鮮肉太多,認不過來,就可以直接問電視“這人是誰”。不過必須要說,圖像識別的整體反饋速度要比語音識別慢上不少。
以上就是目前市面上主流的語音技術在電視上的應用場景,這些場景的應用使人們的視聽生活變得豐富多彩也給電視產業注入了新的生命力。但受環境的干擾,比如方言、背景噪音,還有說話語速的差異,語音的識別率會有所下降,而這些也只是皮毛,只停留在“語音識別”這個層面,電視機通過用戶語音進行識別,基于數據庫對用戶所給出的“關鍵詞”進行自動搜索片名、播放,這離真正的人工智能還遠著呢。
3 智能語音技術對電視產業未來的影響
就目前而言,電視智能語音功能更多的是扮演了“遙控器”的替代者的角色。研究者一直在嘗試尋找“遙控器替代者”。而采用語音技術的產品,不僅可以直接呼喚電視菜單、電視臺和電視網絡節目菜單的內容,也可以實現文字輸入、直接查詢網絡上的以文字信息為索引的“非標準菜單”內容。或者說語音技術不僅“替代了遙控器的所有功能”,而且還“創造出遙控器不擅長的(例如文字輸入)和不存在的(語音對話)等功能”。
從未來發展看,語音智能技術會為電視產品打開一些嶄新的應用場景。傳統電視的作用主要是視頻娛樂——即內容始終是單向傳輸的,但語音技術可以讓電視成為一個“關鍵節點”。作為一個語音交互和信息處理器,電視可成為其他智能家居產品的“中控大腦”。某種意義上,智能語音技術的電視只是電視真正進入“人機智能”時代的一個窗口。以此為線索,涉及的是整個家居、生活、家庭和個人“智能應用”的體系網絡;以及這個網絡背后所依賴的云存儲、計算和知識體系。電視企業高度看中AI電視的發展,恰是因為語音電視背后巨大的“潛在可能”。甚至,語音語意技術的創新已經成為一項重要的國家戰略。2017年12月,工業和信息化部印發了《促進新一代人工智能產業發展三年行動計劃(2018-2020年)》的通知。其中就提到,“支持新一代語音識別框架、口語化語音識別、個性化語音識別、智能對話、音視頻融合、語音合成等技術的創新應用”。“2020年,實現多場景下中文語音識別平均準確率達到96%,5米遠場識別率超過92%,用戶對話意圖識別準確率超過90%”;“多語種智能互譯取得明顯突破,中譯英、英譯中場景下產品的翻譯準確率超過85%”;“智能電視市場滲透率達到90%以上等重要目標和要求”。
4 結語
從智能語音的交互界面到語音識別、圖像識別、知識圖譜等技術能力,再到音樂、短視頻、體育百科這樣的內容的體驗,真實的家庭環境中,口音還有小孩老人的吐詞不清都會成為識別的障礙,智能語音還有很長一段路要走。但這一技術在電視上的應用至少對于那些行動不便和健忘的老人來說顯得尤其重要。智能語音以智能電視為承載,為智能電視能夠成為未來智能家居中心奠定了基礎,我們期待更“智能”的智能電視出現在客廳。
作者簡介:夏銳(1980-),男,漢族,浙江人,碩士,助理工程師,研究方向:新型電視/視頻解碼芯片/無限光纜通訊/人工智能/項目管理。