鄭世寶
上海交通大學信息技術與電氣工程研究院/電子工程系教授
21世紀的信息世界是視聽多媒體的世界,人們80%以上的信息是通過視聽媒體獲得的。首先是視覺媒體,即看的媒體、眼的媒體。如無聲電視電影、動畫、圖片或圖文(傳真、電子白板)、電視等。70%的信息來自于視覺媒體。接下來是聽覺媒體,即聽的媒體、耳的媒體。如電話、廣播、音樂等。視聽多媒體是視覺和聽覺的組合媒體。如可視電話、視頻會議、黑白或彩色電視、DVD、高清晰度電視、IPTV或流媒體電視、3D電視等。
視聽多媒體技術主要包含視頻技術、音頻技術和多媒體通信技術。視頻技術是實現視覺媒體的技術,包括視覺信息的采集、編碼、傳輸、顯示和理解等。音頻技術是實現聽覺媒體的技術,包括聽覺信息的拾音、編碼、傳輸、放送和音效工程等。多媒體通信技術是同時實現視覺和聽覺的媒體技術,包括音視頻同步、傳輸協議、服務質量QoS等。
此外,視頻技術還涉及視覺信息的處理、分析和理解等信息處理理論;音頻技術還涉及聽覺信息的處理、分析和識別等信息處理理論;多媒體通信技術還涉及有線、無線、衛星或局域網。
下面介紹編碼工具和標準的主要進展。從20世紀50年代到現在,視頻編碼標準已經有了長足的發展。編碼效率不斷提高。到H.264已經接近極限,沒有新的更為智能的技術或結構,編碼效率已經很難繼續提高。ITU-T與ISO/IEC的JVT組織已經進展到H.265/MPEG-5 HEVC。此外還有JPEG系列標準、SMPTE 標準VC-1(即WMV9),中國有AVS和安防應用的SVAC。
視頻編碼永恒的努力方向:1)努力提高編碼效率,使其率失真性能達到最佳;2)努力提高編碼傳輸穩健性,使其傳輸可靠性或容錯性能達到最佳。
H264/AVS后的編碼技術有SVC可伸縮編碼、MVC多視角立體編碼、HEVC極高效視頻編碼和SVAC智能視頻編碼。
H.264 SVC考慮網絡視頻傳輸及用戶終端條件存在很大差異,如傳輸帶寬不同、終端功耗不同、終端顯示能力不同等提出的一種可伸縮編碼。H.264 SVC基于H.264核心框架實現了高效的時域、空域、質量的可分級,已納入H.264標準的一個附錄(Annex G)。
H.264 MVC主要應用在領3D視頻、自由視點視頻、身臨其境的電視電話會議等領域。已納入H.264標準(Annex H)。
最新的標準是HEVC/H.265。實際自H.264誕生后的第二年開始,就一直沒有停止H.265版本的建議,直到2010年提出了HEVC,才終于達成一致。HEVC的目標是使壓縮效率比H.264提高1倍。高效視頻編碼(HEVC)已經發布測試模型,它具有兩種架構——高效率和低復雜度。針對這兩個方面有多的工具被提出來。
國內,AVS之后,一個進展是監控領域專用的視音頻編碼標準SVAC。這個標準是全國安防標委會與AVS聯合推出的。仍然是AVS的編碼框架,引入了智能視頻監控所需的感興趣目標或事件的編碼。另外一個進展是AVS-3D標準,在AVS基礎上引入了立體視頻編碼。
視聽多媒體技術的最新進展,一個是3DTV,市場前景被看好,已經有一些國家在進行試驗性廣播。但3DTV目前仍然存在一些缺陷,如要戴眼鏡,長時間觀看會疲勞等,目前針對3DTV對人眼健康的影響仍在進一步研究。另一個是超高清SHV(UHDTV),這方面日本正在大力研發。
智能視頻應用技術是當前的一個熱點,主要有:圖像增強技術,如降噪、去云霧、修復、超分辨率重建等;視頻分析與理解技術,包括目標發現(檢測)、跟蹤與識別,視頻語義提取與描述等;視頻內容檢索與挖掘,主要是視頻事件查找和圖像挖掘。
21世紀是視覺媒體為主的世紀。現代視頻編碼理論和技術經歷了30年的快速發展,現已相對成熟,一些標準的編碼器,很容易通過市場獲得,但一些特殊環境、特殊應用場合的視頻編碼器仍是一個急需解決的問題,如智能監控和深空高動態高清晰度圖像編碼器、3D編碼器和超高清編碼器等。另外,視頻分析和理解技術將成為今后視覺媒體技術發展的熱點,希望引起關注。