何琳琳 中國信息通信研究院技術與標準研究所知識產權中心專利咨詢師
?
音/視頻壓縮編碼技術及專利性分析
何琳琳中國信息通信研究院技術與標準研究所知識產權中心專利咨詢師
摘要:隨著相關技術的快速發展,音/視頻通信的應用范圍也逐漸擴大。音/視頻通信中最關鍵的技術是壓縮編碼技術。而隨著移動互聯網的發展,移動和互聯網業務的結合已經成為發展最快的業務。將自適應的壓縮編碼技術應用于移動通訊終端上,是音/視頻數據傳輸領域關注和研究的熱點。本文簡要介紹音/視頻壓縮編碼的理論基礎、若干標準以及發展現狀,并對音/視頻壓縮編碼技術的可專利性進行分析。
關鍵詞:音頻;視頻;壓縮;編碼;專利性
音/視頻通信是人類工作和生活中不可缺少的一部分,有關研究表明,人與人之間進行溝通時,55%的有效信息來自于面對面的視覺效果,38%來自于說話者的語音,而只有7%來自于內容,因而采用傳輸圖像的通信方式,其溝通效果要遠遠優于電話、傳真等傳統通信工具。但是,圖像通信由于所占的帶寬太大,無法很好地應用于實際的通信中,然而,近20年以來,隨著音/視頻通信的相關技術的快速發展,音/視頻通信的應用范圍也逐漸擴大。音/視頻通信目前主要應用于視頻會議、視頻電話、遠程學習和培訓、遠程醫療、視頻點播等方面。
音/視頻通信中最關鍵的技術是壓縮編碼,即通過使用特定的壓縮技術,對文件的音/視頻格式進行轉換。
通常而言,壓縮編碼技術分為無損數據壓縮和有損數據壓縮兩種。其中,無損數據壓縮方案可以在解壓縮后逐位恢復原始數據信息,通過預測過去樣本中的值,消除存在于音/視頻信號中的統計冗余,可以實現小壓縮比。而有損數據壓縮方案使用感知編碼技術,放棄低于閾值的所有信號以消除音/視頻信號中的感知冗余,可以實現較高的壓縮比。
根據處理幀數的不同,還可將壓縮編碼技術劃分為幀內和幀間壓縮。其中,幀內壓縮也叫空間壓縮,在壓縮一幀圖像時,不考慮相鄰幀之間的冗余信息,而僅僅利用本幀圖像的數據。幀內壓縮一般是有損壓縮,通常達不到很高的壓縮率。幀間壓縮也叫時間壓縮,通過比較時間軸上不同幀之間的數據進行壓縮,利用了視頻或動畫的連續兩幀之間的冗余信息。幀間壓縮一般是無損的,通過壓縮相鄰幀之間的冗余量,進一步提高壓縮量,減小壓縮比。
另外,根據編碼方案的對稱性,又可將壓縮編碼技術劃分為對稱和非對稱編碼。在對稱編碼算法中,壓縮和解壓縮的速度相同,該算法可應用于對實時壓縮和傳送信號要求比較高的場景,比如視頻會議。而不對稱編碼算法中,壓縮和解壓縮的速度不同,一般而言,壓縮所需的時間遠大于解壓縮的時間,因而適合于電子出版等預先壓縮處理好音/視頻的多媒體應用場景中。
自從A.H.Reeves在1937年提出脈沖編碼調制PCM,壓縮編碼技術至今已經有60余年的歷史。目前,該技術主要包括ITU-T組織制定的H.26x系列、ISO組織制定的MPEG系列以及其他一些標準,以下分別進行簡要介紹。
2.1H.26x標準
H.26x系列是由ITU-T主導的編碼系列,主要應用于會議電視等實時通信領域,包括H.261、H.263、H.264、H.265等。
●H.261
H.261最初是針對可視電話、視頻會議等雙向聲像業務而提出的,是最早的運動圖像編碼標準,其詳細制定了壓縮編碼涉及的多項技術的具體實現方案。H.261是恒定碼流可變質量編碼,在編碼時占用很少的CPU資源。為了優化帶寬占用量,該標準在圖像質量與運動幅度之間采用了平衡折衷的原則。
●H.263
H.263相比于H.261標準有著顯著的提高,可以進一步劃分為H.263、H.263+、H.263++等一系列標準。H.263可以應用于基于H.324、H.323、H.320、RTSP和SIP的系統。H.263+通過在H.263的基礎上引入許多新技術,進一步擴展了H.263的應用范圍。而H.263++則又在H.263+的基礎上增加了選項U、V和W,進一步提高了抗誤碼性能,增強了編碼效率。
●H.264
H.264是在H.263之后由ITU-T組織制定的下一代編解碼器,也叫做AVC或者MPEG-4 Part10,它與MPEG-4的第10部分相同,在性能上超越H.263很多。H.264是一種高壓縮技術,集中體現了當今國際編碼解碼技術的最新成果,其采用幀內預測編碼技術,在相同的重建圖像質量下,能夠提供更高的壓縮比和更好的網絡信道適應性。H.264可工作于多種速率,劃分為基本檔次、主要檔次和擴展檔次三檔,適用于多媒體流服務、實時多媒體監控、交互式多媒體應用、可視游戲、視頻點播、數字電視等應用場景。
●H.265
H.265是ITU-T繼H.264之后所制定的新的壓縮編碼標準,在H.264的基礎上,采用新技術以平衡碼流、延時、編碼質量和算法復雜度之間的關系,從而實現最優化設置。具體的研究內容包括:提高壓縮效率、減少實時的時延、減少信道獲取時間和隨機接入時延、提高魯棒性和錯誤恢復能力、降低復雜度等。H.265可在低于1.5Mbit/s的傳輸帶寬下,實現1080p全高清視頻傳輸。
2.2MPEG標準
MPEG是MovingPictureExpertsGroup的縮寫,該標準包括MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等一系列壓縮編碼標準。
●MPEG-1
MPEG-1方法在單位時間內采集并保存第一幀圖像的信息,在對單幀進行有效的壓縮時,只存儲其余幀圖像中相對第一幀圖像發生變化的部分。該方法采用了非對稱壓縮算法,編碼速率最高可達4~5Mbit/s/,其可被用于數字電話網絡上的視頻傳輸,也可以用于記錄媒體或者在因特網上的音頻傳輸。
●MPEG-2
MPEG-2是以提高圖像質量為目標的通用國際編碼標準,其在MPEG-1的基礎上,增加了場間預測技術。MPEG-2的編碼速率可達3~10Mbit/s,能夠提供較寬的壓縮比范圍,以適應系統對存儲容量、畫面質量、帶寬的不同要求。
●MPEG-4
MPEG-4標準主要應用于視像電話、視像電子郵件和電子新聞等,提供4.8~64Mbit/s的編碼速率,能通過幀重建技術,利用很窄的帶寬壓縮和傳輸數據,以最少的數據獲得最佳的圖像質量,其適合在因特網上進行傳輸,也可以在移動和數字廣播領域開發新的應用。
●MPEG-7
MPEG-7標準對龐大的圖像聲音信息進行管理和快速搜索,能夠快速且有效地搜索出用戶需要的不同類型的多媒體資料。MPEG-7可以獨立于其他MPEG標準而使用,也兼容MPEG-4中定義的對音、視頻對象的描述,其適用于在線或離線的存儲應用,也適用于廣播等流式應用。
●MPEG-21
隨著“電子商務”的興起,為了保證數字媒體消費的簡單性,很好地處理“數字類消費”中的各種問題,MPEG組織提出了MPEG-21標準。MPEG-21標準實質上是一些關鍵技術的集成,它將不同的協議、標準、技術等有機地融合在一起,對全球數字媒體資源進行透明的、增強的管理。
2.3其他標準
音/視頻壓縮技術還涉及了其他的一些標準。
●EAAC+
2004年,3GPP的R6標準引入了增強的音頻編解碼器EAAC+,其增加了差錯隱藏工具、立體聲到單聲道的向下混合工具、Spline重采樣率工具等,提供的最佳工作碼率范圍是18Kbit/s。
●AMR
自適應多碼率AMR語音編解碼器是第3代移動通信系統的強制性編解碼標準,該標準采用代數碼本激勵線性預測技術,提供8種單聲道的數碼率,對于快速變化的無線信道情況和本地流量情況提供了一種自適應的跟蹤方法。
●VMR-WB
可變速率多模式寬帶VMR-WB語音編解碼技術是專為cdma2000標準而設計的,其以16kHz采樣率在50~7000Hz的頻帶上進行語音編碼。在數據速率相同的情況下,VMR-WB標準相對于現有的窄帶語音編解碼器,能提供更好的寬帶語音通話質量,因而適合應用于寬帶話音呼叫、VoIP、視頻會議、音頻會議、點到點和多點業務應用、流媒體應用等方面。
●AMR-WB+
增強的自適應多碼率寬帶AMR-WB+語音編碼技術是一種寬帶音頻編碼標準,其在ACELP的基礎上引入了變換編碼激勵、高頻編碼和立體聲編碼等技術,提供6~48Kbit/s的碼率范圍,用于傳送高音質的語音和音頻內容,可以應用于3GPP的分組交換流、多媒體短信業務、多媒體廣播業務以及下載業務等。
●OggVorbis
OggVorbis是一種高質量的音頻編碼方案,涉及視頻音頻等方面的編碼開發,并能支持多聲道。Ogg Vorbis是一種靈活開放的音頻編碼方案,在編碼方案確定之后可以對音質進行明顯調節或者對算法進行改良。
●杜比AC-3
杜比AC-3技術把整個音頻頻帶分割成若干個較窄的頻段,各頻段的寬度不完全一樣,每一個頻段占有的數據量不是平均分配的,具有良好的遮蔽效應。
●MUSICAM編碼技術
掩蔽型自適應通用子頻帶綜合編碼與復用技術MUSICAM是將寬帶PCM信號的頻譜分割成等寬的32個子頻帶,把時域的PCM信號轉換成頻域的聲音信號,對各個頻帶的音頻取樣值分別進行數據率降低的編碼,應用于數字電視廣播中。
當前,移動通訊終端成為人們日常工作和生活中必不可少的常用工具。目前,市面上的移動通訊終端大多具備多媒體功能,視頻、音頻文件的播放功能幾乎成為目前手機的標準配置。而隨著移動互聯網的發展,移動和互聯網業務的結合已經成為發展最快的業務之一。以往在計算機上實現的很多通信業務,已經轉移到在移動通訊終端上實現。比如,可以在移動通訊終端上實現即時通信業務(MSN、QQ、微信等),這對視、音頻文件的播放提出了更高的要求。這些即時通信業務通常提供語音對講和視頻聊天的功能,因而涉及了對語音信號和視頻圖像的實時采集、壓縮編碼、存儲和傳輸等操作。
由于移動通訊終端相對于計算機,通常具有較小的存儲空間,因而要求存儲的音/視頻文件盡量占用較小的存儲空間,這對聲音/圖像信號的壓縮編碼技術有著較高的要求。如何在保證聲音/圖像信號質量的前提下,選擇合適的音/視頻壓縮編碼技術,從而減小壓縮后的音/視頻文件大小,是軟件設計人員需要重點考慮的技術問題。因而,自適應的壓縮編碼技術在移動通訊終端上的應用,是音/視頻數據傳輸領域關注和研究的熱點。
目前,在移動通信業務發展較快的國家,比如日本、韓國以及一些歐美國家,已經對上述領域開展了深入的研究,取得了一定的成果,并獲得了較多相關技術的專利保護。比如,微軟公司提出的申請號為200410090193的發明專利申請,提供了一種用于提供數字音頻信號的高質量擴展和壓縮的系統和方法;比如,三星公司提出的申請號為200680041592的發明專利申請,提供了一種自適應的基于時間/頻率的音頻編碼和解碼設備和方法;比如,杜比實驗室提出的申請號為201180009098的發明專利申請,提供了一種用于對便攜式裝置內的音頻信號的響度進行非破壞性標準化的系統和方法;再比如,法國電信公司提出的申請號為200780006023的發明專利申請,提供了一種識別和衰減變換編碼生成的數字信號中回聲的方法和設備。
然而,國內相關領域對于該項應用的關注程度還不夠,只有少數通訊企業、高校、運營商等企事業單位,對于即時通信業務和壓縮編碼技術的結合進行了一定的研究,并獲得較少的專利保護。比如,浙江大學提出的申請號為201210096448的發明專利申請,提供了一種終端均衡速率的無線音視頻并行傳輸方法,基于多網絡接口的多模終端估計網絡延時和丟包率等參數,智能地將音視頻數據分配至多個無線網絡,在各網絡上以不同的速率并發地傳輸音視頻碼流。當前,對大多數國內企事業單位和科研機構而言,基于移動通訊業務的自適應音/視頻壓縮編碼技術具有更深入的研究空間和良好的專利性前景。如果能對相關技術投入更多的研發資源,則將取得更好的研究成果,獲得更多的專利保護。需要注意的是,由于音/視頻壓縮技術本身相對成熟,對于該技術純粹的算法改進的相關研究,并不存在很好的專利性前景,如何將該技術更好地應用于移動通信業務才是值得關注的專利性焦點。并且,由于該技術在國外獲得了較多的專利保護,我國企事業單位和科研機構在研發過程中,將面臨較多的專利壁壘和較大的風險,因而要對照自己的研發方向,積極關注國外公司的專利、專利申請或新的研發動向,及時調整自己的研發策略,規避風險。同時,國內企事業單位和科研機構應當更加注重專利申請的質量,只有高水平高質量的專利才能給予技術強有力的保護。
參考文獻
[1]趙軍武.視頻編碼技術的提高促進視頻通信的發展[J].鐵路通信信號工程技術,2005(2).
[2]崔丹丹,張才千.多媒體信息壓縮中的MPEG技術[J].農業網絡信息,2005(10).
[3]鐘文濤,謝斌.淺談數字音頻技術應用[J].科技信息,2009(5).
收稿日期:(2016-4-25)
Audio/video compression coding technology and patentability analysis
HE Linlin
Abstract:With the rapid development of related technologies,the application of audio/video communications has been extended.The most key technology of audio/video communications is compression coding technology.While with the development of mobile internet,the combination of mobile business and internet business has been the fastest developing business.Applying adaptive compression coding technology to mobile communications terminal is the focus of attention and research in audio/video data transmission field.This paper summarizes the theoretical basis,some standards and developmental status of Audio/Video compression coding technology,and analyzes the patentability of Audio/Video compression coding technology.
Key words:audio,video,compression,coding,patentability