999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分數(shù)像素運動估計的VLSI結構設計*

2010-06-07 02:04:02王慶春何曉燕曹喜信
電視技術 2010年6期
關鍵詞:結構

王慶春,何曉燕,曹喜信

(1.安康學院 電子與信息技術研究中心,陜西 安康 725000;2.北京大學 軟件與微電子學院,北京 102600)

1 引言

分數(shù)像素運動估計(Fractional Motion Estimation,F(xiàn)ME)是H.264/AVC標準中實現(xiàn)幀間預測編碼的重要技術,其主要功能包括分數(shù)像素插值、拉格朗日模式選取和運動補償;雖然它對編碼壓縮性能有0.5~2 dB的提升[1],但由于其預測運算流程復雜,功能子模塊多,實現(xiàn)結構復雜,硬件利用率低,成為H.264/AVC編碼器芯片設計中的難點。為了提高編碼器的硬件效率,F(xiàn)ME的結構設計需要在設計方法上根據(jù)具體的系統(tǒng)需求,遵循面積和速度的平衡與互換設計原則,盡可能地通過功能模塊復用來減小FME模塊的硬件實現(xiàn)代價,開發(fā)出與之相適應的、高效的VLSI設計結構。

在H.264/AVC視頻編碼器的VLSI設計中,由于編碼系統(tǒng)的目標檔次、編碼圖像的大小和使用范圍有較大差別,這就給FME的數(shù)據(jù)處理能力提出了不同的具體要求。只有針對具體編碼需求的FME設計才是優(yōu)化的;而不能盲目地追求運算速度或最小化面積。根據(jù)H.264/AVC的編碼數(shù)據(jù)流程合理使用并行處理結構、時序串行和流水處理結構來優(yōu)化設計FME的1/2像素運動估計、1/4像素運動估計、宏塊編碼模式選取(拉格朗日模式判斷)和幀間運動補償(MC)等4個基本功能模塊,在芯片面積和編碼速度之間尋求最佳的平衡。筆者針對不同的H.264/AVC視頻編碼系統(tǒng),提出了4種FME的VLSI結構設計來滿足不同的編碼需求。

2 基于硬件實現(xiàn)的分數(shù)像素運動估計

H.264/AVC視頻編解碼標準中的幀間運動估計使用了可變塊、多參考幀和率失真優(yōu)化(RDO)技術而獲得了較高的視頻編碼效率,同時這些復雜算法也使編碼運算過程變得更加復雜[1-3]。這些技術具體到FME中,首先,要求在每個參考幀中對宏塊的7種分割子塊 (41個子塊)依次進行1/2像素的運動估計和1/4像素的運動估計;然后,在1/4像素運動搜索結的基礎上進行宏塊編碼模式選取 (8×8塊編碼模式和16×16塊編碼模式判斷);最后,根據(jù)得到的最佳宏塊編碼模式再進行幀間運動補償(亮度殘差計算)。而且,上述的分數(shù)像素運動估計和宏塊編碼模式選取都是要通過計算率失真代價 (RD_cost)來完成的;這里的率失真代價計算不但包括了編碼失真度SAD/SATD(絕對誤差和/絕對變換差和),而且還要考慮編碼運動矢量(Motion Vector,MV)的編碼代價(編碼比特數(shù))、參考幀的編碼代價和預測編碼模式代價[2,4-5]。

在基于宏塊(16×16)流水的H.264/AVC視頻編碼器芯片設計中,F(xiàn)ME的VLSI設計主要面臨著以下方面的挑戰(zhàn):首先,在分數(shù)像素運動估計過程中參與運算的數(shù)據(jù)量大。對于1個16×16宏塊需要進行分數(shù)像素匹配運算的子塊數(shù)目達到41×n個,n表示參考幀數(shù)目,并且子塊的大小各異(4×4~16×16)。 對于多參考幀的視頻編碼系統(tǒng),待運算的子塊數(shù)會成倍增長,這就要求必要的并行處理結構來滿足系統(tǒng)的編碼運算速度需求。

其次,F(xiàn)ME中的分數(shù)像素要求插值到1/4精度 (亮度信號),要先用6階濾波器(FIR)完成1/2像素插值,再進行雙線性1/4像素插值,插值后的數(shù)據(jù)量就會劇增。1個4×4子塊(128 bit)對應的1/2像素匹配搜索區(qū)是9×9(648 bit),1/4 像素搜索區(qū)是 19×19(2888 bit),并且這些插值得到的分數(shù)像素會在1/2像素運估計、1/4像素運動估計和幀間運動補償這3個過程中重復使用,所以盡可能利用過程數(shù)據(jù)復用就能有效減小硬件實現(xiàn)代價。

最后,宏塊的編碼模式選取(拉格朗日模式判斷)過程極其復雜。這是因為宏塊的編碼模式選取是在得到所有參考幀的所有子塊(41×n個)的1/4像素運動估計的率失真(RD_cost)代價后進行的,要在259種可能分割模式中確定出1種模式;并且宏塊的編碼模式選取又包括針對所有參考幀的16×16宏塊編碼模式選取和針對每個參考幀的8×8子塊編碼模式選取這2個過程,把這個宏塊編碼模式選取過程映射到VLSI硬件結構設計上也是一個難點。

3 FME的VLSI結構設計

3.1 全復用的FME結構

根據(jù)文獻[5-6]中的復用設計思想,得到全復用的FME設計結構如圖1所示,其中,1/2像素運動估計、1/4像素運動估計(包括宏塊編碼模式選取)和幀間運動補償(MC)這3個數(shù)據(jù)處理階段是完全順序地進行的。在全復用的FME設計結構中,不同功能模塊的選擇組合就能實現(xiàn)不同階段的運算。圖1中的路徑①完成了1/2像素運動估計;路徑②完成了1/4像素運動估計和宏塊的幀間編碼模式選取;路徑③實現(xiàn)了幀間的運動補償,這樣的設計使得1/2像素插值單元的硬件利用率達到100%(3個運算階段復用),整個FME模塊的運算速度都要受到它的制約;1/2像素運動估計和1/4像素運動估計復用了一個計算SATD的4×4塊處理單元(PU)陣列(9個PU),分數(shù)像素運動矢量代價計算的硬件結構也是復用的。

全復用FME結構雖然在每一步運動估計的內部采用了36倍數(shù)據(jù)并行度,PU陣列使用了9個處理單元PU(每個PU并行計算同一行上相鄰4個像素的殘差和變換)來并行計算9個分數(shù)像素匹配位置的失真度SATD值,但是FME的3個數(shù)據(jù)處理階段是順序執(zhí)行的,因此這樣的FME設計在數(shù)據(jù)處理能力上是很有限的,對于使用2個參考幀運動估計的H.264/AVC視頻編碼系統(tǒng),完成FME至少就需要3488個時鐘周期。如果要把它直接使用到H.264/AVC基本檔次(level 3,4個參考幀)、CIF 圖像格式(352×288)的實時(30 f/s)視頻編碼系統(tǒng)中,就要求有90 MHz以上的時鐘頻率。所以,這樣的全復用結構FME比較適合于參考幀比較少的簡單視頻編碼系統(tǒng)。如果在FME模塊之前就解決了宏塊匹配的多參考幀問題,這樣的FME結構也完全能夠應用到復雜的H.264/AVC視頻編碼系統(tǒng)中。

3.2 部分模塊復用的FME結構

H.264/AVC視頻編碼器的FME要對每一個參考幀的41個子塊(41個MV所對應41個子塊)進行1/2像素、1/4像素運動估計和8×8子塊編碼模式選取,而16×16宏塊模式選取和幀間運動補償是在所有參考幀運算結果的基礎上進行的[7],所以對不同參考幀進行的1/2像素、1/4像素運動估計、8×8子塊編碼模式選取可以采用并行處理結構來實現(xiàn)硬件加速,提出的FME結構如圖2所示。這個結構中不同參考幀的數(shù)據(jù)處理是并行的,但是針對每個參考幀中41個子塊的1/2像素運動估計和1/4像素運動估計還是復用的VLSI設計。

圖2所示的FME結構是針對H.264/AVC基本檔次(level 3,4個參考幀)的視頻編碼系統(tǒng),4個參考幀的分數(shù)像素運動估計模塊是并行的結構,而在每個模塊的內部,1/2像素和1/4像素的運動估計單元又是結構復用的。在這個設計結構中的宏塊編碼模式選取和幀間運動補償又是一個獨立的結構 (各有獨立的分數(shù)像素插值單元),這樣的結構雖然硬件實現(xiàn)代價比較高、對參考像素存儲器的訪問帶寬大,但是它的數(shù)據(jù)處理能力強、運算速度快,而且所能處理的參考幀數(shù)目也易于擴展(并行擴展并不改變FME的運算速度)。部分模塊復用的FME結構對于2個參考幀的H.264/AVC視頻編碼系統(tǒng),完成FME只需要1824個時鐘周期。如果把它使用到H.264/AVC 基本檔次(level 3,4 個參考幀)、CIF 圖像格式(352×288)的實時(30 f/s)視頻編碼系統(tǒng)中,要求的最低時鐘頻率降低到22 MHz,這一點對降低芯片動態(tài)功耗是比較有利的。

3.3 流水處理的FME結構

FME中的1/2像素運動估計和1/4像素運動估計雖然在整體上來說是要求順序執(zhí)行的,但是具體到每一個參考幀內部41個子塊的1/2像素運動估計和1/4像素運動估計又可以安排成流水的處理結構 (子塊之間的流水處理),分成1/2像素運動估計和1/4像素運動估計兩級流水線完成。這樣可以很好地提高FME模塊的數(shù)據(jù)吞吐能力,但是整個流水線的控制比較困難,如圖3所示,在1/4像素運動估計流水級需要不定的等待時鐘周期(出現(xiàn)流水線氣泡)。

圖4的流水FME結構和圖2的FME結構相近,只是把圖2中復用的分數(shù)像素運動估計部分替換成了基于流水的1/2像素運動估計和1/4像素運動估計。這樣的結構可以使FME的使用周期數(shù)進一步縮短,對于2個參考幀的H.264/AVC視頻編碼系統(tǒng),完成FME只需要1070個時鐘周期。如果把它使用到H.264/AVC基本檔次(level 3,4 個參考幀)、CIF 圖像格式(352×288)的實時(30 f/s)視頻編碼系統(tǒng)中,要求的最低時鐘頻率降低到了13 MHz。這種設計結構會要求更高的硬件實現(xiàn)代價,對參考像素存儲器(局部存儲器)的訪問帶寬也會進一步加大,而且由于1/4像素運動估計需要有不定時鐘周期數(shù)的等待時序(如圖3所示),使得分數(shù)像素運動估計流水線控制變得比較困難。

3.4 基于數(shù)據(jù)緩存的FME結構

圖4所示的FME流水結構中,1/2像素運動估計、1/4像素運動估計和幀間運動補償都有獨立的分數(shù)像素插值單元,但是從理論上講,1/2插值像素可以在1/4像素運動估計中復用(1/4插值是在1/2插值數(shù)據(jù)的基礎上進行的),1/4插值像素也可以在幀間運動補償中復用。如果在FME設計中實現(xiàn)插值像素數(shù)據(jù)的復用,就可以降低參考像素存儲器的訪問帶寬和插值單元的數(shù)目[8],圖5是基于插值像素緩存的FME結構。

基于數(shù)據(jù)緩存的FME結構中,在1/2像素運動估計的同時要對1/2插值像素進行緩存;1/4像素運動估計的同時要對1/4插值像素進行緩存。1/2像素緩存數(shù)據(jù)的取出是要根據(jù)1/2像素運動估計的結果進行選擇取出的;同樣,1/4緩存數(shù)據(jù)也是要根據(jù)宏塊編碼模式的選取結果進行選擇取出的,很明顯這兩個存儲器的存儲數(shù)據(jù)有很大的冗余;并且存儲器的讀寫地址產生也是比較復雜的,但是這樣的結構比較適合用FPGA來實現(xiàn) (FPGA內部的內嵌RAM單元可以得到充分的利用)。從理論上講,圖5的FME結構的數(shù)據(jù)處理能力和圖4的結構是一樣的,它對于2個參考幀的H.264/AVC視頻編碼系統(tǒng),完成FME也只需要1070個時鐘周期。如果把它使用到H.264/AVC基本檔次 (level 3,4個參考幀)、CIF圖像格式(352×288)的實時(30 f/s)視頻編碼系統(tǒng)中,要求的最低時鐘頻率也降低到了13 MHz。

4 小結

筆者提出了全復用、部分模塊復用、流水處理和數(shù)據(jù)緩存的4種FME的VLSI設計結構,其中全復用的FME處理結構硬件利用率最高,但數(shù)據(jù)吞吐量最小、速度最慢,只適合于參考幀比較少的低檔次的H.264/AVC視頻編碼系統(tǒng)。基于流水處理和數(shù)據(jù)緩存的FME結構都屬于高速并行處理的結構,都是以較高硬件代價來獲得較高的數(shù)據(jù)處理能力,而前者需要復雜的流水線控制時序、后者需要更大的片內存儲器。部分模塊復用FME結構是高速和低代價之間的折中設計方案,整體結構中既有每一參考幀數(shù)據(jù)處理的復用,同時又有不同參考幀數(shù)據(jù)處理上并行特點,是一種中速的FME設計方案。

[1]Joint Video Team,Draft ITU-T Recommendation and Final DraftInternational Standard of Joint Video Specification,ITU-T Rec.H.264 and ISO/IEC 14496-10 AVC[S].2005.

[2]王慶春,何曉燕,曹喜信.H.264/AVC幀間宏塊編碼模式選擇的VLSI設計[J].電視技術,2007,31(12):17-19.

[3]LIN Yu-kun,LIN Chia-chun,KUO Tzu-yun,et al.A hardware-efficient H.264/AVC motion-estimation design for high-definition video[J].IEEE Trans.Circuits and Systems,2008,55(6):1526-1535.

[4]王洪強,郝軍.H.264幀間模式快速判決[J].電視技術,2006,30(6):10-12.

[5]OKTEM S,HAMZAOGLU I.An efficient hardware architecture for quarter-pixel accurate H.264 motion estimation[C]//Proc.the 10th Euromicro Conference on Digital System Design Architectures,Methods and Tools.Washington.DC.,USA:IEEE Computer Society,2007:444-447.

[6]CHEN T C,HUANG Y W,CHEN L G.Fully utilized and reusable architecture for fractional motion estimation of H.264/AVC[EB/OL].[2010-01-20].http://ieeexplore.ieee.org/Xplore/login.jsp?reload=true&url=http%3A%2F%2Fieeexplore.ieee.org%2Fiel5%2F9248%2F29347%2F01327034.pdf%3Farnumber%3D1327034&authDecision=-203.

[7]ZHAI Haihua,XI Zhiqi,CHEN Guanghua.VLSI implementation of subpixel interpolator for H.264/AVC encoder[C]//International Symposium on High Density packaging and Microsystem Integration,2007.Shang hai,China:[s.n.],2007:1-3.

[8]CHENTC,F(xiàn)ANGHC,LIANCJr,etal.Algorithmanalysisandarchitecture design for HDTV applications:a look at the H.264/AVC video compressor system[EB/OL].[2010-01-20].http://ntur.lib.ntu.edu.tw/handle/246246/141460.

猜你喜歡
結構
DNA結構的發(fā)現(xiàn)
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環(huán)結構謹防“死循環(huán)”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創(chuàng)新治理結構促進中小企業(yè)持續(xù)成長
主站蜘蛛池模板: 99热这里只有精品在线播放| 精品国产免费观看| a色毛片免费视频| 免费A级毛片无码无遮挡| 亚洲天堂日韩av电影| 亚洲毛片在线看| 国产喷水视频| 99这里只有精品在线| 亚洲成a∧人片在线观看无码| 婷婷五月在线| 欧美性猛交一区二区三区 | 国产精品香蕉| 91成人在线观看视频| 91精品国产一区自在线拍| 亚洲国产无码有码| 日韩av高清无码一区二区三区| 四虎影视8848永久精品| 久久国语对白| 九九热视频精品在线| 色妞www精品视频一级下载| 波多野吉衣一区二区三区av| 亚洲黄色激情网站| 国产熟睡乱子伦视频网站| 成人欧美在线观看| 国产95在线 | 欧美国产综合色视频| 日本道中文字幕久久一区| 国产福利免费在线观看| 美女一区二区在线观看| av大片在线无码免费| 亚洲中文字幕av无码区| 亚洲精品国偷自产在线91正片| 精品久久久久久久久久久| 超薄丝袜足j国产在线视频| 国产成人精品午夜视频'| 蜜臀AVWWW国产天堂| 日本欧美中文字幕精品亚洲| 亚洲AⅤ无码国产精品| 国产在线观看99| 国产成人精品日本亚洲77美色| 国产成人精品一区二区不卡| 美女黄网十八禁免费看| 精品国产www| 免费无码又爽又黄又刺激网站| 免费国产一级 片内射老| 日韩欧美国产成人| 亚洲第一成人在线| 精品福利国产| 亚洲区欧美区| 91九色国产porny| 91精品国产91久无码网站| 欧美国产在线一区| 亚洲一区色| 2022国产无码在线| 欧美日韩中文字幕二区三区| 日韩无码真实干出血视频| 狠狠色成人综合首页| 手机在线免费毛片| 少妇被粗大的猛烈进出免费视频| 99热这里只有精品5| 欧美在线视频a| 日本草草视频在线观看| 国产情侣一区二区三区| 亚洲大尺码专区影院| 久久人搡人人玩人妻精品一| 国产一区二区精品福利| 国内精品久久久久久久久久影视 | 欧美激情首页| 波多野结衣一区二区三区四区| 亚洲男人天堂网址| 国产成熟女人性满足视频| 欧美精品1区| 国产微拍精品| 国产激情无码一区二区免费| 日韩在线视频网| 麻豆精品国产自产在线| 欧美五月婷婷| 熟女成人国产精品视频| 91久久大香线蕉| jizz在线免费播放| 在线网站18禁| 91在线国内在线播放老师|