面向Open GL的圖形加速器設計與實現

2015-12-22 11:36:16鄧軍勇韓俊剛沈緒榜

西安電子科技大學學報 2015年6期

鄧軍勇,李濤,蔣林,韓俊剛,沈緒榜

(1.西安郵電大學電子工程學院,陜西西安 710121；2.西安電子科技大學微電子學院,陜西西安 710071)

鄧軍勇1,李濤1,蔣林1,韓俊剛1,沈緒榜2

(1.西安郵電大學電子工程學院,陜西西安 710121；2.西安電子科技大學微電子學院,陜西西安 710071)

為了探索圖形處理器的自主開發,設計了一款基于經典流水線結構、支持OpenGL核心函數的圖形加速器,并對其中幾何變換、投影變換和視窗變換的關鍵操作——矩陣運算、圖元裝配以及光柵化等單元進行了優化設計以提高效率,支持Gouraud著色、光照、全屏抗鋸齒、紋理貼圖等效果.為保證電路功能的正確性,構建了基于C/C++的軟件仿真平臺和基于System Verilog的硬件仿真平臺,并采用Altera公司的EP2C70F896C6搭建原型系統,電路規模約占FPGA總資源的83%,工作頻率可達100 MHz.經過大量實例測試,圖形加速器具備基本的圖形渲染能力.

圖形加速器;矩陣運算;圖元裝配;全屏抗鋸齒;原型系統

當前,種類繁多的電子智能設備已經深入到人類生活的眾多領域,無論通用計算機領域或嵌入式應用領域,對多媒體和圖形圖像技術的需求都在日益增加[1].圖形處理需要巨大的計算能力,傳統的圖形處理往往依賴于中央處理器（Central Processing Unit,CPU)的處理能力,很大程度上已經不能滿足用戶的需求.筆者基于經典流水線結構設計了一款面向開放性圖形庫（Open Graphics Library,OpenGL)核心函數的圖形加速器,并對其中幾何變換、投影變換和視窗變換的關鍵操作——矩陣運算、圖元裝配以及光柵化等單元進行了優化設計,構建了基于C/C++的軟件仿真平臺和基于System Verilog的硬件仿真平臺,以保證電路功能的正確性,并基于Altera公司的現場可編程門陣列（Field Programmable Gate Array,FPGA)EP2C70F896C6完成硬件電路,實現了由Nios II核、流水線圖形加速器、命令輸入與顯示、渲染結果顯示等模塊構成的圖形處理原型系統,電路規模約占FPGA總資源的83%,工作頻率可達100 MHz.

1 體系結構設計

Open GL獨立于硬件和窗口系統[2].文中選取與物體的外形描述、變換、光照、著色、紋理、像素操作、抗鋸齒等密切相關的核心應用程序接口（Application Program Interface,API)命令設計了一款圖形加速器,每條命令由18個字節（144位)組成,包括8位操作碼、8位控制字、128位數據字.

1.1 流水線型圖形加速器

Open GL規定了明確的圖形渲染流程:首先將對象由模型坐標經模型視圖變換得到視覺坐標;經投影變換得到裁剪坐標;經坐標齊次化得到規范化的設備坐標;最后經視口變換得到窗口坐標.這種流式數據處理體現為一條由幾何變換、圖元裝配、投影變換、坐標齊次化、視窗變換、背面剔除、光柵化、片元處理等流水級構成的宏觀流水線[3].

1.2 電路設計

1.2.1 總體設計

流水線各級之間的數據交互通常采用先進先出隊列（First In First Out,FIFO)完成,但片內靜態隨機訪問存儲器（Static Random Access Memory,SRAM)資源寶貴,圖形加速器采用雙軌握手協議實現數據傳輸.各級輸入和輸出采用控制信號valid和ready,其中valid表示數據線上有數據;ready表示本單元可以接收數據.當數據信號到達時,valid是1;當沒有數據信號時,valid為0.當輸入ready信號是1時,數據和valid存入;當輸入ready信號是0時,整個流水線凍結.

對于不同功能單元的設計,重點優化了幾何變換、投影變換和視窗變換等單元的關鍵操作——矩陣運算,并對傳統的圖元裝配算法進行了改進,同時對光柵化進行了分析和優化,提高了電路工作效率.

1.2.2 矩陣運算

圖形變換是計算機圖形學的一個重要研究內容[4],矩陣運算是圖形變換的基礎.頂點的平移、縮放、旋轉、剪切等幾何變換依靠頂點的齊次坐標與變換矩陣的左乘/右乘實現,由于應用程序指定的變換可能是一種或多種,因此變換矩陣可能是應用程序直接輸入的矩陣,也可能是多種變換矩陣的級聯相乘;投影變換和視窗變換同樣涉及矩陣運算[5].矩陣運算的性能高低直接影響圖形渲染的效率,通常使用更快速的處理器,利用并行性和專門的硬件結構等來提高運算速度;基于脈動陣列的矩陣乘法器充分利用了矩陣乘法運算中數據間關系的局部性與規則性,完成整個矩陣運算需7個時鐘周期,16個處理單元（Processing Element,PE)[6].基于Open GL命令的處理方法設計矩陣運算電路,文中思路如下:

（1)幾何變換、投影變換、視窗變換等流水級需要處理的命令包括矩陣向量運算類命令、矩陣矩陣運算類命令以及非本級處理而需要透傳的命令,因此矩陣運算器需要支持運算、存儲與傳輸.

（2)矩陣與矩陣/向量相乘,可以轉換為一系列向量點積運算,基于數據相關性,至少需要1個乘法器、1個加法器和至少5個時鐘周期.

（3)為提高運算效率,考慮數據并行處理:要實現利用1個乘法器和1個加法器在5個時鐘周期完成向量點積運算,需要采用流水結構;要使整個運算在5個時鐘周期內完成,則需要采用陣列結構.

矩陣運算器如圖1所示,由4個并行點積運算單元（Dot Product Element,DPE)和1個控制器組成,Din為輸入數據,CMD代表輸入命令,Rin、Vin和Rout、Vout是雙軌握手信號,分別為輸入就緒、輸入有效、輸出就緒和輸出有效,Dout為運算結果或直接透傳的輸入數據.DPE由寄存器組、乘法器、累加器、選擇器、寄存器等組成.每個DPE包含8個寄存器,分為A、B兩組,每組4個,以乒乓形式工作,用于存放當前矩陣:如果處理矩陣向量運算或透傳數據,則當前矩陣不變;如果處理矩陣操作,A、B兩組寄存器一組用來做當前運算,另一組用來存放矩陣相乘的結果,每次執行完畢則切換一次當前矩陣.數據寄存器R0、R1、R2分別用來存放乘法結果、累加結果與最終輸出.

圖1 矩陣運算器結構圖

圖1中,Smv用于控制乒乓寄存器組的切換和矩陣操作結果的存儲,Smi是矩陣元素的索引,Smvp用于選擇透傳輸入和累加結果.控制器用于協調整個矩陣運算器的工作,可以采用微程序式或硬連接式設計.鑒于運算類型相對單一,采用硬連接形式的自動機實現以提高效率.

1.2.3 圖元裝配

圖元裝配單元根據Open GL命令將繪圖對象裝配成具有一系列特定屬性信息的點、線、三角形等基本圖元.加速器設計中對圖元裝配單元常見的凹多邊形支持、裁剪后圖元的著色等問題綜合考慮解決.

OpenGL規范指定了點、線、三角形、多邊形等10種圖元,其中多邊形僅指凸多邊形.對于凹多邊形,多采用軟件方法拆成三角形圖元并輔以邊界邊標志處理[2],但效率較低,且客戶端/服務器之間數據傳輸量大.目前的設計依實際需求或者僅支持到三角形扇,或者僅支持凸多邊形.針對凹多邊形,加速器增加了第11種圖元GL_POLYGON_CONCAVE,并采用改進的區域填充掃描線算法完成光柵化[7].

圖元渲染過程中被剪裁的圖元在重新裝配過程中常面臨著色模式問題.這是由于圖元渲染包括單調著色和平滑著色兩種模式,裁剪后圖元由于屬性保持模式使得重新裝配的圖元在單調著色模式下渲染顏色與OpenGL規范不一致.對于該問題,專利[8]依靠反饋通路將剪裁后且位于視口內的圖元重新送回圖元裝配的前級,對新產生的頂點進行變換、光照等操作.然而深亞微米工藝中,線的延遲比門的延遲更重要[9],因此為避免片上大量走線,將渲染模式的判斷隱式地提到圖元裝配處理以消除反饋通路;對每個圖元的每個頂點按保留模式傳遞顏色屬性.

圖形加速器將高階圖元,如串、扇、多邊形等細分為三角形進行裝配.頂點數據從客戶端到服務器只需傳輸一次,但在圖元裝配過程中可能會多次用于不同圖元.每個圖元的每個頂點在裝配過程中設置了最多16種屬性信息以保證裝配結果與光柵化結果的正確,用C代表顏色（Color)、FFPC代表正面主顏色（Front Face Primary Color)、FFAC代表正面輔助顏色（Front Face Auxiliary Color)、BFPC代表背面主顏色（Back Face Primary Color)、BFAC代表背面輔助顏色（Back Face Auxiliary Color)、TC0～TC5代表6個紋理坐標（Texture Coordinate)、NV代表法向量（Normal Vector)、EF代表邊界邊標志（Edge Flag)、PM代表多邊形填充模式（Polygon Mode)、CP代表是否凹多邊形（Concave Polygon)、V代表頂點坐標（Vertex coordinate).根據支持圖元的類型,共設置4個存儲單元BUF0～BUF3暫存屬性信息,比專利[8]中要暫存當前頂點、后續若干頂點、復用頂點、頂點標簽、控制標簽、裝配后圖元、裝配后待發送圖元等信息需要的存儲要少,降低了片內集成大量存儲的壓力.

圖2 圖元裝配流程圖

圖元裝配流程圖如圖2所示.初始化階段將各個屬性設為默認值,繼而等待glBegin命令,根據圖元類型啟動相應過程完成圖元裝配和信息輸出.裝配過程中,需要注意:

（1)對于所有圖元,在沒有啟用光照時,不需裝配屬性FFPC、FFAC、BFPC、BFAC、NV;在沒有啟用紋理時,不需要裝配屬性TC0～TC5;

（2)對于點、線、線串、線環,不需要裝配屬性EF、PM、CP;

（3)對于三角形、三角形串、三角形扇、四邊形、四邊形串,不需要裝配屬性CP;

（4)對于四邊形、四邊形串、多邊形的裝配,應注意EF屬性的正確使用;

（5)對于凹多邊形,應注意CP屬性的正確設置.

鑒于加速器是一個軟硬協同的圖形渲染系統,為降低硬件電路的設計壓力,軟件部分對于應用程序的編譯包括了對無效頂點的處理,保證送入加速器的頂點數目為構成對應圖元的合理值,比如,對于點圖元,保證頂點個數不少于1;對于三角形圖元,保證頂點個數為3的正整數倍,多余的1個或2個頂點忽略.

1.2.4 光柵化

光柵化完成點、線、三角形等基本圖元向二維圖像空間像素點的轉換.關于點、線、三角形等基本圖元的光柵化有著成熟的算法;凹多邊形采用改進的區域填充掃描線算法完成光柵化.為了創建具有真實感效果的三維場景并表現物體表面的細節,對渲染場景進行光照和紋理貼圖.光照模型是生成真實感圖形的基礎,經典的Phong模型[10]易于用軟件或硬件高效實現,幾乎是所有實時圖形渲染系統選用的模型;加速器采用Phong模型并支持多達8盞燈.鑒于紋理貼圖是個大主題,又受限于可編程邏輯器件的片上資源,加速器實現了基本的紋理操作,并支持紋理組合器,可以對紋理、片斷以及常量顏色進行數學運算.

光照與紋理處理的流程如圖3所示.圖中虛線代表GL_LIGHT2～GL_LIGHT6的處理流程,由于8盞燈的處理流程相同,限于篇幅,圖中從略.一般情況下,光照先于紋理處理,而設定光照模型的GL_SEPARATE_ COLOR為TRUE時,鏡面亮點要放在紋理之后處理,因此加速器設計時設置片元主顏色和輔助顏色的寄存器,并在GL_LIGHT0～GL_LIGHT7的使能判斷與計算過程中,依次累加以得到全部光源對片元主顏色和輔助顏色的貢獻;繼而處理紋理時則依據鏡面光是否分離決定鏡面亮點的計算,紋理處理過程中支持紋理組合器,包括GL_REPLACE、GL_MODULATE、GL_DECAL、GL_ADD和GL_BLEND等功能[11].

圖3 光照和紋理處理流程圖

由于渲染畫質同運算速度都是圖形加速器優化的重點,隨著應用對畫質需求的提高,全屏抗鋸齒技術（Full-Screen Anti-Aliasing,FSAA)逐漸成為圖形加速器的必備功能.FSAA技術不同于光柵化的抗鋸齒（Anti-Aliasing,AA)技術僅對alpha分量根據片元的像素占有率處理,而對RGBA這4個分量都根據應用程序要求進行處理并把結果添加到累積緩沖區.因此,加速器的幀緩沖區包含顏色緩沖區和累積緩沖區以支持FSAA.渲染過程中首先清除累積緩沖區,并啟用顏色緩沖區用于像素讀取和寫入;使用累積緩沖區對圖像微移,完成渲染結果的超采樣并求均值,實現對所有渲染圖元的抗鋸齒處理.

2 仿真平臺

大規模集成電路的仿真驗證約占電路開發消耗的70%.為保證功能的正確性與完整性,首先從系統級構建了基于C/C++的軟件仿真平臺,用于驗證系統方案與實現算法的可行性;同時基于System Verilog語言搭建了周期精準的硬件模型與硬件仿真平臺,并采用Synopsys公司的VCS進行仿真與代碼覆蓋率統計.

2.1 軟件仿真平臺

為驗證圖形加速器的系統方案與實現算法,按照第1部分的體系結構設計,基于C/C++建立了軟件仿真平臺GAU（Graphics Accelerator Unit),由線程client、server和display組成:①client是server與用戶相交互的接口,負責讀取渲染命令并解析;②server負責完成應用程序的渲染,其處理流程基于前述的體系結構,是仿真平臺的核心;③display負責對所生成的圖形進行繪制.

2.2 硬件仿真平臺

硬件電路的仿真驗證,從工程實踐上一般包括系統集成前基于測試向量的單元電路驗證、系統集成后基于應用程序的單元電路驗證、系統集成后基于應用程序的系統級驗證以及系統應用驗證4個階段,然而隨著系統規模的增加,測試向量、應用程序的規模將非常巨大,難以維護,而且有時幾乎是不可能的.加速器的仿真基于System Verilog驗證方法學搭建了一種分層的測試平臺,包括測試層、場景層、功能層、命令層、信號層,其中:①測試層是頂層,包含了測試和功能覆蓋率.②場景層用于驅動相應的命令送往功能層.③功能層接收上層事務,并將之分解為獨立的命令送往用于預測事務結果的記分板.④命令層驅動待測設計的輸入,并將待測設計的輸出與監視器相連,監視器負責檢測信號的變化;使用斷言監視穿越信號變化.⑤底部的信號層連接待測設計與測試平臺.

3 原型系統與測試

對經過充分仿真驗證的圖形加速器電路開發原型系統實測[12],選擇Altera公司的EP2C70F896C6進行測試平臺開發,總體結構如圖4所示,其中NiosII軟核將經鍵盤輸入的OpenGL命令進行初步解析并送入圖形加速器,同時完成液晶顯示屏（Liquid Crystal Display,LCD)上的輸入回顯;圖形加速器電路完成OpenGL圖形程序的渲染,并將結果存入幀緩沖區,輸出顯示控制器從中讀出數據后以標準時序發給顯示器.根據軟件QuartusII運行結果,電路規模約占FPGA總資源的83%,工作頻率可達100 MHz.

圖4 圖形加速器的原型系統框圖

圖5 圖形加速器的部分渲染結果

采用典型的Open GL渲染程序對原型系統進行測試,結果表明系統可完成渲染要求.圖5（a)所示為經過平移、縮放等幾何變換、填充模式為GL_LINE的正方體;圖5（b)所示為計算機圖形學中的經典圖形——Sierpinski鏤墊;圖5（c)所示為帶凹多邊形的旗幟;圖5（d)所示為紋理組合器效果,依次是GL_REPLACE、GL_MODULATE、GL_DECAL、GL_ADD、GL_BLEND;圖5（e)所示為帶有光照、全屏抗鋸齒前后的效果對比,左側兩幅圖為全屏抗鋸齒前的全圖以及立方體、球體和圓環體交界處的細節圖,右側兩幅圖則為微移5次后全屏抗鋸齒效果,從細節圖對比中可以看出抗鋸齒效果明顯;圖5（f)所示為像素操作的渲染結果,根據“像素顏色=像素顏色原值*縮放值+偏移值”,依次為縮放值為1.0,偏移值為0.0;R縮放值為0.0,偏移值為0.0;G縮放值為0.0,偏移值為0.0;B縮放值為0.0,偏移值為0.0;R偏移值為1.0;G偏移值為1.0; B偏移值為1.0;B縮放值為0.5,G偏移值為0.9.

4 結束語

根據多媒體以及圖形圖像處理能力的應用需求,基于經典流水線結構,筆者設計了一款面向OpenGL核心函數的圖形加速器,并對其中幾何變換、投影變換和視窗變換的關鍵操作——矩陣運算、圖元裝配以及光柵化等單元進行了優化設計.其支持基本的光照、全屏抗鋸齒、紋理貼圖以及紋理組合器等效果.為保證電路功能的正確性,構建了基于C/C++的軟件仿真平臺和基于System Verilog的硬件仿真平臺;最后采用Altera公司的FPGA EP2C70F896C6搭建原型系統,電路規模約占FPGA總資源的83%,工作頻率可達100 MHz.經過大量實例測試,圖形加速器具備基本的圖形渲染能力.

[1]Deng J,Li T,Jiang L,et al.Design and Optimization for Multiprocessor Interactive GPU[J].The Journal of China Universities of Posts and Telecommunications,2014,21(3):85-97.

[2]Shreiner D,Sellers G,Kessenich J M,et al.OpenGL Programming Guide:the Official Guide to Learning OpenGL,Version 4.3[M].Boston:Addison-Wesley Professional,2013.

[3]Tong T C,Chang Y N.Efficient Vector Graphics Rasterization Accelerator Using Optimized Scan-line Buffer[J].IEEE Transactions on Very Large Scale Integration Systems,2013,21(7):1246-1259.

[4] 許社教.三維圖形系統中兩種坐標系之間的坐標變換[J].西安電子科技大學學報,1996,23(3):429-432. Xu Shejiao.The Coordinate Transformation between the Two Coordinate Systems of 3D Graphic Systems[J].Journal of Xidian University,1996,23(3):429-432.

[5]Deng J R,Chang L B,Huang G X,et al.The Design and Prototype Implementation of a Pipelined Heterogeneous Multicore GPU[C]//High Performance Computing.Berlin:Springer,2013:66-74.

[6]Amira A,Bensaali F.An FPGA Based Parameterizable Systems for Matrix Product Implementation[C]//IEEE Workshop on Signal Processing Systems.Piscataway:IEEE,2002:75-79.

[7] 李平,韓俊剛,李自迪,等.區域填充掃描線算法的硬件設計與實現[J].微計算機信息,2011,27(6):124-125. Li Ping,Han Jungang,Li Zidi,et al.The Hardware Design and Implementation of Area Filling Scanline Algorithm[J]. Microcomputer Information,2011,27(6):124-125.

[8]Lavelle M G,Pan H,Ramirez A S.Vertex Assembly Buffer AND Primitive Launch Buffer:U.S.Patent 6,816,161 [P].2004-11-9.

[9]Shen X B.Evolution of MPP SoC Architecture Techniques[J].Science in China Series F:Information Sciences,2008,51(6):756-764.

[10]Phong B T.Illumination for Computer Generated Pictures[J].Communications of the ACM,1975,18(6):311-317.

[11]Sellers G,Wright R S,Haemel N.OpenGL Superbible:Comprehensive Tutorial and Reference[M].Boston:Addison-Wesley,2013.

[12]Guo F,Wan W G,Zhang X M,et al.Design of Test Platform for 3D Graphics Pipeline Based on Micro Blaze[C]// International Conference on Audio,Language and Image Processing.Washington:IEEE Computer Society,2012:392-396.

（編輯:王瑞)

Design and implementation of the graphics accelerator oriented to OpenGL

DENG Junyong1,LI Tao1,JIANG Lin1,HAN Jungang1,SHEN Xubang2
(1.School of Electronic Engineering,Xi’an Univ.of Posts&Telecommunications,Xi’an 710121,China;2.School of Microelectronic,Xidian Univ.,Xi’an 710071,China)

In order to explore the self-development of the graphics processing unit,this paper presents the design of a graphics accelerator which utilizes the classical pipelined structure and supports OpenGL primary commands.The matrix computational unit,which is the critical operation of geometric transformation,projection transformation and viewport transformation,primitive assembly unit and rasterization unit have been optimized to improve the efficiency.The accelerator realizes the rendering effects of Gouraud shading,lighting,full-screen anti-aliasing and texture mapping.In order to verify the circuit,the software and hardware simulation workbench based on C/C++and System Verilog respectively have been established. The prototype system is implemented on EP2C70F896C6 of Altera which takes up to 83%of the FPGA resource,with the speed being up to 100 MHz.The test results of plenty of rendering applications show that the accelerator possesses the capability of graphics rendering.

graphics accelerator;matrix computation;primitive assembly;full-screen anti-aliasing; prototype system

TP302

1001-2400（2015)06-0124-07

10.3969/j.issn.1001-2400.2015.06.022

2014-09-18

時間:2015-03-13

國家自然科學基金重點資助項目（61136002);國家自然科學基金資助項目（61272120);陜西省自然科學基金資助項目（2013JC2-32,2015JM6326);西安郵電大學青年教師科研基金資助項目（ZL2014-21)

鄧軍勇（1981-),男,副教授,博士,E-mail:djy@xupt.edu.cn.

http://www.cnki.net/kcms/detail/61.1076.TN.20150313.1719.022.html

西安電子科技大學學報2015年6期

西安電子科技大學學報的其它文章: 電壓島驅動的多級布圖規劃優化算法; 動態頻譜接入的Q學習優化算法; 波束掃描微帶反射陣天線設計; 動態特征和靜態特征自適應融合的目標跟蹤算法; 一種新的角度多普勒補償方法; 新型的精密時差測量技術