摘要:在當前高性能片上網絡設計中,功耗和延遲是設計所面臨的核心問題之一。在此著重闡述了構成低功耗和低延遲NoC的4種結構:低擺幅的信號傳輸結構、可重構的NoC結構、3D的IC設計結構、基于數據壓縮機制的結構。通過對其功過原理的分析,比較了4種結構的優缺點,最后對未來低功耗、低延遲的NoC發展方向做出了預測。
關鍵詞:NoC; 低功耗; 低延遲; 3D
中圖分類號:TN91934文獻標識碼:A文章編號:1004373X(2012)04017304
Power consumption and performance of network on chip
PENG Yonghong1, XIN Jie2, ZHOU Xiaowei3, SHEN Bo3, DING Yifeng3
(1. Guomao Electronic Systems Co., Ltd., Suzhou,215000, China; 2. Deparment of Computer Science, Suzhou University, Suzhou 215000, China;
3. Suzhou Industrial District Science and Technology Development Co., Ltd., Suzhou 215000, China)
Abstract: The power consumption and timedelay are the most important design constraints in the highperformance NOC (network on chip) design. Four structures of NOC with low power consumption and low timedelay are elaborated: low swing signal transmission structure, reconfigurable NOC structure, 3D IC design structure and structure based on data compression mechanism. The advantages and disadvantages of the four structures are compared by the analysis of the theoretic diagram and the principle of each type of NOC. Finally, the development directions of the low power consumption and low timedelay NOC are predicted.
Keywords: NOC; low power consumption; low timedelay; 3D
收稿日期:201109150引言
片上系統(System on Chip,SoC)和IP核技術的研究始于20世紀90年代初,并在隨后的十幾年中,得到了飛速的發展,到目前已有集成了十幾億個晶體管的單片芯片[1],當SoC的集成度越高時,芯片上的延遲、功耗等問題也就越突出。尤其表現出了總線的可擴展性弱,平均通信率低和單一時鐘的同步性差等問題。于是在1999年研究者們提出了片上網絡(Network on Chip,NoC)的概念來解決上述問題[23]。
NoC可以定義為在單一芯片上實現基于網絡通信的多處理器系統,其中包括計算節點和通信節點。計算節點為完成廣義的計算任務,它可以是單一的IP核也可以是比較完整的SoC,而通信節點為負責計算節點之間的數據通信。片上網絡是借鑒分布式計算機系統的通信方式,由分組交換技術和路由技術代替傳統的總線技術完成通信。NoC的核心思想是將計算機網絡技術移植到芯片設計中來,從體系的結構上解決有關SoC的問題。主要表現在NoC網絡具有良好的地址空間可擴展性,同時提供良好的并行通信能力和使用全局異步局部同步機制,解決了總線結構的單一時鐘同步等一系列問題[4]。
目前NoC相關的研究主要集中在NoC網絡協議、NoC拓撲結構、低功耗和低延遲等方面。研究表明,隨著集成電路技術的快速發展,目前互聯線的延遲比MOS管的延遲更嚴重,同時隨著集成度的提高[1],也使得互聯線的功耗問題成為了NoC研究的核心問題[5]之一。例如Intel生產的“萬億級芯片”,它的互聯線功耗占整個芯片功耗的40%[6],麻省理工學院(MIT)研究的可重構Raw處理器,在互聯線上消耗的功耗占整個處理器功耗的36%之多[7],由韓國KAIST實驗室設計的應用低功耗NoC技術生產的BONE2芯片,其NoC互聯部分的功耗也占到了31.8%[8]。
本文將對實現低功耗和低延遲NoC的4種結構進行詳細分析,包括了低擺幅的信號傳輸結構、可重構的NoC結構、3D的IC設計結構、基于數據壓縮機制的結構,并比較這4種結構在功耗和延遲等方面的優缺點。在此基礎上,預測了NoC的發展趨勢。
1低功耗、低延遲的4種NoC結構
1.1低擺幅的信號傳輸結構
對于傳輸線上的功耗計算可以由下面的公式給出[9]:Plink = αCLVswingVdriverf(1)式中:α為信號翻轉率;CL為電路負載電容;Vswing為傳輸線上的電壓擺幅;Vdriver為驅動電壓;f為信號的頻率。
從式(1)中可以看出,采用低的擺幅傳輸線電壓,可以降低系統的功耗。如Kangmin Lee[10]等提出了圖1所示的電路。這個電路可以降低功耗、減少延遲,并具有很強的抗干擾能力。
圖1低擺幅電壓電路對于圖1中傳輸模塊(Transmitter)而言,當輸入數字信號時,對于不同的電源電壓,其高電平和低電平的噪聲容限不同。例如在以Vdriver為電源電壓的情況下,低電平輸入電壓為0.3 V,在Vswing為電壓的情況下這個電壓值可能是高電平,故使用一對反相器使輸入電壓的噪聲容限增加,再經過電源電壓為Vswing的反相器,使得輸出電壓降低。
對于時鐘恢復電路(CRC, Clock Restore Circuit)模塊而言,當STB信號為Vswing的高電平,STB信號為Vswing的低電平時,P1、P2管全部導通,左邊電流遠遠大于右邊電流,使得N1管進入三極管區,差動放大器的輸出為低電平。經過三個反相器之后變成高電平。當STB信號為Vswing的低電平,STB信號為Vswing的高電平時,這時右邊電路電流遠大于左邊電路電流,但由于CRC電路的下部分是一個電流鏡,這樣就迫使差動放大器的輸出電壓為高電平,經過三個反相器之后變成了低電平。使用三個反相器是由于不同電源電壓的電平噪聲容限不同,這里是為進行轉化而設置的。時鐘控制放大電路(Clocked Sense Amp.)模塊,原理同CRC電路相同,只是這個電路的P1管受clk的控制而已,即當CLK為高電平時(即不傳輸信號),整個電路截止,使得差動放大器的輸出電壓上移,當差動輸出為高電平,經過3個反相器之后為低電平。
由于數字電路和差動輸入放大器,它們的延遲時間都是用擺率來計算,如(2)式所示: tp=ΔV/SR(2)式中:tp表示傳輸延遲;SR表示擺率;ΔV表示輸出信號的高電平與低電平的模擬電壓差,所以電壓轉化之后使得ΔV減小,延遲減小。若使擺率增加,即增加輸出電流和輸入電流的驅動能力,在此電路中,可以通過增加晶體管的寬長比或降低Vswing使電流增加,繼而擺率增加,傳輸時延減小,但相應的功耗也增加,這樣必須對功耗和延遲進行權衡。圖2[10]中給出了在固定的晶體管的寬長比下,功耗能量延遲積與電壓擺幅的關系,并標出Vswing在什么值時,功耗能量與延遲積最小。
1.2可重構的NoC結構
Mikkel.B.S提出了可編程路由和鏈路結構[11],如圖3所示。
在圖3中,每個交換節點有5個端口,4個連接臨近的交換節點,和一個連接IP核,圖中在路由器和鏈路之間加入了可編程開關,通過這種拓撲開關,可以使網絡通路經過路由器,或不經過路由器而通過物理鏈路直接傳輸到其他的IP核或者輸出,其中一種可能的傳輸物理結構如圖4所示。
圖2功耗延遲積與Vswing的關系圖通過圖4所示的這個可編程邏輯的交換節點,可以將純物理鏈路的低功耗和經過路由通路的低延遲結合起來,使得整個電路實現低功耗、低延遲。
當然,網絡的拓撲結構也可以是其他結構,如樹型結構,Mesh, Xmesh等相似的拓撲結構,只要把交換節點的可編程結構應用于其他的拓撲結構即可。
1.33D的IC設計結構
隨著器件尺寸的減小和工藝水平的提高,人們已經利用多層結構,來減少功耗和延遲。其中Igor Loi等人提出了3D的NoC[12],其垂直方向等效電路圖如圖5所示。
圖3交換節點的拓撲結構圖4一種復雜的多樣的物理鏈路結構圖圖5兩個垂直節點的連接的等效電路圖其中Rpl_out_top為上層電路交換節點的平面輸出電阻,Cpl_out_top為上層電路交換節點的平面輸出等效電容,Rpl_in_top為上層電路交換節點的平面輸入電阻,Cpl_in_top為上層電路交換節點的平面輸入等效電容,Rtsv為上下層電路之間的硅通路電阻(Through Silicon Via),Ctsv為上下層電路之間的硅通路電容。上下兩層電路的鏈接通過Rcontact相連,雖然電路增加了硅通路電阻和電容,但采用上下層的結構使得互聯線大大縮短,這相對于硅通路增加的電阻,其互聯線減小的電阻要大的多,故使得功耗和延遲都有所減小。
1.4基于數據壓縮機制的結構
對于單片芯片,從一個IP塊到另一個IP塊的數據有很大的冗余,所以可以引用計算機系統中的高速緩存結構(Cache)來減少數據冗余,Reetuparna Das等[13]提出了高速存儲和片上網絡的通信相結合來降低總的功耗和延遲,圖6給出了此結構的框架圖。
圖6高速緩存壓縮和NIC壓縮模型高速緩存壓縮模型(Cache Compression Scheme,CC)模式是采用數據壓縮解壓模塊和網絡適配器(Network Interface Controller,NIC)分離設計技術,即CPU或者其他模塊產生的數據先經過壓縮,再通過NIC和高速緩存單元節點(Cache Bank)等把壓縮之后的數據傳至目的地,最后將壓縮之后的數據解壓。基于網絡適配器壓縮模型(NIC Compression Scheme,NC)模塊采用的是數據壓縮解壓模塊嵌入NIC中,即在Cache Bank模塊中嵌入了數據壓縮解壓模塊,這樣可以在傳輸的高速緩存中對數據進行壓縮和解壓。雖然這樣的NC結構減小CPU的數據阻塞,卻可能產生通信阻塞。下面給出NIC高速緩存查找過程,如圖7所示。和計算機系統類似,NoC采用此結構既減少傳輸的數據量。同時也降低了NoC總體的功耗和延遲。
1.5四種結構的對比
表1給出了上述四種結構的性能參數。我們可以得出這四種結構幾乎都減小NoC的功耗和延遲,但各自的偏重點不一樣并各有缺點。如低擺幅的信號傳輸需要多電源供電,增加了設計的難度,3D的IC設計需要有較好的工藝水平,可重構的NoC結構的延遲幾乎沒減小,基于數據壓縮機制的結構對壓縮解壓算法和電路的設計。
圖7NIC高速緩存的查找過程圖表1四種結構的功耗和延遲%
結構類型功耗(相對于2D
mesh結構)延遲(相對于2D
mesh結構)低擺幅的信號傳輸62---可重構的NoC結構56---3D的IC設計7240數據壓縮(CC/NIC)77/7967/68
2總結和預測
本文論述了四種減小功耗和延遲的電路拓撲結構,并分析比較了各自的優缺點,設計者可以根據實際情況,選擇一種或者多種結構來實現低功耗和低延遲NoC的設計。未來低功耗低延遲的NoC設計將向著上述多種結構的綜合運用方面發展,比如采用低擺幅的信號傳輸與3D的IC設計技術相結合等,甚至結合傳統的一些拓撲結構設計出性能優越的NoC。
參考文獻
[1]YAN J. International technology roadmap for semiconductors \\[R/OL\\]. \\[20090521\\]. http://www. lib. semi.ac.cn.
[2]GUERRIER P, GREINER A. A Generic architecture for onchip packetswitched interconnections \\[C\\]// Proceedings of Design, Automation and Test in Europe. \\[S.l.\\]: DATE, 2000: 250255.
[3]HEMANI A, JANTSCH A, KUMAR S, et al. Network on a chip: an architecture for billion transistor era \\[C\\]// Proceeding of the IEEE NorChip Conference. \\[S.l.\\]: Citeseer, 2000: 166173
[4]高明倫,杜高明.NoC:下一代集成電路主流設計技術[J].微電子學,2006,36(4):461466.
[5]LEE S E. pNePA: a high level power model for an adaptive router in NOC \\[R\\]. \\[S.l.\\]: UC Irvine, 2008.
[6]Intel Corp. From a few cores to many: a terascale computing research overview \\[R\\]. USA: Intel, 2006.
[7]KIM.J.S, TAYLOR M.B, MILLER J, et al. Energy characterization of a tiled archtecture processor with onchip networks \\[C\\]// Proc. of the 8th Intel Symp. on Low Power Electronics and Design. \\[S.l.\\]: Intel, 2003: 424427.
[8]LEE K. A 51 mW 1.6 GHz onchip network for lowpower hetergeneous SoC platform \\[C\\]// Proc. of IEEE International SolidState Circuits Conf. Dig. Tech. \\[S.l.\\]: IEEE, 2004: 152153.
[9]CHANDRAKASAN A. Design of highperformance microprocessor circuits \\[M\\].USA: IEEE Press, 1999.
[10]KANGMIN L, SEJOONG L, HOIJUN Yoo. Lowpower networkonchip for highperformance SoC design \\[J\\]. IEEE Transactions on Very Large Scale Intergration(VLSI) Systems, 2006, 14 (2): 148160.
[11]MIKKEL B. S, JENS S. ReNoC: a networkonchip architecture with reconfigurable topology \\[C\\]// Proceedings of Second ACM/IEEE International Symposium on NetworksonChip. \\[S.l.\\]: ACM, 2008: 5564.
[12]IGOR L, FEDERICO A, SHINOBU F, et al. Characterization and implementation of faulttolerant vertical links for 3D networksonchip \\[J\\] IEEE Transactions on ComputerAided Design of Integrated Circuits and Systems, 2011, 30 (1): 124134.
[13]REETUPARNA D, ASIT K M, CHRYSOSTOMS N, et al. Performance and power optimization through data compression in networkonchip architectures \\[C\\]// Proceedings of 2008 IEEE 14th International Symposium on High Performance Computer Architecture. \\[S.l.\\]: IEEE, 2008: 215225.