詹 武,劉祥遠,郭 陽,丁艷平
(國防科學技術大學計算機學院,湖南 長沙 410073)
YHFT-XX芯片中長線延時優化策略*
詹 武,劉祥遠,郭 陽,丁艷平
(國防科學技術大學計算機學院,湖南 長沙 410073)
結合YHFT-XX芯片中存在很多長路徑的特點,對物理設計中長線的優化進行了研究,主要研究了三種中繼器的插入對延時的影響,得出了不同長線下插入中繼器的最優尺寸以及最優延時。結合具體的工程實踐,運用得出的結論優化了長路徑的延時。通過規整的中繼器插入,將長線上中繼器單元以及中繼器單元間的間距進行優化,使得路徑延時更小,通過跨模塊的中繼器插入優化,采用穿通技術,有效減小了延時,提升了芯片的時序性能。
中繼器;長線;優化;延時
隨著微電子行業的發展,芯片集成度在不斷提高,門延時伴隨著縮小的工藝尺寸在逐漸降低,互連線延時在總延時中所占的比例大幅增加,進入納米級工藝之后,互連線的延時已經取代了門延時成為芯片延時的主要部分,其比例大約占至總延時的60%~70%[1]。并且,隨著硅技術的繼續發展,互連線對集成電路的影響將會更加顯著[2]。互連線的本征延時主要受線長、單位電阻和單位電容的影響,在芯片物理設計中主要通過優化線長來減小長線延時。在超大規模、高頻率芯片設計中,互連長線嚴重制約著時序收斂,成為物理設計的難題。
國內外許多研究者投身于延時模型的研究,通過不同的互連模型來減小互連線的延時。文獻[3]研究了通過改變線寬和線間距的方法優化互連延時的互連模型。EDA算法方面,文獻[4]研究了在設計中存在阻擋模塊時,查找更好的中繼器插入位置的算法。
當前EDA工具自身的優化能力在很多情況下已經難以滿足一些大規模設計的要求[5],單周期內,數據路徑上的長距離走線成為時序收斂的瓶頸,尋找好的方式優化長線延時變得尤為重要。中繼器插入技術是最常用的能有效減小長線延時的方法,其優化效果根據插入的尺寸和位置不同而不同。所以,在不同的物理設計情境中,中繼器單元尺寸、位置以及插入方式的選擇對時序有著重大的影響。本文以工程實踐為依托,對YHFT-XX芯片中遇到的長線延時問題進行了研究,有效減少了走線延時。第1節為引言;第2節介紹了三種中繼器插入的延時對比,通過實驗得出了三種中繼器插入的最優尺寸與最優延時;第3節利用得出的結論,在工程實踐中進行了運用,結合具體情況優化延時,取得了顯著的效果;第4節對本文進行了簡單的小結。
長互連線用中繼器插入的方法可以得到很好的延時優化效果,根據中繼器插入的計算公式可以求出最優的中繼器尺寸。但是,通過計算得到的中繼器的尺寸會很大,高達最小尺寸的400~700倍[6],面積開銷過大,所以在長線優化的過程中如何選擇驅動倍數適宜的中繼器顯得尤為重要。物理設計中存在多種類型的中繼器,并且每種中繼器類型包含不同驅動能力的單元。本節基于40 nm工藝,通過實驗研究不同類型、不同驅動能力的中繼器,從而達到對線延時的優化目標。
2.1 反相器插入的延時優化
設計中采用的反相器為INV,小倍數的中繼器驅動能力弱,甚至超過分割線段所得到的延時收益,所以在物理設計中優化延時時不使用小倍數的中繼器單元,因此我們只對四倍及以上的單元做延時評估。建立實驗環境如下:在典型環境條件(工作電壓為0.9 V、溫度為25℃下),對長度為2 000 μm、1 500 μm(由于設計中存在較多1 500 μm以上的長線,故選用這兩種長度作為實驗對象)的互連線分別用INVD4、INVD6、INVD8、INVD12、INVD16、INVD18、INVD20、INVD24、INVD32做中繼器插入,得到延時結果如圖1和圖2所示。

Figure 1 Delay of INV optimize 2 000 microns long term

Figure 2 Delay of INV optimize 1 500 microns long term
由圖1和圖2可以看到:
(1) 整體曲線都呈現先減小后增大的趨勢。理論上,插入中繼器的延時與級數成對勾函數關系,不論對于哪一個尺寸,當延時值達到最小后,在相應最優級數的左側,延時值隨著級數的增加遞減,在相應最優級數的右側,延時值隨著級數的增加遞增。對于電路來說,當線長很長、插入的級數很少時,插入中繼器所截得的線長依然很長,路徑延時還是較大;當插入的中繼器數目達到最優效果之后,隨著插入的中繼器數目繼續增加,電路中的單元總延時也會增大,使得優化長線所得到的好處減小,路徑的總延時相比于最優值增大。
(2) INVD6、INVD8、INVD12、INVD16的路徑延時曲線相對靠近,而INVD24、INVD32的延時值在整體上都比其它單元大得多。當尺寸增大到一定程度后再增加尺寸大小反而會使延時增加,因此在電路的延時優化中不宜使用太大尺寸的INV單元。
(3) 在INV單元中,INVD12能獲得最好的延時優化效果,且獲得好的延時效果時所截得的線段長在250 μm~300 μm之間。
2.2 緩沖器插入的延時優化
數據路徑上常用的緩沖器有BUFF和BUFFX,對長度為2 000 μm、1 500 μm的長線使用這兩種不同類型的緩沖器做多級插入,進行延時優化比較。實驗在典型環境條件(工作電壓為0.9 V、溫度為25℃)下進行,得到相應的路徑延時結果如圖3~圖6所示。

Figure 3 Delay of BUFF optimize 2 000 microns long term

Figure 4 Delay of BUFF optimize 1 500 microns long term

Figure 5 Delay of BUFFX optimize 2 000 microns long term

Figure 6 Delay of BUFFX optimize 1 500 microns long term
通過分析可以得出:
(1)在相同的驅動能力下,使用BUFFX單元做中繼器的優化效果比BUFF單元的優化效果好。
(2)在BUFF單元中,BUFFD12的延時優化效果最好;在BUFFX單元中,BUFFXD12的延時優化效果最好。
(3)獲得好的延時優化效果時它們所截得的線段長為600 μm~750 μm。
2.3 反相器和緩沖器延時優化效果的比較
從前面兩小節可知,在反相器中使用INVD12做中繼器能獲得較好的延時優化效果,在緩沖器中使用BUFFXD12做中繼器獲得了較好的延時優化效果。INVD12和BUFFX12優化不同線長獲得的最小路徑延時如圖7所示,可以看出INVD12的延時優化效果較好。

Figure 7 Optimized delay comparison between INV12 and BUFFX12
3.1 規整的中繼器插入優化
如圖8所示的路徑,在寄存器Q_reg_79與硬宏模塊Mem_Bank1的D_Writ[453]端口之間存在長線互連,在工具自動對其優化時,其路徑上的中繼器單元尺寸和位置都比較雜亂,如圖8a所示。路徑延時如表1所示,通過11級中繼器單元來優化延時。為對這條路徑進行更好的優化,以滿足時序要求,對其進行了合理的規劃,如圖8b。由于單元密度不大,通過中繼器單元替換和位置的優化,在盡量直的路徑上,以較優的延時優化間隔插入,根據前一節中繼器插入的實驗結果,將路徑上的中繼器單元用INVD12替換,并且保證不產生邏輯反相。優化后的路徑延時如表2所示。

Figure 8 Messy repeater insertion and regular repeater insertion
表1中雜亂的中繼器插入的總路徑延時為0.806 ns。表2規整的中繼器插入以10級INVD12單元替換了規整前的11級中繼器單元,路徑總延時為0.725 ns。與規整前的路徑相比,延時減小了0.081 ns。
3.2 跨模塊的中繼器插入優化
在YHFT-XX芯片中,由于IP核的大量使用,

Table 1 Path delay of messy repeater insertion

Table 2 Path delay of regular repeater insertion
以及層次化物理設計的實施,后端物理設計中存在不少跨模塊的長互連線,EDA工具自身無法很好地優化這些長線,造成了時序的違反。
如圖9a所示,一組信號從模塊MM1傳輸到模塊MM3,中間跨過模塊MM2,這組信號成為頂層的關鍵路徑。從MM1到MM3的路徑,由于MM2的阻擋無法很好地通過中繼器插入來優化。如圖9所示,若通過繞線路徑連接,則會使得路徑長度增加2a。通過直線路徑連接,在模塊間的預留通道內即使使用驅動能力強的BUFFXD12來驅動跨模塊的線段,依然不能獲得好的時序效果,在這種情況下,采用穿通(feedthrough)技術,將MM1與MM3間的中繼器鏈插入到MM2的內部,使得MM1到MM3間的路徑長度最小化,可以更好地優化路徑延時。
圖9b為頂層使用穿通技術時的連接視圖,路徑從MM1內輸出穿過MM2整個模塊進入到MM3,完成整條路徑的數據傳輸。圖9c為使用穿通技術在模塊MM2內的連接視圖,路徑在MM2內按直線路徑傳輸。

Figure 9 View of using feedthrough technology on cross-module long-tem
表3為MM1到MM3間的一條路徑,分別按直線路徑使用穿通技術的中繼器插入和按繞線路徑通過頂層的中繼器插入的路徑延時。繞線的情況下,路徑中插入了20級反相器;使用穿通技術后,總路徑變短,插入的反相器為10級。繞線時反相器鏈延時為0.526 ns,數據到達時間為1.264 ns,路徑總延時為0.851 ns;使用穿通技術后反相器鏈延時為0.275 ns,數據到達時間為1.014 ns,路徑總延時為0.601 ns。與繞線時的路徑相比,使用穿通技術后路徑上反相器數目減少了10級;反相器鏈的延時減小了0.251 ns,總的路徑延時減小了0.250 ns,反相器鏈的延時降低了47.7%,路徑總延時降低了29.4%。穿通技術的使用有效地優化了長線數據通路的延時,在YHFT-XX芯片跨模塊路徑的優化中起到了顯著的作用。
本文對40 nm工藝不同尺寸、不同線長下的中繼器插入的延時優化進行實驗,得出了不同類型中繼器中延時優化效果較好的單元,并將實驗結果結合YHFT-XX芯片的工程進行了靈活運用。在實際示例中,通過規整的中繼器插入優化了長線上插入的中繼器單元以及單元間的間距,降低了路徑上的延時;在跨模塊的長線路徑優化中,采用feedthrough技術,壓縮了路徑的長度,有效減少了路徑的總延時,加快了芯片在時序上的收斂。

Table 3 Path delay of using feedthrough in long-term optimization
[1] Yamada K, Oda N. Statistical corner conditions and interconnect delay (corner LPE specifications)[C]∥Proc of the 2006 Asia and South Pacific Design Automation Conference, 2006: 706-711.
[2] Xia Ting-ting. The research and customize of interconnect RC corner [D].Changsha: National University of Defense Technology, 2013. (in Chinese)
[3] Hasani F, Masoumi N. Interconnect sizing and spacing with consideration of buffer insertion for simultaneous crosstalk-delay optimization[C]∥Proc of the 3rd International Conference on Design and Technology of Integrated Systems in Nanoscale Era, 2008:1-6.
[4] Alpert C J, Hrkic M, Quay S T. A fast algorithm for identifying good buffer insertion candidate locations[C]∥Proc of the 2004 International Symposium on Physical Design (ISPD-2004),2004:1.
[5] Liu Zhan-tao. Research and application of incremental interconnect delay optimization method[D].Changsha: National University of Defense Technology, 2012. (in Chinese)
[6] Wong B P, Mittal A, Cao Y, et al. Nano- CMOS circuit and physical design [M]. Xin Wei-ping,Liu Wei-feng,Dai Xian-ying Translation. Beijing:Machinery Industry Press,2011. (in Chinese)
附中文參考文獻:
[2] 夏婷婷.互連線RC端角的研究與定制[D].長沙:國防科學技術大學,2013.
[5] 劉戰濤.增量式互連線延時優化方法的研究與應用[D].長沙:國防科學技術大學,2012.
[6] Wong B P, Mittal A, Cao Y, et al. 納米CMOS電路和物理設計[M].辛維平,劉偉峰,戴顯英,等譯.北京:機械工業出版社,2011.
ZHAN Wu,born in 1989,MS candidate,his research interest includes IC physical design.

劉祥遠(1977-),男,江西會昌人,博士,副研究員,研究方向為高性能集成電路電路、設計及自動化。E-mail:liuxy@nudt.edu.cn
LIU Xiang-yuan,born in 1977,PhD,associate research fellow,his research interests include high-performance integrated circuits, and circuit design automation.
Delay optimization for long wire in YHFT-XX chip
ZHAN Wu,LIU Xiang-yuan,GUO Yang,DING Yan-ping
(College of Computer,National University of Defense Technology,Changsha 410073,China)
Aiming at that there are many long paths in YHFT-XX chip, the optimization of long wires in physical design is studied.The effect of three kinds of repeater insertion is studied,and the optimal sizes of repeaters and delays of different long wires after repeater insertion are obtained.Combined with the concrete engineering practice,the obtained results are used to optimize the delay of long paths. Regular repeater insertion is used to optimize the repeaters and the gaps between repeaters for the sake of reducing the path delay.Feedthrough technique is used to optimize the repeater insertion across modules,thus effectively reducing the delay and improving the timing performance of the chip.
repeater;long interconnect;optimization;delay
1007-130X(2015)01-0023-05
2014-08-10;
2014-10-11
TN47
A
10.3969/j.issn.1007-130X.2015.01.004

詹武(1989-),男,湖北黃岡人,碩士生,研究方向為集成電路物理設計。E-mail:zwinchina@163.com
通信地址:410073 湖南省長沙市國防科學技術大學計算機學院學員6隊
Address:College of Computer,National University of Defense Technology,Changsha 410073,Hunan,P.R.China