文 溢 陳建軍 黃 俊 姚嘯虎 劉衡竹
(國防科技大學計算機科學學院先進微處理器芯片與系統(tǒng)重點實驗室 長沙 410073)
高速并轉(zhuǎn)串/串轉(zhuǎn)并接口(Serializer/Deserializer, SerDes)是CPU, DSP和FPGA等系統(tǒng)中高速數(shù)據(jù)傳輸?shù)闹匾锢斫涌凇kS著信息化產(chǎn)業(yè)高速發(fā)展,芯片集成度越來越高,單一的高傳輸速率不能滿足新一代芯片的需求,科技產(chǎn)業(yè)對高性能SerDes設(shè)計提出了更高的要求。SerDes芯片的應用場景往往需要覆蓋–55~125°C的溫度范圍和盡可能大的電源波動,如何在有限的面積下,得到高速率、低功耗和強魯棒性的電路,成為當今SerDes設(shè)計的難點之一。
隨著傳輸速率需求越來越高,學者同樣做出了相應的應對,方法包括使用速度更快的立體工藝FINFET代替平面體硅CMOS,以及使用4電平脈沖調(diào)制編碼(4 Pulse Amplitude Modulation,PAM4)技術(shù)代替不歸零碼(Non Return Zero, NRZ)實現(xiàn)傳輸速率翻倍。在高速率層面,Ali等人[1]在7 nm鰭式場效應晶體管(FIN Field-Effect Transistor, FINFET)工藝下將電源電壓抬高到1 V實現(xiàn)了DSP架構(gòu)的56 Gbit/s和112 Gbit/s PAM4 SerDes設(shè)計,Kimura等人[2]在28 nm體硅CMOS工藝下,將電源電壓抬高到1.05 V,實現(xiàn)了28 Gbit/s NRZ SerDes,并使用小面積無源電感設(shè)計實現(xiàn)了可編程互阻抗架構(gòu)連續(xù)時間線性均衡器(Continuous Time Linear Equalizer, CTLE)和一種基于信號本身傳輸特性的自適應算法。在高性能層面,Aghighi等人[3]利用柵極和襯底同時驅(qū)動晶體管,在5 GHz頻點下設(shè)計了一款高帶寬超低功耗CTLE電路結(jié)構(gòu),得到12 dB高頻增益,Li等人[4]提出了一種適用于CTLE的深度學習自適應算法,結(jié)果展示出了良好的相關(guān)性。文獻[5-10]分析了信號傳輸特性,設(shè)計了相位插值結(jié)構(gòu)以及延遲鎖相環(huán)結(jié)構(gòu)時鐘數(shù)據(jù)恢復電路(Clock and Data Recovery, CDR),并研究了時鐘抖動對SerDes誤碼率的影響,文獻[11]介紹了56 Gbit/s全數(shù)字判決反饋均衡器(Decision Feedback Equalizer, DFE)和前饋均衡器(Feed Forward Equalizer, FFE)的設(shè)計和實現(xiàn)。總的來說,學者的研究重點集中在提高SerDes的傳輸速率和優(yōu)化面積功耗等性能方面上,對魯棒性方面的研究少之又少,有的只支持單一傳輸速率,或需要抬升內(nèi)核電源電壓,或不能兼容更廣的電壓與溫度范圍,這肯定會嚴重影響芯片的應用場景和良率,設(shè)計出能兼容不同工藝角、電源電壓和溫度條件下的SerDes是迫切需要的。
本文針對學者研究較少的魯棒性指標,在28 nm體硅CMOS工藝下對接收器(Receiver, RX)的模擬前端(Analog Front End, AFE)和DFE做了高性能設(shè)計,主要包括采用負阻抗結(jié)構(gòu)CTLE,有效提升電路帶寬,在8 GHz頻點得到22.9 dB均衡能力。半速率5tap-DFE采用tap1展開預處理結(jié)構(gòu),得到充足的時序余量。相對于傳統(tǒng)DFE設(shè)計中的12個采樣器,在本文中減少為8個,減少了CTLE的負載,滿足小面積和低功耗要求,采用自適應CTLE和DFE均衡算法調(diào)節(jié)補償系數(shù)來對抗工藝、電源和溫度波動帶來的影響,測試芯片工作溫度覆蓋–55°C~125°C,工作電壓覆蓋0.9 V±10%,誤碼率小于1E-12。
SerDes由4個通道(lanes)和2個鎖相環(huán)(Phase-Locked Loop, PLLs)構(gòu)成,頂層架構(gòu)如圖1所示。兩個鎖相環(huán)(PLLA和PLLB)分別輸出單一相位時鐘給發(fā)射器(Transmitter, TX),時鐘頻率覆蓋5~8 GHz,其中PLLA負責5~6.25 GHz, PLLB負責6.25~8 GHz。在TX時鐘輸入端設(shè)計一個多路復用器來選擇與傳輸速率匹配的時鐘,再由單端轉(zhuǎn)差分模塊得到一對差分時鐘。在RX CDR內(nèi)部集成一個VCO (Voltage Controlled Oscillator)產(chǎn)生頻率同樣為5~8 GHz的時鐘,這樣可以得到抖動非常小的RX時鐘源,合理的配置分頻系數(shù),使SerDes工作在半速、1/4速、1/8速模式下,可以使傳輸速率覆蓋1.25~16 Gbit/s。
圖1 SerDes頂層架構(gòu)
RX結(jié)構(gòu)如圖2所示,在信號輸入端,引入一個1 nH電感,利用T_coil結(jié)構(gòu)消除bump引入的較大寄生電容,提升芯片回波損耗的性能。片外高精度電阻與終端可調(diào)電阻Rterm進行匹配,由數(shù)字算法控制,形成自適應阻抗匹配校準環(huán)路。片上電容Cac用于交流信號耦合,將高通濾波器的特征頻率設(shè)置在100 kHz左右,以兼容更廣范圍的數(shù)據(jù)頻率和碼型[12,13],如速率為1.25 Gbit/s的PRBS31數(shù)據(jù)。
圖2 RX電路結(jié)構(gòu)
AFE模塊包括一個CTLE和一個可變增益放大器(Variable Gain Adjustment, VGA)模塊,抑制低頻增益的同時放大高頻增益,對信道的插入損耗做補償。在半速率5tap-DFE模塊設(shè)計中,將tap1展開成預處理結(jié)構(gòu),提前將均衡系數(shù)預加減,用前一拍數(shù)據(jù)對均衡后的數(shù)據(jù)進行選擇,大幅增加了時序裕量,解決了tap1時序不足的難題[14]。DFE輸出數(shù)據(jù)進入到串并轉(zhuǎn)換模塊,將2位數(shù)據(jù)轉(zhuǎn)換成20位給到數(shù)字模塊。在RX接收數(shù)據(jù)之前,會進行校準操作,包括電阻校準和失配校準。電阻校準是片內(nèi)可調(diào)電阻與片外高精度電阻進行自適應匹配調(diào)節(jié),失配校準包括AFE和采樣器,在CTLE和VGA的輸出端并聯(lián)一個由電阻電容構(gòu)成的低通濾波器,分別提取正/負端輸出信號的共模電壓,利用反饋補償電流的方法,將這對輸出信號的電壓鉗制到相等,以此來消除工藝制造上的失配。采樣器則是在正/負輸入端給相同的電壓進行判決,采用電壓補償?shù)姆绞綄κ溥M行校準。RX接收數(shù)據(jù)之后,采用最小均方根(Least Mean Square, LMS)算法對CTLE,VGA和5-tap均衡系數(shù)進行自適應計算收斂。
CDR模塊采用VCO結(jié)構(gòu)來設(shè)計,另外還包括一個Bang-Bang鑒相器(Bang-Bang Phase Detector, BBPD)和2階低通濾波器。在每個RX內(nèi)部集成一個VCO,優(yōu)點為取消了時鐘傳輸路徑上的大型驅(qū)動器,得到抖動性能更好的時鐘,同時也節(jié)省了面積和功耗。VCO產(chǎn)生5~8 GHz的12相位時鐘,經(jīng)過相位插值器輸出兩對相位差為90°的時鐘ckI和ckQ, ckI對數(shù)據(jù)信息進行采樣,ckQ對邊沿信息進行采樣。傳統(tǒng)CDR收斂時,ckQ必定采樣在邊沿中心點,ckI采樣在數(shù)據(jù)中心點,但此時可能不在采樣窗口的最佳點,因此利用掃描的方法,將ckI自適應收斂到合適采樣窗口的最佳點。
TX由并串轉(zhuǎn)換模塊和驅(qū)動器driver組成,結(jié)構(gòu)如圖3所示。從數(shù)字模塊中接收到20位并行數(shù)據(jù),依次經(jīng)過20to4, 4to2, 2to1模塊后轉(zhuǎn)換為1位高速串行數(shù)據(jù),最后由driver輸出。數(shù)據(jù)在2to1之前都是單端信號傳輸,不僅在數(shù)據(jù)路徑上減少了大量的觸發(fā)器,而且減小了時鐘的負載,有利于減小功耗和面積。Driver采用帶3tap-FFE的源終端串聯(lián)電阻(Source Series Terminated, SST)的電壓模結(jié)構(gòu),由40份相同的子模塊并聯(lián)組成,每個子模塊阻抗為2 kΩ,整個driver阻抗呈現(xiàn)為50 Ω。時鐘的占空比是TX的重要指標之一,一旦PLL輸出時鐘經(jīng)過長距離傳輸,占空比發(fā)生漂移,會直接影響TX輸出眼圖的質(zhì)量,所以在傳輸路徑上設(shè)計了一個實時調(diào)節(jié)的時鐘占空比補償模塊,其電路如圖4所示,主要包括占空比檢測電路dcc_sense和占空比調(diào)節(jié)電路dcc_adjust,首先對待調(diào)節(jié)的差分時鐘進行RC低通濾波,輸出共模電壓到運算放大器比較放大,將結(jié)果傳輸?shù)狡媚Kvbias,利用偏置電壓vbiasp和vbiasm分別調(diào)節(jié)輸入差分時鐘的占空比,最終使占空比調(diào)節(jié)到49%~51%。
圖3 TX電路結(jié)構(gòu)
圖4 TX占空比調(diào)節(jié)電路
AFE是RX中的重要模塊之一,傳輸速率越高,信號經(jīng)過信道后損耗越大,一般利用增益可調(diào)CTLE和VGA對信號進行補償。傳統(tǒng)的CTLE電路傳輸函數(shù)為
其中,RS為源極負反饋電阻,CS為源極負反饋電容,RL為負載電阻,CL為負載電容。運用多級CTLE結(jié)構(gòu)或者引入無源電感將高頻增益和帶寬提升,但是會引入功耗、面積和失配較大的問題,為了解決這個難題要求必須在一級CTLE和VGA中得到較大的高頻增益。本文在傳統(tǒng)CTLE的結(jié)構(gòu)上做了進一步改進,采用負阻抗結(jié)構(gòu)有效減少了CTLE的輸出阻抗,結(jié)構(gòu)如圖5所示。負阻小信號模型見圖5右下角綠色框圖,它的等效阻抗為
圖5 負阻抗CTLE電路圖
總輸出阻抗為
對比傳統(tǒng)CTLE的設(shè)計,可以發(fā)現(xiàn)負阻抗結(jié)構(gòu)在s=2CN/gm2處增加了一個零點,抵消RL×CL所決定的一個極點,利用零極相消原理,將高頻增益繼續(xù)加大,而且?guī)捯矔S之擴展。利用集成電路仿真工具(Simulation Program with Integrated Circuitspice Emphasis, SPICE)對RS進行掃描仿真,幅頻曲線如圖6所示,在8 GHz頻點,高頻對低頻的相對增益最大可達22.9 dB。
圖6 SPICE仿真幅頻曲線:掃描RS
在設(shè)計中,RS是可配置的,通過調(diào)節(jié)第1個零點和第1個極點的位置,來實現(xiàn)高頻增益的調(diào)節(jié),RS越小,第1個零點越小,高頻增益越大。一般來說,信號的上升下降沿越陡峭,則高頻增益越大,上升下降沿越平緩,高頻增益越小。圖7分別展示了高增益、適當增益、低增益情況,對應的是過均衡、理想均衡和欠均衡。利用這個原理來判斷CTLE的均衡狀態(tài),當CTLE處于理想均衡位置時,一段時間內(nèi),對0~1邊沿信息采樣值累加求和應該為0。如果CTLE對信號過均衡,則累加值≥1,欠均衡時累加值≤–1。
圖7 均衡狀態(tài)圖
表1展示了這幾種情況,其中d(n–1)與d(n)為數(shù)據(jù)的上升或者下降沿,p(n–1)為邊沿信息, ?(n)為判定結(jié)果,1表示過均衡,–1表示欠均衡。運用最小均方根算法對RS做自適應收斂,表達式為
表1 判定CTLE均衡情況表
其中,A為固定增益。可以看到,CTLE對均衡的判定情況與CDR中BBPD原理一致,但是因為CDR帶寬遠大于CTLE的自適應帶寬,所以二者不會互相干擾。
DFE采用半速率5-tap結(jié)構(gòu),其中tap1展開預處理,使tap1在1個數(shù)據(jù)周期內(nèi)完成均衡。圖8展示了DFE電路結(jié)構(gòu),它由奇、偶兩個相同的部分組成,每部分包含4個采樣器,分別為正h1采樣器、負h1采樣器和邊沿采樣器為CDR提供數(shù)據(jù)和邊沿信息,error采樣器是為了給5-tap均衡系數(shù)做自適應,AFE輸出端總共只連接了8個采樣器,減輕了AFE的負載,進一步縮減了功耗。
圖8 DFE模塊采樣圖
式(6)—式(8)展示了DFE均衡的全過程,x(n)是未經(jīng)過均衡的數(shù)據(jù),y(n)是經(jīng)過了tap2~tap5均衡之后的數(shù)據(jù)
因為tap1是展開預處理的,所以由式(7)單獨計算,其中,d(n)經(jīng)過了全部的5個tap均衡之后的數(shù)據(jù)
5個tap的均衡系數(shù)h(m)都是用最小均方根算法來自適應的,如式(8)所示,根據(jù)一段時間內(nèi)error采樣器得到的error信息e(n)與前5拍的數(shù)據(jù)d(n–4)~d(n)分別相乘累加,如果大于0則表示欠均衡,如果小于0則表示過均衡,再根據(jù)這個狀態(tài)來調(diào)整相應的h(m),最后使之收斂到理想的均衡狀態(tài)
h(n,m)=h(n-1,m)+Asgn[e(n)]d(n-m) (8)
SerDes頂層版圖如圖9所示,包含4條lanes和2個PLLs,橫向?qū)挾葹? 554 μm,縱向高度為1 410 μm,總面積為2.19 mm2。測試芯片在體硅CMOS工藝下流片,通過倒裝技術(shù)進行封裝,電源電壓為0.9 V和1.8 V,測試現(xiàn)場見圖10。
圖9 SerDes版圖布局
圖10 現(xiàn)場測試圖
測試板在8 GHz頻點的插入損耗約為29 dB,TX發(fā)送16 Gbit/s PRBS31碼,信號輸出眼圖如圖11所示,眼高為143 mV,眼寬為43.8 ps(0.7 UI),時鐘頻譜圖見圖12,確定性抖動為3.5 ps,隨機性抖動為1.0 ps。繼續(xù)對PRBS7, 15, 23進行測試,TX 眼圖的各項參數(shù)分別如表2所示,由于PRBS31的碼間干擾和拖尾更嚴重,所以各方面性能均比其他pattern都惡劣,同時,PRBS31基本上包含了PRBS7, 15, 23中比較典型的pattern,所以接下來的測試均在最惡劣的PRBS31條件下完成。
表2 不同pattern對眼圖的影響
圖11 TX輸出眼圖
圖12 TX輸出時鐘頻譜圖
傳輸誤碼率是評判SerDes性能優(yōu)劣的最重要的指標,優(yōu)秀的誤碼率是高速通信接口的必要條件。TX通過信道將數(shù)據(jù)傳輸至RX,分別在–55°C和125°C, 0.81 V和0.99 V 4種情況下進行誤碼率測試,發(fā)現(xiàn)60 min內(nèi)誤碼率均小于1E-12,滿足PCIe4.0協(xié)議要求。當TX數(shù)據(jù)存在周期性抖動噪聲時,需要RX將抖動帶來的影響消除,CDR的抖動容限反映了這項能力,是CDR重要指標。分別在25°C/0.9 V, 125°C/0.99 V 和–55°C/0.81 V 3種情況下測試了 CDR的抖動容忍性能,測試結(jié)果如圖13所示,3種情況下各頻點處的抖動容忍指標均高于協(xié)議要求,顯示出良好的抖動容限指標,并且可以通過提高溫度和電壓,來提升抖動容限指標。
圖13 CDR抖動容限
典型情況下,4lanes同時工作時功耗總計615 mW,能耗效率比為38.44 pJ/bit。在0.99 V,125°C情況下功耗出現(xiàn)最大值,為825 mW。表3展示了近年來學者研究成果對比。
表3 近年來學者研究成果對比
本文在體硅CMOS工藝下設(shè)計了一種傳輸速率覆蓋1.25~16 Gbit/s的SerDes芯片,設(shè)計負阻抗結(jié)構(gòu)CTLE和5-tap DFE信道插損做補償,同時采用LMS算法電路控制CTLE和DFE補償系數(shù)自適應。測試芯片包括4條lanes和2個PLLs,面積為2.19 mm2。測試結(jié)果表明,芯片工作溫度覆蓋–55°C~125°C,工作電壓覆蓋0.9 V±10%。典型16 Gbit/s情況下,TX輸出信號眼高為143 mV,眼寬43.8 ps, RX CDR抖動容忍性能滿足PCIe4.0協(xié)議要求,誤碼率小于1E-12,總功耗為615 mW。