呂棟斌,呂方旭,王和明,張 庚,張金旺,秦悅儀
(1.空軍工程大學防空反導學院,西安,710051; 2.長安大學經濟與管理學院,西安,710061)
自大數據問世以來,用于超大規模數據中心、高性能中央處理器(CPU)、圖形處理器(GPU)、人工智能(AI)和網絡應用的片上系統(SoC)發展面臨著前所未有的考驗,摩爾定律失效,芯片性能和功耗的改進越來越不具有經濟效益[1]。異構集成(chiplet)技術為解決該問題提供了新的設計方案。但chiplet技術發展也面臨著諸多挑戰,比如單個多芯片模組(MCM)中D2D通信的功耗、傳輸速率以及引腳效率還不能滿足數據傳輸需求[2]。
為解決這一問題,本文研究了一種基于相關非歸零編碼(correlated non-return to zero,CNRZ)的弦和信令(chord signaling)傳輸方案,并對該方案的發射機進行了研究。結果表明:該信令與差分信令(DS)相比,具有同樣的信號抗干擾和抗噪聲能力,但引腳利用率由5 bit/10 wire提高到5 bit/6 wire;同時速率可達125 Gb/s,鏈路吞吐量可達20.83 Gbps/wire,功耗僅為1.1 pJ/bit,從而為多芯片模組應用提供了一種高速、節能的D2D鏈路傳輸方案。
差分信令、CNRZ-5傳輸信令是弦和信令的兩種特殊傳輸信令[3-4]。弦和信令主要有以下特征:
1)n比特數據的傳輸需要(n+1)個引腳。(例如:差分信令1 bit數據通過2個引腳傳輸;CNRZ-5信令5 bit數據通過6個引腳傳輸)
2)1根額外的線主要用來抑制碼間串擾(XTALK),共模噪聲(CMN)和開關噪聲(SSN)。
(1)
3)弦和信令在傳輸線上的電平數是多個的,但輸入和輸出端信號都是二進制,這使得信號傳輸過程中不需要高分辨率的模數轉換(ADC)。(例如:CNRZ-5的第一條鏈路上的傳輸電平雖然有6個,但是信令在編碼前、解碼后都是二進制)
4)弦和信令編碼矩陣H是基于沃爾什-哈達瑪(WHT)變換所得,解碼矩陣為轉置矩陣HT。
DS是弦和信令的簡單形式。如圖1所示,在數據發射端進行以下編碼變換。

圖1 差分信令編碼與解碼數學模型
(2)

在數據接收端進行以下解碼變換:
(3)
CNRZ-5是更高階的弦和信令,用以實現更高的引腳效率和傳輸速率。圖2顯示了CNRZ-5信令編碼和解碼的數學模型,它在6根線上傳輸5 bit數據,傳輸速率可達到125 Gbps。與差分信令數學模型類似,利用編碼矩陣在數據的發射端實現對數據的編碼,在接收端實現對傳輸信號的解碼。

圖2 CNRZ-5信令編碼與解碼數學模型
圖3為該發射機系統的基本架構,主要有:并串轉換(16∶4并串轉換、4∶1并串轉換)、電壓模(soucre-series terminated,SST)驅動、時鐘等模塊組成。并串轉換首先將輸入的16路1.562 5 Gbps數據通過16∶4 MUX轉換為6.25 Gbps的數據,再通過4∶1 MUX將6.25 Gbps的數據轉換為25 Gbps的數據;SST驅動模塊實現對信號的預編碼和驅動;時鐘模塊包含外部時鐘和數據時鐘,外部時鐘為16∶4 MUX、4∶1 MUX模塊提供時鐘信號,數據時鐘采取前向時鐘為接收端提供時鐘參考。

圖3 基于CNRZ-5信令的SerDes發射機系統框架

(4)

圖4 W0鏈路電壓模驅動編碼結構示意圖
W0鏈路的電壓模驅動電路如圖5所示。通過采取多個電阻并聯的方式減小CMOS管電阻在輸出電阻中的比重,確保了電路輸出阻抗不因PVT改變而產生大的波動。

圖5 W0線路電壓模驅動電路
信道的特征阻抗Z0為50 Ω[7-8],根據阻抗匹配原理,驅動器的輸出電阻也應為50 Ω。本驅動器的輸出電阻Rout為:
(5)
假設電路導通和截止都是處于理想狀態下,則電路輸出電壓最大值Vmax為:
(6)
采用這種電阻串并聯的方式進行匹配電阻設計,既可以通過設置R1、R2不同的阻值來確保輸出電壓擺幅,也減少了CMOS管電阻R0對驅動電路輸出阻抗的影響。采用28 nm工藝,考慮CMOS在不同電阻值R0下,SST驅動器的輸入電容的變化,可將電路中的CMOS管電阻R0設置為30 Ω[9],在這種情況下:R0/(R0+R1)<0.1,此時CMOS管電阻R0發生變化,對電路的阻抗匹配影響不大。


圖6 W0線路信號眼圖
并串轉換模塊主要是將低速并行的數據轉換為高速串行的數據[10]。本發射機中的并串轉換模塊,就是在時鐘電路的控制下將1.562 5 Gbps的低速并行信號轉換為25 Gbps的高速串行信號。
3.2.1 16∶4 MUX
電路設計和時序如圖7所示,首先將外部時鐘電路提供的4路正交時鐘信號CLK_0~CLK_270(脈沖寬度:4 UI,頻率:1.562 5 GHz)轉換為4路選擇信號SEL_0~SEL_3(脈沖寬度:2UI,頻率:1.562 5 GHz)。在選擇信號的控制下,通過兩級與非門和一級或非門將4路1.562 5 Gbps的低速并行數據轉化成6.25 Gbps的高速串行數據。

圖7 低速16∶4 MUX邏輯電路與時序圖
3.2.2 4∶1 MUX
本級并串轉換模塊,采用一種高速的CMOS合路技術[11],如圖8所示,在該電路的作用下,低速并行數據分別經過2個正交時鐘的聯合采樣,在最后一級實現線與和放大,4路6.25 Gbps的低速信號轉化成為1路25 Gbps的高速信號,再經過CMLTOCMOS的轉化模塊,使信號具有較強的帶負載能力后,送往電壓模驅動電路進行編碼和驅動。

圖8 高速4∶1 MUX框架與電路圖
圖9為合路器在不同VSS值下的數據采樣過程。當CLK_90處于下降沿時,M4開始導通,M5截止。此時CLK_0處于低電平,因此控制的M2也開始處于導通狀態,若此時數據D0為0,則A處由低電平變成高電平;當CLK_0處于上升沿時,M2開始截止,M3、M6開始導通,使得A和X處電壓被牽制在VSS附近,即牽制在低電平附近。因此,該電路利用CLK_90的下降沿和CLK_0的上升沿實現對數據的采樣。M7對采樣后的信號X進行反向驅動,在線與的作用下,4路采樣后的信號進行疊加從而實現合路功能。圖10(a)為4∶1 MUX電路時序圖,當D0、D1、D2、D3分別為0010、0111、0111、1100時,合路后的信號為0001011111100110,驗證了合路器的正確性。圖10(b)為4∶1 MUX輸出信號眼圖,眼寬為0.97 UI,表明該合路器很好地實現了合路功能。
時鐘模塊由鎖相環電路、時鐘調整電路、前向時鐘模塊組成。如圖3發射機系統框架圖所示,由外部時鐘電路產生的6.25 GHz和1.562 5 GHz 4相正交時鐘,分別作為16∶4 MUX和4∶1 MUX的時鐘信號。前向時鐘模塊將數據端發出的16 UI的數據0101…01經過4∶1 MUX重定時后合成8 UI的時鐘信號,通過電壓模驅動電路發送到接收端作為時鐘參考。

圖9 高速4∶1 MUX不同Vss值下的數據采樣

采用TSMC 28 nm工藝進行仿真驗證。發射機的輸入數據為偽隨機碼PRBS31,負載為電阻為50 Ω、衰減為-7.5 dB的模擬信道。圖11分別為6個鏈路信號的眼圖。眼寬最大0.863 UI,最小0.685 UI。其中,W0、W1、W4、W5因3 bit數據信號以3、2、3的權重疊加而有6個電平;W2、W3因2 bit數據信號以3、4的權重疊加而有4個電平。
對驅動電路參數進行設計,將電壓幅值裕度設置為400 mV,共模電壓設置在450 mV。以W0、W2鏈路為例,根據式(4)W0鏈路的電壓計算方法,則電壓幅值裕度比重分別為4、2、4、2、4。可以得到W0鏈路電壓理論值和電壓仿真值、理想眼高和仿真眼高的對比,如表1所示。





表1 W0、W1鏈路理論與仿真對比 單位:mV
經過對比,鏈路傳輸的電壓理論值和仿真值接近,進一步證明了鏈路的線性度較好;對比眼高的理想值和仿真值,最差眼高也可達到理想眼高的46.2%。
圖12為發射機W0和W2鏈路的后仿真輸出信號眼圖,從圖中可以看出,后仿波形帶寬壓縮,跳變沿緩慢,但眼圖清晰,最小眼高為理想眼高的38.9%,最小眼寬可達到0.41 UI(1 UI=40 ps)。


圖12 W0、W2鏈路后仿真輸出信號眼圖
將本文的后端電路與veriloga的行為級接收機進行聯合仿真,如圖13誤碼率浴盆曲線所示,在經過-7.5 dB信道損失的情況下,誤碼率為1E-12時,水平眼寬可達到16.4 ps(0.41 UI)。

圖13 誤碼率浴盆曲線
表2給出了本文與先進的信令傳輸對比。對比可以發現,在同樣的28 nm工藝下,與文獻[12]相比,本文的傳輸速率更高。與文獻[3]、[13]相比,在相同速率和相近功耗下,本設計能夠承載更多的信道損失。

表2 性能比較
本文設計了一款基于CNRZ-5編碼理論的125 Gbps高速serdes發射機電路。在電路設計中,并串轉換電路采用了一種高速的MUX 4∶1電路,分別利用兩相正交時鐘的上升沿與下降沿進行采樣,確保高速合路下的零誤碼;采用預編碼的SST驅動電路實現了發射端編碼,保證了驅動電路的線性度,并解決了驅動電路與信道的阻抗匹配問題。從仿真結果來看,發射機速率達到125 Gb/s時,單線傳輸速率平均可達20.83 Gb/s,信號眼圖最小眼寬可達0.41 UI,功耗低至1.1 pJ/b。