郭發(fā)長
(銳捷網(wǎng)絡(luò)股份有限公司,福建 福州 350002)
如今的通信技術(shù)正在邁向軟件定義一切的時代。網(wǎng)絡(luò)正在向軟件方向發(fā)展,它們變得更加可編程,更加靈活。這意味著在軟件定義的網(wǎng)絡(luò)時代,網(wǎng)絡(luò)的運(yùn)營者和構(gòu)建者將能更迅速地對網(wǎng)絡(luò)進(jìn)行改善和優(yōu)化,使其更加可靠和安全[1-2]。
由于數(shù)字信號處理復(fù)雜度高原因,5G 無線通信系統(tǒng)通常基于專有ASIC 芯片進(jìn)行設(shè)計,一定程度上限定了其靈活性和擴(kuò)展性[3-4]。軟件定義無線電的思想是將無線系統(tǒng)單元從功能固化的硬件遷移到通用計算硬件,通過編寫軟件實(shí)現(xiàn)特定的信號處理功能,達(dá)到了平臺開放的目的[5-6]。無線接入網(wǎng)絡(luò)軟件化、虛擬化是業(yè)界應(yīng)對通算融合的一個技術(shù)手段。本文基于異構(gòu)計算平臺實(shí)現(xiàn)的5G 無線通信系統(tǒng),通用的硬件平臺能很好的支持靈活部署,提高計算資源利用率。隨著5G 演進(jìn),eMMB 和uRLLC 場景對于高吞吐和低延時進(jìn)一步提出要求,專有芯片成為了發(fā)展瓶頸[7-8],基于本文提供的ARM、DSP 和FPGA 組成的5G 平臺,不僅具備靈活性、擴(kuò)展性、開發(fā)周期短特點(diǎn),而且具備較強(qiáng)的計算性能能力,滿足各種5G 無線應(yīng)用場景性能需求[9-10]。
本平臺基于ARM+DSP+FPGA 異構(gòu)計算架構(gòu),在保持整體平臺的通用性、易用性、高效性的前提下,又能兼顧平臺的計算性能。其中ARM 計算資源擁有6個ARM A72 核,DSP 主要計算資源包括FECA 和VSPA 核。1 個計算單元由1 顆ARM 器件+2 顆DSP+1 顆FPGA 組成,承載5G 的4T4R 或是2T2R 小區(qū)計算任務(wù)。DSP 主要包括兩個計算單元:FECA 硬協(xié)處理器和8*VSPA 兩個部分計算單元。FECA 包含SD/CD/SE/CE 四個功能引擎,主要用于實(shí)現(xiàn)5G 物理信道編解碼功能。VSPA 是矢量加速器,用于5G 信道的其他業(yè)務(wù)加速計算。同時,每顆DSP 有4 個E200,用于VSPA 和FECA 處理的任務(wù)下發(fā)和響應(yīng)。FPGA主要承載前向接口功能,見圖1。

圖1 5G 異構(gòu)計算平臺
按照5G 算法模型和芯片算力進(jìn)行功能劃分設(shè)計:
上行信道功能劃分見圖2。

圖2 5G 上行信道功能劃分
下行信道功能劃分見圖3。

圖3 5G 下行信道功能劃分
FPGA 處理:FPGA 的功能主要負(fù)責(zé)下行FIR、壓縮,上行包含解壓縮、FIR、壓縮處理。
1.2.1 DSP 單元設(shè)計
見圖4。

圖4 DSP 功能部署
每個DSP 器件一共8個核,承載小區(qū)業(yè)務(wù),其中下行占用3 個核,上行占用5 個核,見表1。

表1
對于上行PUSCH,2R、1TTI 的VSPA 時 域 處 理(解壓縮、去CP、相位補(bǔ)償、FFT、壓縮)在1.2TTI,4R、2Layer、273RB、1Symbol 的VSPA 頻域處理(信道均衡、層映射、軟解調(diào))在0.5TTI,1TTI 內(nèi)最多14 個符號,為了滿足上行3TTI內(nèi)的約束,需要5 個VSPA核。
對于上行PRACH,F(xiàn)0格式、1R 的VSPA 時域處理(解壓縮、去CP、頻移、下采、FFT、壓縮)在1.8TTI。
假設(shè)有l(wèi)種主觀賦權(quán)方法,讓其對綜合評價中的指標(biāo)一一賦權(quán),則可以得到一個主觀權(quán)重集合Wo={Woj∣1≤o≤l;1≤j≤n} ,基本要求是權(quán)重集合內(nèi)的子項(xiàng)均需滿足歸一性和非負(fù)性。
對 于 上 行 SRS,4R、272RB、1Symbol 的 VSPA處理在2TTI。
按照 40slot 周期來看, 雙周期幀結(jié)構(gòu)(DDDSUDDSUU),PRACH 按照10 ms 周期,SRS 按照1Symbol 272RB,HARQ 按照10%的概率,上行5 個核算力余量為:20%左右,其中S 時隙占4 個符號,只做PUSCH 的時域處理,預(yù)計開銷在4/14*1.2TTI。
對于下行2T 總體約束在1TTI 內(nèi),時域處理(IFFT、相補(bǔ)、添加CP)每個符號每天線耗時15 us,剩余3 個VSPA 核一共耗時157 us,頻域處理(調(diào)制到資源映射)耗時245 us。按照40slot 周期來看,7D1S2U幀結(jié)構(gòu),那么下行3 個核算力余量為:30%。
對于下行4T 總體約束在1TTI 內(nèi),時域處理(IFFT、相補(bǔ)、添加CP)每個符號每天線耗時15 us,4T總計4*14=56 個符號,剩余3 個VSPA 核一共消耗15*19=285 us,頻域處理(調(diào)制到資源映射)預(yù)估消耗300 us。按照40slot 周期來看,7D1S2U 幀結(jié)構(gòu),那么下行3 個核算力余量為:2.4%。若考慮S 時隙不用,那么余量為14%,此時對4T 的峰值速率預(yù)計下降100 Mbps,分析影響不大。同時,也可以考慮極限情況下關(guān)閉預(yù)編碼,此時頻域處理預(yù)估減少70 us,算力的余量為13%。
1.2.2 ARM單元設(shè)計見圖5。

圖5 ARM 功能部署
5G 物理層一共消耗10 個核,1 個核被用于前傳線程,1 個核被用于驅(qū)動線程,每個小區(qū)各4 個實(shí)時處理核。實(shí)時處理核分布,見表2。

表2
下行MAC/PHY 的PDU 解析:下行需要支持至少6 個UE 的滿配,此時PDU 解析和任務(wù)生成需要280 us,同時還要考慮內(nèi)存清零等操作,按照1TTI 約束需要消耗一個核。
上行PDU 解析、上報、DAGC:上行PDU 解析主要在于PUCCH 的PDU 解析,F(xiàn)0/F1 開銷在30 us,F(xiàn)2開銷在4 us,按照大容量業(yè)務(wù),需要支持14 個(F0/F1)+10(F2),耗時為460 us,DAGC 開銷在200 us,上報開銷在200 us,總計2TTI,按照3TTI 約束基本消耗一個核。
PUSCH 的信道估計、頻域任務(wù)生成:上行需要支持至少6 個UE 的滿配,此時2R 耗時在2.6TTI,4R 耗時在4TTI,4R 需要繼續(xù)優(yōu)化,按照3TTI 約束基本消耗一個核。
PRACH 2R、NCS = 15 耗時在3TTI。
PUCCH 的解調(diào)按照14 個(F0/F1)+10(F2),2R 耗時基本在2TTI,4R 耗時基本在2.6TTI,按照3TTI 約束基本消耗一個核,由于PRACH 是周期發(fā)送,按照10 ms 分析與PUCCH 可以共用一個核。
1.2.3 ARM與DSP 帶寬設(shè)計
對于PUSCH 信道的信道均衡和譯碼都放在DSP上面完成,另外對于PDSCH 信道編碼和調(diào)制都放在DSP 上面完成。這部分的最大帶寬計算,見表3。

表3
對于PCIE x8 有效帶寬在48G,PCIEx4 有效帶寬在24G 左右,需要支持4TR,因此選擇PCIEx8,盡管4TR 的上下行帶寬很接近理論極限,但由于此帶寬是考慮最大帶寬HARQ 情況,該情形只是概率發(fā)生,可按照10%估計,預(yù)估帶寬為40G,結(jié)果并不超過極限。
1.2.4 ARM與FPGA 前傳帶寬考慮
ARM 與FPGA 前傳接口主要考慮上下行的數(shù)據(jù)壓縮格式。每T/R 不壓縮的帶寬(I/Q 各16 比特)在4G,上行規(guī)格最大需要支持2*4R,下行規(guī)格最大需要支持2*4T,也就是上下行不壓縮情況各自需要32G。
按照上述分析,下行信道算力將無法承載壓縮操作,因此下行需要32G,上行可以承載解壓縮,按照1:2 壓縮比率只需要16G。
本系統(tǒng)性能上面滿足5G 業(yè)務(wù)性能需求,其中包括峰值、容量、VONR 等需求,具體性能容量指標(biāo)滿足如下所示:
(1) 支持的載波帶寬:60、80、100 MHz。
(2) 支持的數(shù)據(jù)信道子載波間隔:30 KHz。
(3) 支持的天線數(shù):2T2R/4T4R。
(4) 調(diào)制方式:256QAM。
(5) 支持的幀結(jié)構(gòu):2.5 ms DDDSU-DDSUU,5 ms DDDDDDDSUU,2.5 ms DDDSU,2.5 ms DSUUU,1ms DS。
本系統(tǒng)基于ARM、DSP 和FPGA 異構(gòu)計算單元設(shè)計,在保持整體平臺的通用性、易用性、高效性的前提下,又能兼顧平臺的計算性能。在實(shí)際應(yīng)用過程中,具體有益效果如下所述:
(1) 實(shí)時性高,滿足各種高計算信號處理需求:達(dá)到us 級,滿足5G 無線MIMO 技術(shù)的實(shí)時性需求。
(2) 增強(qiáng)用戶體驗(yàn),提升網(wǎng)絡(luò)性能:關(guān)鍵的實(shí)時任務(wù)針對性能進(jìn)行優(yōu)化,能夠在邊緣完成,使其更靠近最終用戶,進(jìn)而減少時延以及實(shí)現(xiàn)處理、內(nèi)存和I/O等資源的動態(tài)分配。
(3) 靈活的性能和敏捷的適應(yīng)性:在添加新網(wǎng)元和服務(wù)以及動態(tài)響應(yīng)不斷變化的網(wǎng)絡(luò)需求時,與特定工作負(fù)載解耦的通用基礎(chǔ)設(shè)施能夠透明地適應(yīng)網(wǎng)絡(luò)變化。