999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同基站計算架構Massive MIMO 基帶能效建模和趨勢研究

2022-07-15 08:09:56鄧愛林劉夢婕
電子科技大學學報 2022年4期

鄧愛林,馮 鋼,劉夢婕

(電子科技大學通信抗干擾技術國家級重點實驗室 成都 611731)

碳排放增加導致的全球變暖已成為制約人類社會可持續發展的主要障礙,全球已有超過40 個國家和經濟體正式宣布了碳中和目標[1]。中國提出2030 年前實現碳達峰,2060 年前實現碳中和。

對于移動通信行業來說,踐行碳中和也已勢在必行。移動通信行業在節能減排、綠色低碳發展方面進行了積極探索,一方面是為了彰顯了通信行業的社會責任,另一方面是因為網絡能耗支出在OPEX 的占比不斷提升。5G 網絡能效相比4G 提升了10~20 倍,但隨著網絡承載數據量的急劇增加,將導致5G 通信設備總能耗增長,基站能耗成為運營商實現碳中和目標的重要挑戰。大規模多輸入 多 輸 出(massive multiple-input multiple-output,massive MIMO)是5G 系統的標志性技術,該技術利用大規模天線有效提高空口容量和頻譜利用率。隨著未來5G Advanced 和6G 業務需求和性能要求的大幅提升,massive MIMO 將向超大規模MIMO和超大孔徑陣列(extremely large aperture array, ELAA)演進,需要支持更多的天線數和更復雜的算法,而基帶算法復雜度一般隨著天線數的平方至立方增長,因此基帶計算能耗會成為持續提升網絡能效的主要挑戰之一[2-3]。

現有支持massive MIMO 技術的底層硬件架構方案主要有兩種,即專用計算架構和通用計算架構。專用計算架構以ASIC 芯片為主,通過面向5G 的定制化芯片持續提升性能和能效,是當前業界的主流方案。通用計算以CPU 通用處理器為主,可利用FPGA 或GPU 進行基帶硬件加速,是Open RAN 的技術主張之一。當前專用計算架構的能效優于通用計算架構,通用計算在性能和能效上仍然有較大的挑戰[4],但業界對未來不同基站架構的能效優劣和發展趨勢仍存在爭議:一種觀點認為隨著技術發展,未來兩者的能效比差距會縮小甚至反轉,另一種觀點認為兩者的能效比差距不變甚至拉大。隨著基站計算復雜度的增加,不同計算架構對碳排放的影響將成為未來基站架構選擇的關鍵因素,因此針對不同基站計算架構的能效比差值趨勢做量化研究非常有必要。

當前已有文獻研究某個5G 空口算法在不同計算架構下的性能和能效,如文獻[5] 提出了一種基于ASIC 的專用FFT 算法,證明基于ASIC 實現FFT 相對通用CPU 有超過180 倍的能效提升。文獻[6] 從功能可重構角度,提出基于FPGA 硬件加速實現massive MIMO 功能,但是沒有給出量化能效分析。文獻[7] 利用FPGA 的多千兆收發器(multi gigabit transceivers, MGTs)來實現C-RAN 集中信號處理,但只評估了FPGA 硬件吞吐能力,沒有分析如何將硬件能力轉化為無線空口性能或能效的收益。綜上,現有文獻主要分析單點5G 空口算法的計算性能,雖然能夠定性體現出專用計算在能效上的優勢,但由于缺少對基站基帶全系統的計算需求和能效的量化建模,從現有文獻的研究結果并不能得到不同計算架構的整體系統能效差異和演進趨勢。

基于通信基站碳排放最小化的目標,本文通過計算需求建模、計算架構能效建模和量化功耗分析的研究方法,給出了不同基站計算架構的能效對比,并對基站計算能效的發展趨勢進行量化研究。

1 Massive MIMO 計算需求建模

1.1 Massive MIMO 基帶功能劃分

本文以典型5G 三扇區站點為例,包含1 個BBU 和3 個AAU 天線,5G 典型的AAU 天線為64 TRX,小區帶寬為100 MHz。

從系統層面上典型的5G 收發器由以下組件組成:L1/L2/L3 數字信號處理、數字中頻前端、模擬RF 前端和天線。5G 需要的基帶處理技術非常復雜,基帶運算有如下特征:1)計算密集型,massive MIMO 天線所涉及的矩陣運算復雜度與天線數呈2~3 次方關系;2)功能單一,基站工作在網絡協議的底層,對所有的數據都按固定流程處理,只執行特定功能。

按3GPP 協議定義,數據信道負責用戶數據傳輸,并且占用了絕大多數的時頻資源,在基帶芯片中的大部分計算為數據信道服務。數據信道分為下行數據信道PDSCH 和上行數據信道PUSCH,按協議定義,下行數據信道主要劃分為LDPC 編碼、層映射、多天線權值映射、IFFT 模塊,上行數據信道主要劃分為FFT、信道估計與測量、權值計算、MIMO 均衡、LDPC 譯碼模塊。在整個基帶處理部分,LDPC 譯碼、MIMO 均衡、權值計算和下行加權占用了整個芯片資源的80%以上,本文以這幾項關鍵算法來代表整個基站數字信號處理,用以分析基站數字信號處理部分的功耗。

1.2 關鍵算法復雜度建模

LDPC 譯碼:在NR 協議中采用LDPC 碼作為上下行數據信道的編碼方式,文獻[8] 給出了LDPC譯碼復雜度,對數域譯碼只需要加法和比較,其加法次數為:

比較次數為:

考慮到加法器和比較器復雜度相近,這里統一為加法,則需加法器次數為:

式中,dv,1為校驗矩陣除了列重為1 列的平均列重;dc為校驗矩陣的平均行重;M為矩陣行數;N1為矩陣行數。

NR 協議的最小時域調度粒度為Slot,即一次調度數據需要占據同一個Slot 的所有數據信道資源。由于協議的LDPC 最大碼長限制,1 個Slot 的傳輸數據可能不只1 個LDPC 編碼塊,需要有NCB個LDPC 編碼塊。同時,考慮到LDPC 譯碼需要多次迭代才能有較好的性能,則1 s 內LDPC 譯碼所需要的加法次數為:

MIMO 均衡:MIMO 均衡的經典算法為最小均方誤差(minimum mean square error, MMSE)均衡算法,其表達式如下:

NR 的MIMO 均衡是在RE 粒度進行的,1 s內MIMO 計算復雜度需要在單次MIMO 均衡的基礎上乘上1 s 內上行數據信道和控制信道的RE個數。同時考慮上行多用戶MIMO,雖然上行同時復用的流數最大為NBS,但考慮連續組網對抗干擾,商用網絡中的典型上行流數不會大于NBS/2,即NUE取 值為NBS/2。則NR MIMO 加法器次數可以表示為:

NR 乘法器次數可以表示為:

式中,NSlot為 1 秒內Slot 個數;為1 個Slot 內的RB 個數;為一個RB 上的RE 個數。

SU 權值計算:對于時分雙工(time division duplexing, TDD)系統,下行信道信息利用信道的上下行互易性在基站側獲取,上行信道通過上行探測參考信號(sounding reference signal, SRS)獲取。

對單用戶權值,奇異值分解(singular value decomposition, SVD) 是有效的權值方案,可將 MIMO信道轉化為無干擾的并行信道,以獲取MIMO 信道的復用收益[11]。信道H可SVD 分解為:

式中,酉矩陣V中的前RANK 個向量即為SVD權值。

對于MU(multi-user)-MIMO,迫零(Zero-forcing,ZF)權值是一種有效的下行多用戶權值[13]:

借助SVD 可以將MU 權值計算簡化,由下式可以將W的計算簡化為:

即MU 權值計算可以先由SVD 得到U、S、V,再由矩陣乘法得到W??紤]S?1為實數對角陣,求取W所需SVD 計算的復雜度與SU 相同,所需矩陣乘法算法復雜度為次復數乘法、(NBS?1)次 復數加法和次實數乘法。因此,所需要的實數乘法次數為+次實數乘法,?次實數加法。

由于NR 每個Slot 都可以調度不同用戶,因此每個Slot 都需要計算MU 權值,同樣考慮DRS 粒度,MU 權值粒度同樣最小為RB 級。則NR MU計算所需加法次數(忽略低階項)為4(nPM+1)×,其乘法次數為4 (nPM+1)。

結合SU 和MU 計算,權值計算所需要加法次數為:

乘法次數為:

下行加權計算:下行數據發射之前需要根據權值將數據流映射到天線,加權后數據x為:

式中,W為計算后權值;s為原始數據向量。

忽略低階項,則NR MIMO 加法器次數可以表示為:

NR 乘法器次數可以表示為:

考慮到LDPC 譯碼、MIMO 均衡、權值計算、下行加權占據了大部分基帶算力,這里用這4 項之和代表整個NR 的基帶算力需求,1 s 內的總操作數NOper,NR為:

式中,NR 1 s 內總加法次數為:

1 s 內總乘法次數為:

匯總LDPC 譯碼、MIMO 均衡、權值計算和下行加權計算計算復雜度,如表1 所示。

表1 計算復雜度對比

2 基站計算架構的能效建模

2.1 基站計算架構

基站計算架構可以分為兩種,以ASIC 為主的專用計算和以通用處理器CPU 為主的通用計算,當前主流方案是以ASIC 為主的專用計算。Open RAN 宣稱采用通用計算技術,如樂天移動的Open RAN 建網方案中,BBU 硬件基于“Intel X86 服務器+FPGA 加速卡”。

在通用計算芯片領域,CPU、GPU、FPGA 是3 大主流技術。其中,CPU 適用于處理邏輯復雜、重復性低的串行任務,如基站L3 和核心網算法。GPU 適合通用并行處理,適合大規模數據的并行加速處理。FPGA 具備可重構特性,在無線通信的L1 基帶信號處理加速和數字中頻信號處理中有一定應用。

不同計算架構的計算方案各不相同,其能效評估方法也存在差異。本節針對ASIC 專用計算、CPU 通用計算、以及CPU+FPGA 加速的通用計算分別進行分析,建立能效評估模型。本文對不同架構選取當前主流工藝進行對比,ASIC 選擇7 nm FinFET 工 藝,CPU 選 擇Intel 10 nm 工藝,FPGA選擇Xilinx UltraScale+ 系列16 nm 工藝。

每秒浮點運算數(FLOPS)用于限定計算系統的性能,功率用于測量單位時間內消耗的電能。因此,能效可以通過性能和功率之間的比率來定義,即FLOPs/Watt,能效比ρ 定義為:

式中,CPeak為1 s 內可運行的操作數;P為1 s 內的能耗,即功率。

2.2 專用計算能效評估模型

由于ASIC 的定制化特點,完成一個具體功能的硬件功耗與設計強相關。考慮到本文旨在獲取一個較為通用的評估模型,選取當前7 nm FinFET 工藝ASIC 的典型功耗作為參考,其16 bit 加法器和乘法器的典型功耗分別為0.650 FJ 和4.018 FJ[14]。為了保證計算精度,基帶計算單元中求逆、SVD等一般采用32 bit 進行計算。相比16 bit 計算,32 bit加法器復雜度為2 倍,乘法器復雜度為4 倍[9]。另外,考慮在基帶ASIC 里面除了負責計算的組合邏輯單元外,還有存儲、接口等單元,組合邏輯的占比在20%~50%[14-16]。取20%占比評估,則單個加法/乘法操作對應的整個芯片的消耗分別為6.5 fJ 和80.36 fJ,對應能效比為ρAdd,ASIC=154 TFLOPs/Watt,ρMul,ASIC=12.4 TFLOPs/Watt。

采用ASIC 架構來實現NR 基帶,所需功耗(1 s內能耗)為:

代入式(17)、(18)并省略低階項,可以進一步表示為:

2.3 通用計算能效評估模型

CPU 的能效由功耗和峰值計算能力來評估,CPU 能效比為:

式中,PCPU為 CPU 功耗;CPeak,CPU為CPU 的1 s內峰值算力。

CPU 理論峰值算力可以表示為:

式中,NCPU_Core表示CPU 的核數;fCPU代表CPU單核的主頻;NFlops_Cycle表示CPU 在每個周期的浮點計算次數。

而CPU 單周期單精度浮點計算能力NFlops_Cycle可以表示為:

式中,NFMA代表每個CPU 核中的乘加計算單元(fused multiply-add, FMA)個 數;NBits代 表FMA處理比特數;NWidth代表操作系統位寬。以最新intel 用于服務器的CPU Intel? Xeon? W-11865MLE為例[17],采用10 nm 工藝,基本參數為8 核,單核最大頻率為4.5 GHz,功耗為25 W,支持最新的AVX512 指令集,共有2 個FMA??傻脤τ?2位操作系統NFlops_Cycle為64 FLOPs,則Xeon W-11865MLE 對應的理論峰值算力為2304 GFLOPs,對應能效比為ρCPU=92.2 GFLOPs/Watt。

采用CPU 來實現NR 基帶,所需功耗(1 s 內能耗)為:

同樣代入式(17)、(18)并省略低階項,可以進一步表示為:

式中,k=k1+k2。

對于混合架構的單次操作功耗可以表示為:

式中,CPeak,FPGA為FPGA 的峰值計算能力。FPGA的算力分為兩部分,一部分是邏輯單元的算力CPeak,Logic, 一部分是內置DSP 的算力CPeak,DSP,即:

由于FPGA 門與ASIC 門存在一定轉化關系,一個FPGA 門等價為β 個ASIC 門,對于Xilinx 而言,一個邏輯單元對應15 個ASIC 門,則邏輯單元的峰值算力可以表示為:

而DSP 的峰值算力為:

式中,NFlops_Cycle,DSP為一個時鐘的操作數,由于DSP 核一個時鐘周期可以進行一次加法和一次乘法,NFlops_Cycle,DSP取值為2。

FPGA+CPU 架構選取Xilinx 最新的UltraScale+系列FPGA 和CPU Intel? Xeon? W-11865MLE 組合。UltraScale+系列FPGA 能效比為7 系列的2.4 倍,Xilinx 的V7-690T 包含了3600 個DSP 核和693120個邏輯單元,主頻為250 MHz,功耗為30 W。根據式(28)~(30)可得1 s 內峰值算力為18 TFLOPs,相同能耗下UltraScale+系列峰值算力為18 TFLOPs×2.4 = 43.2 TFLOPs。則UltraScale+ FPGA 與W-11865MLE 組合架構的能效比為ρMix=854 GFLOPs/Watt。FPGA 與CPU 混合架構在1 s 內的功率消耗為:

同樣代入式(17)、(18)并省略低階項,可以進一步表示為:

3 結果和討論

3.1 不同計算架構的能效對比

對基于64TRX 的massive MIMO 基站進行分析,設帶寬為100 MHz、調制階數為256QAM、碼率為0.926、采用30 kHz 子載波間隔,1 s 內有2000個Slot,每個Slot 有14 個OFDM 符號,每個OFDM符號有效子載波為3276 個,SRS 周期為5 ms,考慮小區間干擾上下行最大流數為收發天線數的一半。下面將基于上述參數和上一章的計算復雜度模型給出具體的基帶計算復雜度。

根據上述參數可以計算出一個Slot 最大的上行 物 理 共 享 信 道(physical uplink shared channel,PUSCH)傳輸量為10860596bit,則最大可以有=1286個CB塊。按式(4) 計算出LDPC需要的加法次數為1.75×1013次。

MIMO 均衡為RE 粒度的,基于式(6)、(7)可以計算出MIMO 均衡需要的加法次數為8.92×1013次,乘法次數為9.12×1013次。

權值計算的計算次數由RB 數、SRS 周期等決定,根據式(11)、(12)計算得出權值計算所需要的加法次數和乘法次數皆為1.95×1013次。

下行加權是RE 級的,按式(14)、(15)可以得出所需加法次數和乘法次數皆為4.81×1013次。

按本文分析,7 nm ASIC 單個加法/乘法操作對應的整個芯片的消耗為6.5/80.36 fJ。Intel 10 nm CPU 單次操作的功耗為10.85 pJ,UltraScale+ FPGA與W-11865MLE 組合架構的單次操作對應功耗為1.17 pJ。則根據本文分析的基帶計算復雜度,可以得出3 種架構的不同功耗,如表2 所示。

根據表2 給出的不同架構的功耗,可以計算得出不同計算架構的功耗對比系數,如圖3 所示。

表2 5G massive MIMO 不同基帶架構的功耗對比

從圖1 可以看出,相比ASIC 專用計算,CPU 通用計算和CPU+FPGA 加速的基帶整體功耗都有顯著提高,其中CPU 計算功耗提高260 倍,CPU+FPGA加速架構功耗提高28 倍。因此,移動通信基站以確定性的計算為主,以ASIC 為主的專用計算在功耗上有明顯優勢。通過使用FPGA 或CPU 硬件加速,可以在一定程度上提升計算能效,但是相對ASIC 專用計算的能效仍然有較大差距。

圖1 不同計算架構的基帶整體功耗對比

上述分析只考慮基帶計算芯片的能效對比,不包含周邊電路和器件,因此計算芯片的能效差異大于整體BBU 的能效差異,但典型場景下計算芯片消耗大部分能耗,其占比通常超過50%,因此上述分析結果僅體現不同計算架構的計算能效差異。

基站是網絡邊緣節點,除了基站主設備的功耗,還包含很多站點配套設備,如電源、空調、監控等。站點配套設備的功耗跟基站主設備功耗強相關,如果基站主設備功耗增加,站點整體能耗將以相應的幅度增加。因此,如果BBU 直接采用通用處理器的COTS 服務器,成本、功耗、集成度都會與專用硬件BBU 有巨大差異,導致更多的站點配套和更多的能源消耗及碳排放。

3.2 不同計算架構能效差異的趨勢分析

當前ASIC 專用計算相對通用計算有明顯能效優勢,業界已有共識,但對不同計算架構能效的未來變化趨勢仍存在爭議,本節將通過建模來分析不同計算架構的能效差異的變化趨勢。

隨著massive MIMO 的演進,包括ELAA、cell free massive MIMO 等,未來通信系統將走向更大的頻譜帶寬和更多的天線數,從而帶來基帶計算需求的增加。另外考慮芯片工藝的進步,計算能效比會持續提升。由于下一代移動通信協議的不確定,這里按NR 協議來分析帶寬增加、天線數增加和能效比提升3 個因素對未來移動通信架構功耗的影響。CPU 通用計算相對ASIC 專用計算的能耗差值Ptrend,CPU可以表示為:

CPU+FPGA 加速架構相對ASIC 專用計算的功耗差值Ptrend,Mix可以表示為:

式中,ln為未來芯片工藝進步帶來的能效比提升,其取值分別為1.0 (64 TRX 100 MHz,對應2021 年)、2.8 (128 TRX 400 MHz,對應2025 年)和3.1 (256 TRX 800 MHz,對應2028 年)[18]。

將小區帶寬、基站天線數和能效比指標帶入式(33)和式(34),可以分別得到不同massive MIMO天線數和不同小區帶寬下通用計算相對專用計算的能耗差值。

如圖2 所示,CPU 通用計算相對專用計算的基帶整體功耗差值隨著天線數增加而大幅增加(假設帶寬保持100 MHz 不變),當天線數從64 TRX 提升到256 TRX 時,功耗差值從3608 W 增加到32356 W(接近9 倍)。CPU+FPGA 計算架構相對專用計算的基帶整體功耗差值也隨天線數增加而大幅增加,當天線數從64 TRX 提升到256 TRX 時,功耗差值從377 W 增加到3373 W(接近9 倍)。

圖2 不同massive MIMO 天線數的基帶整體能耗差值

如圖3 所示,CPU 通用計算相對專用計算的基帶整體功耗差值隨著帶寬增加而明顯增加(假設天線數保持64 TRX 不變),當帶寬從100 MHz 提升到800 MHz 時,功耗差值從3608 W 增加到8241 W(大于2 倍)。CPU+FPGA 計算架構相對專用計算的基帶整體功耗差值也隨帶寬增加而明顯增加,當帶寬從100 MHz 提升到800 MHz 時,功耗差值從377 W 增加到859 W(大于2 倍)。

圖3 不同小區帶寬的基帶整體能耗差值

上述模型中,假設了通用計算和專用計算隨未來芯片工藝進步帶來相同的能效比提升,采用了相同的ln取值。如果考慮到專用計算架構可以充分發揮異構計算優勢,通過專門的芯片設計進行優化,獲得相對通用計算更大的能效比提升,將導致專用計算相對通用計算的優勢會比本文結果更明顯。

4 結 束 語

不同計算架構有各自適用的場景,針對計算需求相對確定的計算密集型應用場景采用專用ASIC芯片提升能效比,已經在深度神經網絡、區塊鏈等很多行業的實踐中得到證明。

本文通過對massive MIMO 基站計算需求建模,同時對不同計算架構的能效建模,給出了定量的分析結果。結果表明當前專用計算相對通用計算(有硬件加速)具有接近30 倍的能效優勢,而相對純CPU 通用計算架構有200 倍以上的能效優勢。隨著未來基站天線數和小區帶寬的增加,通用計算相對專用計算的功耗差值會進一步增加,兩者的差距將越來越大,而不是越來越小。即使采用FPGA 對通用計算做加速,相對專用計算的差距依然是越來越大。

因此,無論現在還是未來,massive MIMO 基站采用通用計算相對專用計算,都不利于節能減排目標。Open RAN 主張的基站軟硬件解耦、通用計算取代專用計算,也不利于移動通信行業綠色低碳發展。從移動通信行業降低碳排放角度,更應該加大基站專用計算技術的投入。

主站蜘蛛池模板: 精品第一国产综合精品Aⅴ| 免费三A级毛片视频| 欧美成人午夜视频免看| 久久国语对白| 成人中文字幕在线| 国产一二视频| 欧美福利在线观看| 欧美一区二区福利视频| 亚洲中文字幕23页在线| 亚洲欧洲日产无码AV| 亚洲精品自拍区在线观看| 欧美成人看片一区二区三区| 日韩第九页| 亚洲一区第一页| 亚洲AV成人一区国产精品| 国产午夜精品一区二区三区软件| 国产高清国内精品福利| 熟女日韩精品2区| 久久永久视频| 一区二区三区精品视频在线观看| 色综合天天娱乐综合网| 久无码久无码av无码| 国产精品亚洲а∨天堂免下载| 毛片免费在线| 国产精品视频公开费视频| 青青草原偷拍视频| 欧美亚洲欧美区| 亚洲高清中文字幕| a毛片在线免费观看| 久久久久亚洲精品成人网| 亚洲成人网在线播放| 国产精品亚洲va在线观看| 日本不卡免费高清视频| 国产精品网址你懂的| 999精品在线视频| 亚洲天堂在线免费| 日韩欧美中文在线| 成年人国产视频| 日韩欧美高清视频| 精品剧情v国产在线观看| 麻豆精品久久久久久久99蜜桃| 97久久超碰极品视觉盛宴| 高清乱码精品福利在线视频| 天天躁夜夜躁狠狠躁躁88| 亚洲毛片在线看| www.国产福利| 香蕉久人久人青草青草| 国产午夜小视频| 精品国产www| 99999久久久久久亚洲| 国产成人亚洲精品蜜芽影院| 99在线观看国产| 国产成年无码AⅤ片在线| 国产制服丝袜91在线| 国产网友愉拍精品| 日韩 欧美 小说 综合网 另类| 日韩在线欧美在线| 成人伊人色一区二区三区| 国产香蕉97碰碰视频VA碰碰看| 亚洲小视频网站| 久久综合伊人 六十路| 久久一本精品久久久ー99| 国产凹凸视频在线观看| 狠狠干综合| 精品少妇人妻一区二区| 欧美日韩精品在线播放| 亚洲精品桃花岛av在线| 成人无码一区二区三区视频在线观看| 亚洲国产精品人久久电影| 99久久国产综合精品2023| 亚洲成网777777国产精品| 久久久久久久蜜桃| 在线免费观看AV| 国产精品成人一区二区不卡| 伊人久久婷婷| 国产爽爽视频| 亚洲成人精品| 久久久久青草大香线综合精品| 国产一线在线| 国产微拍精品| 亚洲首页国产精品丝袜| 91黄色在线观看|