劉帥,蔣林,李遠(yuǎn)成,山蕊,朱育琳,王欣
(1.西安科技大學(xué) 通信與信息工程學(xué)院,西安 710054; 2.西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710054;3.西安郵電大學(xué) 電子工程學(xué)院,西安 710121; 4.西安科技大學(xué)電氣 與控制工程學(xué)院,西安 710054)(?通信作者電子郵箱jianglin@xust.edu.cn)
基于陣列處理器的最小均方誤差檢測(cè)算法并行設(shè)計(jì)與實(shí)現(xiàn)
劉帥1,蔣林2*,李遠(yuǎn)成2,山蕊3,朱育琳4,王欣4
(1.西安科技大學(xué) 通信與信息工程學(xué)院,西安 710054; 2.西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710054;3.西安郵電大學(xué) 電子工程學(xué)院,西安 710121; 4.西安科技大學(xué)電氣 與控制工程學(xué)院,西安 710054)(?通信作者電子郵箱jianglin@xust.edu.cn)
針對(duì)大規(guī)模多輸入多輸出(MIMO)系統(tǒng)中,最小均方誤差(MMSE)檢測(cè)算法在可重構(gòu)陣列結(jié)構(gòu)上適應(yīng)性差、計(jì)算復(fù)雜度高和運(yùn)算效率低的問題,基于項(xiàng)目組開發(fā)的可重構(gòu)陣列處理器,提出了一種基于MMSE算法的并行映射方法。首先,利用Gram矩陣計(jì)算時(shí)較為簡(jiǎn)單的數(shù)據(jù)依賴關(guān)系,設(shè)計(jì)時(shí)間上和空間上可以高度并行的流水線加速方案;其次,根據(jù)MMSE算法中Gram矩陣計(jì)算和匹配濾波計(jì)算模塊相對(duì)獨(dú)立的特點(diǎn),設(shè)計(jì)模塊化并行映射方案;最后,基于Xilinx Virtex-6開發(fā)板對(duì)映射方案進(jìn)行實(shí)現(xiàn)并統(tǒng)計(jì)其性能。實(shí)驗(yàn)結(jié)果表明,該方法在MIMO規(guī)模為、和的正交相移鍵控(QPSK)上行鏈路中,加速比分別2.80、4.04和5.57;在的大規(guī)模MIMO系統(tǒng)中,可重構(gòu)陣列處理器比專用硬件減少了42.6%的資源消耗。
大規(guī)模多輸入多輸出;最小均方誤差算法;并行映射;陣列處理器;可重構(gòu)
大規(guī)模多輸入多輸出(Multiple-Input Multiple-Output, MIMO)技術(shù)是未來移動(dòng)通信的關(guān)鍵技術(shù)之一[1]。隨著基站端天線數(shù)持續(xù)上漲,上行鏈路信號(hào)檢測(cè)面臨巨大挑戰(zhàn),信號(hào)檢測(cè)器對(duì)計(jì)算精度、硬件復(fù)雜度和算法并行性提出了更高要求。因?yàn)樾诺谰仃囅蛄吭诙嘤脩衾硐雮鞑l件下會(huì)表現(xiàn)出漸進(jìn)正交性,所以最小均方誤差(Minimum Mean Square Error, MMSE)算法就可以達(dá)到較為理想的信號(hào)檢測(cè)精度,它在實(shí)際大規(guī)模MIMO系統(tǒng)中具有很大的應(yīng)用潛力[2]。可重構(gòu)是一種使用軟件編程去改變重構(gòu)信息,最終使硬件功能得到改變的技術(shù)[3],其兼具通用處理器的靈活性和專用集成電路(Application Specific Integrated Circuit, ASIC)的高性能。可重構(gòu)陣列結(jié)構(gòu)能較好地平衡資源消耗與計(jì)算效率的關(guān)系,因此基于該結(jié)構(gòu)的信號(hào)檢測(cè)器具有光明的發(fā)展前景。
然而,基于可重構(gòu)結(jié)構(gòu)的大規(guī)模MIMO信號(hào)檢測(cè)算法的實(shí)現(xiàn)還存在一些問題。
一方面,目前基于可重構(gòu)結(jié)構(gòu)的信號(hào)檢測(cè)器大部分面向傳統(tǒng)規(guī)模的MIMO系統(tǒng),架構(gòu)擴(kuò)展性不足。文獻(xiàn)[4]中提出了一種由20個(gè)運(yùn)算單元(Process Element, PE)和1個(gè)Center Alpha單元構(gòu)建的粗粒度可重構(gòu)架構(gòu)(Coarse Grained Reconfigurable Architecture,CGRA),雖然該結(jié)構(gòu)可以通過處理器集成的指令靈活地實(shí)現(xiàn)多種算法,但是固定的PE陣列限制了MIMO規(guī)模擴(kuò)展;文獻(xiàn)[5]中基于動(dòng)態(tài)可重構(gòu)處理器架構(gòu),實(shí)現(xiàn)了線性最小均方誤差(Linear Minimum Mean Square Error, LMMSE)信道估計(jì)算法,其處理速度達(dá)到了通用微處理器的8.8~14.6倍,但僅支持的矩陣規(guī)模;文獻(xiàn)[6]中采用一種異構(gòu)可重構(gòu)陣列處理器實(shí)現(xiàn)了高效率和低能耗的信號(hào)檢測(cè),但是該陣列結(jié)構(gòu)只支持的MIMO規(guī)模,無法滿足當(dāng)前大規(guī)模MIMO的檢測(cè)需求。
另一方面,基于現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array, FPGA)的大規(guī)模MIMO檢測(cè)架構(gòu)會(huì)造成較高的硬件開銷。文獻(xiàn)[7]中使用并行切比雪夫算法實(shí)現(xiàn)了的大規(guī)模MIMO信號(hào)檢測(cè),雖然該算法通過迭代將矩陣乘法轉(zhuǎn)化為矩陣和向量相乘,降低了計(jì)算復(fù)雜度,但是復(fù)雜的迭代控制增加了FPGA實(shí)現(xiàn)難度,并消耗了過多資源;文獻(xiàn)[8]中提出了一種遞推共軛梯度迭代方法進(jìn)行信號(hào)檢測(cè),并設(shè)計(jì)了基于該方法的、64正交幅度調(diào)制(Quadrature Amplitude Modulation, QAM)大規(guī)模MIMO系統(tǒng)硬件架構(gòu),但是該架構(gòu)中包含了6種不同結(jié)構(gòu)的PE,對(duì)硬件資源消耗和設(shè)計(jì)復(fù)雜度有較大挑戰(zhàn)。
為了使大規(guī)模MIMO系統(tǒng)中MMSE檢測(cè)算法適應(yīng)可重構(gòu)結(jié)構(gòu),解決MMSE算法中矩陣計(jì)算復(fù)雜度高、運(yùn)算效率低的問題,本文基于項(xiàng)目組開發(fā)的同構(gòu)輕核可重構(gòu)陣列處理器平臺(tái)[9],設(shè)計(jì)了MMSE算法在可重構(gòu)陣列處理器上并行映射的方案,最終以較高的計(jì)算效率和較低資源消耗實(shí)現(xiàn)了大規(guī)模MIMO信號(hào)檢測(cè)。
對(duì)于復(fù)雜大規(guī)模MIMO信道條件,MMSE算法考慮到了噪聲影響,于是估計(jì)的發(fā)送信號(hào)計(jì)算式如式(2)所示:

圖1 MMSE檢測(cè)算法運(yùn)算流程Fig. 1 Calculation flow of MMSE detection algorithm
表1 不同下的特征Tab. 1 Characteristics of at different

表1 不同下的特征Tab. 1 Characteristics of at different
的計(jì)算結(jié)果運(yùn)算復(fù)雜度123
本文方案采用項(xiàng)目組提出的基于H型傳輸網(wǎng)絡(luò)的可重構(gòu)陣列處理器實(shí)現(xiàn)。該處理器使用FPGA架構(gòu)設(shè)計(jì),由主機(jī)接口、全局控制器、可重構(gòu)處理單元、輸入存儲(chǔ)器和輸出存儲(chǔ)器五部分構(gòu)成,其結(jié)構(gòu)如圖2所示。

圖2 陣列處理器結(jié)構(gòu)Fig. 2 Structure of array processor
可重構(gòu)處理單元是陣列處理器的核心,由1 024個(gè)PE構(gòu)成,每一組的PE陣列構(gòu)成一個(gè)處理單元簇(Process Element Group, PEG),簡(jiǎn)稱為簇。圖2中只展示出了4個(gè)簇,其余簇可以在該架構(gòu)上進(jìn)行擴(kuò)展。每個(gè)PE包含了1個(gè)數(shù)據(jù)和1個(gè)指令存儲(chǔ)單元。數(shù)據(jù)存儲(chǔ)單元有512行,每行位寬為16 b;指令存儲(chǔ)單元也有512行,但指令位寬為32 b。相鄰PE之間可采用鄰接互連方式傳遞數(shù)據(jù),相鄰簇間可通過路由方式傳遞數(shù)據(jù)。主機(jī)接口負(fù)責(zé)將上位機(jī)下發(fā)的命令傳輸?shù)饺挚刂破鳎蝗挚刂破鲗⒅鳈C(jī)接口接收的信息分為數(shù)據(jù)流和指令流,通過H樹網(wǎng)絡(luò)進(jìn)行調(diào)度,并合理分配到每個(gè)PE中;輸入存儲(chǔ)器用于存儲(chǔ)計(jì)算時(shí)的輸入數(shù)據(jù);輸出存儲(chǔ)器用來把計(jì)算結(jié)果進(jìn)行輸出。因?yàn)镻E功能會(huì)根據(jù)配置信息的不同而發(fā)生改變,所以可重構(gòu)陣列處理器具有高靈活性[15]。
2.2.1 Gram矩陣并行計(jì)算方案設(shè)計(jì)
則有式(4)成立:
在式(4)中,只需計(jì)算上三角元素和對(duì)角元素,便可得到全部矩陣元素。觀察矩陣中每一個(gè)元素,發(fā)現(xiàn)每行均有相同行向量,每列均有相同列向量,此數(shù)據(jù)特征非常適合采用流水線結(jié)構(gòu)設(shè)計(jì)復(fù)數(shù)矩陣乘法。
陣列處理器中一個(gè)簇有16個(gè)PE,考慮到MIMO規(guī)模的擴(kuò)展性,首先在的MIMO規(guī)模下使用4個(gè)PE完成Gram矩陣并行計(jì)算。具體映射方案如下:
2)數(shù)據(jù)傳輸。PE00為最先開始數(shù)據(jù)傳輸?shù)腜E,當(dāng)指令讀取到的第1個(gè)元素后,將共軛變化為的第1個(gè)元素,并把依次傳輸?shù)絇E10、PE20和PE30中。
圖3中,每一列為Gram矩陣一個(gè)元素的計(jì)算周期,每一行為每個(gè)PE需要執(zhí)行的操作,每一個(gè)方格代表了不同計(jì)算周期內(nèi)PE中的一個(gè)操作。由圖3可以看出,在不考慮數(shù)據(jù)流動(dòng)延遲的情況下,采用流水線模式計(jì)算Gram矩陣,僅僅需要4個(gè)計(jì)算周期就可以完成全部計(jì)算。然而采用串行方式逐個(gè)計(jì)算Gram矩陣元素時(shí),即使考慮到埃爾米特矩陣共軛轉(zhuǎn)置特性,也需要依次計(jì)算4個(gè)對(duì)角元素和6個(gè)非對(duì)角元素,這會(huì)消耗10個(gè)計(jì)算周期。所以從理論上來講,在的MIMO規(guī)模下,并行Gram矩陣計(jì)算相較于串行計(jì)算能夠取得加速比為2.5。在一個(gè)簇中,、和的Gram矩陣并行計(jì)算映射分別如圖4所示。

圖3 流水線結(jié)構(gòu)映射Fig. 3 Pipeline structure mapping

圖4 Gram矩陣并行計(jì)算映射Fig. 4 Mapping of Gram matrix parallel computing
在圖4中,為了降低數(shù)據(jù)傳輸延遲、減少計(jì)算時(shí)數(shù)據(jù)等待時(shí)間,于是在相鄰PE之間采用了鄰接互連的蛇形數(shù)據(jù)傳輸方式。各個(gè)PE的計(jì)算模式相同,唯一不同的是計(jì)算量,從箭頭指向的第一個(gè)PE到最后一個(gè)PE,計(jì)算量依次遞增。每個(gè)PE按箭頭指向順序依次存儲(chǔ)矩陣的列向量。如在128×4的MIMO規(guī)模下,PE00、PE10、PE20和PE30中分別存儲(chǔ)、、和的數(shù)據(jù),并在這4個(gè)PE中完成矩陣計(jì)算。
為了統(tǒng)計(jì)矩陣計(jì)算時(shí)間,規(guī)定一個(gè)計(jì)算周期即為完成Gram矩陣中一個(gè)元素計(jì)算所需時(shí)間,該時(shí)間由兩組擁有128個(gè)復(fù)數(shù)的數(shù)組對(duì)應(yīng)完成乘累加組成。采用流水線結(jié)構(gòu)加速計(jì)算時(shí),并行計(jì)算周期數(shù)取決于Gram矩陣對(duì)角線元素個(gè)數(shù)。串行計(jì)算周期數(shù)由對(duì)角線元素個(gè)數(shù)和上三角元素個(gè)數(shù)相加組成。在的MIMO規(guī)模下,Gram矩陣有8個(gè)對(duì)角線元素和28個(gè)上三角元素,所以并行計(jì)算周期是8,串行計(jì)算周期是36。圖4(c)中,在的MIMO規(guī)模下使用了16個(gè)PE完成了Gram矩陣計(jì)算,因?yàn)镚ram矩陣有16個(gè)對(duì)角線元素和120個(gè)上三角元素,所以并行計(jì)算周期是16,串行計(jì)算周期是136。在不同MIMO規(guī)模下,Gram矩陣對(duì)應(yīng)的計(jì)算周期和理論加速比如表2所示。
從表2可以看出,隨著MIMO規(guī)模增加,無論是串行還是并行方案,Gram矩陣的計(jì)算周期都會(huì)增長(zhǎng)。串行方案全部使用1個(gè)PE完成計(jì)算,并行方案下使用的PE數(shù)量與Gram矩陣中對(duì)角線元素?cái)?shù)量保持一致,且與MIMO規(guī)模中用戶端天線數(shù)相同。矩陣計(jì)算的理論加速比會(huì)隨著MIMO規(guī)模增大而提高,此特點(diǎn)有利于更大規(guī)模的MIMO系統(tǒng)中信號(hào)檢測(cè)算法高效執(zhí)行。

表2 Gram矩陣計(jì)算的理論值Tab. 2 Theoretical value of Gram matrix calculation
2.2.2 模塊化并行方案設(shè)計(jì)
根據(jù)圖1運(yùn)算流程,如果把Gram矩陣計(jì)算替換為并行計(jì)算,可得并行映射方案①。由于Gram矩陣計(jì)算和匹配濾波計(jì)算不具備數(shù)據(jù)依賴關(guān)系,所以在執(zhí)行Gram矩陣并行計(jì)算時(shí),讓匹配濾波計(jì)算同時(shí)開始執(zhí)行,完成模塊化并行,則可得并行映射方案②。

表3 Gram矩陣和匹配濾波計(jì)算的理論值Tab. 3 Theoretical values of Gram matrix and matched filter calculation
與表2相比,表3中方案①的計(jì)算周期只是在表2中并行計(jì)算周期的基礎(chǔ)上加上了的計(jì)算周期。方案②中模塊化并行會(huì)使加速比提高至方案①的2倍。因?yàn)樵诶硐霠顩r下,與的計(jì)算周期相同,并行計(jì)算時(shí)這兩個(gè)矩陣計(jì)算同時(shí)開始、同時(shí)結(jié)束,只占用了個(gè)計(jì)算周期;所以模塊化并行會(huì)進(jìn)一步降低計(jì)算耗時(shí),提高計(jì)算效率。
2.2.3 PE功能設(shè)計(jì)
雖然矩陣求逆時(shí)使用紐曼級(jí)數(shù)近似算法能夠降低求逆復(fù)雜度,但是紐曼級(jí)數(shù)法各個(gè)計(jì)算步驟之間有很強(qiáng)的數(shù)據(jù)相關(guān)性,故只能逐步順序執(zhí)行。通過表1可知,當(dāng)時(shí),紐曼級(jí)數(shù)法兼顧了計(jì)算復(fù)雜度與準(zhǔn)確性的要求,于是有式(5):
把式(5)中各個(gè)計(jì)算單元重新命名,可得式(6)、式(7)和式(8)分別如下:
對(duì)算法進(jìn)行實(shí)現(xiàn)時(shí),方案中用戶端天線數(shù)分別設(shè)計(jì)為4、8和16。當(dāng)?shù)扔?6時(shí),由于矩陣每個(gè)元素的實(shí)部和虛部各占用一行存儲(chǔ)單元,故存儲(chǔ)一個(gè)矩陣需要512行存儲(chǔ)單元,即一個(gè)PE。雖然PE中可以同時(shí)存儲(chǔ)指令與數(shù)據(jù),但是為了在計(jì)算時(shí)避免地址沖突,與矩陣大小相同的矩陣、、的數(shù)據(jù)必須單獨(dú)存儲(chǔ)在一個(gè)PE中。于是,Gram矩陣串行計(jì)算、匹配濾波計(jì)算、矩陣求逆和信道均衡的任務(wù)只能把指令和數(shù)據(jù)劃分給不同PE進(jìn)行存儲(chǔ)。因?yàn)樵诘腗IMO規(guī)模下,Gram矩陣并行計(jì)算在一個(gè)簇中PE的使用率為100%,故選取其展現(xiàn)完整的MMSE檢測(cè)算法并行映射方案如圖5所示。
圖5中,PEG00完成Gram矩陣計(jì)算的任務(wù),PEG01完成匹配濾波、矩陣求逆和信道均衡的任務(wù),陰影部分為存儲(chǔ)數(shù)據(jù)的PE,非陰影部分為執(zhí)行計(jì)算功能的PE。在PEG00中,與圖4(c)相比,PE03增加了把計(jì)算完成的Gram矩陣元素傳輸給PEG01的任務(wù)。

圖5 MMSE算法并行映射Fig. 5 Parallel mapping of MMSE algorithm
本文先使用Matlab建模生成實(shí)驗(yàn)數(shù)據(jù):首先,產(chǎn)生一組隨機(jī)的二進(jìn)制比特流,經(jīng)過QPSK調(diào)制后得到發(fā)送信號(hào);其次,隨機(jī)生成一組矩陣元素獨(dú)立同分布,且實(shí)部與虛部都服從零均值和單位方差高斯分布的信道矩陣;然后,生成加性高斯白噪聲向量,由控制生成噪聲功率譜密度;最后,根據(jù)式(1)計(jì)算接收信號(hào)。
實(shí)驗(yàn)數(shù)據(jù)生成以后,使用BEEcube公司BEE4開發(fā)平臺(tái)上的Xilinx Virtex-6 XC6VLX550T FPGA搭建的陣列處理器原型系統(tǒng)進(jìn)行FPGA驗(yàn)證和測(cè)試。具體實(shí)現(xiàn)步驟如下:
2)使用專用指令集完成算法的代碼級(jí)描述,并通過翻譯器將指令翻譯為二進(jìn)制,輸入到指令存儲(chǔ)單元。
3)利用QuestaSim 10.1d仿真軟件在陣列處理器上對(duì)串并行映射方案進(jìn)行仿真,驗(yàn)證算法映射的正確性。
4)采用ISE 14.7開發(fā)環(huán)境對(duì)設(shè)計(jì)進(jìn)行邏輯綜合,根據(jù)綜合實(shí)現(xiàn)結(jié)果分析性能。
5)在BEE4平臺(tái)上進(jìn)行FPGA硬件實(shí)現(xiàn),驗(yàn)證實(shí)驗(yàn)結(jié)果的合理性。
首先,對(duì)Gram矩陣計(jì)算的串行和并行方案進(jìn)行仿真,計(jì)算實(shí)際加速比。MIMO規(guī)模分別為、和,結(jié)果如表4所示。
從表4可以看出,Gram矩陣計(jì)算的實(shí)際加速比與理論加速比大致相當(dāng),表明Gram矩陣計(jì)算的映射方案可行。然而,隨著MIMO規(guī)模中用戶端天線數(shù)增加,理論加速比與實(shí)際加速比的差值會(huì)越來越大。出現(xiàn)此現(xiàn)象的主要原因是,使用流水線方式加速計(jì)算時(shí),用戶端天線數(shù)的增加導(dǎo)致并行計(jì)算使用的PE數(shù)量增加,首個(gè)PE下發(fā)的數(shù)據(jù)會(huì)經(jīng)過更長(zhǎng)時(shí)間才能傳輸?shù)阶詈笠粋€(gè)PE中,所以更多的數(shù)據(jù)傳輸時(shí)延將會(huì)導(dǎo)致并行計(jì)算時(shí)間增加,進(jìn)而降低實(shí)際加速比。

表4 Gram矩陣計(jì)算仿真結(jié)果Tab. 4 Simulation results of Gram matrix calculation
其次,統(tǒng)計(jì)分別在方案①和方案②下完成Gram矩陣計(jì)算和匹配濾波計(jì)算后的實(shí)際加速比,實(shí)驗(yàn)結(jié)果如表5所示。通過表5可以發(fā)現(xiàn),方案①中完成前兩個(gè)模塊計(jì)算的實(shí)際加速比很接近理論值,理論與實(shí)際的誤差僅在0.2以內(nèi)。方案②中由于數(shù)據(jù)傳輸延遲,導(dǎo)致Gram矩陣計(jì)算時(shí)間多于匹配濾波計(jì)算時(shí)間,進(jìn)而延長(zhǎng)了模塊化并行時(shí)間,于是實(shí)際加速比下降過大。但是從整體上來說,方案②的加速性能優(yōu)于方案①。上述結(jié)果表明,在模塊化并行映射方案下,MMSE算法能夠獲得更高的運(yùn)行效率。

表5 Gram矩陣和匹配濾波計(jì)算仿真結(jié)果Tab. 5 Simulation results of Gram matrix and matched filter calculation
最后,對(duì)整個(gè)MMSE算法進(jìn)行仿真。統(tǒng)計(jì)方案①和方案②的加速比,結(jié)果如圖6所示。從圖6可以看出,方案②的加速比在、和的MIMO規(guī)模下分別為2.80、4.04和5.57,平均提升至方案①的1.64倍。該性能提升對(duì)低時(shí)延要求的大規(guī)模MIMO系統(tǒng)具有重大意義。

圖6 并行映射加速比Fig. 6 Acceleration ratio of parallel mapping

圖7 不同MIMO規(guī)模下的相對(duì)誤差Fig. 7 Relative errors under different MIMO scales

表6 不同方法FPGA實(shí)現(xiàn)結(jié)果比較Tab. 6 Comparison of FPGA implementation results by different methods
文獻(xiàn)[7]方法在MIMO規(guī)模與本文實(shí)驗(yàn)相同的條件下,雖然工作頻率獲得了提升,但是本文方法的硬件資源消耗,即查找表(Look-Up Table, LUT)和觸發(fā)器(Flip-Flop, FF)資源之和卻比文獻(xiàn)[7]方法降低了42.6%。在文獻(xiàn)[11]方法和文獻(xiàn)[16]方法中,MIMO規(guī)模為,遠(yuǎn)小于本文方法的MIMO規(guī)模,但是本文方法相較文獻(xiàn)[11]方法和文獻(xiàn)[16]方法方法分別節(jié)約了77.7%和63.9%的硬件資源。因?yàn)镸IMO規(guī)模越大,需要執(zhí)行的計(jì)算越復(fù)雜,消耗的資源越多,所以如果將文獻(xiàn)[11]方法和文獻(xiàn)[16]方法中MIMO規(guī)模擴(kuò)大為,資源消耗量還會(huì)提高。根據(jù)本文中可重構(gòu)陣列處理器指令集的特點(diǎn),乘法運(yùn)算會(huì)分解為基本的加法和移位操作進(jìn)行處理,這會(huì)極大降低硬件資源消耗,所以本文方法在資源消耗量方面具有優(yōu)勢(shì)。
綜合上述實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于可重構(gòu)陣列處理器的并行映射方法能夠有效減少M(fèi)MSE算法的執(zhí)行時(shí)間,雖然輸出結(jié)果會(huì)有部分精度損失,但是該方法具有靈活的映射結(jié)構(gòu)和較小的資源消耗。
本文提出了一種基于陣列處理器的MMSE算法并行映射方法,在QPSK調(diào)制方式的上行鏈路中,實(shí)現(xiàn)了大規(guī)模MIMO信號(hào)檢測(cè)。該并行映射方法將MMSE算法執(zhí)行分為計(jì)算并行和模塊化并行,在計(jì)算并行中設(shè)計(jì)了流水線結(jié)構(gòu)的Gram矩陣計(jì)算方式,在模塊化并行中設(shè)計(jì)了匹配濾波計(jì)算和Gram矩陣計(jì)算同步執(zhí)行的方案。實(shí)驗(yàn)結(jié)果表明,在、和的MIMO規(guī)模下,MMSE算法的加速比分別達(dá)到了2.80、4.04和5.57;與文獻(xiàn)[7]方法相比,本文方法資源消耗降低了42.6%。本文方法不僅體現(xiàn)了陣列結(jié)構(gòu)的靈活性,而且還驗(yàn)證了該結(jié)構(gòu)在硬件資源消耗量方面占有優(yōu)勢(shì)。后續(xù)研究將對(duì)硬件結(jié)構(gòu)進(jìn)行優(yōu)化,以進(jìn)一步提高信號(hào)檢測(cè)算法的計(jì)算精度和執(zhí)行效率。
[1] HARRIS P, MALKOWSKY S, VIEIRA J, et al. Performance characterization of a real-time massive MIMO system with LOS mobile channels [J]. IEEE Journal on Selected Areas in Communications, 2017, 35(6): 1244-1253.
[2] PENG G Q, LIU L B, ZHOU S, et al. A 1.58 Gb/s/W 0.40 Gb/s/mm2ASIC implementation of MMSE detection for64-QAM massive MIMO in 64 nm CMOS [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2018, 65(5): 1717-1730.
[3] 魏少軍,李兆石,朱建峰,等.可重構(gòu)計(jì)算:軟件可定義的計(jì)算引擎[J].中國科學(xué):信息科學(xué),2020,50(9):1407-1426.(WEI S J, LI Z S, ZHU J F, et al. Reconfifigurable computing: toward software defifined chips [J]. SCIENTIA SINICA Informationis, 2020, 50(9): 1407-1426.)
[4] CHEN X L, MINWEGEN A, HUSSAIN S B, et al. Flexible, efficient multimode MIMO detection by using reconfigurable ASIP[J]. IEEE Transactions on Very Large Scale Integration Systems, 2015,23(10): 2173-2186.
[5] 趙燦坤,王自強(qiáng).基于動(dòng)態(tài)可重構(gòu)處理器的信道估計(jì)算法實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2020,37(7):1-5,11.(ZHAO C K, WANG Z Q. Implementation of channel estimation algorithms based on dynamic reconfigurable processor [J]. Microelectronics and Computer, 2020, 37(7): 1-5, 11.)
[6] ZHANG C X, LIU L, MARKOVIC D, et al. A heterogeneous reconfigurable cell array for MIMO signal processing [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2015, 62(3): 733-742.
[7] PENG G Q, LIU B L, ZHANG P, et al. Low-computing-load, high-parallelism detection method based on Chebyshev iteration for massive MIMO systems with VLSI architecture [J]. IEEE Transactions on Signal Processing,2017, 65(14): 3775-3788.
[8] LIU L B, PENG G Q, WANG P, et al. Energy- and area-efficient recursive-conjugate-gradient-based MMSE detector for massive MIMO systems [J]. IEEE Transactions on Signal Processing, 2020, 68: 573-588.
[9] 蔣林,賀飛龍,山蕊,等.可重構(gòu)視頻陣列處理器測(cè)試平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].系統(tǒng)仿真學(xué)報(bào),2020,32(5):792-800.(JIANG L, HE F L,SHAN R, et al. Design and implementation of reconfigurable video array processor test platform [J]. Journal of System Simulation, 2020, 32(5): 792-800.)
[10] GAO X, DAI L, MA Y, et al. Low-complexity near-optimal signal detection for uplink large-scale MIMO systems [J]. Electronics Letters, 2014, 50(18): 1326-1328.
[11] WU M, YIN B, WANG G H, et al. Large-scale MIMO detection for 3GPP LTE: algorithms and FPGA implementations [J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(5): 916-929.
[12] 金鳳,唐宏,張進(jìn)彥,等.基于壓縮感知的大規(guī)模MIMO系統(tǒng)導(dǎo)頻優(yōu)化及信道估計(jì)算法[J].計(jì)算機(jī)應(yīng)用,2018,38(5):1447-1452.(JIN F,TANG H, ZHANG J Y, et al. Pilot optimization and channel estimation in massive multiple-input multiple-output systems based on compressive sensing [J]. Journal of Computer Applications, 2018, 38(5): 1447-1452.)
[13] YIN B, WU M, WANG G H, et al. A 3.8Gb/s large-scale MIMO detector for 3GPP LTE-Advanced [C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014:3879-3883.
[14] 馮雙雙.基于Massive MIMO的矩陣求逆算法研究[D].成都:電子科技大學(xué),2016:33-51.(FENG S S. Research on matrix inversion in massive MIMO systems [D]. Chengdu:University of Electronic Science and Technology of China, 2016: 33-51.)
[15] 楊坤,蔣林,謝曉燕,等.HEVC中率失真優(yōu)化算法的動(dòng)態(tài)可重構(gòu)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2021,43(2):354-361.(YANG K, JIANG L, XIE X Y, et al. Dynamic reconfigurable implementation of rate distortion optimization algorithm in HEVC [J]. Computer Engineering and Science, 2021, 43(2): 354-361.)
[16] CHEN J N, ZHANG Z B, LU H, et al. An intra-iterative interference cancellation detector for large-scale MIMO communications based on convex optimization [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2016, 63(11): 2062-2072.
Parallel design and implementation of minimum mean square error detection algorithm based on array processor
LIU Shuai1, JIANG Lin2*, LI Yuancheng2, SHAN Rui3, ZHU Yulin4, WANG Xin4
(1.College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an Shaanxi710054China;2.College of Computer Science and Technology,Xi’an University of Science and Technology,Xi’an Shaanxi710054,China;3.School of Electronic Engineering,Xi’an University of Posts and Telecommunications,Xi’an Shaanxi710121,China;4.College of Electrical and Control Engineering,Xi’an University of Science and Technology,Xi’an Shaanxi710054,China)
In massive Multiple-Input Multiple-Output (MIMO) systems, Minimum Mean Square Error (MMSE) detection algorithm has the problems of poor adaptability, high computational complexity and low efficiency on the reconfigurable array structure. Based on the reconfigurable array processor developed by the project team, a parallel mapping method based on MMSE algorithm was proposed. Firstly, a pipeline acceleration scheme which could be highly parallel in time and space was designed based on the relatively simple data dependency of Gram matrix calculation. Secondly, according to the relatively independent characteristic of Gram matrix calculation and matched filter calculation module in MMSE algorithm, a modular parallel mapping scheme was designed. Finally, the mapping scheme was implemented based on Xilinx Virtex-6 development board, and the statistics of its performance were performed. Experimental results show that, the proposed method achieves the acceleration ratio of 2.80, 4.04 and 5.57 in Quadrature Phase Shift Keying (QPSK)uplink with the MIMO scale of,and, respectively, and the reconfigurable array processor reduces the resource consumption by 42.6% compared with the dedicated hardware in themassive MIMO system.
massive Multiple-Input Multiple-Output (MIMO); Minimum Mean Square Error (MMSE) algorithm; parallel mapping; array processor; reconfigurable
TP302
A
1001-9081(2022)05-1524-07
10.11772/j.issn.1001-9081.2021030460
2021?03?26;
2021?06?25;
2021?06?28。
國家自然科學(xué)基金資助項(xiàng)目(61834005,61772417);陜西省自然科學(xué)基金資助項(xiàng)目(2020JM?525)。
劉帥(1998—),男,陜西延安人,碩士研究生,主要研究方向:計(jì)算機(jī)體系結(jié)構(gòu); 蔣林(1970—),男,陜西楊凌人,教授,博士,主要研究方向:專用集成電路設(shè)計(jì)、計(jì)算機(jī)體系結(jié)構(gòu)、計(jì)算機(jī)圖形圖像處理; 李遠(yuǎn)成(1981—),男,河南開封人,講師,博士,CCF會(huì)員,主要研究方向:計(jì)算機(jī)體系結(jié)構(gòu)、并行計(jì)算、機(jī)器學(xué)習(xí); 山蕊(1986—),女,陜西咸陽人,副教授,博士,主要研究方向:集成電路設(shè)計(jì); 朱育琳(1996—),女,陜西西安人,碩士研究生,主要研究方向:計(jì)算機(jī)體系結(jié)構(gòu); 王欣(1995—),女,陜西咸陽人,碩士研究生,主要研究方向:可重構(gòu)存儲(chǔ)結(jié)構(gòu)。
This work is partially supported by National Natural Science Foundation of China (61834005, 61772417),Natural Science Foundation of Shaanxi Province (2020JM-525).
LIU Shuai, born in 1998, M. S. candidate. His research interests include computer architecture.
JIANG Lin, born in 1970, Ph. D., professor. His research interests include application specific integrated circuit design, computer architecture, computer graphics and image processing.
LI Yuancheng, born in 1981, Ph. D., lecturer. His research interests include computer architecture,parallel computing, machine learning.
SHAN Rui, born in 1986, Ph. D., associate professor. Her research interests include integrated circuit design.
ZHU Yulin, born in 1996, M. S. candidate. Her research interests include computer architecture.
WANG Xin, born in 1995, M. S. candidate. Her research interests include reconfigurable storage structure.