基于分布式存儲的高性能嵌入式并行處理系統(tǒng)的設(shè)計與實現(xiàn)

2017-09-30 02:58:26江海職業(yè)技術(shù)學(xué)院安長俊周家婕

電子世界 2017年18期

江海職業(yè)技術(shù)學(xué)院安長俊周家婕魏斌高明

江海職業(yè)技術(shù)學(xué)院安長俊周家婕魏斌高明

本文在對嵌入式高性能并行處理系統(tǒng)加速比的數(shù)學(xué)模型拓展分析的基礎(chǔ)上，提出了一種當(dāng)今更適于高性能信號處理算法的基于分布式存儲的并行處理架構(gòu)，并在此基礎(chǔ)上設(shè)計實現(xiàn)了基于TMS320C6678的多片多核DSP互聯(lián)的通用大容量存儲實時信號處理卡，使用該板卡構(gòu)建了某實時信號處理系統(tǒng)。驗證了該架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點。驗證了該系統(tǒng)強(qiáng)大的并行處理性能。

加速比；分布式存儲；多層次互聯(lián)；TMS320C6678

1 引言

隨著VLSI技術(shù)的進(jìn)步，嵌入式并行處理系統(tǒng)得到了飛速的發(fā)展。廣泛應(yīng)用于航天、通信、醫(yī)療電子等領(lǐng)域。隨著應(yīng)用需求的不斷調(diào)高，對系統(tǒng)處理能力、存儲容量、傳輸帶寬的要求越來越高。采用更高性能處理器、更大存儲容量與更快讀寫速度存儲器的設(shè)計方法已成為硬件系統(tǒng)設(shè)計的必然選擇[1]。而傳統(tǒng)的基于共享總線存儲的多處理器并行處理架構(gòu)受制于總線的負(fù)載能力有限、總線時鐘頻率無法進(jìn)一步提升以及總線訪問競爭等問題，使得并行處理加速比無法隨著處理器數(shù)量增加而進(jìn)一步提高，大大限制了并行處理系統(tǒng)處理效率的發(fā)揮。因此本文在詳細(xì)分析了加速比及效率的數(shù)學(xué)模型的基礎(chǔ)上，提出了一種基于高速串行總線互聯(lián)的分布式存儲的并行處理架構(gòu)，并基于TI公司新一代多核DSP——TMS320C6678，設(shè)計實現(xiàn)了多片多核DSP互聯(lián)的并行處理單板，可實現(xiàn)根據(jù)系統(tǒng)處理能力需求靈活擴(kuò)展處理節(jié)點，增縮系統(tǒng)規(guī)模，具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)等優(yōu)點。最后，使用該模塊構(gòu)建了高性能的信號處理系統(tǒng)，充分驗證了系統(tǒng)強(qiáng)大的并行處理性能[2-4]。

2 加速比模型分析

加速比是反映系統(tǒng)并行處理能力發(fā)揮程度的指標(biāo)。考慮固定大小的加速比模型即Amdahl定律，如公式（1）所示，其中T(1)為單獨使用1個處理器進(jìn)行處理所需的時間，T(N)為使用P個處理并行處理所需的時間：

結(jié)合典型處理算法的固有特點，對（1）式進(jìn)行擴(kuò)展性分析。考慮并行處理過程中的主要時間開銷包括同步時間Tsync以及數(shù)據(jù)傳輸時間Tcom，可得因此擴(kuò)展后的加速比模型如式公式（2）所示：

設(shè)某算法總的運算浮點數(shù)為I，系統(tǒng)內(nèi)處理器的處理速度為P；

該算法的串行瓶頸為δ，即算法中只能串行運算的部分，那么并行運算的部分即為1—δ；

整個算法所需的同步次數(shù)為M，且每次同步時間為tsync；

每個處理器每次同步需要交互的數(shù)據(jù)量為W，互聯(lián)總線帶寬為B。

數(shù)據(jù)傳輸?shù)牟⑿卸葹棣粒?/p>

則：

帶入（2）式中可得：

并行效率：

如（6）式所示，對于一個并行度一定的算法，其同步和數(shù)據(jù)交互的時間開銷將會嚴(yán)重影響并行系統(tǒng)的加速比。若忽略同步開銷的影響，對于傳統(tǒng)的共享總線的并行架構(gòu)，因共享總線，因此各個處理器的數(shù)據(jù)存儲及傳輸只能串行執(zhí)行，因此α=0，可得共享總線其加速比：

由（8）（9）兩式可以看出隨著著并行互聯(lián)的處理器數(shù)量的增加，受制于總線帶負(fù)載能力，總線帶寬必定減小，因此數(shù)據(jù)傳輸?shù)拈_銷將嚴(yán)重影響系統(tǒng)加速比及效率。而且，可并行擴(kuò)展的處理器數(shù)目有限，構(gòu)建大型處理系統(tǒng)時比較困難。因此，共享總線的并行處理架構(gòu)越來越不能滿系統(tǒng)需求。

根據(jù)公式（6）為進(jìn)一步增大并行處理系統(tǒng)的加速比提高其并行處理效率，充分發(fā)揮處理系統(tǒng)性能，我們必須：

（1）盡可能減小串行瓶頸因子δ，主要依靠算法架構(gòu)設(shè)計優(yōu)化實現(xiàn)；

（2）增大數(shù)據(jù)傳輸并行度α；

（3）增大數(shù)據(jù)傳輸帶寬B；

（4）減小同步時間開銷。

因此，構(gòu)建如圖1的分布式存儲的并行處理架構(gòu)。采用基于包交換的高速串行總線如SRIO、PCIE等作為處理器間的數(shù)據(jù)傳輸通路以增大數(shù)據(jù)并行傳輸因數(shù)α，增大數(shù)據(jù)傳輸帶寬B；增加專門SYNC總線以減小同步時間開銷。

圖1 基于高速串行總線的分布式存儲并行互聯(lián)架構(gòu)

3 分布式存儲并行處理系統(tǒng)設(shè)計

3.1 總體架構(gòu)設(shè)計

基于以上分布式存儲并行處理架構(gòu)的分析，構(gòu)建基于模塊化的高性能嵌入式并行處理系統(tǒng)，系統(tǒng)總體設(shè)計如圖2所示：

圖2 系統(tǒng)總體架構(gòu)圖

系統(tǒng)主要包括IO模塊、網(wǎng)絡(luò)交換模塊、處理模塊、主控模塊。

1）主控模塊：該模塊是由單板計算機(jī)（SBC）構(gòu)建。主要用來完成系統(tǒng)內(nèi)PCIE EP設(shè)備的枚舉，實現(xiàn)系統(tǒng)PCIE網(wǎng)絡(luò)的組建。提供人家接口、圖形化界面，通過PCIE網(wǎng)絡(luò)或以太網(wǎng)實現(xiàn)對系統(tǒng)內(nèi)設(shè)備進(jìn)行管理與維護(hù)。同時負(fù)責(zé)完成系統(tǒng)任務(wù)分配、參數(shù)初始化等功能。另外，還可使用主控模塊進(jìn)行特定的輔助數(shù)據(jù)處理。

2）I/O模塊：該模塊主要主要完成處理系統(tǒng)與外部其系統(tǒng)互聯(lián)。一般由大型FPGA構(gòu)建，主要由包括IO接口單元和IO控制單元。IO接口單元實現(xiàn)各類傳輸接口如ADC、DAC、光纖輸入輸出接口等；IO控制單元實現(xiàn)數(shù)據(jù)的分發(fā)以及同步定時功能。

3）網(wǎng)絡(luò)交換模塊：該模塊主要實現(xiàn)第三代基于包交換的高速串行總線的數(shù)據(jù)交換，例如SRIO、PCIE和千兆以太網(wǎng)。為系統(tǒng)內(nèi)各個處理節(jié)點提供高速無阻塞的數(shù)據(jù)傳輸通道。

4）處理模塊：處理模塊為該嵌入式高性能并行處理系統(tǒng)的核心。由若干基于分布式存儲的高性能處理器互聯(lián)組成。處理器一般為適于嵌入式系統(tǒng)處理的DSP、FPGA等。多處理器間通過基于包交換的第三代高速串行總線（如SRIO）實現(xiàn)互聯(lián)，可輕松實現(xiàn)多處理器的擴(kuò)展。同時，還可根據(jù)具體處理器外圍接口的不同構(gòu)建處理器間LINKs，為多處理器間的數(shù)據(jù)交互提供通路。

如上所述的基于模塊化構(gòu)建的高性能并行處理系統(tǒng)，具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點。系統(tǒng)可根據(jù)各類應(yīng)用的具體需求靈活增減各個模塊規(guī)模以構(gòu)建不同性能的系統(tǒng)。

3.2 架構(gòu)特點分析

3．2．1 多層次的互聯(lián)網(wǎng)絡(luò)

系統(tǒng)中引入了三種不同特性的互聯(lián)方式實現(xiàn)系統(tǒng)內(nèi)各個單元的互聯(lián)，包括：

（1）基于點對點互聯(lián)的高速串行總線互聯(lián)（如SRIO、PCIE）為各個處理節(jié)點提供大帶寬的數(shù)據(jù)傳輸通道；

（2）千兆以太網(wǎng)互聯(lián)，實現(xiàn)系統(tǒng)低速、非實時的控制數(shù)據(jù)流傳輸；

（3）同步定時總線實現(xiàn)系統(tǒng)內(nèi)各個處理節(jié)點的同步定時。不同的互聯(lián)方式實現(xiàn)不同類型數(shù)據(jù)傳輸?shù)男枨螅ㄟ^三種不同層次的互聯(lián)網(wǎng)絡(luò)實現(xiàn)系統(tǒng)中無阻塞的數(shù)據(jù)交換[5-7]。

圖3 多種類的SRIO互聯(lián)拓?fù)涫疽鈭D

3．2．2 靈活多變的互聯(lián)拓?fù)?/p>

使用SRIO互聯(lián)網(wǎng)絡(luò)作為主要的數(shù)據(jù)傳輸通道可實現(xiàn)系統(tǒng)中處理節(jié)點的靈活擴(kuò)展。借助于專用SRIO交換模塊，通過配置交換芯片的轉(zhuǎn)發(fā)ID可使處理節(jié)點間實現(xiàn)如圖3所示的不同的互聯(lián)拓?fù)洹Ｍㄟ^SRIO switch可實現(xiàn)分布式處理節(jié)點的靈活擴(kuò)展，擴(kuò)展后的處理節(jié)點可實現(xiàn)處理能力、傳輸能力、儲存能力同比增加，因此基于SRIO網(wǎng)絡(luò)的互聯(lián)，使得該處理模塊具有很強(qiáng)的可擴(kuò)展性、可重構(gòu)性。

3．2．3 大容量的數(shù)據(jù)緩存

系統(tǒng)為分布式存儲系統(tǒng)，每個處理器通過自己的SDRAM控制器掛載獨立的SDRAM存儲。因此系統(tǒng)的數(shù)據(jù)緩存隨著處理器數(shù)目的增加成線性增長。當(dāng)今的高性能處理器一般支持DDR3的控制器，而且隨著DDR3顆粒空間的不斷增長，處理器支持存儲空間也越來越來大（如TMS320C6678最多可以掛載8GB的DDR3 SDRAM），因此基于分布式存儲的多處理器并行處理系統(tǒng)可以輕松實現(xiàn)超大容量的數(shù)據(jù)緩存。

4 硬件設(shè)計實現(xiàn)

4.1 基于TMS320C6678的處理單元硬件設(shè)計實現(xiàn)

處理模塊為嵌入式高性能并行處理系統(tǒng)的核心。本文結(jié)合TI公司最新一代多核DSP—— TMS320C6678設(shè)計實現(xiàn)了多片多核DSP互聯(lián)的通用大容量存儲實時信號處理單元。

TMS320C6678是TI公司基于KeyStone多核處理器架構(gòu)的新一代多核DSP，也是目前處理性能最高的定點/浮點DSP。芯片集成了8個C66x? DSP內(nèi)核，內(nèi)核速率可達(dá)1.25GHz，單核定點運算能力為40 GMAC @ 1.25 GHz，單核浮點運算能力為20 GFLOP。Keystone架構(gòu)將RISC、DSP內(nèi)核以及協(xié)處理器和高速IO接口高效的集成在一起，同時，首次實現(xiàn)了處理器內(nèi)核、外設(shè)、協(xié)處理器以及IO接口的無阻塞訪問。其實現(xiàn)高效集成和無阻塞訪問主要基于四個主要的硬件單元：多核資源調(diào)度器，TeraNet交換器，多核共享內(nèi)存控制器以及最高速率可達(dá)50GBaud用于芯片級聯(lián)的Hyperlink接口。

基于多片C6678互聯(lián)的通用并行處理模塊板卡總體設(shè)計如圖4所示。板載4片C6678，每片DSP下掛8GB DDR3內(nèi)存，構(gòu)成高速處理單元。每片DSP分別與PCI-e交換芯片和Rapid IO交換芯片連接X2的PICe和X4的SRIO，兩片交換芯片與背板分別連接2個X4的PCIE和4個X4的SRIO。兩片DSP之間通過高速的Hyperlink實現(xiàn)互聯(lián)，為C6678提供高速數(shù)據(jù)傳輸通道。

由FPGA作為接口轉(zhuǎn)換器件，實現(xiàn)背板Link接口，RocketIO以及板內(nèi)RapidIO和PCIe總線之間的接口轉(zhuǎn)換，并編程實現(xiàn)FPDP和同步定時總線。同時，在實際應(yīng)用中，還可作為DSP的協(xié)處理器，對于一些復(fù)雜度較低，并行性要求較高的算法可先由FPGA進(jìn)行預(yù)處理，可大大提高板卡的處理速度。CPLD主要實現(xiàn)板卡電源監(jiān)控管理，復(fù)位管理，雜散邏輯控制等功能[8-9]。

圖4 板卡總體設(shè)計框圖

4.2 某實時信號處理系統(tǒng)硬件實現(xiàn)

基于TMS320C6678處理板卡，構(gòu)建了如圖5所示的某高性能嵌入式實時信號處理系統(tǒng)，系統(tǒng)由一塊IO板卡、10快4DSP處理板卡、一塊PowerPC主控板卡以及一塊SRIO交換板卡構(gòu)成。IO板卡通過多路光纖接受系統(tǒng)其他分機(jī)的數(shù)據(jù)后通過SRIO交換卡實現(xiàn)數(shù)據(jù)的分發(fā)，10塊4DSP處理板卡完成信號處理算法并行運算。

系統(tǒng)主要采用基于包交換的高速串行Rapid IO作為主要的數(shù)據(jù)傳輸、交換通道，選用PCI Express、以太網(wǎng)作為主要的配置、管理通道，并且增加專門的同步定時總線(SYNC)用以系統(tǒng)內(nèi)同步定時。

處理模塊由10塊4DSP處理單板構(gòu)建，實現(xiàn)復(fù)雜的信號處理算法的高速并行運算。處理模塊峰值處理能力達(dá)到6.4TFLOPs，總的數(shù)據(jù)緩存達(dá)到320GB DDR3 SDRAM。經(jīng)過典型SAR成像Specan算法驗證，在該系統(tǒng)成功進(jìn)行并行算法映射后，算法中每步處理獲得的加速比都達(dá)到3.6以上，效率在90%以上，充分驗證了該處理系統(tǒng)強(qiáng)大的并行處理能力。

圖5 高性能嵌入式實時信號處理系統(tǒng)總線互聯(lián)圖

5 總結(jié)

本文結(jié)合業(yè)界嵌入式并行處理系統(tǒng)的發(fā)展，對加速比擴(kuò)展分析的基礎(chǔ)上，提出一種分布式存儲的嵌入式高性能并行處理架構(gòu)，并基于該架構(gòu)在OpenVPX 6U平臺上開發(fā)了基于TMS320C6678的多DSP的并行處理板，使用該板卡構(gòu)建了某高性能嵌入式實時信號處理系統(tǒng)。滿足大帶寬、大容量存儲、高處理性能的系統(tǒng)需求，能較好的適應(yīng)各種實時信號處理算法。充分驗證了本文提出的基于分布式存儲的嵌入式高性能并行處理架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點。

[1]李方慧,王飛,何佩琨．TMS320C6000系列DSPs原理與應(yīng)用[M]．電子工業(yè)出版社,2005．

[2]Sam Fuller等著,王勇,林粵偉,吳冰冰等譯． RapidIO嵌入式系統(tǒng)互連[M]．電子工業(yè)出版社,2006．

[3]丁云霞,胡善清,龍騰．典型SAR算法在多核處理器上并行處理映射實現(xiàn)[J]．計算機(jī)工程與應(yīng)用,2012,48(S2)．

[4]楊俊,杜金榜,王躍科．基于FPGA和多DSP并行處理的可擴(kuò)展數(shù)字處理終端設(shè)計[J]．國防科技工業(yè)試驗技術(shù)高層論壇,2007．

[5]TMS320C6678 Multicore Fixed and Floating-point Digital Signal Processor Data Manual，Novembwer 2010．

[6]DDR3 Design Requirements for KeyStone Devices，April 2011．

[7]KeyStone Architecture Peripheral Component Interconnect Express User Guide，December 2010．

[8]KeyStone Architecture Multicore Navigator User Guide，F(xiàn)ebruary 2011．

[9]Virtex-6 FPGA SelectIOResouces User Guide,August16,2010．

Design and Implementation of High-Performance Embedded Processing System Based on DSM

AnChangjun，ZhouJiajie，WeiBin，Gao Ming
（Jianghai Polytechnic College, Jiangsu.Yangzhou 225000）

In this paper, on the basis of detailed analysis about an extended speedupof the high-performance embedded parallel processing system, we propose a new parallel processingarchitecturebased on distributed storage, and then design a generic real-time signal processing card with multi DSPs of TMS320C6678. Finally, we construct a real-time signal processing system with multi cards. It validates the proposed architecture has standardized,modular, scalable, reconf i gurable features.

Speedup; distributed storage; multi-level interconnect; TMS320C6678

安長俊（1983—），男，江蘇揚(yáng)州人，碩士，江海職業(yè)技術(shù)學(xué)院講師，從事電氣自動化技術(shù)教學(xué)與研究。