如今,多內核處理器正日益成為解決蜂窩基站功率與性能難題的常用有效工具。
雖然無線領域中最受青睞的應用仍然是語音,但是數據正緊隨其后,迅速成為熱門的3G應用,而且隨著運營商對諸如移動WiMAX(IEEE 802.16e)和長期演進(LTE)等4G技術的部署,數據的這種發展勢頭還將持續下去。在電子郵件、Web瀏覽、音樂下載以及機器對機器(M2M)的應用中,所有數據流量都會增加每個收發器基站(BTS)或節點B(Node B)的工作量,在城市地區尤為如此。
在為BTS調制解調器應用開發片上系統(SoC)的過程中,這些工作量會為芯片設計人員帶來新的挑戰。一個主要問題是基帶處理器平臺,在該平臺上多內核處理器正日益成為平衡功率與性能的高效率通用工具。
對于3G與4GBTS應用而言,理想的解決方案應采用具備片上加速器的多內核數字信號處理器(DSP),從而避免采用FPGA或微處理器的麻煩。多內核平臺能夠降低研發成本并同時加速開發與上市進程,尤其在用于軟件可編程平臺時更為如此,因而可支持多種應用并形成可擴展解決方案以支持各種外形尺寸,進而使BTS廠商直接受益。
此外,理想的解決方案還可包含高性能接口,如用于網絡連接的千兆位以太網,片上開放式基站架構項目(OBSAI),通用公共無線電廣播接口(CPRI)天線接口等,以支持通過底板與RF收發器卡或者遠程無線電廣播前端(RRH)的連接,同時也能實現DSP間連接與RapidlO的直接連接。圖1對部分選擇進行了說明。

電源問題是眾多移動基礎局端廠商及其供應商升級至多內核設計的主要原因。隨著BTS工作負載的不斷增加,鑒于所需功率與散熱,僅僅簡單地提高DSP頻率已不再是可行的解決方案。而取代更高性能DSP的首選方案將是采用多核設計。例如,如果系統需要DSP提供3GHz性能,那么最理想的選擇是采用三個運行頻率均為1GHz,并采用單個DSP封裝的內核。這種設計可以同時滿足電源與性能的要求。另一個針對高性能DSP的低功耗技術是TI的SmartReflex?技術,其可以同時降低靜態與動態功耗,并且可同時保持指定的器件性能。TI的Smart Reflex需要考慮眾多技術因素,如基于制造工藝的專用器件硅芯片特性以及熱參數等。這樣可有效降低DSP的功耗,同時保持性能目標——當前TC16488為1GHz,是集成了Smart Reflex技術的DSP之一。
新靈活性
由于DSP變得更為強大,因此它們能夠完成以前需要輔助元件(如通用處理器、RISC處理器以及FPGA等)才能完成的任務。如TI的TCl6488等最新的多內核DSP具有足夠強大的能力來處理基帶卡中的所有任務。由于消除了不必要的組件并進而降低了材料清單(BoM)成本,因而其可以直接改進廠商的賬本底線并增強競爭優勢。此外,避免采用高功耗的FPGA還有助于系統設計人員充分滿足效率要求。
例如,在TCl6488等多內核處理器中,系統設計人員可以安排單個DSP內核來負責MAC處理(以前需要獨立的RISC處理器),而讓其他的DSP內核來管理PHY處理與其他功能。通過同時支持同一平臺中的MAC與PHY層處理,TCl6488還可以優化設計過程。根據各自的策略以及內部能力,廠商可以采用TI提供的多功能庫,然后集成在一起創建其自己的獨特解決方案,也可以與TI的第三方合作伙伴攜手開發完整的交鑰匙解決方案。
可用的此類解決方案之一是完整的移動WiMAXWave2PHY與MAC解決方案。無論采用哪種選擇,系統設計人員現在都可以在競爭激烈的市場中(如已經有超過300家廠商在拼殺的移動WiMAX市場)實現所需的高靈活性、低開發成本以及快速的上市時間。
此外,最新DSP還可以支持多種空中接口,使各廠商能夠靈活地利用相同平臺與知識庫來應對多個市場,從而不僅能夠降低開發成本,同時還能加速上市進程。例如,TCl6488目前可支持LTE、WCDMA/HSPA/HSPA+、TD-SCDMA、WiMAX以及GSM/EDGE等。圖2對部分當前配制選項進行了說明。
這些技術選擇還可以說明TCl6488等基帶平臺如何通過提供每信道卡最高載波數量以及使其能夠在同一基帶硬件中支持新功能與新標準,從而降低無線運營商的資本開支。
此外,TCl6488還可以證明多內核DSP如何為廠商提供通過擴展單個產品設計而支持各種應用的靈活性。例如,系統設計人員可以將多個TCl6488鏈接在一起,以針對微微蜂窩與宏蜂窩應用而縮小或擴展平臺。此外,系統設計人員還可以選擇讓一個電路板處理發射功能,而讓另一塊電路板處理接收功能,或者讓單個電路板同時處理特定數量用戶的收發功能。圖3對部分定制選項進行了說明。
優先化與平衡
當今的SoC一般是多內核DSP,采用必須進行互操作和同步化的獨立IP模塊,以實現單個完整的調制解調器功能。這種架構需要采取某種方式對任務進行優先排序,然后將它們映射到多內核環境。
最簡便的選擇是在DSP內核之間分配用戶,以使每個內核都能維護其自己的隊列。但是這樣做存在兩個缺點。第一個缺點是,所有用戶可能需要共享某些功能,如過濾與解調等;第二個缺點是,某些功能可能需要共享協處理器或外設,因而它們不具備完全的獨立性。因此,優先隊列集合之間的交互會變得很復雜,從而很難保證實時性能。此外,協處理器與外設也變得更為復雜,因為它們必須支持多個內核的訪問,從而必須決定哪個內核的任務優先。所有這些都會增加硬件與軟件驅動程序的復雜性,并使最終系統的測試變得難度更大,也更耗時。
為了避免上述缺點,TC16488采取了不同的方案:為單個內核分配一個功能任務,這樣每個內核都負責唯一一組功能。一般情況下,每個負責加速特定功能類型的協處理器都與單個內核相關聯。這種方案可以顯著簡化協處理器執行的任務排序。外設在許多情況下也與單個內核通信,從而減少驗證任務是否需要數據所做的測試。
由于DSP可用于實現各種功能,TCl6488SoC的設計在必要時均具有高度的對稱性。例如,TCl6488中的所有內核都可以訪問接收機加速器協處理器(RAC)。這種設計允許在所有內核中運行相同的功能,同時在需要時仍然能為所有內核提供對所有協處理器和外設資源的訪問。不過,建議系統設計人員讓一個內核與TCl6488 DSP中的RAC交互,以便簡化器件的操作。
通過在多個內核之間實現資源負載平衡,根據適用于每個任務的代碼,單個內核有可能先于其他內核達到自己的最高容量。解決方法是進行重新分組,這是一種需要完全改變軟件架構的做法,同時也是完成DSP測試后系統設計人員極力避免的步驟。由于軟件無線電廣播(SDR)方法與工具的不斷發展,軟件分組工作可得到顯著簡化。
TC16488等DSP已經采用代碼周期估算、電子數據表和事務級模型為WCDMA SoC開發被推薦的軟件分組功能。TC16488 DSP實現了這種分組,而且這樣既可提供一個近乎完美的解決方案,又能實現簡單性:一個DSP內核控制RAC,另一個控制Turbo協處理器(TCP)與ViterBi協處理器,而由第三個執行發射碼片速率加速以及與天線陣列接口的輸出通信。

對于其他標準(如不采用RAC的基于OFDM的標準),更易于開發對稱軟件架構。在這些情況下將難題分組變得更為簡單,因此FFT/IFFT和部分調制及解調由一個內核執行,其結果被發送到另一個內核進行符號率處理。這種方法可以簡化天線接口或串行RapidIO(如果天線數據采用此類接口)與負責處理前端的其他DSP內核之間的通信。另外,它還可以簡化后端符號速率處理及其與以太網或串行RapidIO外設的通信。
事實上,OFDMA調制是針對所有用戶聯合執行的,無法完全分配到不同DSP內核。因此,作者認為,軟件架構的簡單性以及眾多調制解調器算法的性質是系統設計人員分組任務、進而造成軟件在各種DSP內核之間不對稱的部分主要原因。
在多個SoC之間實現資源平衡
另一個問題是每個SoC是否應當具有不同任務,如一個SoC只執行符號速率解碼,而另一個集中執行碼片速率調制。難點是所有片上協處理器都無法得到有效利用。
例如,僅執行符號速率處理的TC16488器件需要更為強大的功能,因此需要高功率、大尺寸的Turbo與Viterbi解碼器。但是此解碼器無法用于另一個只執行碼片速率關聯的SoC,因此需要功能強大得多的接收加速器。除非每個電路板的功能都具有不同的SoC,否則協處理器就必須滿足每項功能的最差情況需求。為每組功能都構建不同的SoC是一種資金浪費。
專用于特定功能子集的SoC同樣也不利于可擴展系統。顯然,如果希望提高電路板的通道密度,讓每個SoC執行相同一組功能,我們只需在電路板中添加更多SoC。但TC16488只需極少的附加硬件即可實現上述目的。天線接口與串行RapidIO都能夠以菊花鏈方式連接,而以太網和RapidIO接口可以連接到交換機。
但是,如果不同的SoC提供不同的功能,為了實現系統的可擴展性,用戶數量基本上必須加倍。如果所需用戶數量增加15%,再添加一個SoC可將負責符號速率處理的SoC的能力提高15%,但其利用率卻只有15%。其他SoC同樣如此,這使擴展后的解決方案效率極低。
對于采用多內核、協處理器加速SoC的系統設計,在電路板級可擴展性最高以及可實現最簡單、最易于測試軟件的系統架構中,SoC中的每個DSP內核都執行一個唯一的子集任務,但是系統中的每個SoC都執行與其他SoC相同的組任務。TC16488可專門適用于WCDMA/HSPA網絡中的這種情況,其側重采用相同方式高效靈活地支持其他調制解調器標準。
最終成果是在3G或4GBTS中采用多內核DSP來提供獲得成功所需的性能與電源效率組合。但是,并非所有多內核DSP生來相同,因此,對于系統設計人員來說,同樣重要的另一個選擇是由廣泛功能庫和其他工具提供支持的DSP,以確保降低開發成本并加速上市進程。