曹曉東,石 寅,張雪蓮,張 強(中國科學院半導體研究所 北京 海淀區 100083)
用于802.11p的低功耗緊湊型FFT處理器的研究
曹曉東,石 寅,張雪蓮,張 強
(中國科學院半導體研究所 北京 海淀區 100083)
符合802.11p協議標準的基帶與射頻芯片是車載無線寬帶通信系統的核心,其性能直接決定了車載無線寬帶通信系統的性能。快速傅里葉變換(FFT)處理器是決定無線基帶芯片性能的核心電路,該文通過分析FFT算法的特點,設計了一種用于802.11p的低功耗緊湊型64點處理器。該FFT處理器采用塊浮點運算技術與單蝶形并行結構,極大地提高了FFT處理器的數據運算精度與運算速度。
802.11p;快速傅里葉變換;智能交通;車載無線通信系統
隨著車輛的增多,交通安全與城市擁堵成為了亟待解決的社會問題。由車載系統和路邊單元構成的車聯網系統,可以通過路面信息廣播、自適應導航、不停車收費等技術,提高車輛行駛的安全性和交通效率,進而減少能耗、降低環境污染。隨著車聯網技術的發展與應用,基于802.11p/1609系列協議的車載無線寬帶通信器件與系統的研究也得到了飛速的發展。符合802.11p協議標準的基帶與射頻芯片是車載無線寬帶通信系統的核心,其性能直接決定了車載無線寬帶通信系統的性能。FFT處理器是決定無線基帶芯片性能的核心電路,因此研究高精度、低功耗、小面積的高性能FFT處理器對于開發高性能的車載無線寬帶通信系統具有重要的意義。
快速傅里葉變換(FFT)是一種用于時域信號相位和頻率成份分析的數字信號處理技術,該算法通過對離散傅里葉變換(DFT)進行遞歸分解為基本變換使其應用具有了可行性[1]。FFT在數字通信、生物醫學信號處理、圖像處理、多媒體廣播、頻譜分析與測量等領域得到了廣泛的應用[2]。基于802.11p/1609系列協議的車載無線寬帶通信系統采用正交頻分復用(OFDM)技術,FFT處理器作為OFDM系統的核心功能電路而被用作調制器與解調器[3-10]。由于FFT處理器占用了OFDM基帶處理器的絕大部分面積與功耗,設計一個低功耗緊湊型的FFT處理器可以有效提高OFDM基帶處理器的性能。目前主流FFT處理器主要有基于存儲器結構的FFT處理器[11-13]、流水結構FFT處理器[14-16]、陣列結構FFT處理器[17]和基于高速緩沖存儲器結構的FFT處理器[18]。基于高速緩沖存儲器結構FFT處理器與基于存儲器結構FFT處理器的結構相似,只是在處理單元和存儲器之間增加了高速緩沖存儲器。由于高速緩存比主存儲器小,因此其讀寫速度比主存儲器快且每次訪問所需的功耗也比主存儲器低,在一定程度上提高了FFT處理器的性能。
本文通過分析FFT算法的特點,設計了一種用于802.11p的基于高速緩沖存儲器結構的低功耗緊湊型64點FFT處理器。隨著基數的提高,蝶形運算的控制和數據流的復雜度會迅速增加,并嚴重影響所實現FFT處理器的性能提高,故該FFT處理器采用基-4時間抽取(decimation-in-time)FFT算法。
IEEE 802.11p是在IEEE 802.11a協議的基礎上發展出來的無線標準,其物理層由數據擾碼器、數據解擾器、調制器、解調器、卷積編碼器、數據交織器、解交織器、Viterbi解碼器和64點FFT/IFFT處理器構成。為了保證高機動車輛的數據通信,IEEE 802.11p信號的帶寬由802.11a的20MHz降為10MHz、數據速率降為3~27Mbps、OFDM符號持續時間8μs、保護間隔1.6μs。表1為IEEE 802.11p物理層和IEEE 802.11a物理層的主要參數對比。

表1 IEEE 802.11p物理層和IEEE 802.11a物理層參數對比
按照IEEE 802.11p協議,一次FFT運算需要在8μs內完成,采用傳統的Cooley-Tukey基-2FFT算法計算64點FFT需要192個復數蝶形運算,每次蝶形運算需要在41.6ns內完成,而采用基-4FFT算法計算64點FFT需要48個蝶形運算,每次蝶形運算需要在166.7ns內完成,因此采用基-2FFT算法和基-4FFT算法時蝶形運算單元所需的時鐘頻率將分別為24MHz和6MHz。
DFT算法是分析有限長序列的理論分析工具,也是數字信號處理的最重要的算法之一,其在時域和頻域均為離散信號。N點DFT運算表示為:

式中,k=0,1,…,N?1;旋轉因子WN=e?j2π/N。N點離散傅里葉變換需要N2個復數乘法和N(N?1)復數加法,在N較大時DFT需要占用較大的面積與功耗。為了提高DFT的運算效率,利用旋轉因子WN的的對稱性、周期性和可約性,將N點輸入DFT運算分解為較短序列的DFT運算。FFT算法通過對離散傅里葉變換進行遞歸分解為基本運算單元。
設N=L×M,L和M為整數。式(1)中的n和k可以分別表示為:

式中,k0=0,1,…,L?1;k1=0,1,…,M?1。

式中,n0=0,1,…,M?1;n1=0,1,…,L?1。
式(1)的N點輸入DFT運算分解為長度為L點和M點較短序列的DFT運算,分解結果表示為:

通過將式(1)的N點輸入DFT運算分解為式(4)的長度為L點和M點較短序列DFT運算,可以將乘法運算次數和加法運算次數分別從N2和N(N?1)減少為N(M+L+1)和N(M+L?21),由此可見,通過對N點輸入DFT分解可以極大地減少所需的運算次數。Cooley-Tukey FFT算法的基數越高,所需要的運算量就越低[18],但當基數超過4時蝶形運算的控制和數據流的復雜度會迅速增加,從而嚴重影響了所實現FFT處理器的性能提高,這使得基-2FFT算法和基-4FFT算法成為最普遍應用的FFT算法。
2.1 基-2FFT算法
基-2FFT算法先將輸入序列x(n)按照n的奇偶分為兩組,然后通過變量置換,利用WN的周期特性,得到N點的蝶形運算公式為:


2.2 基-4FFT算法
基-4FFT算法可對序列長度N為4的整數次冪的序列進行運算,與基-2FFT算法的相似,基-4FFT算法通過短序列的DFT來表示長序列的DFT來減少運算次數。由式(4)可以推導4點FFT公式為:

式中,N=4×L;K=L×k0+k1;k0=0,1,2,3;k1=0,1,2,…,L?1,且L為整數。由式(6)可知首先對輸入信號矩陣的行進行L點DFT運算,將得到的L點DFT矩陣中的每一項都乘上旋轉因子,再對該矩陣按列做4點的DFT運算,就實現一個按行排序的基-4FFT運算結果矩陣,該N點基-4FFT算法的矩陣變換過程如下:

式(6)的L點DFT運算可以進一步分解為4點DFT運算和L/4點DFT運算,分解得到的L/4點運算又可以進一步分解為4點DFT運算和L/16點DFT運算,如此循環下去直到每個序列的長度為4為止。N點序列的基-4FFT處理器中的每個蝶形運算單元需要3次復數乘法和8次復數加法,因此N點序列的基-4FFT運算共需要(3Nlog2N)/8次復數乘法和Nlog2N次復數加法。復數乘法在FFT處理器硬件實現中占用了大量的面積與功耗,因此減少復數乘法運算成為提高FFT處理器性能的一個重要途徑。N點序列的基-4FFT算法需要的復數乘法比基-2FFT算法需要的復數乘法減少了25%,從而有效地提高了FFT處理器的性能。
符合802.11p協議標準的基帶芯片采用64點FFT處理器,根據前面的分析可知,該處理器可以采用三級基-4運算完成,且本文設計采用時間抽取(DIT)、倒序輸入、順序輸出的FFT處理器結構。FFT處理器的結構框圖如圖1所示,其主要由蝶形運算單元、旋轉因子ROM、順序調整模塊、控制模塊以及隨機訪問存儲器(RAM)構成。

圖1 FFT處理器的結構框圖
定點運算的電路結構簡單且運算速度較快,但是由于定點運算的小數點位置固定導致了定點運算的動態范圍小且容易產生溢出。浮點運算的動態范圍大、不易產生溢出,但是浮點運算運算速度慢、實現復雜且實現成本較高。塊浮點運算具有比定點運算更高的運算精度,比浮點運算更快的運算速度,且其實現復雜度與成本介于定點運算和浮點運算之間,因此本文FFT處理器采用塊浮點運算實現數據運算。
控制模塊用于生成蝶形運算單元所需旋轉因子ROM的地址和數據RAM的地址并控制各個單元的工作時序。FFT處理器存儲單元采用兩個并行的雙口RAM,在控制單元生成的控制信號放入控制下,數據流在兩個RAM之間無延遲地交替存入與讀出。在控制單元的控制下,FFT處理器開始接收數據并存儲到第一個RAM中,接收完一組數據后控制單元產生第一個RAM和旋轉因子ROM的讀取數據地址和讀使能信號同時向第二個RAM寫入數據,第一個RAM中的數據被讀出后被分成4路并行數據和從旋轉因子ROM中讀出的數據一起送到蝶形運算單元進行運算,蝶形運算的中間結果不斷寫回RAM,從而減少所需的硬件資源。


圖2 三頻率信號波形及其64點基-4FFT頻譜圖
FFT處理器是決定無線基帶芯片性能的核心電路,其性能直接決定了車載無線寬帶通信系統的性能。本文通過分析802.11p協議標準和FFT算法的特點,設計了一種用于802.11p的低功耗緊湊型64點FFT處理器。該FFT處理器采用采用塊浮點運算技術與單蝶形4路并行結構,在保證較低設計復雜度與成本的情況下極大地提高了FFT處理器數據運算精度與運算速度。仿真結果顯示,該FFT處理器具有較高的數據運算精度與運算速度,完全滿足車載無線寬帶通信系統的要求。
[1]DIONYSIOS R,NIKOLAOS V.Conflict-Free parallel memory accessing techniques for FFT architectures[J].IEEE Transactions on Circuits and Systems-I:Regular Papers,2008,55(11):3438-3447.
[2]CHIA H.Y,TSUNG H.Y,DEJAN M.Power and area minimization of reconfigurable FFT processors:a 3GPP-LTE example[J].IEEE Journal of Solid-State Circuits,2012,47(3):757-768.
[3]XIN X,ERDAL O,JAFAR S.An efficient fft engine with reduced addressing logic[J].IEEE Transactions on Circuits and Systems-II:Express Briefs,2008,55(11):1149-1153.
[4]LINKAI W,XIAO F Z,GERALD E,et al.Generic mixed-radix FFT PRUNING[J].IEEE Signal Processing Letters,2012,19(3):167-170.
[5]MANOHAR A,MICHAEL B, KESHAB K P.Pipelined parallel FFT architectures via folding transformation[J].IEEE Transactions on Very Large Scale Integration(VLSI)Systems,2012,20(6):1068-1081.
[6]SHIN Y L,CHIN L W,MING D S.Low-cost FFT processor for DVB-T2 applications[J].IEEE Transactions on Consumer Electronics,2010,56(4):2072-2079.
[7]CHAO M C,CHIEN C H,YUAN H H.An energy-efficient partial FFT processor for the OFDMA communication system[J].IEEE Transactions on Circuits and Systems-II:Express Briefs,2010,57(2):136-140.
[8]YUN N C.An efficient VLSI architecture for normal I/O order pipeline FFT design[J].IEEE Transactions on Circuits and Systems-II:Express Briefs,2008,55(12):1234-1238.
[9]SONG N.T,CHI H L,TSIN Y C.An area- and energy-efficient multimode FFT processor for WPAN/WLAN/WMAN systems[J].IEEE Journal of Solid-State Circuits,2012,47(6):1419-1435.
[10]MARK L,SANJAY R.A 0.13-μm 1-GS/s CMOS discrete-time FFT processor for ultra-Wideband OFDM wireless receivers[J].IEEE Transactions on Microwave Theory and Techniques,2011,59(6):1639-1650.
[11]LIN C T,YU Y C,FAN L D.A low-power 64-point FFT/IFFT design for IEEE 802.11a WLAN application[C]//IEEE International Conference Circuits System.[S.l.]:IEEE,2006.
[12]MAGAR S,SHEN S,LUI K G,et al.An application specific DSP chip set for 100 MHz data rates[C]//International Conference Acoustics,Speech,and Signal Processing.[S.l.]:[s.n.],1988.
[13]JO B G,SUNWOO M H.New continuous-flow mixed-radix(CFMR)FFT processor using novel in-place strategy[J].IEEE Transactions on Circuits and Systems-I:Regular Papers,2005,52(5):911-919.
[14]HE S,TORKELSON M.Designing pipeline FFT processor for OFDM(de)modulation[C]//International Symposium on Signals,Systems,and Electronics.[S.l.]:[s.n.],1998.
[15]LEE S,PARK S C.Modified SDF architecture for mixed DIF/DIT FFT[C]//International Conference on Communication Technology.[S.l.]:[s.n.],2006.
[16]HE S,TORKELSON M.Design and implementation of a 1 024-point pipeline FFT processor[C]//IEEE Custom Integrated Circuits Conference(CICC’98).[S.l.]:IEEE,1998.
[17]BRIEN J O,MATHER J,HOLLAND B.A 200 MIPS single-chip 1k FFT processor[C]//IEEE International Solid-State Circuits Conference,Digest of Technical Papers.[S.l.]:IEEE,1989.
[18]BAAS B M.A low-power high-performance 1 024-point FFT processor[J].IEEE Journal of Solid-State Circuits,1999,34(3):380-387.
編輯 稅 紅
Research on Energy-Efficient Compact FFT Processor for 802.11p
CAO Xiao-dong,SHI Yin,ZHANG Xue-lian,and ZHANG Qiang
(Institute of Semiconductors,Chinese Academy of Sciences Haidian Beijing 100083)
The 802.11p protocol standard baseband and RF chip are the core of the vehicle wireless broadband communication system,and their performances directly determine the performance of the vehicle wireless broadband communication system.Fast Fourier transform processor is the core circuit which determines the performance of wireless baseband chip.In this paper,a low power compact 64-point processor for 802.11p is designed through the analysis of the characteristics of FFT algorithm.The block floating-point operations and single butterfly parallel structure are used and greatly improves the operation accuracy and operation speed of the FFT processor.
802.11p;FFT;intelligent transportation;vehicle wireless communication system
TN14
A
10.3969/j.issn.1001-0548.2015.05.007
2014-04-22;
2015-06-09
國家重大科技專項(2009ZX01031-002-002)
曹曉東(1980-),男,博士,副研究員,主要從事SoC、數模混合集成電路方面的研究.