999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可重構陣列處理器光電混合互連原型系統實現

2020-04-13 17:36:20付怡雯吳皓月
光通信研究 2020年1期
關鍵詞:信號

付怡雯,蔣 林,山 蕊,吳皓月,樊 萌

(1.西安郵電大學 電子工程學院,西安 710121; 2.西安科技大學 集成電路實驗室,西安 710600)

0 引 言

近年來隨著高清視頻的發展,視頻算法數據量劇增,數據并行性高,應用場景復雜多變,迭代更新快,對實現平臺提出了更高的要求。專用硬件平臺靈活性較差,中央處理器(Central Processing Unit,CPU)設計和制造成本高,而可重構陣列處理器具有優異的計算效能和靈活性,成為實現視頻算法的主流平臺[1]。視頻算法數據處理量大、簇間數據交互頻繁,如何將這些處理元(Processor Element,PE)高效互連成為限制可重構視頻陣列處理器性能的主要瓶頸[2]。

傳統的互連方式中,電長線互連方式在無沖突時訪問周期短、設計簡單,但可擴展性差、延遲大;電的交叉互連方式在無沖突時訪問延遲小,具備一定的可擴展性,但互連線較多,當系統規模增大后,設計復雜度急劇增加[3];片上網絡(Network on Chip,NOC)是一種全新的互連通信架構,包括了mesh、torus和flattree等結構,可擴展性好,在局部通信情況下延遲較小,但在遠距離通信情況下延遲較大[4]。

結合電互連方式在局部通信中實現簡單和延遲小,以及光互連方式在遠距離通信中帶寬高、抗干擾能力強和延遲小的特點,進行了光電混合互連[5-6]。本文基于BEE4開發平臺設計實現了可重構視頻陣列處理器光電混合互連原型系統,并以標準測試序列akiyo_qcif_176×144.yuv為例進行測試。

1 可重構視頻陣列處理器光電混合互連

本文提出的可重構視頻陣列處理器光電混合互連系統結構由1 024個同構輕核處理元(Thin-Core Processor Elements,TCPE)陣列組成,每16個TCPE構成一個輕核處理元簇(Processor Element Group,PEG)。可重構視頻陣列處理器系統包括TCPE、數據/指令存儲器和虛通道路由器等模塊。TCPE主要由指令寄存器文件、數據/指令存儲器和算術邏輯運算單元等組成,采用load/store模式的精簡指令集計算機(Reduced Instruction Set Computer,RISC)結構實現。每個TCPE包含一個容量為30×512bit的指令存儲器和一個容量為16×512bit的數據存儲器。相鄰TCPE間通過鄰接短線將東、南、西、北4個方向的鄰接寄存器互連,完成數據通信。

圖1所示為由可重構視頻陣列處理器與高速交換單元、光電轉換器和光總線結構共同構成的可重構視頻陣列處理器光電混合互連系統。當系統復位完成后,首先通過電控制信號對光鏈路按照預期的鏈路結構進行配置;當處理元進行數據通信時,首先發送訪問請求信號,通過光電轉換器將該請求信號發送到光鏈路,經過光鏈路的交換,送往指定輸出端口。當數據返回時,沿相反的傳輸路徑進行傳輸[7]。

圖1 可重構視頻陣列處理器光電混合互連系統結構

2 可重構視頻陣列處理器光電混合互連原型系統

2.1 現場可編程門陣列原型系統總體結構

三維集成工藝為核間通信提供了新的解決方案,能縮短通信距離、降低通信延遲[8]。傳統電互連方式可通過硬件編程,在單片現場要編程門陣列(Field Programmable Gate Array,FPGA)上進行功能驗證,然而由于工藝水平的限制,集成光器件無法在FPGA芯片內部實現,且現有技術無法做到三維集成,因此采用片外光器件模擬片上光互連系統來達到原型驗證。

光電混合互連FPGA原型系統結構如圖2所示。簇內電通信采用單片FPGA進行系統驗證,而簇間光通信則通過兩片FPGA上的4通道小型可插拔+(Quad Small Form-factor Pluggable Plus,QSFP+)光模塊實現光纖互連,以達到簇間通信驗證的目的。

圖2 光電混合互連FPGA原型系統結構圖

2.2 Aurora IP配置

Aurora IP配置是實現簇間光通信的重要部分。Aurora IP是Xilinx公司開發的用于點對點串行通信的數據傳輸協議,在FPGA開發過程中,通過引腳綁定,將I/O口連接到QSFP+光口便可實現FPGA間的數據通信。Aurora IP鏈路結構如圖3所示。

為了對Aurora IP進行功能仿真,需要在測試文件中調用兩個Aurora IP核,分別用于兩側的用戶應用,用信號線將數據發送端和數據接收端互連,以模擬實際鏈路中的數據傳輸。測試方案如圖4所示。圖中,LANE_UP和CHANNEL_UP信號為鏈路狀態指示,當信號為高電平時,說明當前通信鏈路已經建立完成;RXP、RXN、TXP和TXN分別為數據的接收與發送信號,用于同另一側的用戶進行數據通信。

圖3 Aurora IP鏈路結構示意圖

圖4 Aurora IP測試方案框圖

2.3 片間光鏈路的設計

BEE4平臺共集成4片Xilinx V6系列FPGA芯片,現對其中兩片FPGA芯片進行通信,每個芯片配有兩路QSFP+光接口,支持40Gbit/s的傳輸速率。為了驗證通過Aurora IP核搭建的光鏈路的正確性,在BEE4平臺上接入QSFP+光模塊與Aurora IP核互連,形成光通信鏈路,在兩片FPGA上分別進行發送和接收邏輯的設計,進而驗證光通信鏈路數據傳輸的正確性。兩片FPGA之間光通信鏈路的設計方案如圖5所示。由于所使用的光纖在同一時刻只允許進行單向通信,雖然Aurora IP支持全雙工方式進行數據通信,但在用戶邏輯端需要避免對光纖鏈路發送與接收的爭用。

圖5 兩片FPGA之間光通信鏈路設計方案示意圖

用Verilog硬件描述語言對用戶發送和接收邏輯進行設計,FPGA A和B端的邏輯設計框圖分別如圖6和7所示。采用狀態機的方式連續發送4個數據,在 modelsim 10.1d環境下進行功能仿真,在Xilinx ISE14.7開發套件下選擇相應器件進行邏輯綜合。

在BEE4平臺上,將兩個QSFP+光模塊與對應光口連接,而后將BPS環境下生成的FPGA A和B端的配置流文件分別下載到相應FPGA上,通過Analyzer工具加載chipscope文件進行波形觀測,看接收到的數據是否與發送數據一致。

圖6 FPGA A端邏輯設計框圖

圖7 FPGA B端邏輯設計框圖

3 仿真驗證與原型系統實現

3.1 Aurora IP功能仿真

通過編寫測試和檢測文件得到的仿真波形如圖8所示。圖中,frame_gen1欄中產生待發送的數據,當CHANNEL_UP信號為高電平且TX_DST_RDY_N信號為低電平時,說明鏈路建立完成,且接收方已做好接收數據的準備,此時發送數據使能信號TX_SRC_RDY_N和發送起始位信號TX_SOF_N拉低,數據開始傳輸,當到達最后一位時,發送使能信號TX_SRC_RDY_N拉高,發送結束位信號TX_EOF_N 拉低,數據傳輸結束。在frame_check2欄中,接收數據使能信號RX_SRC_RDY_N拉低,接收起始位信號RX_SOF_N拉低,數據開始接收,當接收到最后一位時,接收數據使能信號RX_SRC_RDY_N拉高,接收結束位信號RX_EOF_N拉低,數據接收完成。圖中可以看到發送端數據信號TX_D與接收端數據信號RX_D相同,說明數據傳輸正確。(圖中所有信號的高電平都為1,低電平都為0)

圖8 Aurora IP仿真波形圖

3.2 片間光鏈路仿真

在對Xilinx Aurora IP進行了功能驗證后,選用BEE4板進行光通信鏈路的FPGA驗證。發送端用戶邏輯的仿真波形如圖9所示。從圖中可以看到,當tx_dst_rdy信號為高電平時,可以發送數據,之后發送端使能信號tx_src_rdy拉高,同時發送數據信號tx_data開始發送數據,連續4個時鐘周期后,發送端使能信號tx_src_rdy拉低,數據發送完成。

圖9 發送端用戶邏輯的仿真波形圖

在BEE4平臺上,將BPS環境下生成的FPGA A和B端的配置流文件分別下載到相應的FPGA上進行波形觀測,觀測到FPGA A和B端的波形分別如圖10和11所示。

圖10 FPGA A端觀測結果

圖11 FPGA B端觀測結果

在FPGA A端,當光模塊接入對應光口,且FPGA上完成電復位,Aurora IP核完成初始化后,數據發送準備信號tx_dst_rdy拉高,表示鏈路建立完成。在操作終端對FPGA A端進行復位后,數據發送使能信號tx_src_rdy拉高,發送數據信號tx_data有效,開始發送數據,此處發送一組數據111、222、333和444,發送完成后,數據發送使能信號tx_src_rdy拉低,發送數據信號tx_data無效。在FPGA B端同樣完成上電復位和Aurora IP核的初始化后,數據接收使能信號rx_src_rdy拉高,此時數據接收信號rx_data有效,當接收完成后,數據接收使能信號rx_src_rdy拉低,數據接收信號rx_data無效。由圖可見接收到的數據為111、222、333和444,與發送端發送的數據一致,驗證結果正確。

3.3 測試用例下的片間光鏈路實現

課題研究組在前期對高效視頻編碼(High Efficient Video Coding,HEVC)做并行化映射的過程中,進行了不斷探索與改進,在BEE4平臺的兩片FPGA芯片上,實現了HEVC編碼過程。為了使片間通信延遲較小,同時驗證簇間光鏈路的正確性,將片間的電通信以光通信的方式進行替代,圖12所示為簇間光鏈路FPGA驗證方案示意圖。圖中,DIM為數據輸入存儲器,用于存放原始圖像的視頻序列;DOM為視頻序列處理結果的存儲器,用于存放處理后的像素值。在兩片FPGA之間,通過接入QSFP+光模塊構建片間光通信鏈路。

圖12 簇間光鏈路FPGA驗證方案示意圖

驗證方案中幀內環路使用96個處理元(6個PEG)來完成編碼塊大小為8×8的包括幀內預測、量化變換、反量化反變換和去塊濾波在內的幀內環路算法的處理。幀間環路使用112個處理元(7個PEG)來完成8×8的包括整數運動估計、分數運動估計、運動補償、量化變換、反量化反變換和去塊濾波在內的幀間環路算法的處理。以分辨率176×144的標準測試序列akiyo_qcif_176×144.yuv為例進行測試,幾個關鍵算法間的數據交互仿真波形如圖13~18所示。

圖13 DIM和幀內預測數據交互仿真波形

圖14 幀內預測和圖像重建數據交互仿真波形

圖15 幀內環路圖像重建和去塊濾波數據交互仿真波形

圖16 整數運動估計和分數運動估計數據交互仿真波形

圖17 運動補償和量化變換數據交互仿真波形

在PEG10中處理的是幀內預測算法,DIM和幀內預測數據交互仿真波形如圖13所示。圓圈處表示從DIM中取出的數據放在PEG10的PE00以1號地址為起始的地址中。圖13中1000表示PEG10中的PE00,圖14中0133表示PEG01中的PE33,下文同理。

幀內預測和圖像重建數據交互仿真波形如圖14所示,圓圈中的數表示PE1033給PE0133通過路由的方式傳數。數據傳過來后存儲在PE0133以100號地址為起始的地址中。

幀內環路的圖像重建和去塊濾波數據交互仿真波形如圖15所示。圓圈表示PE0130通過鄰接互連方式給PE0033傳數。由于數據是從右向左傳輸,所以當 PE0130的 wo_exu_wr=1,no_exu_data=34時,表示將數據34傳出去;當PE0033的ei_w_r=1、ei_data=-94時,表示PE0033收到數據34。

圖18 幀間環路圖像重建和去塊濾波數據交互仿真波形

整數運動估計和分數運動估計數據交互仿真波形如圖16所示。圓圈表示PE1200接收到PE0230給傳的兩個1,由于數據是從上向下傳輸,所以PE1200的ni_w_r=1、ni_data=1。

運動補償和量化變換的數據交互仿真波形如圖17所示。圓圈表示PE0403通過鄰接互連的方式給PE0500傳數。由于數據是從左向右傳輸,所以當PE0403的eo_exu_wr=1、eo_exu_data=-72時,表示將數據-72傳出去;當PE0500的wi_w_r=1、wi_data=-72時,表示PE0500收到數據-72。一次數據交互完成,一共進行64次。

幀間環路圖像重建和去塊濾波的數據交互仿真波形如圖18所示。圓圈表示PE1530通過鄰接互連的方式給PE1433傳數。由于數據是從右向左傳輸,所以當 PE1530的 wo_exu_wr=1、wo_exu_data=33時,表示將數據33傳出去;當PE1433的ei_w_r=1、ei_data=33時,表示PE0500收到數據33。一次數據交互完成,一共進行64次。

測試結果表明,以光鏈路替代片間電通信能夠正確完成HEVC編碼過程。

3.4 FPGA綜合結果及性能分析

在Xilinx V6系列芯片上通過Xilinx ISE對設計進行綜合,綜合結果如表1所示。寄存器占用90 658個,利用率為13%;查找表(Look-Up-Table,LUT)占用215 783個,利用率為62%;綜合頻率為51.327MHz。

表1 綜合結果

運動補償算法在可重構視頻陣列結構中并行實現的性能如表2所示。本算法可以實現塊大小的切換,靈活性較高。當處理一個8×8的塊大小時,串行執行運動補償算法需要2.196s,而并行執行只需要0.257s,加速比達到8.53。

表2 運動補償算法性能

一些文章實現了HEVC中一兩個重要算法,但本文最后的測試用例下片間光鏈路實現了包括運動補償、去塊濾波、幀內預測、整數運動估計和分數運動估計等多個算法,其復雜性更高。測試用例下電互連與光互連時間比較如表3所示,因光互連的Aurora IP配置需要較長時間,所以整體測試時間較長,但其板間傳輸時間僅為電互連的一半。FPGA綜合頻率比較如表4所示,雖然本文頻率優勢不是很明顯,但光通信帶寬高和損耗小的優勢與傳統的電互連相比,在大規模電路遠距離傳輸和光通信領域發展空間巨大。

表3 時間比較

表4 FPGA綜合頻率比較

4 結束語

本文提出了一種光電混合互連結構,并將其應用在視頻陣列處理器架構中。以Xilinx Aurora IP為基礎,在BEE4平臺上搭建了可重構視頻陣列處理器光電混合互連原型系統。為了驗證原型系統的正確性,通過典型算法HEVC進行測試,實驗結果表明,以光鏈路替代片間電通信能夠正確實現,且板間傳輸時間僅為電互連的一半。也為光電混合互連提出一種仿真驗證方案。

由于光具有帶寬高和延時小的優勢,未來在多簇間和遠距離通信中應用廣泛。后期將對片間光鏈路進行改進,并采取多數據發送,其性能將會有大幅度提高。

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 成年人福利视频| 日日噜噜夜夜狠狠视频| 亚洲毛片网站| 国产精品永久在线| 色悠久久综合| 中文字幕av一区二区三区欲色| 日韩成人免费网站| 中文字幕在线永久在线视频2020| 老司机精品久久| 乱人伦视频中文字幕在线| 爆乳熟妇一区二区三区| 亚洲成人77777| 色欲色欲久久综合网| 中日韩一区二区三区中文免费视频| 天堂在线视频精品| 国产精品网曝门免费视频| 国产男人天堂| 国产福利免费视频| 国产 日韩 欧美 第二页| 成人在线观看不卡| 国产乱人伦精品一区二区| 在线播放91| 国产在线拍偷自揄拍精品| 国产欧美日韩免费| 色综合日本| 在线观看免费AV网| 国产丰满大乳无码免费播放| 欧美激情第一区| 中文字幕2区| 亚洲国产欧美国产综合久久| 99精品热视频这里只有精品7| 中文字幕人妻av一区二区| av色爱 天堂网| 中文字幕第4页| 五月天天天色| 97久久精品人人| 玖玖精品在线| 国产AV毛片| 操国产美女| 2019年国产精品自拍不卡| 国产v欧美v日韩v综合精品| 久久午夜影院| 久久国产高潮流白浆免费观看| 国产在线自乱拍播放| 亚洲国产综合第一精品小说| 99精品视频九九精品| 亚洲色图欧美视频| 国产超碰一区二区三区| 亚洲自拍另类| 国产高清不卡视频| 欧美国产成人在线| 中文无码精品A∨在线观看不卡| 国产性爱网站| 99视频国产精品| a级毛片网| 激情网址在线观看| 在线观看免费人成视频色快速| 国产免费羞羞视频| 亚洲美女高潮久久久久久久| 欧日韩在线不卡视频| 日韩二区三区无| 精品免费在线视频| 国产黄在线观看| 国产办公室秘书无码精品| 蜜桃视频一区| 中国国产一级毛片| 国产a v无码专区亚洲av| 18禁黄无遮挡网站| 午夜国产精品视频黄| 伊人久久精品无码麻豆精品 | 在线精品亚洲一区二区古装| 成人在线欧美| 国产精品原创不卡在线| 国产精品毛片在线直播完整版| 亚洲高清国产拍精品26u| 日本a∨在线观看| 777午夜精品电影免费看| www.av男人.com| 丁香五月激情图片| 一本色道久久88| 91无码视频在线观看| 久久综合成人|