999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單邊通信協議的片上網絡傳輸接口設計*

2014-07-05 16:17:18劉傳波
艦船電子工程 2014年11期

劉傳波

(武漢藏龍北路1號 武漢 430205)

基于單邊通信協議的片上網絡傳輸接口設計*

劉傳波

(武漢藏龍北路1號 武漢 430205)

為了提升處理單元與片上網絡之間的數據交互能力,基于單邊通信協議設計了一款片上網絡傳輸接口。該接口通過直接存儲訪問實現了存儲器與網絡接口間的高效數據搬移,降低了數據包的發送和接收延時,同時減少了CPU的干預。16核片上多處理器環境下的實驗結果表明,對比CPU干預型的片上網絡傳輸接口,論文設計的網絡接口能有效提升片上多核處理器的并行計算性能。

片上網絡; 網絡接口; 單邊通信; 直接存儲訪問

Class Number TP302

1 引言

在多核處理器時代,隨著集成電路工藝技術的進一步發展,芯片集成度仍在不斷提高。為了向芯片內的多核甚至眾核處理器提供高效可擴展的通信互連手段,片上網絡(Network on-Chip,NoC)[1]技術已成為熱點問題被廣泛研究。路由器和網絡接口是片上網絡的重要組成:路由器通過數據鏈路相互連接組成特定的網絡,并按照一定的路由算法和交換策略實現數據包的轉發;網絡接口則負責處理單元與路由器之間的數據交互,根據通信協議完成數據包的打包和解包工作。路由器決定了片上網絡的通信能力,而網絡接口則決定了處理單元與片上網絡的交互能力。在實際應用中,網絡接口往往更加容易成為通信瓶頸而限制整個片上多處理器的性能,因此值得進一步對其開展優化設計。

目前,Radulescu[2]針對A thereal片上網絡設計了一款網絡接口,能為處理單元提供保證服務質量和盡力服務兩種QoS策略,且兼容AXI、OCP等事務級總線協議。Daneshtalab[3]以優化訪存帶寬為目標設計了一種自適應網絡接口,除了能提供QoS策略之外,還具有對數據包進行重排序的功能。此外,Saponara[4]設計了一款片上網絡接口,集成了QoS策略、數據包重排序、錯誤處理及功耗管理等功能,具有較好的通用性。

本文從減少處理器干預、提高數據搬移效率的角度出發,設計了一款片上網絡傳輸接口,通過定制網絡單邊通信協議和直接存儲訪問(DMA)手段對網絡接口的數據包傳輸能力進行了優化。實驗結果表明,對比不具備DMA傳輸功能的網絡接口,本文設計的網絡接口能有效提升片上多核處理器的并行計算性能。

2 片上網絡概述

片上網絡借鑒了大規模并行計算機的網絡互連結構,以數據包的形式進行處理器核間通信,圖1以3×3的mesh網絡為例示意了其基本結構,主要包括如下組件:

1) 處理單元(Process Element,PE):處理單元負責具體的計算及數據包的發起和接收,其中可包含處理器核(Core),協處理器(CP),存儲器(Mem)及I/O等資源;

2) 路由器(Router,R):路由器通過數據鏈路相互連接組成特定的網絡,并按照一定的路由算法和交換策略實現數據包的轉發;

3) 網絡接口(Network Interface,NI):網絡接口負責處理單元和路由器之間的數據交互,根據雙方的協議完成數據包的打包和解包工作;

4) 數據鏈路(Link):數據鏈路連接相鄰的路由器,是信號傳輸的載體。

圖1 片上網絡結構示意圖

當處理器間需要進行通信時,數據包首先通過源節點的網絡接口進入路由器的輸入隊列,路由器再根據數據包中的路由信息計算其輸出方向,并將其轉發到相鄰的路由器,然后重復該過程直到數據包到達其目的節點。最后,數據包被目的節點的網絡接口接收,經過解析之后,其數據被存放到處理單元的存儲器中供計算使用。

3 單邊通信協議

根據蟲孔(Wormhole)交換策略[5],一個數據包被劃分為若干個微片(flit),其中位于數據包最前端和最尾端的微片分別被稱為頭微片(head flit,HF)和尾微片(tail flit,TF),中間部分的微片則被稱為體微片(body flit,BF),這三種微片可進一步通過微片類型編碼進行區分。數據包的頭微片主要包含相關的路由信息,如源節點坐標(src_x和src_y)、目的節點坐標(dst_x和dst_y),以及數據包長度、冗余校驗碼等信息,尾微片和體微片則包含了具體待傳輸的數據。此外,在具有多個虛通道的片上網絡中,微片中還包含了其所屬的虛通道號(vcid),以使不同數據包的微片可以在數據鏈路上混合傳輸,從而提高數據鏈路的帶寬利用率。

圖2 數據包格式

為了減少處理器的干預、提高數據傳輸效率,本文對片上網絡采用單邊通信協議,其主要思想是在數據包中顯式地包含數據的目的地址。圖2示意了本文使用的數據包格式:一個數據包由至多16個微片組成,每個微片的數據負荷為32位;第一個微片為頭微片,包含了路由信息及數據包長度信息;第二個微片包含了一個32位的目的地址,該地址指定了后續數據在目的節點中應被存放的位置;后續微片則包含了具體傳輸的數據。這種將目的地址包含在數據包中的單邊通信方式使網絡接口能直接將接收到的數據存入存儲器,而無需處理器進行干預,因此有助于提升網絡接口的數據接收能力。

4 網絡接口設計

網絡接口(NI)負責數據包的發送和接收工作,是處理單元與片上網絡通信的接口。一方面,NI監聽從網絡到達該節點的微片,組裝成完整的數據包,然后通知DMA控制器根據接收到的目的地址將數據存放到存儲器中;另一方面,NI從處理器接收數據,將數據進行打包后傳入片上網絡。因此,NI的處理器端和網絡端需分別滿足嵌入式總線協議(本文采用AHB總線[6])和基于信用量(credit)的流控協議。

以具有兩個虛通道(分別用VC0和VC1表示)的片上網絡為例,圖3示意了本文設計的網絡接口結構,其中上半部為網絡接收部分,下半部為網絡發送部分。在網絡接收部分,每個虛通道都對應了一個接收隊列、數據包隊列、目的地址寄存器和DMA寫控制器(wDMA)。數據包的解析和接收是由接收控制狀態機和wDMA控制器協同實現的,圖4示意了兩者的狀態轉換關系與協同工作方式。一方面,接收控制狀態機對接收隊列中的微片進行解析,剝離vcid和微片類型等信息后,將有效數據存入數據包隊列;接收控制狀態機檢測到一個完整的數據包后,就通知相關的wDMA控制器直接將接收到的數據搬移到存儲器中。另一方面,DMA寫控制器(wDMA)接收到DMA傳輸請求之后,首先從數據包隊列中讀取出第一個微片,并將其記錄為后續數據的目的地址;然后,wDMA控制器向AHB仲裁器發送總線請求信號,申請對總線的所有權;接下來,wDMA控制器發起AHB總線傳輸操作,將數據包隊列中的數據按照先前記錄的目的地址連續地存入存儲器中;等到數據包隊列為空之后,接收控制狀態機和wDMA控制器均返回空閑狀態。

圖3 網絡接口結構

在網絡發送部分,處理器將待發送數據的起始地址(針對發送節點而言)和數據長度寫入相關的DMA讀控制器(rDMA)中,再由rDMA將數據從存儲器搬移到發送端的數據包隊列。發送控制狀態機再將數據包的目的地址(針對目的節點而言)與數據包隊列中的數據進行打包后傳入網絡。另外,由于VC0和VC1可能同時發送數據包,因此在發送控制狀態機中還進行了虛通道間的仲裁,仲裁的結果用于選擇相應的數據進入網絡。

圖4 接收控制狀態機及wDMA控制器狀態轉換圖

為了簡化接收控制狀態機對完整數據包的探測過程,規定網絡中數據包的長度不能大于NI中數據包隊列的深度,以使數據包隊列可以存放一個完整的數據包。在本文中,NI接收部分和發送部分的數據包隊列深度均被設置為16,因此網絡中的數據包最長不能超過16個微片。

5 驗證及性能分析

5.1 驗證及測試環境

為了對設計的片上網絡傳輸接口進行驗證及性能測試,本文將網絡接口集成到了一個4×4 mesh片上多處理器驗證環境中,圖5示意了該多處理器的結構:每個節點均為一個基于AHB總線的小型系統,其中包含了一個小型RISC處理器(μP)、私有SRAM存儲器、片上網絡路由器及網絡接口。

圖5 4×4 mesh片上多處理器驗證環境

為了對網絡接口的性能進行對比分析,本文選取了并行FFT計算[7~10]作為應用案例來對該16核系統進行性能測試。其中,測試組采用本文設計的網絡接口,數據在存儲器和網絡接口間的搬移采用DMA方式實現;而對比組采用非DMA操作的網絡接口,數據的搬移是以中斷的方式通知處理器μP干預實現。

5.2 案例測試

圖6給出了在16核系統中進行單精度浮點FFT計算的結果,其中橫軸表示輸入序列長度的對數,縱軸為計算過程所消耗的時鐘周期。從圖5可以看出,對比采用CPU干預型網絡接口的16核系統,采用DMA傳輸型網絡接口的16核系統具備了更高的并行計算性能。當FFT序列長度為1024時,本文設計的網絡接口使FFT計算耗時降低了20%左右,且隨著FFT序列長度的增加,DMA傳輸型網絡接口對16核系統并行計算性能的提升更加明顯。

圖6 16核片上多處理器環境下的FFT并行計算耗時

導致FFT計算性能提升的原因主要有兩點。1) 由于本文設計的網絡接口通過DMA方式實現數據負荷的搬移,而非通過CPU進行顯式的搬移,因此縮減了數據包的發送和接收延時,減低了處理器核間通信帶來的性能損耗; 2) 網絡接口采用的DMA傳輸方式減少了CPU對數據包的干預,使得CPU能更加專注地進行數據運算,因此應用程序的并行計算性能得到了提升。

6 結語

本文設計了一款片上網絡傳輸接口,實現了處理單元與片上網絡間的高效數據通信。通過定制單邊通信協議和直接存儲訪問,降低了數據包傳輸延時并減少了處理器的干預。16核片上多處理器環境下的并行FFT計算結果表明,對比CPU干預型的片上網絡傳輸接口,本文設計的網絡接口能將并行計算性能提升16%~20%。

[1] Dally W J, Towles B. Route packets, not wires: on-chip interconnection networks[C]//Proc.of Design Automation Conference. Las Vegas, USA: ACM Press,2001:684-689.

[2] Radulescu A, Dielissen J, Pestana S G, et al. An efficient on-chip NI offering guaranteed services, shared-memory abstraction, and flexible network configuration[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,2005,24(1):4-17.

[3] Daneshtalab M, Ebrahimi M, Lilieberg P, et al. Memory-efficient on-chip network with adaptive interfaces[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,2012,31(1):146-159.

[4] Saponara S, Bacchillone T, Petrle E, et al. Design of a NoC interface macrocell with hardware support of advanced networking functionalities[J]. IEEE Transactions on Computers,2014,63(3):609-621.

[5] Dally W J, Towles B P. Principles and practices of interconnection networks[M]. San Francisco, USA: Morgan Kaufmann,2004:237-244.

[6] AMBA Specification[EB/OL]. http://www.arm.com/.

[7] 張林波,遲學斌,莫則堯,等.并行計算導論[M].北京:清華大學出版社出版,2006:164-268.

[8] 朱曉靜.片上網絡的結構設計與性能分析[D].合肥:中國科學技術大學,2008.

[9] 付方發.基于片上網絡的MPSoC關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2012.

[10] 胡哲琨.面向片上多處理器的互連網絡路由技術研究[D].北京:中國科學院大學,2013.

A NoC Network Interface Based on One-Side-Communicating Protocol

LIU Chuanbo

(No.1 Canglong North Road, Wuhan 430205)

In order to improve the data exchanging capability between Process Elements(PE) and Network on-Chip(NoC), a NoC Network Interface(NI) is designed based on the one-side-communicating protocol. Through Direct Memory Accessing(DMA), an efficient data movement between NI and memory is achieved. Also, the packet sending and receiving latency is reduced and the CPU interference is cut down. Experimental results in a 16-core Chip Multi-Processor(CMP) environment show that, compared with a NI that needs the CPU to interfere, the designed NI can efficiently improve the parallel computation performance of CMPs.

network on-chip, network interface, one-side-communication, direct memory access

2014年5月10日,

2014年6月15日 作者簡介: 劉傳波,男,博士,研究方向:系統工程。

TP302

10.3969/j.issn1672-9730.2014.11.031

主站蜘蛛池模板: 免费欧美一级| jizz亚洲高清在线观看| 77777亚洲午夜久久多人| 在线观看网站国产| 欧美a在线| 91av成人日本不卡三区| 毛片三级在线观看| 女人一级毛片| …亚洲 欧洲 另类 春色| 黄色网在线| 99精品免费在线| 亚洲av日韩av制服丝袜| 男女男免费视频网站国产| 国产91蝌蚪窝| 99久久精品国产自免费| 亚洲欧美日韩中文字幕一区二区三区| 国产97公开成人免费视频| 国产成人毛片| 毛片基地视频| 国产熟睡乱子伦视频网站| 亚洲三级影院| 国产呦精品一区二区三区网站| 国产激情无码一区二区免费| 亚洲中文字幕精品| 91成人在线观看| 成人福利免费在线观看| 国产男女免费视频| 久一在线视频| 亚洲男人的天堂在线| 亚洲精品国产日韩无码AV永久免费网 | 免费在线视频a| 亚洲国产一区在线观看| 国内精品一区二区在线观看| 国产成人亚洲综合a∨婷婷| 青青极品在线| aaa国产一级毛片| 亚洲色图欧美一区| 操美女免费网站| 久久综合丝袜长腿丝袜| 亚洲无线一二三四区男男| 国内嫩模私拍精品视频| 欧美69视频在线| 国产亚洲高清视频| 天天综合天天综合| 91福利国产成人精品导航| 一区二区三区四区日韩| 亚洲国产精品久久久久秋霞影院| 999国内精品视频免费| 国产H片无码不卡在线视频| 91免费国产高清观看| 国产精品自拍露脸视频| 国产精品一区在线麻豆| 亚洲一区二区三区中文字幕5566| 找国产毛片看| 国产成人凹凸视频在线| 999福利激情视频| 91久久偷偷做嫩草影院| 97视频免费在线观看| 日韩麻豆小视频| 在线亚洲小视频| 青青青草国产| a在线亚洲男人的天堂试看| 亚洲av无码片一区二区三区| 久久99国产综合精品1| 久久精品视频一| 日本在线国产| 丁香婷婷综合激情| 日韩精品一区二区三区视频免费看| 色婷婷天天综合在线| 日韩午夜伦| 久久国产乱子| 亚洲无码视频图片| 91丝袜在线观看| 2020国产免费久久精品99| 久久久久久久久久国产精品| 国产欧美精品专区一区二区| 又黄又湿又爽的视频| 尤物特级无码毛片免费| 呦视频在线一区二区三区| 欧美一区二区福利视频| 国产精品综合久久久| 91小视频在线观看|