999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多核DNN處理器訪存指令數據寬度的混合策略

2022-04-29 17:48:55劉元旭張方正王永昶王寶生
計算機應用文摘 2022年18期

劉元旭 張方正 王永昶 王寶生

關鍵詞:DNN處理器;片上網絡;訪存指令;混合訪存數據寬度

1引言

近年來,DNN在計算機視覺、自然語言處理等領域得到了廣泛應用。DNN任務具有計算密集和訪存密集的特點,通用處理器在處理DNN任務時的性能較為不足。為了提升DNN任務的執行效率,涌現了一批DNN專用處理器,它們大多采用片上網絡架構,通過在片上設置大量并行計算單元來加速DNN任務。隨著芯片工藝的發展,DNN處理器的計算性能已得到很大提升,但訪存性能卻一直滯后于計算性能的發展,產生了“內存墻”問題[3]。“內存墻”正成為制約DNN處理器性能提升的一個關鍵問題。

已有的DNN處理器的訪存指令采用的訪存數據寬度的訪存效率較低。訪存數據寬度通常由處理器中的load—store類指令決定。在通用處理器領域特別是RISC架構下,由于其所面臨的任務具有不確定性,其load—store指令中數據寬度往往是固定的。然而,DNN任務的數據類型往往是可以預見的,為了加快訪存,有必要設計專用的load—store指令以及訪存數據寬度。本文提出了一種將定長/變長訪存數據寬度進行混合的策略,該策略保留了可變長訪存指令的靈活性,同時具有定長訪存指令的簡潔。實驗證明,本文提出的混合訪存數據寬度設計策略能夠提升DNN數據的訪存效率。

2相關工作

DNN任務具有訪存密集的特點,在對10種神經網絡進行指令統計中發現,訪存指令占比達38.00-/0。不同的平臺在DNN任務中使用的訪存指令各有不同。

通用CPU上通常使用SIMD方式的load-store指令來實現數據級并行[6]。但SIMD指令在訪存DNN不同規模數據時不具有靈活性:GPU[7]上對不同類型的內存采用不同的LD/ST指令,這是GPU訪存指令的一個特色:一些DNN處理器使用可變長度的向量/矩陣load-store指令來加快訪存,其load-store指令操作數寬度可以取在寄存器容量范圍內的任意值來適應DNN不同類型數據的變化。但其需要更多不同規格的乘加單元以及數據拆分/合并單元,增加了計算單元硬件實現的復雜度,且在訪問不同規模的數據時易造成片上傳輸資源的浪費。

綜合考慮,設計DNN處理器訪存指令既要考慮使用可變長的向量/矩陣訪存指令的靈活,也應該考慮硬件實現的復雜性。

3load-store指令數據寬度混合策略

DNN訓練中的數據按照其在網絡層中的作用分為四種,即輸入神經元數據、權重數據、偏置數據和輸出神經元數據。在數據規模上,權重數據在卷積層表現為規模較小的卷積核,在全連接層則表現為規模較大的全連接權重,后者對訪存性能的需求遠遠大于前者;在連續性上,卷積核具有小尺寸的局部性,可以使用匹配其尺寸的load-store指令將其一次傳輸,而全連接層的權重則具有大尺寸的連續性,使用具有盡可能大的訪存數據寬度來傳輸,可以減少訪存次數。因此,不同數據不宜采用具有同樣指令數據寬度的load-store類指令。本文分別針對DNN不同類型數據采用不同的訪存數據寬度混合策略。

3.1卷積層數據寬度混合策略

輸入數據/輸出數據:卷積層輸入/輸出特征圖的訪存數據寬度主要取決于特征圖的行寬度,若最大數據寬度值不能容納特征圖的一行數據,則采用最大數據寬度值:否則采用的上限值為卷積核的一行數據的最小數據寬度,見式(1)和式(2):

卷積核數據:卷積核數據也可看成是一種特征圖數據,其訪存數據寬度設計方法參照輸入/輸出數據。在常見的神經網絡中卷積核的行值一般為3/5/7/11且為奇數,因此在設定混合數據寬度時其對應的卷積核最大寬度上限值為64/128/256比特。

偏置數據:為了減少偏置數據訪存的訪存次數,計算單元每次訪存要根據計算任務映射讀取盡可能多的偏置數據,因此偏置數據的訪存數據寬度主要取決于片上網絡每個計算單元可映射的輸出特征圖的個數P,該值為該層輸出特征圖個數與片上網絡PE個數的比值并向上取整。偏置數據的混合訪存數據寬度設定見式(3):

3.2池化層數據寬度混合策略

由于池化層處于兩個卷積層之間,因此池化層的輸人數據采用其上一卷積層輸出數據所采用的訪存數據寬度值,輸出數據采用其下一卷積層輸人數據所采用的訪存數據寬度值。池化層無權重數據,因此不做設定。

3.3全連接層數據寬度混合策略

在全連接層應保證單個訪存指令可以訪問更多的數據。因此,本文統一采用混合數據寬度的最大數據寬度值作為全連接層的輸入/權重數據的訪存數據寬度:偏置數據量與輸出神經元數量相等,對其訪存數據寬度的設定采用式(3)。

4實驗

為驗證使用混合訪存數據寬度對訪存延時的降低效果,對LeNet5和AlexNet為實驗對象進行了片上網絡仿真實驗以及分析。實驗采用的DNN處理器片上網絡架構為典型的4x4拓撲結構(圖1),其中R表示路由節點,PE表示計算單元。

圖2和圖3展示了LeNet5和AlexNet采用混合訪存數據寬度比采用傳統定長訪存數據寬度的訪存延時降低率曲線,兩個網絡的訪存延時平均降低15.87%和11.9%,且最大數據寬度越大延時降低率越高。卷積層曲線中,LeNet5以128比特為界,超過128比特后,最大訪存數據寬度越大,采用混合訪存數據寬度的延時降低效果越明顯,這是因為LeNet5中卷積核的尺寸全部為5x5,根據提出的混合策略其訪存數據寬度的上限值為128比特:LeNet5池化層曲線可得與卷積層相似結論:在全連接曲線中,LeNet5在采用混合訪存數據寬度時較好的情況是在128、256、512比特,在32比特時訪存延時略微減少,在64比特時出現反效果。這是因為全連接場景中混合策略主要作用于偏置數據,在32比特和64比特時偏置主要是以16比特混合,兩種情形下16比特數據的占比分別為0. 1%、0.2%,占比較低不能有效減少整體數據訪存造成的延時。進一步可以看到,LeNet5和AlexNet全網絡的曲線與卷積、池化層曲線高度重合,與全連接層曲線差距較大。這說明本文提出的訪存指令數據寬度混合策略更有助于減少卷積場景和池化場景的片上傳輸延時,而對全連接場景的效果不明顯。5結束語

本文提出了一種DNN處理器訪存指令在訪存數據寬度上的混合策略。通過對混合訪存數據寬度設計與傳統的定長訪存數據寬度設計進行片上網絡仿真實驗,證明在LeNet5和AlexNet訓練任務中采用混合訪存數據寬度可以獲得更低的訪存延時,且更適用于對卷積場景進行訓練加速。對于目前的DNN而言,卷積層仍處于主要地位,甚至有些DNN除了最后的輸出層外已經不含全連接層,因此本文提出的混合策略對大多DNN任務都是有效的。

主站蜘蛛池模板: 成人一级免费视频| 国产专区综合另类日韩一区| 51国产偷自视频区视频手机观看| 欧美区一区| 久久免费看片| 亚洲人成网7777777国产| 四虎精品国产永久在线观看| 亚洲VA中文字幕| 日本午夜视频在线观看| 亚洲一区无码在线| 在线欧美日韩| 国产99久久亚洲综合精品西瓜tv| 国产成人高清精品免费软件| 久久精品嫩草研究院| 8090午夜无码专区| 国产杨幂丝袜av在线播放| 国产在线自乱拍播放| 国产成人精品男人的天堂下载 | 国产精品va免费视频| 国产鲁鲁视频在线观看| 在线另类稀缺国产呦| 熟妇丰满人妻| 日韩A级毛片一区二区三区| 91麻豆精品国产高清在线| 国产男女免费视频| 国产女人18水真多毛片18精品 | 女人爽到高潮免费视频大全| 亚洲全网成人资源在线观看| 国产成人无码AV在线播放动漫 | 最新精品国偷自产在线| 日本久久网站| 久草网视频在线| 国产日本欧美亚洲精品视| 爆乳熟妇一区二区三区| 亚洲香蕉伊综合在人在线| 在线免费观看a视频| 欧美精品1区2区| 男女性午夜福利网站| 丁香婷婷激情网| 欧美亚洲第一页| 国产成人综合网在线观看| 午夜色综合| 国产白浆一区二区三区视频在线| 国产精品漂亮美女在线观看| 91午夜福利在线观看| 亚洲aⅴ天堂| 欧美黑人欧美精品刺激| 欧美日韩久久综合| 国产精品一区不卡| 手机精品视频在线观看免费| 久久久久人妻一区精品色奶水| 亚洲中文字幕久久精品无码一区| 91精品国产一区| 高清无码手机在线观看| 72种姿势欧美久久久久大黄蕉| 香蕉伊思人视频| 亚洲成A人V欧美综合| 无码福利日韩神码福利片| 欧美国产成人在线| 欧美激情二区三区| 国产亚洲精品资源在线26u| 亚洲中文字幕在线一区播放| 欧美成人看片一区二区三区| 国产亚洲精品精品精品| 无码AV高清毛片中国一级毛片| 国产SUV精品一区二区| 免费Aⅴ片在线观看蜜芽Tⅴ | 香蕉精品在线| 精品人妻一区二区三区蜜桃AⅤ| 国产精品99一区不卡| 国产成人一二三| 女人一级毛片| 99re在线免费视频| 91亚洲精品第一| 亚洲国产中文在线二区三区免| 日本91视频| 日韩高清在线观看不卡一区二区| 国产精品刺激对白在线| 久草国产在线观看| 日韩AV手机在线观看蜜芽| 91成人在线观看| 青青操国产|