999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

以雙字線雙閾值4T SRAM 為基礎的存內計算設計

2021-11-17 08:25:00藺智挺鈕建超吳秀龍彭春雨
計算機與生活 2021年11期

藺智挺,鈕建超,吳秀龍,彭春雨

安徽大學 電子信息工程學院,合肥230601

在大數據時代來臨之際,馮·諾依曼體系中的存算分離架構帶入的“存儲墻”成為提高系統性能的最大障礙。學者們提出了一種存儲與運算相結合的架構——存算一體即存儲單元,不僅可以實現數據的存儲與讀取,而且存儲數據無需輸出到外圍電路,在讀取數據的同時即可完成運算。存算一體架構已廣泛地應用到機器學習、人工智能等領域中[1-2]。存內計算架構的提出不僅極大提升了數據運算的效率,而且有效降低了存儲系統的能耗,提高了存儲系統的吞吐量[3]。但是由于芯片面積的限制,片上系統能夠集成存儲單元的數量受到嚴重限制。為了實現大容量、低成本的存儲器設計[4],人們對傳統靜態隨機存儲器(static random access memory,SRAM)進行了優化,設計了一種由4管組成的單字線雙閾值4T存儲結構[5]。本文設計電路對傳統單字線雙閾值4T 存儲單元進行了優化改進,提出了一種雙字線雙閾值4T 存儲結構,相較于傳統6T 存儲單元的優勢為:存儲單元存儲面積減少近25%[6],在大規模集成電路應用中雙字線4T存儲單元讀功耗比單字線4T 存儲結構減少了47%,同時由于雙字線存儲單元實現了字線分離,不僅可以單端實現一些基本邏輯運算,還能完成二元數據搜索(binary content addressable memory,BCAM)運算,極大地豐富了4T 存儲結構的運算功能。

1 雙字線雙閾值4T SRAM 存儲系統設計

1.1 雙字線雙閾值4T 存儲單元

本文提出一種雙字線雙閾值4T SRAM 存儲結構,如圖1(b)所示,M1、M2為高閾值(high threshold value,HVT)上 拉PMOS 管,M3、M4為低閾值(low threshold value,LVT)傳輸NMOS 管[7]。bl、blb 為位線控制信號,wl、wr 為字線控制信號,Vdd為電源電壓,Vwl、Vwr為字線電壓。

1.2 存內計算系統結構

基于雙字線雙閾值4T 存儲單元的存儲系統由存儲陣列與外圍電路共同構成。如圖1(a)所示,存儲系統主要包括存儲陣列、行譯碼電路、列譯碼電路、預充電路和由靈敏放大器(sense amplifier,SA)組成的輸出電路[8]。其中存儲陣列由雙字線雙閾值4T 存儲單元構成。由圖1(b)可知,sw(switch)為列譯碼電路產生的列選控制信號,高電平有效。位線bl、blb 電壓由預充電路提供,字線控制信號wl、wr 由行譯碼電路生成。其中D 區域代表由兩個上拉PMOS 管組成的負載模塊。本文所提設計電路不僅可實現傳統SRAM 的讀、寫、保持操作,還可以實現多種邏輯運算。因此存儲系統包含兩種運算模式:(1)SRAM 模式,主要執行數據的保持、存儲與讀取操作;(2)CIM模式,通過對多行存儲單元進行“讀”操作,無需將數據輸出到外圍電路即可實現BCAM 運算和與、或非、異或等邏輯運算。

2 系統模式介紹

2.1 SRAM 模式

SRAM 模式主要執行數據的保持、存儲和讀取操作。下面具體介紹各操作詳細過程。

(1)數據保持操作

本文提出的雙字線4T 結構比傳統的6T 結構少兩個NMOS驅動管,因此4T存儲結構存儲數據的穩定性弱于6T 存儲結構,稱4T 存儲結構為亞穩態結構[9]。由圖2(a)可知,上拉管M1、M2分別處于關斷和導通狀態,傳輸管M3、M4均處于關斷狀態。由于MOS 管存在亞閾值導電效應,當VGS小于閾值電壓VTH時,一個“弱”的反型層仍然存在,并存在源漏電流ID且與VGS呈現指數關系,如式(1)所示:

式中,ξ>1,是一個非理想因子,Vt=KT/q,此時MOS 管工作在弱反型區。雖然亞閾值電流只有納安到微安量級,但在大規模集成電路應用中,即使所有器件都處于關斷狀態,由亞閾值電流構成的整個芯片的關態電流也相當大,可能達到數個安培,產生無用功耗[10],為了減小亞閾值電流的影響,需要對亞閾值電流隨VGS的變化關系進行研究。亞閾值導電效應的前提條件是VGS

(2)數據讀取操作

由圖2(b)可知,上拉管M2,傳輸管M4處于導通狀態。上拉管M2的漏-源電壓VDS1約為0,M2的過驅動電壓VGS1-VTH1為-VDD-VTH1,滿足式(2),即上拉管M2處于深三極管區。傳輸管M4的漏-源電壓VDS2約為VDD,M4的過驅動電壓VGS2-VTH2為VDD-VTH2,滿足式(3),即傳輸管M4處于飽和區。因此導通電流I1、I2滿足式(4)、式(5)。根據基爾霍夫電流定律可知,I1與I2的絕對值相等,由式(4)、式(5)可得到MOS 管M4的漏極電壓VD如式(6)所示。

Fig.2 SRAM memory unit improved circuit structure diagram圖2 SRAM 存儲單元改進電路結構圖

由于M2為高閾值,M4為低閾值,空穴的遷移率是電子的1/2 到1/4。即由式(6)可知,M4的漏極電壓小于電源電壓,存儲節點穩定性降低。為了增強存儲單元讀數據穩定性,本文所提電路改進如下:①采用單端讀模式,單端讀取數據“0”時,位線blb 未預放電至低電平,M4的過驅動電壓降低,漏極電壓VD隨之升高。②減小字線電壓,字線電壓降低導致M4的過驅動電壓減小,使得MOS管M4的漏極電壓VD升高。綜上所述,雙字線雙閾值4T 存儲結構在讀數據時,字線wl、wr 置低電平,位線bl 預放電至低電平,字線wl 置高電平(字線電壓低于電源電壓),通過位線端靈敏放大器與參考電壓VREF比較后輸出存儲數據,實現讀數據操作。

(3)數據寫操作

4T SRAM 存儲結構相較于傳統6T 存儲結構減少了兩個NMOS 下拉管,導致存儲“0”節點易于翻轉,故寫入操作相較于6T SRAM 存儲結構更容易實現。假設存儲數據如圖2(c)所示,存儲數據為“1”,寫入數據“1”時位線bl 為高電平與存儲數據相同,存儲數據不變,完成寫“1”操作。寫入數據為“0”時,位線bl、blb 分別為低電平和高電平,存儲“1”節點通過傳輸管M3向位線bl 充電,存儲節點Q 電壓下降。位線blb 通過傳輸管M4向存儲“0”節點充電,存儲節點QB 電壓升高。由于傳輸管為低閾值,上拉管為高閾值,故存儲“1”節點電壓下降速度大于存儲“0”節點電壓上升速度,當存儲節點Q 電壓下降到M2的開啟電壓時,M2導通。存儲“0”節點與上拉電壓連接變為存儲“1”節點,存儲“1”節點充電完成變為存儲“0”節點,實現數據“0”的寫入操作(存儲數據相反時,過程類似)。

2.2 CIM 運算模式

2.2.1 或非、與、異或等邏輯運算

存內計算(CIM)技術是提高計算機性能的關鍵技術之一。改進后的4T 結構具備存內計算功能,在追求大容量、多功能存儲器設計的大時代背景下,具有重要的實用價值。如圖3(a)為執行邏輯運算時的電路結構圖,存儲系統進行邏輯運算時調用的電路主要包括行譯碼電路、存儲陣列、預充電路和輸出電路(由靈敏放大器和門電路組成)且第n列輸出結果為ml_n。位線bl、blb 預放電至低電平,輸入信號通過行譯碼電路任意選擇兩行數據。如圖3(b)所示,假設所選行儲單元左存儲節點存儲數據分別為a和b。進行邏輯運算時,當存儲數據存在“1”時,左存儲節點向位線bl 充電,反之右存儲節點向位線blb 充電。位線電壓增量為ΔV[12],邏輯運算時,位線電壓值如式(7)、式(8)所示。為了能夠正確輸出運算結果,需要通過理論分析與實驗對比,選擇一個合適的參考電壓VREF(參考電壓小于ΔV大于保持狀態下位線電壓值)。然后通過靈敏放大器輸出邏輯運算在位線上的運算結果,如式(9)、式(10)所示[13]。由函數關系式可知,在位線bl 上實現數據的或非運算,位線blb上實現數據的與運算,對存儲單元進行操作無需將數據輸出到外圍運算電路便可實現基本邏輯運算。由于存儲單元是雙字線存儲結構,可通過單端操作的方式實現基本邏輯運算。通過譯碼電路選擇要參與運算的存儲單元,所選存儲單元字線wl 置高電平,wr 置低電平,通過SA 檢測位線bl 電壓變化可輸出或非運算結果。實現與運算過程和或非運算類似,字線wl、wr 與之設置相反。SA 輸出端接反向器,可實現相反邏輯運算。字線wl、wr 均置高電平,將兩位線端SA 輸出結果通過或非門輸出后即可獲得所選數據的異或運算結果,如式(11)所示。

2.2.2 BCAM 運算

Fig.3 Logic operation circuit structure diagram圖3 邏輯運算電路結構圖

為了更高效地使用有限的存儲容量,學者們提出了一種內容可尋址存儲技術(content addressable memory,CAM),該技術可以對存儲數據進行匹配篩選,從而提升了存儲效率[14]。本文通過對單字線4T 結構進行改進,使其具有BCAM 運算功能。輸入一個數據信號通過譯碼電路后,轉換為兩個相反的電平信號,分別控制存儲單元兩個傳輸管的開斷,然后通過靈敏放大器輸出運算結果,即可實現BCAM 運算[15]。存儲系統在執行BCAM 運算時調用的電路包括行譯碼電路、預充電路、存儲陣列和輸出電路。圖4 為4×4存儲陣列執行BCAM 運算示意圖。BCAM 運算時,位線bl、blb 預放電至低電平,輸入數據通過譯碼電路實現對相應傳輸管的開斷控制,通過靈敏放大器輸出運算結果。輸出結果為“1”時代表匹配,反之不匹配。輸入數據為“1”時,字線wr、wl 分別為高電平和低電平,輸入數據為“0”時相反設置。輸入數據與存儲數據不同時,存儲節點向位線充電,否則不向位線充電。位線電壓大于參考電壓VREF時,靈敏放大器輸出結果為“1”,否則輸出結果為“0”。兩位線端靈敏放大器的輸出結果通過或非門輸出后即可得到BCAM運算結果。由圖4 可知,輸入數據與前3 列存儲數據不同,均存在存儲單元的存儲節點向位線充電,通過輸出電路得到輸出結果均為“0”。輸入數據與第4 列存儲數據相同,不存在存儲節點向位線充電,兩位線電壓均小于參考電壓,通過輸出電路得到輸出結果為“1”即實現數據匹配。

3 性能分析與功能仿真

3.1 存儲單元性能分析

對存儲單元的各性能進行分析,是衡量存儲結構優劣的重要步驟之一。它不僅有利于直觀展現存儲結構的優缺點,更有利于設計者進行改進與優化。由于在不同仿真環境下所得到的數據可能不同,需要對具體仿真環境進行設置,本文所提電路的具體仿真環境如表1 所示。

設計存儲單元時需要在單元面積和功耗等性能之間進行綜合考慮,折中取舍。本文在表1 仿真環境下分別對雙字線雙閾值4T 存儲單元與傳統6T 存儲單元和單字線雙閾值4T 存儲單元各性能進行仿真分析,實驗結果如表2 所示。

Table 1 Simulation environment表1 仿真環境

為了保證實驗數據的可靠性,下面具體介紹各性能仿真、性能分析的詳細過程。

3.1.1 存儲單元面積分析

在追求大容量、低成本存儲器設計的大背景下,存儲單元的存儲面積成為存儲器設計時要考慮的重要因素之一。本文所設計的雙字線雙閾值4T SRAM存儲單元相較于傳統6T SRAM 存儲單元最大的特征為減少了兩個驅動NMOS 管,實現了存儲面積的大幅度減小。圖5 給出了6T SRAM 存儲單元與4T SRAM 存儲單元的版圖對比圖。由圖5 可知6T 與4T存儲單元版圖面積分別為(Pmetal表示版圖單元尺寸單位),即4T 存儲單元存儲面積相較于6T 存儲單元減少了25%。

3.1.2 讀數據功耗分析

本文提出的雙字線雙閾值4T SRAM 存儲結構采用單端讀模式相較于傳統單字線雙閾值4T 結構的雙端讀模式,不僅可以增強讀數據時存儲節點的穩定性,而且在大規模集成電路應用中還可以大幅度減小讀功耗。如圖6 為雙字線雙閾值4T 存儲單元與單字線雙閾值4T 存儲單讀功耗對比圖。橫坐標為讀取數據的位數,縱坐標為讀數據時產生的功耗,其單位為FJ。讀取數據位數為32 位和32 位以上時雙字線結構比傳統單字線結構讀功耗可減少47%左右。其中藍色柱狀圖為單端讀功耗與雙端讀功耗比值示意圖,讀取一位數據時單端讀功耗與雙端讀功耗比值接近1,讀取數據位數為32 位和32 位以上時雙端讀功耗與單端讀功耗比值約為0.53。

Table 2 Performance comparison of single/double word line and double threshold 4T storage unit表2 單/雙字線雙閾值4T 存儲單元性能對比

Fig.5 Map comparison of storage units圖5 存儲單元版圖對比

Fig.6 4T single-and double-end read power圖6 4T 單/雙端讀功耗

3.2 功能仿真

對以雙字線雙閾值4T 存儲單元為基礎的存儲陣列進行功能仿真,有利于更加全面地展示雙字線4T存儲結構的特性與運算能力。下面詳細介紹以雙字線4T 存儲結構為基礎進行功能仿真的具體過程。

3.2.1 參考電壓的分析與選擇

正確讀取由雙字線雙閾值4T 存儲單元構成的存儲系統所存儲的數據是其SRAM 模式和CIM 模式得以實現的關鍵,因此對參考電壓的選擇尤為重要。在CIM 模式下做BCAM 運算時,位線電壓的變化最為多樣,因此通過分析大陣列BCAM 運算時不同匹配情況下位線電壓的變化情況,找到其最小電壓,即可確定參考電壓大小。本文在以雙字線雙閾值4T 存儲單元為基礎構成的大小為128×128 bit 的存儲陣列下,仿真時長1 ns 時,測試不同失配情況下位線bl、blb 的電壓變化情況。實驗結果如圖7 所示,其中1 位失配時,存儲陣列存儲1 個“1”和127 個“0”且失配對象為“1”。此時與存儲數據“1”不匹配,存儲節點向位線bl 充電。127 個“0”全匹配,存在位線bl 向左存儲節點充電的情況,此時位線bl 的電壓值是CIM 模式和SRAM 模式下位線電壓變化最小值。為了能夠正確讀出升高的位線電壓并確保電壓不變的位線端SA 不會輸出錯誤的結果,因此參考電壓要小于位線變化最小電壓且大于全匹配時位線電壓,即參考電壓要小于115.807 2 mV 且大于0.412 96 mV。SA 正確輸出的前提條件是輸入端電壓具有一定的電壓差且電壓差越大越有利于正確讀出數據。在綜合考慮上述條件的同時為了確保輸出的準確性,本文參考電壓VREF大小設置為1/2×ΔVmin,即為50 mV。

Fig.7 Voltage values of bit line with different mismatch digits圖7 不同失配位數下位線電壓值

3.2.2 數據的保持、讀、寫操作

由前文論述可知,保證雙字線雙閾值4T 存儲單元的存儲數據在各運算模式下不發生翻轉是整個設計的核心問題之一。字線電壓是影響存儲數據穩定性的重要因素,在不同字線電壓下,對存儲節點的穩定性進行研究并找出合適的字線電壓是本文設計得以完成的關鍵步驟之一。在單端讀模式下,本文重點研究存儲數據為“1”時,存儲節點隨字線電壓變化時的穩定情況。隨著字線電壓的變化,讀數據時位線電壓的上升速度也會受到影響。因此不僅要保證存儲數據的穩定性,還要保證存儲數據能夠被正確讀出。如圖8 所示,存儲“1”節點跳變時最低點電壓隨著字線電壓的升高而減小,變化幅度則相反。字線電壓為868 mV 時存儲節點發生翻轉,字線電壓為821 mV 時位線電壓達到最大值,分別為360.129 mV和279.395 mV。綜上所述,要保證存儲節點穩定且存儲數據可被正確讀出,字線電壓不能大于868 mV,控制在600 mV 到821 mV 范圍內為最優,字線電壓為高電壓/低電壓時,控制讀取時間為500 ps/1 ns 為最佳。

Fig.8 Voltage variation diagram of storage node/bit line圖8 存儲節點/位線電壓變化圖

如前文所述,字線電壓越低越有利于保證存儲數據的穩定。故本文所提設計電路在字線電壓為600 mV,讀數據時長為1 ns 的前提下進行時序仿真。圖9 給出了以雙字線雙閾值4T 存儲單元為基礎構成的存儲系統在SRAM 運算模式下的時序仿真圖。由仿真圖可知,讀數據時存儲節點會發生小幅度跳變,但不影響存儲節點穩定。位線電壓持續升高,在讀數據時長為1 ns 時位線電壓遠超過50 mV,可被靈敏放大器正確讀出。存儲結構不足之處為讀“1”時存儲節點仍有一定幅度的跳變,對字線電壓變化敏感。位線電壓上升幅度有限,位線電壓變化的線性度不理想等限制了該結構在漢明距離計算等運算方面的應用。

Fig.9 Timing simulation圖9 時序仿真

3.2.3 異或、與、或非邏輯運算

在對雙字線雙閾值4T 存儲單元的穩定性進行研究并解決相關問題后,以存儲數據為“1011”“1100”時雙字線4T 存儲系統執行邏輯運算為例。圖10 給出4列位線電壓變化波形圖,虛線與實線分別代表位線bl、blb 的電壓變化,參考電壓為50 mV。位線電壓小于50 mV 時靈敏放大器輸出“1”,反之輸出為“0”。由圖10 可知,執行異或運算時,第1 列位線端靈敏放大器輸出結果經或非門輸出后得到運算結果為“0”,第2~4 列變化趨勢一致,輸出結果均為“1”,即兩個4位二進制數異或運算結果為0111。執行與、或非運算時,4 列位線bl 端靈敏放大器輸出或非運算結果為0000,blb 端靈敏放大器輸出與運算結果為1000。

3.2.4 BCAM 運算

BCAM 運算時位線電壓的升高勢必會影響存儲節點的穩定。在大規模集成電路應用中,多行電路同時操作對存儲節點的穩定性造成很大的影響,尤其是存儲“0”節點。因此設計大陣列BCAM 運算,研究多行存儲數據向位線充電且僅有一個存儲“0”節點匹配時,存儲“0”節點的穩定情況,是檢驗以雙字線雙閾值4T SRAM 存儲單元為基礎構成的存儲陣列能否實現BCAM 運算的必要步驟之一[16]。本文以大小為128×128 bit 的雙字線4T 存儲陣列實現BCAM運算為例進行分析。預設存儲數據為“111……10”(127 個1),輸入數據全為“0”(128 個0)。圖11 給出BCAM 運算完成后,位線bl 電壓約為400 mV。存儲數據為“0”的左存儲節點電壓升高到0.4 V 左右,但遠遠低于1.2 V。右存儲節點電壓基本穩定在1.2 V,存儲節點未發生翻轉。因此本文提出的電路結構在大規模集成電路設計中可實現多種情況下的BCAM 運算。

Fig.10 Waveform diagram of logic operation simulation圖10 邏輯運算仿真波形圖

Fig.11 Timing diagram of BCAM simulation圖11 BCAM 仿真時序圖

BCAM 運算功能是雙字線雙閾值4T SRAM 存儲單元具備的一個重要運算功能,在解決BCAM 運算可行性問題后對其運算能耗和運算頻率進行分析也十分重要。圖12 給出BCAM 運算時,隨著失配個數的增加不同匹配情況下的功耗變化圖。輸入數據“1”時能耗最大為909.72 FJ,輸入“0”時能耗最小為432.12 FJ。電路的運算頻率和位線電壓的大小密切相關,圖13 給出在不同字線電壓下,存儲陣列存儲不同數據時,BCAM 運算頻率變化圖。由圖可知字線電壓為600 mV 時,頻率為1 010.1 MHz,即運算速度為16 161.6×NMB/Hz。

Fig.12 Mismatch energy consumption圖12 失配功耗

Fig.13 BCAM operation frequency圖13 BCAM 運算頻率

4 總結

本文提出了一種基于雙字線雙閾值4T 存儲單元的存儲系統?;陔p字線雙閾值4T SRAM 的存內計算架構與基于6T SRAM 的存內計算架構均可實現異或、與、或非、BCAM 等運算,但其存儲面積比基于6T存儲單元的存內結構的存儲面積降低了25%,采用雙字線4T 存儲結構較單字線4T 存儲結構在大規模集成電路應用中讀數據操作時功耗降低了47%左右。當字線電壓為600 mV 時運算速度可達到16 161.6 ×NMB/Hz,具有很好的工程應用價值。

主站蜘蛛池模板: 久草性视频| 欧美在线网| 色综合久久88色综合天天提莫| 成人午夜免费观看| 日本成人一区| 国产精品自拍合集| 91丝袜在线观看| 亚洲国产日韩一区| 久久综合久久鬼| 亚洲av无码人妻| 国产精品尤物铁牛tv | 久久精品aⅴ无码中文字幕| 国产黄网站在线观看| 久热这里只有精品6| 久久中文字幕不卡一二区| 国外欧美一区另类中文字幕| 亚洲精品大秀视频| 午夜福利在线观看成人| 国产自在自线午夜精品视频| 色网在线视频| 国产精品福利导航| 国产91精品最新在线播放| 国产手机在线ΑⅤ片无码观看| 囯产av无码片毛片一级| 欧美一区二区啪啪| 久久精品女人天堂aaa| 久热中文字幕在线| 蜜臀AVWWW国产天堂| 欧美性精品| 国产精品三级av及在线观看| 国产国模一区二区三区四区| 色噜噜狠狠色综合网图区| 日本国产精品一区久久久| 夜夜操国产| 91探花在线观看国产最新| 91午夜福利在线观看精品| 国产精品久久久久无码网站| 97视频在线观看免费视频| 久久青草免费91观看| 亚洲久悠悠色悠在线播放| 亚洲色图在线观看| 首页亚洲国产丝袜长腿综合| 久久黄色视频影| 国产视频一二三区| 大陆国产精品视频| 亚洲日本中文字幕乱码中文| www精品久久| 99久久无色码中文字幕| 天天躁夜夜躁狠狠躁图片| 97视频在线精品国自产拍| 久久九九热视频| 亚洲综合九九| 无码aⅴ精品一区二区三区| 毛片视频网| 欧美精品成人| 欧美色香蕉| 日韩乱码免费一区二区三区| 午夜免费小视频| 成人毛片在线播放| 国产精品美女网站| 午夜天堂视频| 农村乱人伦一区二区| 国产精品开放后亚洲| 青青操国产| 久久综合色天堂av| 波多野结衣一区二区三区四区 | 青青青国产精品国产精品美女| 国产丝袜第一页| 国产超碰在线观看| 69视频国产| 欧美黑人欧美精品刺激| 国产精品手机在线观看你懂的| av午夜福利一片免费看| 欧美中日韩在线| 自拍中文字幕| 99久久精品国产麻豆婷婷| 久久天天躁狠狠躁夜夜躁| 国产青青草视频| 在线播放国产一区| 草草线在成年免费视频2| 天天激情综合| 91亚洲精品第一|