基于互補(bǔ)電阻開關(guān)的憶阻乘法器設(shè)計(jì)

2023-01-27 08:28:04李志剛陳輝劉鵬武繼剛

計(jì)算機(jī)工程 2023年1期

關(guān)鍵詞：優(yōu)化

李志剛，陳輝，劉鵬，武繼剛

（廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣州 510006）

0 概述

傳統(tǒng)的馮諾依曼體系結(jié)構(gòu)分別在存儲(chǔ)器和中央處理單元進(jìn)行數(shù)據(jù)存儲(chǔ)和計(jì)算。因此，物理上分離的存儲(chǔ)器與中央處理單元之間需要進(jìn)行頻繁的數(shù)據(jù)通信，導(dǎo)致性能開銷和能耗增加。為提高計(jì)算機(jī)性能，研究人員探索利用新型非易失性納米器件構(gòu)建“非馮諾依曼”架構(gòu)的新領(lǐng)域［1-2］。憶阻器具有存算一體、尺寸小、低功耗等多種特性［3］，成為“非馮諾依曼”架構(gòu)的關(guān)鍵器件［4］。近年來，基于憶阻器的數(shù)字邏輯電路設(shè)計(jì)被廣泛應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)以及通信電路設(shè)計(jì)等領(lǐng)域。但關(guān)于憶阻乘法器的研究多數(shù)通過傳統(tǒng)的部分乘積算法來實(shí)現(xiàn)，存在串行化進(jìn)位比特問題，導(dǎo)致延時(shí)和面積開銷增大。

為解決該問題，本文提出一種弱進(jìn)位依賴的憶阻乘法器，通過對(duì)乘法運(yùn)算中的進(jìn)位比特進(jìn)行拆解，減弱計(jì)算過程中的進(jìn)位依賴，使得加法操作并行化，最終實(shí)現(xiàn)在線性時(shí)間內(nèi)的憶阻乘法器。利用互補(bǔ)電阻開關(guān)（Complementary Resistive Switch，CRS）的讀出操作破壞所存儲(chǔ)邏輯狀態(tài)的特性，設(shè)計(jì)一種基于憶阻器的部分乘積運(yùn)算方式，為實(shí)現(xiàn)憶阻乘法器奠定基礎(chǔ)。通過對(duì)傳統(tǒng)的TC 加法器和PC 加法器進(jìn)行優(yōu)化，減少加法運(yùn)算的延時(shí)和面積開銷。提出一種基于互補(bǔ)電阻開關(guān)的可并行實(shí)現(xiàn)的乘法運(yùn)算方案，并將其映射到混合CMOS/crossbar 陣列結(jié)構(gòu)之中，優(yōu)化憶阻乘法器的延時(shí)和面積開銷。

1 相關(guān)工作

憶阻器被廣泛應(yīng)用在數(shù)字邏輯設(shè)計(jì)領(lǐng)域中。趙毅等基于互補(bǔ)電阻開關(guān)提出一種可重構(gòu)的憶阻器邏輯設(shè)計(jì)方法，實(shí)現(xiàn)了與、或、非蘊(yùn)含以及異或四種基本邏輯門，并設(shè)計(jì)2-1 和4-1 多路復(fù)用器電路［5］。2-1 多路復(fù)用器需要3個(gè)憶阻器通過2個(gè)步驟實(shí)現(xiàn)。4-1多路復(fù)用器需要6個(gè)憶阻器通過5個(gè)步驟實(shí)現(xiàn)。李志剛等［6］在擇多-非-圖的基礎(chǔ)上，利用憶阻器設(shè)計(jì)延時(shí)優(yōu)化和面積優(yōu)化加法器。延時(shí)優(yōu)化的一位加法器需要4 個(gè)憶阻器通過4 個(gè)步驟實(shí)現(xiàn)。面積優(yōu)化的一位加法器需要3 個(gè)憶阻器通過5 個(gè)步驟實(shí)現(xiàn)。SIEMON 等［7］從不同的優(yōu)化角度，利用互補(bǔ)電阻開關(guān)設(shè)計(jì)TC 加法器和PC 加法器。針對(duì)面積開銷性能，N位TC 加法器利用N+2 個(gè)存儲(chǔ)單元通過4N+5 個(gè)步驟實(shí)現(xiàn)。針對(duì)延時(shí)開銷性能，N位PC 加法器利用2（N+1）個(gè)存儲(chǔ)單元并通過2（N+1）+2 個(gè)步驟實(shí)現(xiàn)。

在傳統(tǒng)的二進(jìn)制乘法器中，乘法運(yùn)算可分為部分乘積計(jì)算、部分乘積位移以及部分乘積累加共3 個(gè)步驟［8］。HAJ-ALI 等根據(jù)不同的功能將憶阻交叉陣列中的一行存儲(chǔ)單元?jiǎng)澐譃槎鄠€(gè)區(qū)域，并利用TALATI 等［9］提出的加法器實(shí)現(xiàn)乘法運(yùn)算［8］。該乘法器可以在一行或一列中進(jìn)行并行運(yùn)算。而乘法運(yùn)算的方式仍然采用部分乘積算法，導(dǎo)致單次乘法運(yùn)算的延時(shí)增長(zhǎng)。IMANI 等［10］提出一種快速加法器和近似計(jì)算存內(nèi)架構(gòu)，該架構(gòu)利用所提的快速加法器，以降低一定的精度為前提來加快乘法器的運(yùn)算速度。TAHERINEJAD 等［11］提出的半串行加法器結(jié)構(gòu)。RADAKOVITS 等［12］利用文獻(xiàn)［11］所提的半串行加法器結(jié)構(gòu)進(jìn)行半串行乘法的運(yùn)算。對(duì)于N位乘法運(yùn)算，該乘法器將2N-1 比特的半串行加法器電路構(gòu)建「n/2次。在半串行加法器之間并行計(jì)算兩個(gè)部分乘積，并進(jìn)行「lbn次并行加法以實(shí)現(xiàn)乘法運(yùn)算。ALAM 等設(shè)計(jì)的乘法器依賴于確定性隨機(jī)計(jì)算算法。該算法將乘數(shù)和被乘數(shù)轉(zhuǎn)換成特定的二進(jìn)制比特流，并利用時(shí)鐘分頻技術(shù)對(duì)二進(jìn)制比特流進(jìn)行邏輯與運(yùn)算來完成乘法操作［13］。該算法利用3×22n個(gè)存儲(chǔ)單元通過3 個(gè)步驟來實(shí)現(xiàn)。WANG 等在擇多-非-圖的基礎(chǔ)上設(shè)計(jì)一種利用3 個(gè)憶阻器通過4 個(gè)步驟實(shí)現(xiàn)的全加器，在此基礎(chǔ)上，進(jìn)一步利用Wallace樹實(shí)現(xiàn)一種4 bit 乘法器。該乘法器需要51 個(gè)憶阻器并通過64 個(gè)步驟完成運(yùn)算［14］。GUCKERT 等在實(shí)質(zhì)蘊(yùn)涵操作［15］和MAD（Memristors-as-Drivers）邏輯門［16］基礎(chǔ)上，采用憶阻器和傳統(tǒng)CMOS 管相結(jié)合的方式分別實(shí)現(xiàn)了兩種憶阻乘法器［17］，并與傳統(tǒng)的CMOS 乘法器相比，兩種憶阻乘法器在延時(shí)和面積開銷方面均有所優(yōu)化。HAI 等［18］將數(shù)字量與模擬量相混合，設(shè)計(jì)一種用于支持矩陣乘法操作的浮點(diǎn)乘法器，以加快卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。

上述所實(shí)現(xiàn)的乘法操作大多是在加法器的基礎(chǔ)上采用傳統(tǒng)的部分乘積算法實(shí)現(xiàn)。而在傳統(tǒng)的部分乘積算法中，乘法運(yùn)算過程中的多個(gè)進(jìn)位比特處于不同的時(shí)鐘周期，并且在同一時(shí)鐘周期僅利用一位進(jìn)位比特。因此，現(xiàn)有的憶阻乘法器存在串行化加法操作，導(dǎo)致延時(shí)和面積開銷增大。

2 憶阻器與互補(bǔ)電阻開關(guān)

憶阻器是具有可變電阻的雙端無源器件。憶阻器的電阻值取決于兩端施加的電壓。憶阻器與互補(bǔ)電阻開關(guān)的電路結(jié)構(gòu)及伏安特性曲線如圖1 所示。憶阻器的器件符號(hào)和伏安特性曲線如圖1（a）所示。在憶阻器兩端施加正電壓Vreset時(shí)，憶阻器的阻值狀態(tài)會(huì)切換為高電阻狀態(tài)（High Resistance State，HRS），此時(shí)對(duì)應(yīng)的電阻值為Roff，表示的邏輯狀態(tài)為邏輯0。在憶阻器兩端施加負(fù)電壓Vset時(shí)，憶阻器的阻值狀態(tài)會(huì)切換為低電阻狀態(tài)（Low Resistance State，LRS），對(duì)應(yīng)電阻值為Ron，表示的邏輯狀態(tài)為邏輯1［19］。憶阻器具有尺寸小、運(yùn)算速度快、非易失性等特點(diǎn)，一般采用交叉陣列的形式構(gòu)建。但無源憶阻交叉陣列存在漏電流問題，導(dǎo)致數(shù)據(jù)讀取錯(cuò)誤［9］。

圖1 憶阻器與互補(bǔ)電阻開關(guān)的電路結(jié)構(gòu)及伏安特性曲線Fig.1 Circuit structure and volt ampere characteristic curves of memristor and complementary resistive switch

為解決無源憶阻交叉陣列中漏電流的問題，LINN 等提出CRS 結(jié)構(gòu)［20］。CRS 的電路結(jié)構(gòu)和伏安特性曲線如圖1（b）所示。憶阻器M1和憶阻器M2的阻值狀態(tài)組合表示CRS 的邏輯狀態(tài)。LRS/HRS 阻值狀態(tài)和施加在CRS 兩端的高電壓Vth1=max｛2|Vset|，2Vreset｝表示邏輯狀態(tài)1，HRS/LRS 或接地表示邏輯狀態(tài)0。在CRS 兩端施加Vth1=max｛2|Vset|，2Vreset｝的正電壓時(shí)，CRS 的阻值狀態(tài)將切換為L(zhǎng)RS/HRS。在CRS兩端施加Vth4=min｛-2|Vset|，-2Vreset｝的負(fù)電壓時(shí)，CRS的阻值狀態(tài)將切換為HRS/LRS。在CRS 兩端施加的電壓在Vth2～Vth3之間時(shí)，CRS 的阻值狀態(tài)不會(huì)改變。

當(dāng)CRS 處于穩(wěn)定的邏輯狀態(tài)時(shí)，電阻值總為高阻，施加幅值較小的憶阻器讀出電壓，無法區(qū)分所存儲(chǔ)的邏輯值。因此，CRS 的讀出操作是在字線（Word Line，WL）端施加大于Vth1的電壓信號(hào)，同時(shí)以位線（Bit Line，BL）端接地的方式實(shí)現(xiàn)。從圖1（b）可以看出，在CRS 兩端施加大于Vth1的電壓信號(hào)時(shí)，若在輸出中檢測(cè)到電流脈沖，則表示該CRS 的阻值狀態(tài)為HRS/LRS，即邏輯0。若在電流輸出中無法檢測(cè)到電流脈沖，則表明CRS 的阻值狀態(tài)為L(zhǎng)RS/HRS，即邏輯1。在此讀出過程中，CRS 的阻值狀態(tài)會(huì)被置為邏輯1，所存儲(chǔ)的邏輯值有可能被破壞［7］。

CRS 的邏輯轉(zhuǎn)換機(jī)制由有限狀態(tài)機(jī)表示。CRS有限狀態(tài)機(jī)示意圖如圖2 所示。

圖2 互補(bǔ)電阻開關(guān)有限狀態(tài)機(jī)示意圖Fig.2 Schematic diagram of finite state machine of complementary resistive switch

CRS 的邏輯表達(dá)如式（1）所示：

其中：w和b分別為連接CRS 字線和位線的電壓信號(hào)所對(duì)應(yīng)的邏輯變量；Z′和Z分別為施加電壓信號(hào)前和施加電壓信號(hào)后的邏輯狀態(tài)；RIMP 和NIMP 分別為實(shí)質(zhì)蘊(yùn)含邏輯的求逆和取反。RIMP 和NIMP 的邏輯表達(dá)［21］如式（2）和式（3）所示：

LINN 等進(jìn)一步利用CRS 實(shí)現(xiàn)了14 種基本邏輯［21］。由CRS 的邏輯表達(dá)式可知，當(dāng)w為邏輯1，b為邏輯0 時(shí)，CRS 的邏輯狀態(tài)將被置為邏輯1，實(shí)現(xiàn)了TRUE 邏輯操作：

將CRS 置為邏輯狀態(tài)1 后，令w為邏輯q，b為邏輯1，其邏輯狀態(tài)將被置為邏輯q：

將CRS 置為邏輯狀態(tài)0 后，通過將w設(shè)置為邏輯1，b設(shè)置為邏輯，也可實(shí)現(xiàn)置q邏輯操作：

BREUER 等［22］通過簡(jiǎn)化加法器公式實(shí)現(xiàn)基于互補(bǔ)電阻開關(guān)的全加器。全加器表示如式（7）～式（9）所示：

其中：a、b和Ci為一位全加器的輸入；和Si分別為中間和最終求和輸出值；Ci+1為進(jìn)位輸出值。

3 乘法器設(shè)計(jì)

本文針對(duì)延時(shí)開銷和面積開銷，在TC 加法器和PC 加法器優(yōu)化方案基礎(chǔ)上，利用CRS 構(gòu)建乘法器電路，并將其映射到混合CMOS/crossbar 結(jié)構(gòu)中?；旌螩MOS/crossbar 結(jié)構(gòu)如圖3 所示。該結(jié)構(gòu)由多個(gè)陣列和一個(gè)控制單元組成?？刂茊卧糜趨f(xié)調(diào)每個(gè)陣列并將信號(hào)尋址到特定的字線和位線。

圖3 混合CMOS/crossbar 結(jié)構(gòu)Fig.3 Structure of hybrid CMOS/crossbar

3.1 加法器優(yōu)化

加法器是乘法器運(yùn)算過程中必不可少的一部分。加法器的優(yōu)化有利于降低乘法器的延時(shí)開銷和面積開銷。在傳統(tǒng)的TC 加法器和PC 加法器中，包括最高輸出位在內(nèi)的所有結(jié)果均在Ci+1和的基礎(chǔ)上運(yùn)算得到。然而，加法器的最高輸出位運(yùn)算結(jié)果本質(zhì)上是進(jìn)位比特，其運(yùn)算過程并不需要計(jì)算，只計(jì)算Ci+1。因此，本文通過簡(jiǎn)化最高輸出位的運(yùn)算步驟來優(yōu)化TC 加法器和PC 加法器。

優(yōu)化后的一位TC 加法器的電路結(jié)構(gòu)如圖4 所示，其中A0（1）表示在陣列0 中的第1 個(gè)存儲(chǔ)單元。優(yōu)化后的一位TC 加法器的實(shí)現(xiàn)步驟如表1 所示。

圖4 優(yōu)化后一位TC 加法器電路結(jié)構(gòu)Fig.4 The circuit structure of optimized 1-bit TC adder

表1 優(yōu)化的一位TC 加法器實(shí)現(xiàn)步驟Table 1 Implementation steps of optimized 1-bit TC adder

從表1 可以看出，優(yōu)化后的TC 加法器的實(shí)現(xiàn)步驟主要有初始化操作、C0的計(jì)算、C1和的計(jì)算、讀出操作以及最終S0的運(yùn)算。由式（4）可知，在初始化操作中，將代表邏輯1 的高電壓信號(hào)Vth1施加在WL0上，同時(shí)將BL0-2三個(gè)端口接地，A0（0）、A0（1）、A0（2）三個(gè)CRS 被置為邏輯1。為了將C0寫入到A0（0）、A0（1）、A0（2）中，根據(jù)式（5）可知，表示C0和邏輯1 的電壓被分別施加在WL0和BL0-2上。根據(jù)式（1）和式（8）可知，在WL0和BL1上分別施加與邏輯a和邏輯b對(duì)應(yīng)的電壓值，運(yùn)算結(jié)果將以阻值的形式存儲(chǔ)在A0（1）中。同時(shí)，根據(jù)式（1）和式（7）可知，在WL0上施加與邏輯a對(duì)應(yīng)的電壓信號(hào)基礎(chǔ)上，BL0和BL2上施加與邏輯對(duì)應(yīng)的電壓值，得到兩個(gè)邏輯運(yùn)算結(jié)果C1，并分別存儲(chǔ)于A0（0）和A0（2）中。其中存儲(chǔ)于A0（0）中的C1作為最終運(yùn)算結(jié)果保存，而存儲(chǔ)于A0（2）中的C1則作為步驟5的輸入。為了利用A0（2）中的C1，讀出操作將讀出C1的阻值。在S0的運(yùn)算過程中，根據(jù)式（9），在WL0和BL1上分別施加與邏輯b和邏輯C1對(duì)應(yīng)的電壓信號(hào)，得到邏輯運(yùn)算結(jié)果S0并存儲(chǔ)于A0（1）中。至此，優(yōu)化后的一位TC 加法器完成加法操作，C1和S0的邏輯值存儲(chǔ) 在A0（0）和A0（1）中。

優(yōu)化后的一位PC 加法器的電路結(jié)構(gòu)和實(shí)現(xiàn)步驟分別如圖5 和表2 所示。PC 加法器的前三個(gè)步驟與TC 加法器相似，唯一不同之處在于PC 加法器采用兩個(gè)陣列，需要在兩個(gè)WL 端施加對(duì)應(yīng)的電壓值。PC 加法器最關(guān)鍵之處在于其步驟4 利用兩個(gè)陣列的并行性來同時(shí)完成C1的讀出操作和S0的運(yùn)算，減少了一個(gè)執(zhí)行步驟。

圖5 優(yōu)化后一位PC 加法器電路結(jié)構(gòu)Fig.5 The circuit structure of optimized 1-bit PC adder

表2 優(yōu)化的一位PC 加法器實(shí)現(xiàn)步驟Table 2 Implementation steps of optimized 1-bit PC adder

3.2 乘法器

N位乘法運(yùn)算產(chǎn)生2N位的運(yùn)算結(jié)果，其中包含了大量的加法運(yùn)算。如何優(yōu)化乘法運(yùn)算的加法過程尤為重要。在傳統(tǒng)的乘法計(jì)算過程中，只有完成低位的加法運(yùn)算后，才能產(chǎn)生相應(yīng)的進(jìn)位比特并開始高位的加法運(yùn)算過程，極大地限制了計(jì)算速度。為了提高乘法運(yùn)算中加法的并行性，本文基于優(yōu)化的TC 加法器和PC 加法器，提出一種弱進(jìn)位依賴性乘法器。該乘法器基于混合CMOS/crossbar 結(jié)構(gòu)的并行能力實(shí)現(xiàn)N位乘法運(yùn)算。

在乘法運(yùn)算中首要步驟是計(jì)算部分乘積。部分乘積由兩比特的“與”邏輯運(yùn)算得到?！芭c”邏輯是利用一個(gè)CRS 通過3 個(gè)步驟實(shí)現(xiàn)。部分乘積計(jì)算的實(shí)現(xiàn)步驟如表3 所示。

表3 部分乘積計(jì)算的實(shí)現(xiàn)步驟Table 3 Implementation steps of partial product calculation

首先，在WL 和BL 上分別施加與邏輯1 和邏輯0對(duì)應(yīng)的電壓信號(hào)，CRS 被初始化為邏輯1；其次，在WL 和BL 上分別施加與邏輯p和邏輯1 對(duì)應(yīng)的電壓信號(hào)，CRS 被置為邏輯p；最后，在WL 和BL 上分別施加與邏輯q和邏輯1 對(duì)應(yīng)的電壓信號(hào)，得到pq運(yùn)算結(jié)果并存儲(chǔ)于CRS 中。

乘法運(yùn)算的后續(xù)步驟是對(duì)部分乘積進(jìn)行加法運(yùn)算。與傳統(tǒng)乘法運(yùn)算不同，本文采用分解一位進(jìn)位比特為多位進(jìn)位比特求和的方式來減弱乘法運(yùn)算過程中的數(shù)據(jù)依賴性，使乘法運(yùn)算中的加法運(yùn)算過程得以并行化，加快乘法運(yùn)算速度。圖6 所示為二位乘法運(yùn)算的進(jìn)位比特分解過程以及對(duì)應(yīng)的數(shù)據(jù)依賴圖。圓圈表示一個(gè)三輸入和二輸出的加法器。指向加法器的箭頭表示加法器所需的輸入值，由加法器指出的箭頭表示加法器的輸出值。

圖6 二位乘法器數(shù)據(jù)依賴圖Fig.6 The data dependency graph of 2-bit multiplier

從圖6（b）可以看出，在完成部分乘積運(yùn)算后，二位乘法器的弱化數(shù)據(jù)依賴圖共有三層運(yùn)算過程，包含了兩層并行加法運(yùn)算（L1 和L2）以及一層串行加法運(yùn)算（L3）。在L3 中的兩個(gè)加法器之間由于存在C4的進(jìn)位依賴，因此必須串行實(shí)現(xiàn)。此外，每一層并行計(jì)算得到的中間計(jì)算結(jié)果用于下一層的計(jì)算。經(jīng)過L1 層和L2 層的并行加法后將得到二位乘法運(yùn)算結(jié)果的低2 位P0和P1。L3 層的串行加法運(yùn)算將得到乘法運(yùn)算結(jié)果的高2 位P2和P3。

本文采用混合CMOS/crossbar 結(jié)構(gòu)實(shí)現(xiàn)所提的弱進(jìn)位依賴性乘法器。二位乘法器的電路結(jié)構(gòu)如圖7 所示。

圖7 二位乘法器電路結(jié)構(gòu)Fig.7 The circuit structure of 2-bit multiplier

從圖7 可以看出，A0（0-2）和A1（0-2）表示用于運(yùn)算加法的計(jì)算陣列，au_A（0-4）表示用于存儲(chǔ)運(yùn)算結(jié)果的輔助陣列。對(duì)于二位乘法器，每個(gè)計(jì)算陣列利用3 個(gè)CRS 來執(zhí)行一位加法器，輔助陣列采用5 個(gè)CRS 來存儲(chǔ)臨時(shí)和最終的運(yùn)算結(jié)果。

二位乘法器的流程圖和具體執(zhí)行步驟分別如圖8 和表4 所示。

表4 二位乘法器實(shí)現(xiàn)步驟Table 4 Implementation steps of 2-bit multiplier

圖8 二位乘法器實(shí)現(xiàn)流程Fig.8 Implementation procedure of 2-bit multiplier

步驟1 是初始化操作，將表示邏輯1 的電壓信號(hào)施加在WL0-1上，BL00-02以及BL10-12接地，實(shí)現(xiàn)了A0（0-2）和A1（0-2）的置1 操作。同時(shí)，為了完成au_A（0-4）的置0 操作，外圍電路將與邏輯1 對(duì)應(yīng)的電壓信號(hào)施加在BL20-24上，WL2接地。步驟2 和步驟3 是在BL00-02與BL10-12端口均施加代表邏輯1 的高電壓，但在步驟2中WL0-1施加代表X0的電壓值，而在步驟3 中，WL0和WL1上分別施加代表Y1和Y0的電壓值。當(dāng)步驟3 完成后，得到兩個(gè)部分乘積X0Y1和X0Y0并分別存儲(chǔ)于A0（0-2）以及A1（0-2）中。

由于本文提出的優(yōu)化TC 加法器和乘法運(yùn)算過程中的加法操作均可以并行實(shí)現(xiàn)，因此步驟4～步驟6 利用優(yōu)化TC 加法器進(jìn)行L1 層的并行加法。為進(jìn)行L2 層的并行加法運(yùn)算，步驟7 在WL0-2上施加與邏輯1 對(duì)應(yīng)的電壓信號(hào)，同時(shí)將BL00-01以及BL10-11接地，讀出上一個(gè)步驟中的運(yùn)算結(jié)果，其中包含結(jié)果P0，并進(jìn)一步利用反相器在BL24上施加邏輯對(duì)應(yīng)的電壓信號(hào)，將P0以阻值形式重新寫入au_A（4）中。

步驟8～步驟13 利用優(yōu)化TC 加法器完成L2 層的并行加法運(yùn)算，以得到邏輯運(yùn)算結(jié)果P1并存儲(chǔ)于au_A（3）中。為了復(fù)用存儲(chǔ)單元，需要A0（0-2）和A1（0-2）初始化為邏輯0，因此，在步驟14 中將表示邏輯1 的電壓信號(hào)施加在BL00-02以及BL10-12上，WL0-1接地。步驟15～步驟18 則利用優(yōu)化的PC 加法器進(jìn)行串行加法運(yùn)算，最終得到邏輯運(yùn)算結(jié)果P2和P3。步驟19 是在WL0-2上施加與邏輯1 對(duì)應(yīng)的電壓信號(hào)，同時(shí)將BL00-01以及BL10-11接地，讀出P2和P3并將其以電壓形式施加到BL21-22上，最終以阻值形式分別存儲(chǔ)于au_A（1-2）中。

N位乘法運(yùn)算的數(shù)據(jù)依賴圖如圖9 所示，其執(zhí)行步驟可由二位乘法運(yùn)算的步驟擴(kuò)展得到。在N位乘法運(yùn)算中，每層并行加法產(chǎn)生2N-1 位中間計(jì)算結(jié)果和一位最終乘法運(yùn)算結(jié)果。為了在不同層之間重用存儲(chǔ)單元，本文分別采用優(yōu)化的TC 加法器和優(yōu)化的PC 加法器進(jìn)行乘法器中的并行加法運(yùn)算和串行加法運(yùn)算。因此，每一層的并行加法需要3N個(gè)存儲(chǔ)單元，串行加法需要2N+1 個(gè)存儲(chǔ)單元。

圖9 N 位乘法運(yùn)算的數(shù)據(jù)依賴圖Fig.9 The data dependency graph of N-bit multiplier

第一層的并行操作需要7 個(gè)步驟，其中包含步驟1～步驟3 的部分乘積計(jì)算，步驟4～步驟6 的TC 加法器以及步驟7 的讀寫操作。由于CRS 的讀出操作會(huì)將其邏輯狀態(tài)重置為邏輯1，因此省略了在后續(xù)部分乘積運(yùn)算中的第一步初始化步驟。N位乘法器的并行加法運(yùn)算需要6N+1 個(gè)步驟。在N位乘法器中采用優(yōu)化的PC加法器實(shí)現(xiàn)的串行加法器需要2N+2個(gè)步驟。因此，本文所提的N位弱進(jìn)位依賴性乘法器需要8N+3 個(gè)步驟。此外，所需存儲(chǔ)單元的數(shù)量將由計(jì)算陣列中的存儲(chǔ)單元和輔助單元的總和決定。

本文所提的乘法器能夠有效提升延時(shí)和面積開銷性能，其原因?yàn)閳D6 中乘法運(yùn)算方案的并行性。本文對(duì)乘法運(yùn)算過程中的進(jìn)位比特進(jìn)行分解，減弱了進(jìn)位依賴性，通過混合CMOS/crossbar 陣列結(jié)構(gòu)的分陣列形式并行實(shí)現(xiàn)乘法運(yùn)算過程中的串行加法操作，執(zhí)行N個(gè)一位加法操作僅需要一位TC 加法器，極大地優(yōu)化了乘法器的延時(shí)開銷。此外，本文分別采用一位TC 加法器和N位PC 加法器作為乘法運(yùn)算過程中的并行和串行加法器，減少額外的存儲(chǔ)空間，在每層加法運(yùn)算過程中的CRS 均可以復(fù)用，進(jìn)一步減少面積開銷。

4 仿真

研究人員提出多種憶阻器模型，包括Simmons隧道勢(shì)壘模型［23］、非線性離子漂移模型［24］、閾值自適應(yīng)憶阻器模型（TEAM）［25］、電壓閾值自適應(yīng)憶阻器模型（VTEAM）［26］等。VTEAM 具有簡(jiǎn)單、通用、靈活的特點(diǎn)。因此，本文選擇VTEAM 模型進(jìn)行仿真。VTEAM 模型的相關(guān)參數(shù)參考文獻(xiàn)［26］，具體如下：Voff=0.5 V，Von=-0.5 V，Roff=2.5 kΩ，Ron=100 Ω，koff=4.03×10-8m/s，kon=-80m/s，aoff=1，aon=3，其中Voff和Von為憶阻器的閾值電壓，Roff和Ron為憶阻器的高阻和低阻，koff、kon、aoff以及aon為VTEAM 模型擬合Pt-Hf-Ti憶阻器實(shí)體器件后的常量參數(shù)。在此參數(shù)下VTEAM 模型與Pt-Hf-Ti 實(shí)體器件相擬合后的伏安特性曲線可參考文獻(xiàn)［26］。

本文利用CRS 的與邏輯實(shí)現(xiàn)了部分乘積。圖10 所示為所有一位輸入組合下部分乘積計(jì)算的仿真結(jié)果?？v坐標(biāo)表示憶阻器阻值。10 ns 為一個(gè)時(shí)鐘周期。從圖10 可以看出：當(dāng)q=1、p=1 時(shí)，M1與M2的阻值狀態(tài)分別為L(zhǎng)RS 和HRS，代表輸出邏輯1；對(duì)于其他輸入情況，M1與M2的最終阻值狀態(tài)分別為HRS 和LRS，代表輸出邏輯0，與理論分析相符。

圖10 部分乘積運(yùn)算的仿真結(jié)果Fig.10 Simulation results of partial product operation

圖11 所示為在a=0、b=1、Ci=1 情況下優(yōu)化的TC加法器的仿真結(jié)果。從圖11 可以看出，TC 加法器仿真結(jié)果中A0（0）和A0（1）最終的阻值狀態(tài)分別為L(zhǎng)RS/HRS 和HRS/LRS，代表運(yùn)算結(jié)果為10。

圖11 一位TC 加法器的仿真結(jié)果Fig.11 Simulation results of 1-bit TC adder

圖12 所示為在a=00、b=11、Ci=01 輸入情況下優(yōu)化的PC加法器的仿真結(jié)果。PC加法器仿真結(jié)果中A0（0）、A0（1）、A0（2）最終的阻值狀態(tài)分別為L(zhǎng)RS/HRS、HRS/LRS、HRS/LRS，表示最終運(yùn)算結(jié)果為100。兩種加法器的仿真結(jié)果均與理論預(yù)期相符。

圖12 二位PC 加法器的仿真結(jié)果Fig.12 Simulation results of 2-bit PC adder

本文驗(yàn)證輸入為01 與11 情況下所提出的弱進(jìn)位依賴乘法器的可行性。圖13 和圖14 分別所示為計(jì)算陣列A0以及A1的仿真結(jié)果。圖15 所示為輔助陣列au_A 的仿真結(jié)果。從圖15 可以看出，二位乘法運(yùn)算共需要19 個(gè)步驟和11 個(gè)CRS。輔助陣列中au_A（1-4）的仿真結(jié)果為0011，與理論相符。

圖13 在乘法器運(yùn)算中A0的仿真結(jié)果Fig.13 Simulation results of A0 in multiplier operation

圖14 在乘法器運(yùn)算中A1仿真結(jié)果Fig.14 Simulation results of A1 in multiplier operation

圖15 在乘法器運(yùn)算中au_A 仿真結(jié)果Fig.15 Simulation results of au_A in multiplier operation

表5 所示為本文所設(shè)計(jì)的方法與其他方法的結(jié)果對(duì)比，延時(shí)表示N位乘法器的執(zhí)行步驟個(gè)數(shù)，面積表示N位乘法器執(zhí)行所需要的憶阻器個(gè)數(shù)。與文獻(xiàn)［8］相比，本文的延時(shí)開銷降低了一個(gè)數(shù)量級(jí)，并且面積開銷降低了約70%。與文獻(xiàn)［10］和文獻(xiàn)［12］相比，本文所提的方法在面積和延時(shí)開銷性能上均降低了一個(gè)數(shù)量級(jí)。文獻(xiàn)［13］在延時(shí)開銷方面為常數(shù)級(jí)別，但其所提的方法需要在陣列的外圍中增加額外的CMOS 晶體管電路，用于連接陣列的字線或位線，以構(gòu)建MAGIC 電路，增加了面積開銷，并且該方法并未計(jì)算輸入的乘法運(yùn)算數(shù)據(jù)與特定的二進(jìn)制比特流之間轉(zhuǎn)換所需的延時(shí)開銷和面積開銷。同時(shí)，本文所提的方法在面積開銷方面相比文獻(xiàn)［13］方法降低到了線性級(jí)別。

表5 N 位乘法器性能對(duì)比Table 5 Performance comparison of N-bit multiplier

5 結(jié)束語(yǔ)

本文針對(duì)現(xiàn)有憶阻乘法器設(shè)計(jì)的局限性，提出兩種不同的加法器優(yōu)化方案，并在此基礎(chǔ)上設(shè)計(jì)一種乘法器。通過設(shè)計(jì)基于憶阻器的部分乘積運(yùn)算，并對(duì)TC 加法器和PC 加法器進(jìn)行優(yōu)化，同時(shí)，針對(duì)乘法器的串行加法部分，通過減弱進(jìn)位比特的數(shù)據(jù)依賴性，設(shè)計(jì)一種基于互補(bǔ)電阻開關(guān)的可并行實(shí)現(xiàn)的乘法運(yùn)算方案。仿真實(shí)驗(yàn)結(jié)果表明，該乘法器減弱進(jìn)位比特的數(shù)據(jù)依賴性，實(shí)現(xiàn)了并行乘法運(yùn)算，與大部分現(xiàn)有乘法器相比，在延時(shí)和面積開銷性能方面均有所提升。下一步將在本文工作的基礎(chǔ)上，將憶阻加法器與憶阻乘法器相結(jié)合，研究憶阻浮點(diǎn)乘法器的實(shí)現(xiàn)方案，進(jìn)一步完善憶阻器的復(fù)雜邏輯設(shè)計(jì)。