清華大學吳華強教授團隊在基于憶阻器的存算一體研究領域取得新進展。芯片算力的提升是人工智能興起的重要驅動力。深度學習模型的復雜化和參數規模的增長對底層芯片的功耗和算力提出了更高的要求,然而,傳統的存儲-計算分離架構制約了硬件能力的進一步發展。根據憶阻器的器件特性,單個器件既是存儲單元,又是計算單元,從而節省了數據搬移的功耗和延時開銷,有望實現全新的存算一體的新型計算系統。當前,國際上的研究主要面向基于單個憶阻器陣列的功能驗證,實現基于全連接結構的矩陣向量乘加速,尚缺乏憶阻器卷積網絡的完整硬件實現方案。因此,研發面向復雜網絡實現的多陣列硬件系統需要解決以下問題:硬件上,需要制備具有高一致性、高可靠性的憶阻器陣列;系統上,憶阻器固有的非理想特性會導致計算準確率降低;架構上,憶阻器陣列實現卷積功能,需要以串行滑動的方式連續采樣、計算多個輸入塊,無法匹配全連接結構的計算效率。
針對上述問題和挑戰,吳華強團隊通過器件、架構和系統的創新,開發了面向大規模集成憶阻器的加工工藝,提出混合訓練的方法在系統層次克服器件非理想特性帶來的性能損失,完成了憶阻器卷積網絡的完整硬件實現。他們通過開發、優化與傳統CMOS芯片工藝兼容的器件制備流程,提升了多值憶阻器件的可靠性,研發出多憶阻器陣列(8個)的集成電路板,并利用FPGA開發板,部署了5層卷積網絡,搭建出完整的多陣列存算一體硬件系統;為解決器件非理想特性帶來的系統識別準確率下降問題,提出混合訓練的存算一體計算方法;進一步提出空間并行的架構,將相同卷積核編程到多組憶阻器陣列中,提高了并行度,提升了憶阻器陣列的卷積計算效率,實現了系統加速。該研究實現的基于憶阻器陣列的存算一體硬件系統,與Tesla V100 GPU相比,在圖像識別準確率相當的情況下,該硬件系統具有110倍的能效優勢。本研究工作為解決憶阻器件非理想特性導致的陣列內部、陣列間的誤差累積問題提供了新思路,為突破現行計算機架構“存儲墻”的限制提供了新路徑。