唐 越,殷中云,鄧玉良,李孝遠,楊 彬,方曉偉
(深圳市國微電子有限公司,深圳518057)
SDRAM 存儲器具有價格低、體積小、容量大、讀寫速度快等優點,是計算機系統中理想的存儲器件,目前已在工業和商業中廣泛使用。若要在工作環境嚴苛的航空航天系統中使用SDRAM 存儲器,需密切研究其輻照效應。在這一領域中,國內外主要針對單粒子翻轉進行研究,對于輻照試驗中出現的單粒子硬錯誤SHE(Single Hard Errors)涉及較少。然而,相比于單粒子翻轉錯誤,不能通過重新上電恢復的硬錯誤對計算機系統的危害更大。在SDRAM的硬錯誤中,典型的一種是“固定位”(stuck bit)錯誤,其特點為存儲單元的狀態卡在了“0”或“1”狀態,無法從“0”變為“1”或從“1”變為“0”。
Henson 等人[1]在對0.35 μm 的SDRAM 進行重離子試驗時就有“固定位”錯誤產生,其認為“固定位”錯誤數量只占SDRAM 容量的0.002%,對航天應用不會產生嚴重影響。然而隨著特征尺寸減小,“固定位”錯誤更易發生,并且“固定位”錯誤的數量會隨著輻照劑量的增加而增加[2]。這使得SDRAM 存儲器在輻照環境下工作時,“固定位”錯誤越來越多,超出ECC 的可糾錯能力范圍,使系統出現問題。針對這一情況,在此提出一種試驗方案,對65nm 的SDRAM 存儲器進行重離子輻照,統計和分析出現的“固定位”錯誤;對輻照后樣品采用不同條件退火,分析退火溫度和時長對“固定位”錯誤恢復的影響;根據以上試驗數據分析“固定位”錯誤的產生機理,進而設法解決SDRAM 存儲器在宇航環境下出現“固定位”錯誤卻無法維修器件的問題。
重離子試驗的樣品是3 片編號分別為1#、2#、3#的SDRAM 芯片,容量皆為512 Mbit,電源電壓為3.3±0.3V,以65 nm 光刻工藝制成。對芯片開蓋處理,通過目檢和功能測試,確保芯片的完好。
為避免試驗對被測芯片以外的試驗板控制電路造成影響,在設計試驗板時將控制電路與被測芯片進行分區,控制電路和被測芯片分別位于試驗板的正、反面,控制電路在試驗板反面,安裝待測芯片的扣板在試驗板正面,這樣能更有效地避免控制電路受輻照影響。
單粒子試驗板布局如圖1 所示。試驗板采用FPGA 作為主控。FPGA 對SDRAM 進行讀寫測試,其測試結果采用串行方式通過RS-422 接口輸出至上位機保存。

圖1 單粒子效應試驗系統布局圖
試驗在北京串列加速器核物理國家實驗室開展,利用HI-13 串列靜電加速器進行重離子試驗。根據試驗條件,選用粒子能量如表1 所示。

表1 試驗離子能量表
芯片1#、2#、3# 分別在C 離子、Ge 離子、Br 離子下進行了輻照,在芯片輻照后對SDRAM 存儲器芯片進行測試得到輻照后的“固定位”錯誤數量。通過開關ECC 對芯片進行對比測試分析,可得出:
①“固定位”錯誤數量和注量、照射能量正相關;
②“固定位”錯誤成離散分布。
圖2 為1#、2#、3# 芯片在重離子輻照后開啟ECC 和關閉ECC 的測試結果對比。橫坐標為輻照的注量,縱坐標為“固定位”錯誤數量。可以觀察到,被高能離子輻照后的2# 和3# 芯片錯誤數量遠高于1#,且隨著輻照注量的增加,“固定位”錯誤數量也會增加。Br 離子的能量比Ge 離子高,但是由于Ge 離子輻照的總注量是Br 離子輻照總注量的兩倍,所以“固定位”錯誤的數量更多。芯片ECC 糾錯碼為(40,32)的檢二糾一碼。開啟ECC 后“固定位”錯誤數量驟減,即大部分錯誤可以被ECC 糾正。由此可知大多數的“固定位”錯誤都是離散的。

圖2 關閉和開啟ECC 的“固定位”錯誤數量對比
分別采用64 ms、32 ms、16 ms 的 刷 新周期 對SDRAM 進行測試,發現刷新周期越小,“固定位”錯誤數量越小,但32ms 與16ms 刷新周期的“固定位”錯誤數量差距不大,推測其存在一個閾值,刷新周期小于閾值后,“固定位”錯誤數量將不會再隨刷新周期的減小而減小。表2 為這三個芯片在不同刷新周期下的“固定位”錯誤數量。

表2 不同刷新周期下的“固定位”錯誤個數
結束以上測試后,在不同條件下對三個試驗芯片進行退火。“固定位”錯誤的數量隨退火時間和退火溫度的變化如圖3 所示。

圖3 芯片退火情況
1#、2#、3#芯片在室溫(25℃)下退火120 小時,三個芯片的“固定位”錯誤數量都緩慢下降。在室溫下退火后,把1#、2#芯片放入85℃高溫箱,其“固定位”錯誤隨退火時間的增加而減少。而3#芯片在300 ℃下退火了0.1 小時,錯誤數量從459 驟減為60 個,之后放入125 ℃高溫箱下退火,其錯誤數量緩慢減少。由此可知,“固定位”錯誤能在常溫下退火恢復,但需要的退火時間長。高溫下的退火效率比常溫高,且溫度越高,退火效果越好。
“固定位”錯誤的出現是由于數據保存時間小于刷新間隔時間,導致數據不能保持到讀取之時從而出錯。G.M.Swift 等人[3]最早認為DRAM 存儲器中因重離子輻照而產生的“固定位”錯誤是由單粒子柵穿(SEGR)或微劑量(micro-dose)導致的。因“固定位”錯誤可通過退火恢復,L.D.Edmonds 等人以此判斷其是由微劑量或微位移損傷(micro displacement damage)造成的[4-5]。另外一些學者認為導致“固定位”錯誤的機理是總劑量效應[6-8]。在此,將討論總劑量效應、位移損傷、微劑量導致“固定位”錯誤的可能性。
1)總劑量效應:總劑量效應是一種累積效應,對器件的影響是均勻的。通過實驗結果來看,發生“固定位”錯誤的單元數量隨著注量的增加而增加,圖2反應了"固定位錯誤"對劑量的敏感性。但“固定位”錯誤的地址分布是離散的,輻照前后器件AC 參數也沒有發生明顯變化。結合之前器件在Co60下做過的總劑量實驗中并沒有觀察到“固定位”錯誤的現象來看,總劑量效應導致“固定位”錯誤這一說法與試驗現象存在矛盾。
2)位移損傷:位移損傷主要是高能粒子導致半導體產生晶格空位(即原子離開晶格位置后所留下的空位),在反偏耗盡層中產生載流子,這種載流子會造成漏電流。在SDRAM 中,晶體管漏極與電容之間的反偏耗盡區會使電容放電,導致數據保持時間減小。通常位移損傷是發生在高能粒子輻照后,然而在試驗中發現,C 離子(LET≈1.73 MeV·cm2/mg)輻照下也有“固定位”錯誤出現,但C 離子的能量不足以造成位移損傷。
3)微劑量:微劑量指單個粒子在其徑跡周圍的局部空間內所沉積的劑量,其作用機理與總劑量效應類似,但帶來的影響是單個粒子的局部影響。其既有與總劑量效應相似的失效數量與劑量相關的特點,又有單粒子效應的隨機性。微劑量與總劑量均勻分布的方式不同,其分布是局域性的。從開關ECC的測試結果可看出,試驗產生的“固定位”錯誤也是離散和局域性的,且“固定位”錯誤的數量與輻射劑量相關。
綜上分析,微劑量產生“固定位”錯誤的推論更符合試驗結果。根據試驗結果,最后推測導致“固定位”錯誤的機理為微劑量。
文獻[4]中的研究結果表明,DDR3 芯片在經過150 ℃下12 小時的退火后,芯片所有“固定位”錯誤消失,芯片恢復室溫后可進行正常工作。從試驗結果可看出,通過退火,“固定位”錯誤會大幅下降,退火溫度越高,“固定位”錯誤數量減少的越快。因此,“固定位”錯誤可以通過退火來減少和消除。
當芯片在宇航環境下出現“固定位”錯誤時,由于不能將其拆卸放入高溫箱退火,也不能對整個硬件系統進行高溫加熱。因此需要一種能夠不拆卸芯片,且只對失效和退化的芯片進行加熱的退火方法來消除“固定位”錯誤。
針對以上問題,可通過3D 堆疊封裝技術,在存儲器芯片下堆疊一個加熱芯片并封裝成一個器件。加熱芯片堆疊在存儲器芯片下方,可以均勻加熱存儲器芯片,且通過控制加熱芯片引腳電壓可以調節加熱存儲器芯片的溫度。由此芯片就能夠在不拆卸的情況下,在器件內部實現退火,而不影響硬件系統的其它器件。
對65 nm SDRAM 存儲器進行重離子試驗,測試SDRAM 開關ECC 的“固定位”錯誤,在不同條件下對SDRAM 芯片進行退火。通過對試驗數據進行統計和分析后可得出:“固定位”錯誤發生的LET 閾值很低;“固定位”錯誤數量與輻照能量和輻照注量呈正相關;“固定位”錯誤的分布是離散的;退火溫度越高,“固定位”錯誤減少得越快。綜合這四點特點,分析總劑量效應、微位移損傷、微劑量等機理導致“固定位”錯誤的可能性,推斷出“固定位”錯誤為微劑量機理所導致。提出在存儲芯片下方通過三維堆疊的方式疊封一個加熱芯片的方法,解決器件在宇航環境中工作不能拆卸和退火維修的問題。