


本文刊載于美國洛斯-阿拉莫斯國家實驗室刊物《國家安全科學》2012年2月刊。文童認為,隨著微電子技術的發展,微芯片上集成的晶體管數量持續地按照摩爾定律翻倍增長,由宇宙射線產生的中子帶來的單粒子翻轉威脅將越來越嚴重,甚至有可能使摩爾定律走向終結。特別是目前軍用裝備中使用民用現成產品的趨勢越來越普遍,如果沒有在設計上對此進行充分的考慮,并采取必要的冗余措施,很可能會引發意外事故。
1駕軍用C-141B“運輸星”飛機正在日本海上空11000米的高度飛行,機上載有100多名士兵,忽然由宇宙射線產生的一顆以接近光速運行的中子擊中了飛機,此時,飛行員突然感覺到什么地方出了問題,而且是非常嚴重的問題。因為飛機突然向右側滑,眼看著就要失去控制……究竟發生了什么?難道一顆比原子還小的粒了會造成這么大的問題嗎?回答是肯定的;飛機受到中子撞擊后,飛行控制儀上的某個微芯片就可能失靈,并發出錯誤指令。中子就像幽靈一樣,能夠神不知鬼不覺地穿透物質。在飛機巡航高度,每秒鐘就有大約2400個這樣的中子穿入1平方米大小的飛機表面,它們穿越乘客,穿越座椅,穿越機載電子設備,然后又從飛機的另一側穿出,其間如果一顆高能量中子與機載電子設備晶體管中的硅原子核迎頭相撞,后果將會怎樣?
中子威脅
20多年來,軍用、民用航空航天工業以及計算機行業就已經認識到,流過大氣層的高能量中子能夠導致計算機出錯,即所謂“單粒子翻轉”。雖然這種出錯僅僅是“軟”出錯,不會對計算機造成永久性損害,但計算機內存中的一個數位就會突然發生改變,或者,某個邏輯電路就會產生錯誤的結果,從而導致應用程序暫停或崩潰。故障的元兇正是中子與原子核的迎頭相撞。撞擊產生電荷,電荷又導致某個晶體管從關閉狀態轉入開啟狀態,而晶體管是分布于微芯片表面的集成電路的基本單元。
微芯片單粒子翻轉的發生率與每秒鐘到達芯片的中子數量(即“中子放射密度”)是成比例的。在大氣層中,中子密度隨著高度的增加而增加,直至18300米。之后,中子密度就穩定下來。單粒子翻轉發生率亦是如此。例如,當高度為9100米時,中子密度與單粒子翻轉發生率均為海平面的300倍。不幸的是,由于中子的穿透力非常強,還無法找到保護機上關鍵設備的可行辦法。因此,軍方和航空界想出了各種補救辦法。
如果單粒子翻轉發生于人工駕駛飛機的飛行控制儀上,飛行員可以糾正飛行控制儀的錯誤。還有更好的辦法,那就是采取三重模塊冗余(TMR)措施,讓控制儀上的集成電路自動糾錯。在TMR冗余模塊中,每個電子電路中的信號會與來自另外2個同樣電路的結果進行比較。通過比較,出錯電路產生的結果將被“否決”。簡單地說,錯誤信號還沒有來得及從控制儀發出,另外兩個電路就以“2票”對“1票”的優勢壓倒了它TMR對于飛行控制儀及依賴微芯片的其他關鍵儀器來說效果一直很好。但是,從成本、時間、給飛機增加的重量以及占用的空間來看,TMR措施代價高昂。所以,人們直到不久以前還一直認為,TMR設施對于成像裝置和數據處理裝置等不那么關鍵的功能來說太不經濟。
每塊微芯片的單粒子翻轉發生率取決于3個因素的共同作用:即中子密度,每個晶體管對中子引發的單粒子翻轉的內在敏感性以及微芯片上的晶體管數量。假設在某一飛行高度,擁有一定晶體管數量的某個微芯片的單粒子翻轉發生率是每1000小時1次,且使用中的微芯片數量為100個,那么,在這一高度,每10個小時,其中的一個微芯片就會發生一次單粒子翻轉。換句話說,飛機飛得越高,晶體管對中子的敏感性就越強;使用的微芯片數量越大,單粒子翻轉的發生率就越高。
中子威脅到底有多大?
今天,軍方對中子威脅的擔心越來越大,因為基于機載微芯片的儀器數量正在飛速增加。例如,在伊拉克戰爭和阿富汗戰爭中,大批基于微芯片的非定制電腦和成像儀被安裝到監視飛機和其他軍用飛機上,用以搜集至關重要的戰場信息。有些飛機在北極上空以高達18000米的高度飛行,整個北半球盡收眼底。而在那樣的高度,中子密度大約是海平面的2000倍。
飛行高度較低的其它飛機能夠為士兵們提供他們即將進入的街道和居民區的實時圖像。軍方情有獨鐘的是,將飛機所搜集到的信息當場進行處理,然后快速下傳給地面的士兵。然而,在過去5年里,在海平面這一高度,最新型現成儀器上每塊芯片的單粒子翻轉發生率迅速提高,因為晶體管的體積變小了,每塊芯片上的品體管數量增加了。現在,單粒子翻轉的風險是不是太高了呢?與增加的成本相比,補救措施劃算嗎?在設備投入使用之前,怎樣對風險進行測算?
面臨這一難題的不僅是軍方。在我們的數字世界里,與航空電子設備上所使用的相同的微芯片隨處可見,如銀行、運輸、醫藥、通訊、娛樂及其他行業所使用的地面民用系統。這些微芯片對于胰島素監視儀、GPs(全球定位系統)觸發的應急救援系統、防抱死剎車系統、智能剎車燈、智能手機、越來越逼真的電子游戲、高級音響系統以及預報天氣和核武器性能的超級計算機來說,都至為關鍵。
摩爾定律會終結嗎?
單個晶體管越來越小是數字世界演進的唯一驅動力。晶體管的面積每縮小一半,每塊微芯片的晶體管數量就增加1倍,芯片的性能(每秒鐘的運行次數)也就提高1倍。在過去40年里,晶體管的面積每兩年就縮小一半,芯片性能也是每2年就提高1倍,這就是“摩爾定律”。由于晶體管的體積越小,其裝配成本就越低,晶體管就能以更低的電壓運行,因此,性能提高所增加的成本是有限的。所以,產品的數量越來越多,使用的微芯片數量也越來越大。難怪摩爾定律被人們稱為經濟增長的引擎。
然而,摩爾定律可能走向終結,很大程度上是因為來自中子的威脅。人們總想把晶體管做得越來越小,這就導致晶體管對單粒子翻轉的敏感度越來越高。如果晶體管上還裝配了尺寸為65納米或不足65納米的亞元件,其敏感度會更高。如果亞元件的尺寸只有65納米或更小,每塊芯片上的晶體管數量可能多達數十億個,而開啟晶體管所需的關鍵電荷卻很低。既然由中子撞擊硅核子所產生的小得多的電荷就能導致單粒子翻轉,單粒子翻轉的發生率也就急劇增加了。
洛斯·阿拉莫斯國家實驗室情報與宇宙研究處的希瑟·奎恩是研究星載和機載電子數據系統可靠性方面的專家她警告說,我們的社會自動化程度越高,每片裝配數十億個晶體管的高級微芯片的數量越多,沖子威脅問題就越嚴重。
應對中子威脅
今天,人們普遍認為,中子輻射已經成為限制高級電子設備可靠性的主要因素。嚴酷的事實使芯片制造商和用戶都認識到,為了避免設備故障,必須事先測定中子造成的影響,因為它所引發的設備故障不僅危險,而且代價高昂。波音足最早發現這一問題的公司之一。20世紀90年代初,波音公司十分擔心其新型777商務客機上即將安裝的電子設備的可靠性,因此必須找到一種測試中子引起的設備故障的快捷方法。但是,怎樣才能對風險進行量化呢?哪里可以進行這種量化呢?
波音公司的尤金·諾曼德知道,洛斯·阿拉莫斯國家實驗室中于科學中心的武器中子研究設施的中子束,是世界上密度最高的高能量中子源,那里的中子束具有與大氣層中的中予輻射相同的能譜(不同能量中的中子數量)。諾曼德與武器中子研究設施的史提夫-溫德主任取得了聯系,要求研究中心允許波音公司將它的電子設備放到該中心的中子束中去測試,以模擬出大氣層中子能譜對電子設備的輻射量。這樣,波音公司就能對中子引發的電子錯亂及其在新型飛機上的相對發生率進行研究。使用武器中子研究設施提供的測試服務后,波音公司就能對某一設備在大氣層的中子風險進行評估,而不用一次又一次地跑到各家單一能量中子源去測試,然后再通過理論估算的方法測算出其他中子能的數據。
溫德還指出,武器中子研究設施的中子束密度比大約3萬英尺高度的中子密度高出100萬倍。這就是說,被武器中子研究設施的中子束輻射1小時所產生的單粒子翻轉數量,相當于在正常巡航高度被輻射100年。于是,溫德開始與波音、霍尼韋爾、LSI(半導體存儲與網絡巨頭)公司的人員一道開發武器中子研究設施的一條中子束測試線,作為測算由大氣層中子輻射所引起的單粒子翻轉發生率的第一家一站式測試車間。這條測試線后來逐漸成為全世界用來測算中子引起的單粒子翻轉風險的最佳用戶設施。
芯片輻射與電子設備實驗室
芯片輻射與電子設備實驗室現已成為全球電子設備和航空電子設備行業的圣地,造訪者既有芯片制造商,也有用戶產品公司。
在軍事領域,(美國)國防部已要求奎恩將計劃安裝在軍用飛機上的電子元件放到芯片輻射與電子設備實驗室的中子束中去接受中子輻射,以測得中子引起的單粒子翻轉的發生率。雖然軍用飛機的總體壽命為20~30年,但機載電子設備的更新周期為5~10年。國防部希望能夠提高每塊芯片的靈活性和功能范圍,而以今天的科技水平,要提高芯片的靈活性和功能范圍就意味著電子設備采用的晶體管元件最小要達到28納米,并且更多地采用實地可編程的門陣列(EPGAs)。所謂門陣列就是可以用上傳的新程序指令比特流進行遠程重新編程的芯片。有了實地可編程門陣列,國防部就可以在突然出現新的威脅時,對在中空飛行的飛機的任務重點進行更改。
在芯片輻射與電子設備實驗室,奎恩不僅要對電子元件進行測試,還要對可能采取的補救措施進行測試。如果元件對中子引起的閉鎖(這時元件突然大量過電,可能使元件燒毀)有易感性,這些元件就會立即被淘汰。如果元件只是對“軟”(非毀滅性的)出錯(如單粒子翻轉)有易感性,這樣的元件往往還有挽救的余地。奎恩會根據不同的測試結果,建議對元件進行重新設計,或者采用糾錯軟件,或在元件中內置冗余組件,如采取TMR措施。
對芯片輻射與電子設備實驗室的需求日益增長
全世界現有5個中子源能夠模擬大氣層中子的影響,其中,芯片輻射與電子設備實驗室是美國唯一的中子源。據電氣與電子工程師學會(IEEE)主辦的《核科學學報》最近刊登的一篇文章介紹,芯片輻射與電子設備實驗室的測試結果是最接近實際情況的。
除飛機制造商和國防部外,還有許多行業利用芯片輻射與電子設備實驗室對它們所生產的新產品進行測試。汽車行業標準規定,如果汽車電腦中微芯片的內存超過一定的量,汽車電腦系統就必須接受中子輻射影響測試。代表約300個電子設備制造商和用戶的聯合電子設備工程理事會在其公布的內存件測試標準中表示,武器中子研究設施是進行中子引起的單粒子翻轉加速測試的“首選設施”。英特爾等芯片制造商正在研發新型晶體管,它體積小,不僅能在低電壓運行,而且能夠承受足夠大的電荷沖擊,從而可以抵消中子的影響。為了對新型晶體管進行測試,英特爾等制造商要求在芯片輻射與電子設備實驗室進行長時間的測試。
為了滿足日益增長的需求,洛斯·阿拉莫斯國家實驗室的管理機構、洛斯·阿拉莫斯國家保安公司,LLC公司已經為芯片輻射與電子設備實驗室投資建設第二條中子束測試線。新測試線應于2012年建成。高科技產業希望摩爾定律能夠在今后10年中繼續管用,因為在今后10年,晶體管亞元件的體積將從45納米縮小到4.5納米,從而使晶體管對中子威脅更加易感。
為使系統對中子引起的出錯以及設備的差異性更具耐受性,研究人員正在設想采取更加有效的補救措施,這些補救措施將涉及系統的每個層面——從軟件應用和操作系統到單個電路元件。“不能指望這個問題很快就能解決,解決這個問題必須分清輕重緩急。”國際商用機器公司(IBM)研究員卡爾·J·安德森在最近發表的一份關于跨層面可靠性的研究報告中這樣說。安德森進行的這項研究由國家科學基金贊助。對中子威脅的上述解決辦法都必須得到檢驗。毫無疑問,洛斯·阿拉莫斯國家實驗室中子科學中心將扮演重要的角色。