李 鵬,劉 凱,辛敏成,趙 楠,鄒田驥,張海濤
(1.中國科學院 空間應用工程與技術中心,北京 100094; 2.中國科學院大學,北京 100049;3.北京國科環宇空間技術有限公司,北京 100190)
硬盤作為數據存儲和傳輸的重要媒介,是航天電子產品中的關鍵重要部件。傳統機械硬盤(hard-disk drive,HDD)受制于機械架構的影響,主軸轉速的提升空間極其有限,并且其活動部件會出現磁頭磨損、介質滑擦、主軸電機故障等可靠性問題,造成使用壽命不足。固態硬盤(solid state drive,SSD)憑借容量大、體積小、速度高、功耗低、無噪聲、掉電數據不丟失、抗振動沖擊、溫度適應范圍寬等優勢,在航天領域得到廣泛應用,數量可觀,地位重要[1-2]。據統計,僅2016年,全球SSD的出貨量就超過1.3億塊,總容量約為50艾字節(260字節)。隨著越來越多的數據存儲在SSD中,尤其是隨著我國載人航天工程空間科學、空間應用的發展需求,對空間應用大容量存儲單元的功能性能要求越來越高,同時提出了低功耗、長壽命和低成本的可靠性要求,因此研究其空間環境可靠性水平變得至關重要。
截至2017年年底,關于SSD可靠性的研究大多數局限在實驗室少數芯片綜合工況試驗,采用的辦法通常基于固態技術協會(JEDEC)標準,通過反復讀寫循環加速磨損達到加速考核的目的。JEDEC在2008年聯合硬盤用戶、SSD生產商、NAND生產商聯合制定發布了SSD鑒定標準JESD218和JESD219,詳細規定了SSD壽命測試及數據保持測試規范[3-4];Mielke等人針對SSD可靠性的爭議問題,闡述了如何通過合理設計規避NAND失效機理以提升SSD可靠性,還論證了如何依據JESD218規范以及其他基于NAND故障物理的方法,運用實驗室試驗手段開展SSD全壽命周期可靠性驗證[5];Schroeder等人回顧了近兩年Facebook、Google、Microsoft三家公司的數據中心實際應用SSD類產品的失效報告,分析了NAND閃存SSD在批量化生產、現場使用工況下的可靠性問題,指出了目前學術界及工業界在實驗室試驗和某些基本假設上的不合理之處[6];Compagnoni等人對NAND閃存技術的發展進行綜述,著重介紹了NAND閃存主要性能參數的演變,解釋了NAND閃存逐步侵蝕機械硬盤的市場份額,發展成為最重要的非易失性數據存儲集成解決方案的要因[7];Boyd等人為探究SSD相比于HDD的發展前景,提出了一種量化閃存生產過程環境影響的NAND閃存壽命周期評估方法,涵蓋了150、120、90、65和45 nm等5代產品[8]。
目前我國對SSD的空間環境效應、失效機理模式、地面模擬試驗方法和加速試驗技術等幾個方面所開展的系統性研究還不多,尚未完全掌握SSD空間環境性能參數的變化規律,對SSD失效模式和失效機理不清,缺少相應的空間環境性能和可靠性指標。以至于在航天器的可靠性設計中,只能基于經驗對SSD采取冗余設計、降額使用,或增加空間環境地面模擬試驗項目,限制了設計水平的提升。
為分析NAND閃存SSD的空間環境效應,奠定后續商用SSD空間應用的可靠性評估研究基礎,本文設計了一套可覆蓋熱循環、熱真空、空間輻射等典型空間環境效應的SSD試驗系統,實現了參數自動監測,數據采集、處理、圖形化顯示、存儲、回放等功能,可監測批量SSD的SATA接口供電電壓、電流、平均和實時讀/寫速率、平均讀/寫響應時間、寫入數據量等性能參數,并定期檢查記錄SSD的磁盤容量情況,還能調節測試策略(讀寫比例、數據包大小、訪問模式),控制供電電壓。
基于NAND閃存的SSD的基本功能是通過標準SATA接口與主機系統進行數據存儲與交換,主要由主控芯片、緩存芯片、NAND閃存芯片、電源芯片和SATA接口組成[9],如圖1所示,主控芯片作為支持SSD的定制化微處理器,負責NAND閃存與主機間的通信傳輸;緩存DRAM作為主控的工作內存,并運行固件;NAND閃存包含多塊NAND芯片,主要用來存儲數據,占據了印制板大部分空間;電源芯片處理5 V直流電壓,為各功能單元供電。SATA接口為SSD與主機間數據和電源交互的接插件[10]。SSD的基本工作原理是:SSD通過SATA接口與計算機相連,數據和電源通過SATA接口分別接入主控芯片和電源芯片,電源芯片將電源降壓后向各功能單元供電;主控芯片將數據進行邏輯地址和物理地址轉換后,分配到各NAND閃存上進行讀寫操作,主控芯片與閃存之間的數據交互緩沖由緩存芯片完成,如圖2所示。

圖1 Intel S3500系列SSD開盒后芯片及器件全貌Fig.1 Intel S3500 series SSD with case removed and notable components identified

圖2 SSD基本結構框圖Fig.2 Basic structural diagram of SSD
SSD的主要工作性能指標可以用工作電流、讀寫速度以及壞塊數量來進行表征。
1)工作電流
工作電流包括寫入電流和讀取電流,主要取決于環境條件、操作平臺(計算機CPU、接口類型等)、讀寫數據包大小、閃存狀態等因素。工作電流不僅可以表征SSD穩定工作的能力,還能反映其連續工作時性能的漂移特性和退化特性,是進行可靠性分析的重要數據來源。
2)讀寫速度
SSD具有順序和隨機2種讀寫方式。順序讀寫方式主要用于傳輸大量連續數據的工況,該方式的關鍵衡量指標是數據吞吐量,其單位為MByte/s;隨機讀寫方式主要用于頻繁傳輸小文件的工況,該方式的關鍵衡量指標是單位時間(一般為每秒)內系統能處理的I/O請求數量(input/output per second,IOPS)。SSD的讀寫速度主要取決于環境條件、操作平臺、讀寫數據包大小、閃存狀態、內部算法等因素,反映了其是否故障的狀態。
3)壞塊數量
在對SSD進行讀寫操作時,閃存中的某些塊在數據寫入或擦除過程中會產生無法校正的錯誤,此時主控芯片將這些塊標記為壞塊,不再對其進行讀寫操作。SSD的壞塊數量主要取決于環境條件、讀寫負荷、閃存狀態等因素。當SSD長期執行數據讀寫和擦除后,隨著無法校正錯誤的增加,其壞塊數量也將會增加,這反映了SSD長時間工作的性能特征變化。
工業界對SSD可靠性及故障的研究主要集中在硬盤故障、無法校正的錯誤、靜態錯誤等3個方面。其中硬盤故障定義為硬盤功能失效或者性能衰退至用戶不再使用;無法校正的錯誤定義為當主機發出讀取指令時,硬盤響應為數據不可恢復的信號;靜態錯誤定義為當硬盤向主機發送損壞數據時,未出現報錯信號。根據SSD的故障模式及影響分析(FMEA)結果,常見的SSD故障主要有3類:
1)NAND閃存單元故障,包括原始比特錯誤(raw bit error)、寫入錯誤(program error)、讀取干擾(read disturb)、數據保持發生錯誤(data retention error)等。閃存有天然的數據比特翻轉率,大部分失效機理可歸因于氧化層陷阱效應,因為SiO2薄膜中的不完全原子鍵,例如隧道氧化物,可以捕獲負電荷或正電荷。
2)其他集成電路故障,例如金屬互聯絲腐蝕、制造缺陷、輻射軟失效等。JESD122H標準中列舉了集成電路常見的15種失效模式,主要是磨損失效。可以通過加速試驗的方法預計集成電路的正常壽命。
3)固件與裕度設計故障,無法進行加速試驗設計,須采用仿真或大樣本試驗進行驗證。
SSD在壽命周期內需要經歷地面環境、發射環境、空間環境和工作環境。地面環境包括在地面運輸過程中所受到的振動、沖擊環境,在貯存期間所經歷的溫度、濕度環境;發射環境包括運載器發射時產生的振動、沖擊、噪聲及加速度等環境;空間環境包括真空、高低溫(交變)、微重力,以及電磁環境和空間高能粒子輻射等。本文所研究的空間環境聚焦SSD在軌工作應力,具體可分為空間環境應力、工作應力和平臺環境應力3類[11]。
空間引力場造成的失重,空間電磁干擾對SSD的影響不大;空間光輻射僅對材料造成老化、鍍層損傷;等離子體引發的充電放電通常作用于航天器表面包覆材料、涂層,而艙內的SSD多位于機箱內,且有外殼保護,故等離子體對SSD內部芯片的影響可忽略不計;微流星體和軌道碎片造成的微振或沖擊,以及平臺的微振會使接插件接觸表面產生微小的相對運動,造成微動磨損和微動疲勞,引起鍍層剝落、接觸點斷裂等,但可通過防護設計減少此類失效。因此,溫度、真空、粒子輻射、供電環境、工作頻率是影響SSD可靠性的主要因素。
1)溫度變化影響
MLC(multi-level cell,多層單元)型閃存顆粒中每個cell需要存放2 bit 數據,即電平要被分為4檔,當電平值漂移時會出現原始比特錯誤,而電平的分布取決于已擦寫次數和溫度。NAND閃存的原始比特錯誤率(RBER)會隨著擦寫次數增加而增加,高溫和溫度循環會造成NAND閃存在工作中讀寫性能逐漸下降,導致SSD無法正常工作,直至失效。
2)真空影響
真空出氣效應會使芯片或電路板表面吸附的氣體從表面脫離,同時,溶解于內部的氣體將從內部向邊界擴散,從而導致芯片物理結構、化學成分的改變,形成微孔、裂紋,使抗振動沖擊性能下降。而且,材料釋放出的氣體重新黏附在其表面,可能會造成表面電阻增大。
3)粒子輻射影響
高能粒子輻射引起等離子體徑跡,產生電荷在徑跡內流動,芯片的寄生器件或薄弱環節被激活,從而造成芯片特性或功能的暫時性或永久性改變,引發位移損傷、單粒子效應、總劑量效應等空間輻射效應。由宇宙射線產生或者封裝材料中微量放射性雜質釋放出的高能粒子(高能質子或重離子)擊中集成電路,會引發電路故障,造成輻射引起的軟錯誤。而外部粒子輻射電荷積累形成總劑量效應,可能導致芯片的性能漂移、功能衰退,嚴重時造成完全失效或損壞。
SSD需要在供電環境下進行數據讀、寫、擦工作,在軌工作時其受到的工作應力為施加在SATA接口的電流和電壓,以及擦寫操作的次數,即工作頻率。
1)電壓影響
當NAND中存在固有或外部缺陷時,電源芯片、主控芯片、緩存芯片、閃存芯片介質擊穿的概率與施加的電壓呈指數關系[5]。
2)工作頻率影響
擦/寫操作會使隔離浮柵極的電化學鍵變弱,絕緣層效果變差,浮柵極電子容易逸出,致使NAND芯片上電壓升高,因此頻繁擦寫會增加芯片故障發生的概率。
SSD安裝在艙內,在軌工作會受到系統平臺和艙內其他元件的影響,包括平臺微小振動、其他元件的電磁干擾等,造成如插接件接觸不良、開路/短路等。
根據SSD的結構、材料和功能,以及空間環境效應的分析結果,初步確定可能影響SSD可靠性的敏感應力源為溫度、真空、粒子輻射、電壓和工作頻率。因此為開展相應空間環境地面模擬試驗,分析各敏感應力變化對芯片性能特性的影響,以及綜合應力下芯片性能特性隨時間的變化規律,為商用SSD的空間應用提供可靠依據,同時考慮試驗可行性,應開展溫度、輻照(總劑量效應、單粒子效應)、熱真空等3類試驗,且均同時施加電壓和工作頻率應力。
整個測試系統基于工業加固硬件和商用測試軟件,其核心是1塊加固型主板,主板上提供4個標準SATA接口。主板運行Windows桌面系統,使用開源的商用測試軟件Iometer,通過SATA數據接口監測SSD平均讀/寫速率、實時讀/寫速率、平均讀/寫響應時間、寫入數據量以及容量等性能參數。通過電源內置的監測模塊Keysight對電壓和電流進行記錄,數據通過以太網導入主板中,由軟件進行讀取。
試驗系統主要包括測試機、SSD、測試機電源、程控電源、外接設備以及相關線纜。在開展溫度試驗或輻照試驗時,系統架構如圖3所示,只有待測SSD置于試驗環境中,程控電源、測試機電源,測試機及其鍵盤、鼠標、顯示器等外設均位于試驗環境外。在開展熱真空試驗時,測試機和SSD置于試驗環境中,程控電源、測試機電源以及測試機的鍵盤、鼠標、顯示器等外設位于試驗環境外,系統架構如圖4所示。

圖3 溫度試驗或輻照試驗系統架構Fig.3 System diagram for temperature testing or space radiation testing

圖4 熱真空試驗系統架構Fig.4 System diagram for thermal vacuum testing
測試機選用工業加固型成熟計算機主板,通過電纜從外部電源取電。測試機通過SATA數據接口連接SSD,控制、監測SSD相關性能特性參數。測試機SATA電源接口無法實現對電壓和電流的監測,因此SSD供電采用單獨的供電線,連接到外部的輸出電源,程控電源在試驗過程中通過SATA電源接口為SSD提供可調節電壓5×(1±5%) V,并利用內置功能模塊記錄電壓和電流情況。
為了避免試驗環境對系統的影響,必須對系統采取防護措施。在溫度循環試驗時,由于溫箱側壁有線纜開口,且距離不長,可將測試機放置在溫箱外,通過線纜和內部的SSD連接(建議線纜長度不超過0.5 m),此時測試設備可不受測試環境的影響;在脈沖激光單粒子試驗時,開封后的SSD置于激光脈沖發生器試驗臺上,其他與溫度循環試驗類似;在總劑量試驗時,為避免輻射源對試驗系統的影響,采用鉛磚進行遮擋;在熱真空試驗時,由于需要較長的走線距離,且需要通過專門的密封接插件實現內外部的信號通信,而普通真空罐所用的92芯連接器一般只用于供電和低速通信,SATA接口的高速信號無法引出,因此,測試機需要和SSD一同置于試驗環境內,再將分析處理后的結果通過RS-232低速通信接口引出至試驗環境外。
熱真空環境對測試機的影響主要體現在氣壓和溫度2方面,主板上電解電容等器件在低氣壓時可能損壞,因此擬使用密封盒將主板進行密封隔離處理,密封盒上開走線孔,供線纜穿行,并在走線后對開孔處進行密封處理。另外,在真空條件下主板散熱會受到影響,一旦過熱,主板會自動進行斷電保護。因此,整個測試需要嚴格控制主板工作時間,無法長期持續工作,只能進行間斷測試,每次測試完成后關機,以控制主板發熱情況。
試驗系統軟件由Iometer軟件、SSDTS軟件、Access數據庫3部分集成。其中,Iometer軟件負責部署、執行對SSD讀寫指標的測試,實時將平均讀/寫速率、實時讀/寫速率、平均讀/寫響應時間、寫入數據量等相關數據發送給SSDTS軟件。SSDTS軟件負責接收Iometer軟件發送的SSD讀寫測試數據,執行SSD電壓、電流及硬盤容量測試,以表格及曲線形式顯示實時數據,并記錄至數據庫,便于查詢、管理,同時還支持數據導入導出功能。其主體界面主要包括實時視圖和歷史視圖,實時視圖顯示測試數據及曲線,歷史視圖包括篩選條件和過濾后的數據列表。Access數據庫用于保存SSD測試數據。
試驗系統軟件先基于VS對專業SSD測試軟件Iometer-1.1.0版本進行改版,將實時獲取的SSD讀寫測試數據放至共享內存,再由基于QT5.8開發的SSDTS軟件進行讀取。總體架構如圖5所示。

圖5 試驗系統軟件總體架構Fig.5 Overall software architect for the test system
軟件可設置硬盤工作組、試驗策略;實時監測各SATA接口參數,包括電壓、電流、讀寫速度以及SSD容量等;實現數據實時記錄、分析、圖形化顯示。SSD各參數測試流程分別見圖6~圖8。

圖6 電壓、電流測試流程Fig.6 Flow chart of voltage and current test

圖7 讀寫速度測試流程圖Fig.7 Flow chart of Read/Write speed test

圖8 磁盤容量測試流程Fig.8 Flow chart of disk capacity test
本文基于SSD的故障和空間環境效應分析,從現有的地面模擬試驗技術出發,分析了芯片測試試驗須包含的環境效應,提出了SSD空間環境地面模擬試驗方法,設計了SSD空間環境效應試驗系統,為研究SSD的空間環境可靠性提供了支持,為分析SSD性能特性及其變化規律、建立空間環境加速退化模型、研究加速退化試驗評估方法、探索商用SSD的空間應用可行性奠定了基礎。