張文昌,劉海鵬,于功山,范志超
(1.浪潮電子信息產業股份有限公司,山東 濟南 250101;2.軍委裝備發展部軍事代表局駐天津地區軍代室,天津 300000;3.山東天岳晶體材料有限公司,山東 濟南 250101)
Intel M4平臺CPU服務器的平均無故障間隔時間為 26 280 h(MTBF≥ 26 280 h),而 Intel M5平臺CPU服務器的MTBF不低于43 800 h。可見,Intel M4平臺CPU服務器的MTBF值不能滿足設計要求。因此,對服務器的可靠性增長進行研究,對于通信系統服務器設備的設計、生產和運維具有重要意義。
服務器設計要求:MTBF不低于43 800 h。
服務器系統可靠性模型為串聯模型,如圖1所示。
常用的評價可靠性指標的參數是平均無故障間隔時間,即用MTBF。
若服務器的累計觀測工作時間為T,觀測期間累計故障數為r,則服務器的MTBF可采用式(1)進行預計:

服務器的壽命服從指數分布,故MTBF與故障率λ有如下關系[1]:

服務器可靠性技術要求MTBF≥43 800 h,由MTBF=1/λs可知,服務器故障率為λs=2.28×10-5次 /h。

圖1 服務器系統可靠性框圖
2.2.1 CPU
CPU是服務器的關鍵部件之一,由數量眾多的晶體管組成的超大規模集成電路,控制著服務器系統的運行。Intel推出的M5平臺CPU環境適應性強,工作可靠。廠商硬件工程師提供M5平臺CPU平均無故障間隔時間不低于2 000 000 h,由式(2)可知λ1=0.05×10-5次 /h。
2.2.2 MEM(內存)
選取Intel公司推出的M5系列處理器搭配的DDR4內存,每個時鐘的上升/下降沿進行8 bit數據存取操作,16 bit預取技術,有效提高了內存的可靠性。廠商硬件工程師提供內存平均無故障間隔時間不低于6 100 000 h,由式(2)可知,λ2=0.016 39×10-5次 /h。
2.2.3 硬盤
硬盤是服務器的存儲部件,設計時采用了降額設計,選用企業級品質硬盤。廠商硬件工程師提供硬盤平均無故障間隔時間不低于2 000 000 h,由式(2)可知,λ3=0.05×10-5次 /h。
2.2.4 硬盤背板
硬盤背板是連接硬盤和數據線纜的部件,設計時采用了降額設計,選用企業級元器件,并經高溫老化篩選和三防處理。硬件工程師預計硬盤背板平均無故障間隔時間不低于500 000 h,由式(2)可知,λ4=0.2×10-5次 /h。
2.2.5 PSU(電源)
PSU為服務器供電,設計時采用了降額設計,選用企業級元器件,并經高溫老化篩選和三防處理。硬件工程師預計PSU平均無故障間隔時間不低于350 000 h,由式(2)可知,λ5=0.285 7×10-5次/h。
2.2.6 風扇
風扇是服務器散熱的動力源,設計時采用了N+1冗余設計,選用企業級品質風扇。硬件工程師預計風扇平均無故障間隔時間不低于187 125 h,由式(2)可知,λ6=0.534 4×10-5次 /h。
2.2.7 RAID卡
RAID卡是存儲模塊的控制核心部件,設計時采用降額設計,選用企業級元器件,并經高溫老化篩選和三防處理。硬件工程師預計RAID卡平均無故障間隔時間不低于873 402 h,由式(2)可知,λ7=0.114 5×10-5次/h。
2.2.8 MB(主板)
主板是服務器的關鍵部件之一,設計時采用了降額設計,選用企業級元器件,并經高溫老化篩選和三防處理。硬件工程師預計主板平均無故障間隔時間不低于200 000 h,由式(2)可知,λ8=0.5×10-5次/h。
服務器總故障率=λ1+λ2+λ3+λ4+λ5+λ6+λ7+λ8=1.750 99×10-5次/h;服務器平均無故障間隔時間MTBF'=1=571 11 h,是上限值43 800 h的1.3倍。服務器可靠性預計值比設計要求有一定的余量,完全滿足設計要求。
通過分析可知Intel M5平臺CPU服務器的可靠性水平較高,能夠滿足質保5年的要求。