王宇峰,史曉
(中國電子科技集團公司第五十二研究所,浙江杭州 310012)
受美國貿易戰影響,進口處理器的供應已受到嚴重制約,迫使國家加速對國產處理器的自主研究。目前,國內已經形成了飛騰、龍芯、申威、兆芯等具有代表性的自主研制處理器[1-3]。
以國產處理器為基礎的產品,例如工控防火墻[4]、無線氣象采集系統[5]、計算機圖形顯示系統[6]等,已逐步應用于國防、軍事、工業、航天等重要領域,但是對其可靠性問題的研究相對較少。文獻[1]對某型國產處理器的可靠性環境試驗方法與試驗分析開展了研究,文獻[7]針對龍芯計算機內存出錯等常見故障,提出了故障診斷和可靠性增強方法。文中采用FMECA 方法,對飛騰最小系統通用模塊開展分析,并結合實際故障統計數據,歸納總結出飛騰通用模塊中危害性較高的元器件,并提出相應的設計改進措施,為模塊可靠性設計工作提供指導意見。
FT1500A/16處理器具備高性能、低功耗特點[8-9]。文中基于FT1500A/16 處理器,從飛騰最小系統出發,設計一款飛騰通用模塊,可作為通用產品與其他板卡搭配使用,實現數據處理控制功能,具備模塊化、通用化特點,靈活度高,結構獨立、裝拆方便,維修簡易。飛騰通用模塊實物如圖1 所示。

圖1 飛騰通用模塊實物圖
飛騰通用模塊硬件設計說明如下。
1)內 存:FT1500A/16 處理器集成4 個DDR3 存儲控制器。模塊設計時單個存儲通道擴展為9 片內存芯片(8+1 片,其中1 片作為ECC 使用)。
2)電源:模塊采用典型12 V 電源輸入,在板內實現電源轉換。3)時鐘:FT1500A/16處理器的參考時鐘為50 MHz。4)復位:分為上電復位和熱復位,兩種復位信號上拉后,與外部控制器互連,低電平有效。
5)外設:FT1500A/16 包含豐富的外設,該模塊設計對扣插座,實現與其他板卡的信號輸出和互聯,設計各接口用途功能如下。
①2 路UART:一路為應用串口,一路默認調試串口;
②2路I2C:根據需要設計,該模塊目前設計使用1路,用作RTC 時鐘數據通信;
③PCIE:分為PCIE0 與PCIE1,使用時均按照X8使用,其中PCIE1[0:7]接口通過PCIE 轉SATA 接口芯片掛接系統盤;
④LPC:掛接LPC 設備;
⑤GPIO:使用FT1500A/16 處理器中B5、B6 引腳,用于系統關機/重啟指示;
⑥SPI:用于啟動加載片外固件。
FMECA 方法是一種經典通用的可靠性分析方法,已廣泛應用于各行各業各類型產品上[10-12]。通過梳理產品故障模式,分析其故障原因及可能的影響,采用定性或定量的方法,識別產品薄弱環節,并進行針對性改進,從而保證或提高產品可靠性,同時可對測試性、維修性、保障性、安全性等通用質量特性分析提供必要的輸入,為產品研制與維修決策提供有效信息[13-15]。
文中針對飛騰通用模塊,利用工業和信息化部電子第五研究所(廣五所)研發的CARMES 軟件對其開展硬件FMECA 工作,具體步驟如下所示。
1)系統定義,建立基本規則與假設;
2)按照約定層級建立模塊系統樹結構;
3)自下而上開展FMECA 定性分析,填寫故障模式、故障原因、影響等;
4)開展可靠性預計工作,對元器件級進行預計,并向上推導模塊級可靠性值;
5)關聯FMFCA 與可靠性預計值,進行FMECA中的CA 工作;
6)分析FMECA 結果,識別薄弱環節,提出設計改進建議。
2.2.1 系統定義
依據原理圖、最小系統組成,將飛騰通用模塊功能電路劃分為電源管理電路、信號互聯電路、飛騰核心處理電路、DDR 存儲電路。其中電源管理電路實現模塊供電功能;信號互聯電路主要由接插件組成,負責通用模塊與外部板卡信號的互聯;以FT1500A/16 處理器為核心的飛騰核心處理電路能夠進行外部數據的接收以及實現核心控制功能;DDR 存儲電路由板上的36 顆DDR 內存顆粒及其外圍電路構成,負責實現與CPU 之間的數據交換處理。依據以上描述,繪制其功能框圖,如圖2 所示,其基本可靠性模型為串聯模型。

圖2 飛騰通用模塊功能框圖
2.2.2 基本假設與約定
1)約定層次
該方案劃分其初始約定層次為飛騰通用模塊,最低約定層次為元器件級。
2)嚴酷度類別及定義
分析中采用的嚴酷度分級定義如表1 所示。

表1 嚴酷度類別表
2.2.3 分析結果
通過CARMES 軟件完成模塊的FMEA 分析與CA 分析,得到危害性矩陣圖與產品危害性較高的元器件,分別如下所示。
1)危害性矩陣圖
飛騰通用模塊危害性矩陣圖如圖3所示,圖中編號對應的故障模式名稱如表2 所示。在危害性矩陣圖中,越靠近右上角的故障模式,表示其危害性越大,因此危害性最高的故障模式為全部功能失效,需重點關注。

表2 故障模式編號名稱

圖3 模塊危害性矩陣圖
2)元器件級產品危害性排序
對元器件級產品危害性排序,危害性較大的排名前10的元器件如表3 所示。

表3 元器件級產品危害性排序
2.2.4 設計改進措施
針對飛騰通用模塊全部功能失效這一關鍵故障模式,分析其故障原因后,發現該故障模式主要由復位、電源、上電時序、DDR 數據、時鐘等故障導致,與此相關的元器件為DDR 芯片、飛騰處理器、接插件、電源芯片以及關鍵阻容,與危害性較高的元器件高度重合。綜上對于飛騰通用模塊,提出設計改進措施建議,具體措施如下:
1)軟硬件設計方面
電源部分設計充分考慮了輸入和輸出保護,包括防浪涌設計、尖峰抑制、防反接保護、防倒灌設計等設計措施,同時對電路中的關鍵阻容感采取冗余設計;在信號互聯電路中,對于復位信號、電源使能信號與電源反饋信號等關鍵信號,接插件設計多點多線方式;對于飛騰核心電路中的關鍵阻容感,例如飛騰復位信號上拉電阻、PCIE1 與系統盤連接鏈路中的耦合電容、晶振供電濾波磁珠等,選用高等級器件,并采取冗余設計、降額設計等設計措施,提高其可靠性水平。
飛騰通用模塊軟件上增加ECC 校驗,減少數據傳輸錯誤,并增加心跳包信號,利用監控電路檢查處理器是否正常工作。
另外,基于飛騰處理器平臺,可以采用板級管理控制器(Baseboard Management Controller,BMC)[16]來實現電源控制、外掛設備等的管理,能夠對模塊內電壓、溫度進行監控,同時通過BIOS 固件,對模塊進行初步故障診斷。若內存出現故障,通過BIOS 診斷程序可定位到哪顆內存顆粒出現故障。
2)PCB 設計方面
在PCB 布局方面,飛騰等大功耗高熱流密度器件單獨放置于印制板的特定區域,且盡可能靠近模塊與機箱的導熱面;DDR 等普通功耗器件均布置在印制板正反面,有效利用印制板面積;電源模塊等熱敏感器件盡可能避讓大功耗器件布置。
PCB布線方面,對于DDR芯片,DDR數據線、DQS、DM做到同組同層,且組內做等長;DDR 地址及控制線、clk 走線遵循Fly-by 拓撲,組內做等長;DDR所有走線都參考完整地平面,不跨分割走線。
將以上設計措施應用于飛騰通用模塊,在設計階段對模塊較高風險的故障模式加以控制以降低其影響,對以飛騰通用模塊為基礎的產品使用反饋,產品在外場使用因飛騰通用模塊導致的故障情況比較少。
文中針對以FT1500A/16 處理器為核心的飛騰通用模塊,基于CARMES 軟件,開展了FMECA 工作,通過定性定量分析,得到模塊危害性較大的故障模式,并統計出危害性較高的元器件清單。同時針對其故障原因,在軟硬件設計、PCB 設計等方面給出設計改進措施,作為飛騰通用模塊電路優化和元器件選擇的理論基礎,為其質量和可靠性的提高提供寶貴經驗,在一定程度上提高了飛騰通用模塊的可靠性、測試性水平。
在國產處理器可靠性研究方面,例如測試性建模、熱振仿真、故障物理等方面,仍有很多工作有待于開展,通過對國產處理器的可靠性研究,可為提升國產處理器性能的可靠性水平提供依據。