John Markoff

位于俄勒岡州普林維爾的Meta數據中心。
想象一下,全球最大數據中心的服務器中,數百萬個計算機芯片存在幾乎無法檢測的罕見缺陷。找到問題所在的唯一方式便是將芯片投入到巨大的計算問題上,這在10年前是無法想象的。
隨著計算機芯片中的微小開關縮小到幾個原子的寬度,芯片的可靠性成為全球各大互聯網企業的另一個擔憂。過去一年,亞馬遜、Meta與Twitter等企業均發生了服務中斷的意外。
中斷的原因多種多樣,編程錯誤和網絡堵塞均在其列。但人們越來越擔憂,即使云計算網絡的規模與復雜性不斷提升,在最基本的層面上,它們仍依賴于計算機芯片。如今這些芯片不太可靠,有時甚至變化莫測。
過去一年,Meta和Google的研究人員均發表了研究報告,描述了原因不明的計算機硬件故障。他們認為,問題并不在軟件,而是在不同公司制造的計算機硬件的某處。對于這篇研究報告,Google拒絕發表評論,Meta也并未回應。
專門研究計算機硬件檢測的斯坦福大學電機工程系教授蘇巴斯·米特拉(Subhasish Mitra)表示:“這些靜默錯誤本質來自底層硬件。”人們愈加認為不易察覺的所謂靜默錯誤就是引發制造缺陷的原因。
研究人員擔心出現罕見的缺陷意味著他們所面臨的是越來越大的計算問題,而這些問題將為系統帶來始料未及的壓力。
十多年前,運行大型數據中心的企業便開始出現系統性問題的報告。2015年的工程期刊《電氣與電子工程師學會會刊》(IEEE Spectrum)中,一組在多倫多大學研究硬件可靠性的計算機科學家報告稱,在Google數百萬臺計算機里,每年有多達4%的計算機遭遇無法檢測的錯誤并因此意外關機。
在一個擁有數十億個晶體管的微處理器中,或在一個由數萬億個微型開關(每個微型開關可儲存一個1或0)組成的計算機內存板中,即使最小的錯誤都會對一個每秒執行數十億次計算的系統造成破壞。
半導體時代初期,工程師們擔心宇宙射線可能會偶爾翻轉單晶體管并改變計算結果。如今,他們憂心的是微型開關本身越來越不可靠。Meta的研究人員甚至認為微型開關會變得更易受磨損,計算機內存或處理器的使用壽命可能比以前普遍認為的更短。
越來越多證據表明,新一代芯片的出現加劇了現有問題。芯片制造商美國AMD半導體公司2020年發布的一份報告顯示,當時最先進的計算機內存芯片可靠性約比上一代低5.5倍。AMD并未對此報告作出評論。
目前,計算機設計師試圖在芯片中添加可自動檢測并糾正不良數據的特殊電路,以修復錯誤、處理硬件缺陷。人們一度認為這種問題極其罕見,然而幾年前,Google的制作團隊便開始報告一些極難診斷、令人抓狂的錯誤。報告中提到,計算錯誤會間歇性出現,且難以復制。
一組研究人員力圖解決這一問題。2021年,他們公布的研究結果表明,由數百萬個處理器“內核”組成的計算機系統支撐著龐大的企業數據中心,而這些數據中心所面臨的新故障大約是以下因素引發的:體積接近物理極限的微小晶體管;測檢不夠充分。
Google研究人員在他們所發表的題為《不算數的內核》(Cores That Don’t Count)的研究報告中提到,要解決這一問題并不容易,他們已花費了相當于幾十年的工程,依然未能找到解法。
現代處理器芯片由數十個處理器內核與可執行分解任務的計算引擎組成。研究人員發現,只有在特定情況下,一小部分內核才會出現不準確的結果。他們認為這是一種偶然現象。某種情況下,只有在計算速度或溫度變化時,內核才會出現錯誤。
Google表示,愈加復雜的處理器設計也是造成故障的其中一個關鍵原因。但工程師們也提到,晶體管的縮小、三維芯片的應用、在特定情況下會產生錯誤的新式設計均為問題的起因。
2021年,在一份類似的報告中,Meta的一組研究人員提到,部分處理器雖能通過制造商的測試,卻會在真正投入使用時出現故障。
英特爾的高管表示,他們已熟知G oogle與Meta的研究報告,正在與兩家企業合作開發檢測與修正硬件錯誤的新方法。
英特爾數據平臺事業部副總裁布萊恩·喬根森(Bryan Jorgensen)表示,研究人員作出了準確的判斷,他評價道:“他們對行業提出了正確的挑戰。”他提到,英特爾最近起步了一個為數據中心運營方開發標準開源軟件的項目。針對芯片內置電路所無法檢測的硬件錯誤,這種軟件可以做到檢索與修復。
關于如何應對這一挑戰,一個普遍的觀點是需要開發一些能主動監測硬件錯誤的新型軟件,讓系統操作員能及時移除退化的硬件。對于為數據中心開發底層芯片質量檢測軟件的初創企業而言,這是一次新機遇。
位于美國加利福尼亞州洛斯加托斯的TidalScale為企業開發專門的軟件,將硬件中斷的風險最小化。公司首席執行官加里·斯默登(Gary Smerdon)表示,TidalScale和其他企業一樣,都面臨著一個嚴峻的挑戰。在他看來,這就像在飛行途中更換飛機引擎一樣困難。
3654500338251