John Markoff

位于俄勒岡州普林維爾的Meta數據中心。
想象一下,全球最大數據中心的服務器中,數百萬個計算機芯片存在幾乎無法檢測的罕見缺陷。找到問題所在的唯一方式便是將芯片投入到巨大的計算問題上,這在10年前是無法想象的。
隨著計算機芯片中的微小開關縮小到幾個原子的寬度,芯片的可靠性成為全球各大互聯網企業的另一個擔憂。過去一年,亞馬遜、Meta與Twitter等企業均發生了服務中斷的意外。
中斷的原因多種多樣,編程錯誤和網絡堵塞均在其列。但人們越來越擔憂,即使云計算網絡的規模與復雜性不斷提升,在最基本的層面上,它們仍依賴于計算機芯片。如今這些芯片不太可靠,有時甚至變化莫測。
過去一年,Meta和Google的研究人員均發表了研究報告,描述了原因不明的計算機硬件故障。他們認為,問題并不在軟件,而是在不同公司制造的計算機硬件的某處。對于這篇研究報告,Google拒絕發表評論,Meta也并未回應。
專門研究計算機硬件檢測的斯坦福大學電機工程系教授蘇巴斯·米特拉(Subhasish Mitra)表示:“這些靜默錯誤本質來自底層硬件。”人們愈加認為不易察覺的所謂靜默錯誤就是引發制造缺陷的原因。
研究人員擔心出現罕見的缺陷意味著他們所面臨的是越來越大的計算問題,而這些問題將為系統帶來始料未及的壓力。
十多年前,運行大型數據中心的企業便開始出現系統性問題的報告。2015年的工程期刊《電氣與電子工程師學會會刊》(IEEE Spectrum)中,一組在多倫多大學研究硬件可靠性的計算機科學家報告稱,在Google數百萬臺計算機里,每年有多達4%的計算機遭遇無法檢測的錯誤并因此意外關機。……