淺析計算機硬件技術研究

2022-04-29 00:44:03陳瑜

現代計算機技術與應用 2022年2期

陳瑜

摘要|針對計算機系統中軟、硬件可靠性問題的不同特點，討論容錯技術的最新發展現狀，分析計算機系統中的各種容錯方法，包括傳統的冗余設計、錯誤回卷恢復機制以及當前研究較多的一般化容錯設計方法等，研究目前已有的一些容錯方法在反應延遲、容錯成本、精確量化、異構同步、可靠性建模等方面存在的缺陷以及待解決關鍵問題，并對如何進一步更好地完善和使用這些容錯方法進行總結。

關鍵詞|計算機系統;容錯;冗余;軟件錯誤;硬件錯誤

1??? 概述

容錯技術是指當系統在運行時有錯誤被激活的情況下仍能保證不間斷提供服務的方法和技術。在一些特殊應用場合，如航空航天、國防軍事、核能電力、工業化工、衛生醫療急救等關鍵部門，一次計算機系統錯誤的發生就可能導致不可挽回的巨大損失，在這些關鍵系統的設計中必須采用大量的容錯技術來保證運行中突發的計算機錯誤不會導致整個系統的失效。

計算機系統錯誤總體可分為硬件錯誤和軟件錯誤。隨著集成電路工藝的進步，處理器系統的瞬態故障率 SER 急劇增加且遠遠大于其他故障類型數：

（1）晶體管工作電壓的減小降低了集成電路噪聲容限，使芯片更易受瞬態故障影響;（2）處理器主頻的提高使其故障率增加;（3）集成度的提高使芯片中晶體管數量呈指數性增長，使整個芯片的故障率增加。文獻預測，從 1992 年到

2011 年芯片瞬態故障率將增加 9 個數量級。另一方面軟件在其整個生命周期都無法避免地存在設計錯誤，雖然研究者們已經針對軟件設計錯誤提出了N-version program 等軟件多樣化方法以求減小各版本軟件在表決點處相關錯誤的發生概率，但是在目前軟件成本某些時候已經大大超過硬件成本的前提下，此策略的可行性還存在很大問題。

綜上所述，計算機系統的可靠性研究在提高整個系統可靠性過程中占有舉足輕重的地位。本文旨在對目前已存在的各種針對計算機硬件、軟件錯誤的容錯方法及技術，恢復策略研究熱點的研究現狀進行比較全面的綜合分析，以期為進一步拓展計算機容錯研究范圍，深化研究內容提供借鑒。

2??? 硬件錯誤的容錯方法

計算機硬件錯誤可分為永久性錯誤、瞬態錯誤和間歇性錯誤。永久性錯誤一般由硬件老化、電路短路等原因產生，一旦發生則原定功能失效，必須通過替換元器件來完成恢復;間歇性錯誤處于永久性錯誤和瞬態錯誤 2 種情況之間，表現為瞬態錯誤的發生頻率超過系統可靠性允許閾值范圍;瞬態錯誤在目前的硬件環境及未來元器件繼續高度集成的發展趨勢下正以幾何級數的速度增長，其錯誤數在整個系統錯誤總數中占最大的比重，對整個系統的可靠性影響度也是最大的。

冗余的系統不一定是容錯的，但容錯的系統一定是存在冗余的。冗余方法在容錯策略中被廣泛用來探測、診斷并恢復系統運行時發生的錯誤。按冗余資源的形式不同可以將冗余方法分為硬件冗余、信息冗余、時間冗余、線程冗余等。

2.1 硬件冗余

硬件冗余按照冗余程度不同可以分為部分冗余（例如 CPU 冗余）和完全系統冗余。對于完全系統冗余（以雙系統為例）按照工作方式不同可分為冷備、溫備、熱備以及雙工 4 種工作方式：（1）雙系統冷備：當工作機故障時，未加電的備份機啟動并自動接替工作，對工作機進行故障診斷和維修，待故障修復完畢時，工作機去電變成備用機;（2）雙系統溫備：雙機同時加電，一機工作，另一機處于等待。一旦工作機故障時，系統將進行自動切換，由溫備機接替工作，并對故障機進行診斷和維修;待故障修復完畢時，工作機變成溫備機;（3）雙系統熱備：雙機同時加電，且均處于工作狀態，只是熱備機的處理結果不輸出。一旦值班機出現故障，更改值班機，進行結果切換;待故障修復完畢時，工作機變成熱備機;（4）雙系統雙工：雙機同時加電和工作，處理結果同時輸出，進行比較一致后輸出。

對于故障導向安全性和實時性要求較高的系統，雙系統雙工是首選的工作方式。一般系統依據系統平均故障診斷時間和切換時間的要求可采用其他 3 種工作模式。此外，雙系統中應該規定值班主設備，例如遇到雙工結果都正確的前提下，就由值班機負責輸出。

除上述雙模冗余系統外，目前三模、四模冗余技術也得到了廣泛應用。三模冗余 TMR 輸入信號由完全相同的 3 個模塊分別獨立處理，每個模塊生成一個運行結果交給決策器，由決策器進行判斷并輸出結果。但此類方法的缺點是只能發現單個模塊錯誤且沒有重構策略來修復錯誤模塊，一個可以允許最大Byzantine 錯誤數為 m 的系統的冗余度至少為 3m+1。

在一些對可靠性要求特別高的地方經常采用 NMR（N>3），其基本思路與上述 DMR、TMR 類似，將關鍵部件由功能上相同的 N 個模塊分別獨立完成，并經判斷輸出，由于多個執行單元接收指令以及運行時間上的差異，決策器同步所有的功能單元輸出結果的周期變長，相應的延遲也會增大。

目前硬件冗余技術中基于動態可重構現場可編程門陣列 FPGAs 方法已經成為當前研究熱點，根據抽象層次的不同可分為 2 層：硬件層 Device-Level（DL）和配置層 Configuration-Level（CL）。其中硬件層的目標是在包含錯誤資源的單元池中構建一個無錯的門陣列，當發現錯誤單元后對邏輯門做永久性調整，選擇冗余的單元來代替錯誤單元，因為這種改變直接在硬件層執行，所以 DL 方法一般用在生產制造中，且對于終端用戶工具透明;而配置層 CL 方法則不考慮設備實際的物理結構，而將整個 FPGA 抽象成一個可用單元的資源集合，通常以圖結構的方式出現，一旦電路確定后，從所有可用單元資源中選出無錯的單元使用，由于每次可用單元資源的選擇都要進行錯誤判定，因此 CL 方法可以解決之前未知的新類型單元錯誤問題，但同時需要付出額外的配置時間代價且 CL 方法對于終端用戶工具可見。

硬件冗余方法作為被研究最多、成本最高、提升系統可靠性最有效的方法之一已經有很多研究成果，并已在很多現實場合投入使用。

2.2 信息冗余

所謂信息冗余即在原始數據中附加若干位的冗余信息以達到故障檢測或故障恢復等目標的容錯技術，包括檢錯編碼與糾錯編碼 2 種。檢錯編碼可以自動地發現錯誤，而糾錯編碼具有自動發現錯誤和糾正錯誤的能力。編碼技術常用在信息的傳輸、存儲和處理中，具有代表性的信息冗余編碼方法不僅有常用的奇偶校驗碼 Parity、循環冗余校驗碼 CRC、海明碼及它們的擴展改進版本，還有較近期的 Red-fec Mechanism、Abft、Check-sumedac 等。

信息冗余技術相比其他容錯策略有其獨特的優勢。代價小，僅需要少量額外的存儲字節和計算開銷或少量的額外編碼電路即可，與大規模的系統硬件冗余相比開銷要小得多;速度快：冗余信息一般同數據同在一個時間片處理，檢錯、糾錯動作在處理數據時并行完成避免了錯誤恢復操作帶來的延遲。

2.3 時間冗余

在非硬件冗余、非強實時系統中，可使用時間冗余技術來達到容錯目的。時間冗余的工作方式有 2 種：（1）RS-HW，即在同一硬件上對同一數據在不同時間片執行同一指令集;（2）使用數據延遲設備及表決電路結合，將一次數據處理的輸出結果通過設置不同的延遲大小而復制成多個版本并在表決器處進行比較。

時間冗余容錯技術的關鍵問題在于延遲時間 Tdelay 大小的選擇，即如果延遲時間選擇過大則造成時間開銷增大，從而失去了使用容錯方法來避免發生過大延遲的意義;若延遲時間選擇過小且小于單粒子翻轉 Single Event Upsets（SEUs）的一個脈沖寬度則表決器的輸入的大部分可能是錯誤信息，從而達不到容錯的目的。

2.4 硬件線程冗余

硬件實現的線程級容錯主要應用于如 SMT（Simultaneous Multi-threading）或 CMP（Chip Multi-processing）等多線程處理器在真正的線程級實現容錯，方法的基本思想是在并行多線程平臺上將主線程復制成多份并同時運行，最終比較運行結果來屏蔽 SEUs 錯誤。具有代表性的方法有冗余多線程 RMT（Redundant Multi-threading）用于 SMT 處理器實現容錯，基于 CMP 的容錯稱為芯片級冗余多線程（chiplevel redundant threading，CRT），基于微線程的粗粒度超標量容錯結構 MTB 等。這里以并行雙線程冗余即 leader/follower 結構為例子來進行討論。并行線程冗余容錯方法最初的工作方式是主線程 leader 與副線程 follower 分別獨立執行，在工作時間片內不進行通信，僅比較最終運行結果來實現容錯，各個線程之間有很多關鍵資源存在沖突，如變量存儲隊列（LVQ）、中間結果存儲隊列（BOQ）以及存儲緩沖區（StB）等，由于線程之間互相獨立執行，關鍵資源的競爭將可能導致死鎖或線程不同步而帶來的巨大的延遲。

在最近的關于并行多線程冗余容錯研究的文獻中所體現的共同的主要思想是采用主副線程通信、共享中間結果隊列的方式加快線程執行速度，同時完成容錯。相比其他容錯策略，線程冗余方法所需要的硬件成本較低，主要依靠的運行平臺 SMT 或是 CMP 正在趨于市場化，且由于冗余單位小使得發現恢復錯誤及時、迅速，有很好的實時性。總體來說硬件實現的真正線程級容錯是一種有前途的、可行的和高效的硬件容錯解決方案。

3??? 軟件錯誤的容錯方法

分析一個計算機系統的可靠性，必須要考慮其軟件的可靠性因素，但由于軟件可靠性方面的研究比較困難，大大地落后于硬件方面的研究，目前還沒有確定并且成熟的一套可供工程使用的方式和方法，所以在進行系統的可靠性預計時，往往忽視軟件的失效率。人為的軟件設計錯誤在軟件整個生命周期中都一直存在，這一點已經得到證明。這種設計錯誤，在一定的輸入激勵下將產生一定的故障現象，客觀上很難使用統一的模型對這種思維的結果進行數學的描述。例如，軟件測試可以發現軟件設計錯誤，通過修改軟件的可靠性可以得到提高，但也有可能因為修改了已存在的錯誤帶來了新的錯誤使得可靠性下降，所以軟件可靠性在研究方面有很多地方不夠成熟。這里主要介紹軟件多樣性方法，恢復塊方法以及防衛式程序設計方法，除此之外提高軟件容錯能力亦可以從計算機平臺環境、軟件工程和構造異常處理模塊等不同方面達到。此外，利用高級程序設計語言本身的容錯能力，采取相應的策略，也是可行的辦法，如C++ 語言中的 try_except 處理法、try_finally 中止法等。

故障的恢復策略一般有 2 種：前向恢復和后向恢復。所謂前向恢復是指使當前的計算繼續下去，把系統恢復成連貫的正確狀態，彌補當前狀態的不連貫情況，所謂后向恢復是指系統恢復到前一個正確狀態，繼續執行。N-version programming 方法屬于前向恢復策略。

3.1 N-version programming 方法

N 版本軟件容錯方法的基本思想是各個版本軟件由不同的團隊獨立設計，使用不同的方法，不同的設計語言，不同的開發環境和工具來實現。目的是減少各個版本軟件在表決點上出現相關錯誤的概率。這里的各個版本的軟件設計過程需要遵循這樣幾個原則：（1）總體設計相同，避免錯誤恢復的全局回滾;

（2）多樣化模塊之間統一接口;（3）多樣性封裝，即模塊內部多樣性對外不可見;

（4）保證各個版本軟件設計獨立性。每當有方法調用請求到達管理器處，管理模塊將此次請求分別發送對應于各個版本軟件的相應模塊，由于完成同一功能的各個版本軟件內部實現機制互相獨立可能導致運行時間不一致，則當所有運行結果到達表決點完成錯誤判定和結果輸出。

3.2 恢復塊方法

恢復塊方法采用后向恢復策略。它提供具有相同功能的主塊和幾個后備塊，主塊首先投入運行，結束后進行驗收測試，如果沒有通過驗收測試，系統經現場恢復后由一后備塊運行。這一過程可以重復到耗盡所有的后備塊，或者某個程序故障行為超出了預料，從而導致不可恢復的后果。設計時應保證實現主塊和后備塊之間的獨立性，避免相關錯誤的產生，使主塊和后備塊之間的共性錯誤降到最低限度。驗收測試程序完成故障檢測功能，它本身的故障對恢復塊方法而言是共性，因此，必須保證它的正確性。

3.3 防衛式程序設計方法

防衛式程序設計是一種不采用任何一種傳統的容錯技術就能實現軟件容錯的方法，對于程序中存在的錯誤和不一致性，防衛式程序設計的基本思想是通過在程序中包含錯誤檢查代碼和錯誤恢復代碼，使得一旦錯誤發生，程序能撤銷錯誤狀態，恢復到一個已知的正確狀態中去。其實現策略包括錯誤檢測、破壞估計和錯誤恢復 3 個方面。

4??? 錯誤回卷恢復機制

前文介紹的各種針對硬件錯誤、軟件錯誤的容錯方法其目標均為在系統運行發生錯誤時，第一時間檢測到錯誤信息、定位錯誤位置，并最大可能屏蔽錯誤信息輸出，在不打斷系統正常運行情況下或以最小延遲為代價保證系統依然正確輸出，但無論是何種容錯方法，他們的屏蔽錯誤能力都是有限的，這就需要另外的引入錯誤回卷恢復機制來保證系統在發生無法屏蔽的錯誤后在最小的延遲時間內回歸到正常工作狀態。

討論較多的錯誤回卷恢復方法按照其基于的對象不同可以分為兩大類：基于檢查點的錯誤回卷恢復，以及基于日志的錯誤回卷恢復。所謂 PWD 假設是指，假設所有由進程產生的非決定性事件都可以由一些決定性信息完全演繹，且這些決定性信息可以被記錄在日志中。

所謂全局一致檢查點是指：在全局檢查點中，若某進程的檢查點文件顯示其已接收到一條消息，則必有相應進程的檢查點文件顯示對該消息的發送，故障恢復必須從一個全局一致檢查點開始。任何系統恢復策略的基本原則之一就是將系統由非一致性的狀態恢復到錯誤發生前的一致性狀態。檢查點又分為協同檢查點和非協同檢查點兩類。非協同檢查點允許每個進程自己有最大的自由度來決定何時來設置檢查點，這樣做的好處是每個進程都能在最方便的時候設置檢查點，從而減小全局阻塞設置檢查點模式帶來的開銷;但另一方面這樣做的缺點是：有可能引發多米諾效應，導致大量有用計算丟失而使計算回到最初階段（這是最壞的情況）;非協同檢查點模式可能會生成無用的檢查點（即永遠不屬于全局一致性狀態的一部分），并導致過期檢查點資源回收機制出現異常。

基于日志的錯誤回卷恢復在判斷錯誤發生后使用此錯誤之前最近的檢查點和日志信息完全重新演繹指令執行過程。基于日志的錯誤回卷恢復方法特別適用于頻繁與外界交互且外界操作不可撤銷的應用場合（比如自動提款機已經支付出的錢或者打印機已經打印出的字符等均為不可逆操作），其原因在于信息在交付外界設備執行之前可以由日志記錄的決定性信息將處理過程重復演繹并核查結果，保證了交付信息的一致性。

5??? 一般化容錯方法

雖然不同的應用背景對于可靠性的要求不同（可靠性、成本、反應時間等諸多因素）使得各種容錯策略的設計迥異，研究者們還是在試圖尋找各種容錯設計的最大共同點和更具有一般性、廣泛性的方法，目標是實現可靠性設計的非定制 COTS 與可靠性的可裁剪，下面分別介紹兩個從硬件和軟件不同角度出發的以容錯設計一般化為目標的例子。

文獻中給出了一種容錯軟件設計的一般化結構，稱作 Chameleon，根據可靠性需求可進行不同選擇來動態地達到可靠性可裁剪的目的。整個軟件體系都由對象 ARMORs 來組成，根據功能不同可以將 ARMORs 分為三類：（1）管理模塊 Managers：負責管理其他 ARMORs 對象根據用戶可靠性要求完成容錯策略的選擇和組織;（2）后臺通信模塊 Daemons：允許 Chameleon 訪問網絡中其他節點，提供 ARMOR 的錯誤探測并給出 ARMOR 之間通信的渠道;（3）普通ARMORs：根據應用的可靠性需求提供具體實施方法，比如指令重執、表決、檢查點、心跳檢測等具體解決方法。

整個 Chameleon 軟件結構類似于操作系統的結構組成，內核由執行硬件平臺構成，外圍是商業非定制的一般化操作系統（例如 Linux 等），操作系統之上依次分別為可重構的 ARMORs 框架以及具體 ARMORs 對象和管理執行層，最后是具體的應用層。

軟件 COTS 原則，給出了一種容錯計算機系統設計的一般化體系結構，在最大程度保證容錯策略普適性的同時最小化具體應用的功能特點。根據具體應用的可靠性不同可以對各個可配置層進行不同的配置方案，比如冗余信道、冗余鏈路的冗余度大小、輸入輸出數據整合層的數據核查方案的選擇等。通過配置的改變，系統可以達到可靠性由低到高很大范圍內的自由裁剪。一般化硬件結構 GUARDS 基于所有組件（包括硬件和軟件）COTS 原則，給出了一種容錯計算機系統設計的一般化體系結構，在最大程度保證容錯策略普適性的同時最小化具體應用的功能特點。根據具體應用的可靠性不同可以對各個可配置層進行不同的配置方案，比如冗余信道、冗余鏈路的冗余度大小、輸入輸出數據整合層的數據核查方案的選擇等。通過配置的改變，系統可以達到可靠性由低到高很大范圍內的自由裁剪。

6??? 有待進一步解決的問題

盡管目前計算機系統容錯研究已經取得了一些成果但仍然存在一些薄弱的研究點以及一些關鍵問題沒有得到很好的解決，具體可以概括為以下幾點。

（1）??? 目前的硬件冗余容錯方法研究，雖然可以根據系統結構從總體上使用概率統計方法分析系統的可靠性，但還缺乏廣泛適用的有效方法實現對復雜冗余系統的有效建模、管理和精確量化分析，特別是在各部件可靠度不一致的情況下，建模分析的理論問題尚未解決。另外，硬件冗余實現成本大、功耗大、占用空間大等依然是需要解決的大難題;

（2）??? 對于目前的信息冗余容錯方法來說，絕大部分 ECC 算法對于處理連續位出錯的能力非常有限，而占系統總錯誤比例非常大的瞬態錯誤所導致的內存錯誤通常就是多個連續位出錯的情況。這方面還需要繼續研究發展;

（3）??? 對于時間冗余容錯方法，除了由時間換空間而帶來的較大的延遲外，此類方法還存在對永久性錯誤不敏感的問題;

（4）??? 對于并行多線程冗余容錯方法，冗余線程之間的同步、通信等問題，線程之間的系統資源合理分配避免死鎖問題等目前都沒有得到很好的解決，而且對于在單線程的處理器上引入真正的線程級機制實現容錯人們研究較少;

（5）??? 在軟件冗余方面，對于規模較小、數據處理過程較簡單的小型軟件很難體現軟件多樣性的優勢，而另一方面，如果程序規模過大、過于復雜，一般來說 N 版本軟件的費用也會不菲。目前軟件冗余技術的研究尤其滯后;

（6）??? 對于恢復塊方法來說，用來判斷程序是否安全運行的測試模塊的無錯運行假設是整個系統設計的前提，這個假設本身就存在一定的問題;

（7）??? 防衛式程序設計方法缺乏系統的理論依據，主要依靠程序員自身的經驗是無法進行系統可靠性分析的。

總體來說當前硬件錯誤的容錯研究相對比較全面和深入，不論是理論研究還是實際應用都有了很多成果，但是軟件方面不論是應用軟件還是操作系統方面的容錯研究都明顯不足，事實證明軟件可靠性是一個非常重要的問題，也是一個具有巨大探索價值的研究領域。針對以上所述本文提出了下一步的工作重點。

（1）??? ISO9126 將軟件的可靠性定義為“軟件在特定的條件下，在特定的時間內，與維持其性能水平的能力有關的一組屬性，這組屬性包括控制流結構、數據流結構、數據結構、內部重用度、耦合形式、內聚等影響軟件可靠性的諸多因素。當前所要做的是不僅可對每個屬性單獨進行分析，還應給出一個綜合度量作為諸如可理解性、正確性、可維護性、可靠性、可測試性和實現容易度之類的各種概念的一個指示器;

（2）??? 針對軟件可靠性的建模研究自從 J-M 模型以來，已經有了數百種可供參考的模型，有基于故障間隔的 S-W 模型、L-V 模型，以及基于缺陷計數的Shooman 模型、Musa 模型、G-O 模型、M-O 模型等，但是至今仍沒有一個普遍適用于所有潛在用戶的有效方法，各種模型所表現出的可靠性度量準確性差異很大，沒有哪幾個模型可以被認為在所有情況下都是可靠的。更困難的是到目前為止還沒有什么辦法先驗地判斷出哪些數據集適合于一個具體模型。廣泛開展軟件可靠性模型的分析、評價工作并找出失效數據集合的特征與可靠性模型之間的關聯是解決此難題的關鍵點;

（3）??? 使用冗余軟件模塊技術作為軟件殘留故障的保護是從硬件中得到繼承的，幾乎所有的軟件故障都和設計實現相關聯，而且也可以被復制，復制的故障將導致所有版本的仿真失效，這就是陷阱的影響。盡管已經提出的 N-version programming 方法在一定程度上解決了這個問題，但是如果軟件失效是一致的、關聯的或相似的，問題就變得更復雜了，解決問題的關鍵是構建專門針對冗余軟件的可靠性測試模型，并可以對其可靠性和失效關聯度進行定量分析;

（4）同構軟件冗余與異構軟件冗余的同步等關鍵技術;

（5）作為處理機、存儲器、設備、文件和作業等諸多計算機系統關鍵資源的管理者，操作系統的安全性是整個計算機系統軟件安全的必要條件，但是迄今為止，國內外在安全操作系統的實際應用并不成功。如何構建可信操作系統的體系結構，解決可信操作系統的自身完整性、環境適應性、主體客體行為可信問題以及冗余操作系統的關鍵實現技術也是下一步研究的重點。

7??? 結束語

隨著計算機系統規模的不斷擴大，對系統可靠性要求的不斷提高，容錯技術將成為保證計算機系統穩定運行的關鍵技術。理想的容錯方案應該具有高可靠性，錯誤檢測、錯誤恢復的低延遲性、性能的低損耗性以及成本低廉性的特點。針對具體應用的不同可靠性要求來設計構建最大程度貼近理想狀態的容錯方案遠比看上去要困難。本文總結分析了近年來計算機系統在容錯方面的技術發展情況、存在的問題和未來仍需要解決的一些重要問題，為進一步研究構建更加可靠的計算機系統提供了有益的借鑒。

參考文獻

[1]聶林波，劉孟仁.軟件缺陷分類的研究[J].計算機應用研究，2004， 21（6）：84-86.

[2]陸陽，張本宏，魏臻，等.“二乘二取二”和“雙模冗余—比較”結構對比研究[J].電子測量與儀器學報，2009，23（3）：15-22.

[3]張本宏，陸陽，韓江洪，等.“二乘二取二”冗余系統的可靠性和安全性分析[J].系統仿真學報，2009，21（1）：256-261.

[4]朱明程，溫粵.FPGA 動態可重構數字電路容錯系統的研究[J].東南大學學報（自然科學版），2000，30（4）：138-142.

Analysis of Computer Hardware Technology Research

Chen Yu

Henan University of Science and Technology， Luoyang

Abstract： In view of the different characteristics of software and hardware reliability problems in computer systems， the latest development status of fault tolerance technology is discussed， and various fault tolerance methods in computer systems are analyzed， including traditional redundancy design， error rollback recovery mechanism and general fault tolerance design methods which are studied more at present. This paper studies the defects of some existing fault tolerance methods in response delay， fault tolerance cost， accurate quantization， heterogeneous synchronization， reliability modeling and other aspects as well as the key problems to be solved， and summarizes how to further improve and use these fault tolerance methods.

Key words： Computer system; Fault tolerance; Redundancy; Software error; Hardware error

現代計算機技術與應用2022年2期

現代計算機技術與應用的其它文章: 淺析計算機輔助教學; 淺析計算機教學改革; 聲波式測量系統在水庫水雨情監測中的應用; 實驗基于數據可視化處理的Office 高級應用課程的教學方法研究