王蒙 中國人民大學信息學院 北京市 102200
當前,在這我國社會主義現代化建設事業不斷的背景之下,我國社會上各個領域都開始呈現出欣欣向榮的發展趨勢。在此期間,我國的計算機技術也開始逐漸的發展起來,將計算機技術應用在各個領域當中,能夠有效的提升各個領域在運行期間的質量與效率,進而使我國的經濟發展得到全面提升。而在計算機系統當中,容錯技術是一項極為重要的技術,其能夠在計算機系統出現軟件錯誤或者是硬件錯誤的情況下,采取相應的措施來保證系統各個部分在運行期間的既定功能,進而確保計算機系統在運行期間的穩定性。針對于計算機容錯技術來說,其已經在我國的航天國防、電力化工、醫療衛生等方面得到了極為廣泛的應用,并且對于以上領域的發展起到極大的促進作用。
所謂的計算機系統容錯技術,其主要便是指計算機在運行期間所出現的數據、文件損壞或者是丟失等方面的故障時,系統能夠自動將這些損壞或者是丟失的文件和數據恢復到發生故障之前的狀態,從而確保計算機系統能夠實現連續且正常的運行。通過計算機系統容錯技術,能夠有效的提升計算機系統在運行期間的安全性,并且不會在其中文件受到損壞期間影響到計算機系統的正常運行,進而使計算機的工作任務不會被中斷,這便能夠有效保證計算機系統在運行期間的實效性。基于以上特性,計算機系統容錯技術得到了全方位的應用,同時也能夠對于計算機的應用穩定性起到保障的作用,同時在不斷的探索與實踐當中,計算機系統容錯技術也得到了一定的發展,目前已經發展出了數據備份技術以及服務器容錯技術,這兩項技術在實踐當中獲得了極為廣泛的應用,同時在該技術的保障下,也使我國計算機技術的應用與發展更加的系統且全面。
在計算機系統的錯誤當中,其故障類型分為多個方面,不過總結來說其主要能夠分為兩個層面上的錯誤,即軟件層面以及硬件層面上的錯誤。近幾年來,伴隨著我國在電路主板方面的工藝不斷提升,便使硬件方面的故障主要出現在處理器,即cpu上面,而這個故障的類型主要便是處理器瞬間故障。在實踐當中出現處理器故障的主要因素便有可能是由于計算機晶體管無法正常工作,這是由于其中所承受的電壓值超出了計算機處理器所能夠承受的最大值,從而導致計算機瞬間故障的發生【1】。除此之外,計算機處理器所出現的故障還有可能是由于計算機處理器主頻設置過高所導致,當前社會上眾多領域在應用計算機系統期間為了有效的減少計算機的更新換代時間,便會采取相應的措施令計算機處理器在實際當中超頻運行,這種情況的出現便導致計算機處理器上所承載的負荷過高,從而致使計算機處理器在使用期間故障頻發。實際使用期間,計算機處理器上面所出現的故障還有可能是由于晶體管所出現故障導致,在近幾年來我國在計算機制造方面技術的發展,這便導致計算機處理器當中的晶體數量增大,若是在計算機運行期間其中的某一個或者幾個晶體管出現故障,便會導致計算機處理器在實際當中出現運行錯誤的情況發生。針對于計算機系統當中所出現的各種各樣問題,便需要針對于其中經常出現的故障來設計出有效的計算機容錯系統,通過在計算機系統當中安裝容錯模塊,從而有效的降低計算機在運行期間發生故障的幾率,從而為計算機的穩定運行提供保障與助力,并且使計算機能夠更好的應用在社會上的各個領域當中,進而確保我國社會經濟發展呈現出穩定且高效上升的趨勢。
針對計算機容錯技術來說,其能夠有效的在計算機系統出現故障期間采取相應的措施對于其進行改善與調整,從而保證整體計算機系統能夠更加穩定的運行。在實際應用期間,計算機系統容錯技術主要包含計算機硬件容錯技術以及計算機軟件容錯技術兩種,下面本文將針對這兩種技術做出深入的分析與探討:
針對于計算機硬件容錯技術來說,其在實踐當中可能出現的錯誤類型較多,同時也比較復雜,但是總結來說其能夠大致分為瞬間錯誤、間歇性錯誤以及永久性錯誤等三種錯誤【2】。在以上方面的錯誤當中,發生概率比較高的錯誤類型便是瞬間錯誤,該種錯誤在計算機硬件錯誤當中占有較大的比列,同時其對于計算機系統在運行期間的穩定性與安全性的影響也比較大 而針對于間歇性錯誤來說,其主要便是針對于系統的可靠性來設定一定的閾值,若是計算機系統在實際應用期間的錯誤發生概率超出在系統當中所設定的閾值,便代表其所發生的錯誤為間歇性錯誤 永久性錯誤也是系統當中的一個比較重要的錯誤類型,在實踐當中,永久性錯誤主要便是由于計算機當中的電路元件發生短路、硬件老化等方面因素所導致,這種故障一旦發生便有可能的使整體計算機系統的既定功能受到影響,甚至在嚴重的時候還有可能導致計算機系統無法正常的運行,只有通過更換元件才能夠有效的解決以上問題的出現,令計算機系統恢復正常的運行。針對于計算機容錯系統來說,其與冗余具有較為直接的關系,同時在實踐當中冗余資源形式的不同也會形成不同的冗余方法,例如:信息冗余、硬件冗余、線程冗余、時間冗余等方面的冗余方法。
3.1.1 信息冗余
在實踐當中,信息冗余的容錯技術可以被分為兩種類型,即:糾錯編碼以及檢錯編碼,這種容錯方式主要便是通過在計算機系統原始數據當中添加一定數量的冗余位置來實現對于計算機系統的故障檢測或者是故障修復等方面的功能。其中的糾錯編碼能夠對系統當中的錯誤進行檢測并且糾正其中所出現的錯誤,檢錯編碼的功能則比較單一,其只能夠實現對于系統當中所出現問題的檢測。通過實踐與分析發現,信息冗余在實踐應用當中的主要特點便是其對于錯誤的處理速度比較快,同時所付出的成本相對來說也比較低【3】。在對于冗余信息作出處理的期間并不會占用額外的時間成本,同時其也能夠與原始數據在同一事件內完成,同時在數據處理期間主要采用的檢錯與糾錯并行的模式,所以在處理錯誤期間并不會造成時間上面的延遲,從而確保系統當中所產生的錯誤被更加優質的修復。
3.1.2 硬件冗余
在計算機系統容錯技術當中,硬件冗余是研究最多的一項,簡單的說硬件冗余就是一個小小的異常導致計算機系統在運行期間進入一種死循環的狀態,同時系統無法對于這種狀態產生相應的動作,所以Windows底層的線程體系便會爆出問題并且用更加高級的權限去強行將其關閉【4】。在實際應用期間,由于電腦不能夠有效的保證一個命令被百分百的執行,在電腦執行的底層完全是二進制的機器碼,而在實際運行期間難免會由于電子的偏移而導致有無法執行片段的產生,隨后這些產生錯誤的片段便會堆積在內存里面,若是在系統當中這些問題堆積較多并且到了一定數量的時候便會出現死機或者是重啟的情況,所以專業的服務器、圖形工作站等方面都會配置內存校檢,這樣便能夠對于出錯的地方做出調整,例如:將其中的高電平轉換為低電平、將低電平轉換為高電平等,這樣便能夠在最大程度上避免冗余現象的產生。在實踐應用期間,硬件冗余技術提升計算機安全性與穩定性的效果相對來說要好一點,同時在技術方面也比較成熟,所以在實踐當中取得了較為廣泛的應用。
3.1.3 時間冗余
針對于時間冗余來說,其主要便是被應用在沒有實施硬件冗余的系統并且不注重實時性的情況下,這種容錯機制能夠有效的提升系統的可靠性。在實踐當中,時間冗余主要便是指同一硬件的同一數據在不同的時間段當中所執行的指令集相同。針對于時間冗余技術來說,對于延遲的時間具有較為特殊的要求,若是延遲的時間過短便有可能會導致系統當中的容錯效果受損,若是系統當中的延遲時間較長,便會導致成本隨之增加【5】。基于此,在實踐當中若是選擇利用時間冗余技術,便需要合理的判斷與利用系統的時間,隨后還需要根據計算機系統的實際運行情況科學的設置系統的時間冗余,通過這樣的方式,能夠確保系統當中的容錯效果達到更佳。
3.1.4 硬件線程冗余
在計算機系統當中,若是想要有效的實現計算機系統容錯的功能,可以通過在多純種系統中對主線程進行拷貝處理,同時將其復制成多個同樣的線程,令其并行處理數據,通過對比處理結果來實現計算機系統容錯。除此之外,計算機系統當中的主、副線程通信也是硬件純種冗余中關注度比較高的一種形式,通過在長時間的實踐當中發現,硬件純種冗余技術具有容錯效果較好、成本較低、耗時少以及實時性較高等方面的特點,所以該項技術在實踐當中也取得了較為廣泛的應用,同時其也被視為一種高效可行的計算機硬件容錯技術。
計算機軟件容錯技術與計算機硬件容錯技術相比其在一定程度上還存在不成熟之處,所以在實踐當中的容錯效率要比計算機硬件技術差一些。同時在實踐當中計算機軟件容錯技術的種類也比較多,通常情況下被分為以下三種,即:恢復塊方法、防衛式程序設計方法、軟件多樣性方法等,通過以上三種方式,能夠有效的提升計算機的軟件容錯水平【6】。在計算機系統恢復期間,其主要被分為向前恢復以及向后恢復兩種:向前恢復便是在計算機系統中采取措施對于故障所造成的不連貫性作出彌補,同時確保系統能夠繼續向前運行 向后恢復主要便是指將系統還原到正確的部分,隨后計算機系統能夠重新開展運算。
3.2.1 恢復塊方法
所謂的恢復塊方法,其主要便是在計算機系統當中配置功能相同的主塊以及后備塊,在計算機運行期間由主塊率先運行,若是在實踐運行期間出現故障,便需要啟動后備塊,從而確保計算機系統能夠穩定的運行。在此期間需要注意到要全面保證主塊以及后備塊之間的獨立性,確保兩者之間相互不會影響,通過這樣的方式能夠有效的減少兩者之間的錯誤產生互相關聯性,從而使備用塊能夠發揮出其既定功能,在實踐應用期間,其關鍵便是在于測試計算結果的程序,需要全面保證其中不會有錯誤產生。
3.2.2 N-versionprogramming
在實踐應用期間,這種軟件容錯技術主要便是將軟件的各個版本交給不同的開發團隊進行開發,并且在開發期間使用獨立的設計工具以及環境,同時在開發期間采用不同類型的編程語言以及方法,這樣便能夠有效的降低不同版本之間錯誤的關聯性,在實際的開發期間,需要秉承相同類型的開發原則【7】。基于此,首先要做的便是制定相同的總體設計目標,隨后保證各個模塊之間擁有統一系統的標準接口,同時各個版本之間的軟件開發要保證彼此之間的獨立性,還需要保證軟件在設計期間的各個模塊內容對外透明,并且對其進行封裝處理,這樣才能夠全面保證計算機系統在實際應用期間的穩定性與安全性。
3.2.3 防衛式程序設計法
針對于防衛式程序設計法來說,其不需要利用任何傳統的容錯方法來實現系統的容錯功能,從本質上來說,這是一種比較保守的容錯機制,當程序當中出現錯誤,可以在系統當中調用程序自帶的檢測、恢復代碼來對于其中所產生的故障來進行相應的處理,從而確保系統能夠返回到之前的正確運行狀態,這樣能夠有效的檢測出在計算機系統運行期間所出現的錯誤,并且對于其中的錯誤進行分析,進而達到錯誤修復的效果。
結束語:綜上所述,伴隨著信息化時代的到來,我國的計算機技術得到了極為廣泛的應用,在此期間,計算機系統運行的穩定性便成為了一個重要的指標。基于此,便需要對于計算機系統容錯技術做出系統性的分析與探索,并且將其應用到實踐當中,這樣才能夠全面保證計算機系統更加穩定且高效的運行,進而使其為我國社會經濟的發展貢獻出絕大助力。