梁皓 覃慶勇
(廣西捷通高速科技股份有限公司 廣西南寧 530022)
計算機系統容錯技術
梁皓1覃慶勇2
(廣西捷通高速科技股份有限公司 廣西南寧 530022)
隨著第三次科技革命的展開,計算機已經普遍的出現在人們的日常生活中了。計算機的出現不僅豐富了人們的日常生活,而且還對社會經濟建設產生了重大的影響。隨著人們對計算機使用的普遍加強,在使用的過程中不僅對計算機的硬件系統提出了要求,更對計算機系統的穩定運行提出了很高的要求。只有通過加強計算機系統的容錯性,才能夠從根本上保證計算機系統的穩定性。為此,對于計算機系統容錯技術的研究已經成為了當下計算機科學主要的研究方向。
計算機系統;硬件容錯技術;軟件容錯技術
隨著電子技術的發展,計算機已經廣泛的存在于人們的日常生活以及工作中了。為了能夠保證計算機系統的穩定運行,需要對計算機系統的容錯性進行提高,所以對計算機系統容錯技術的研究就變得格外的重要。在計算機系統工作的過程中不可避免的會出現因為種種因素導致的計算機系統遭受損害或者遭受到錯誤的指令,計算機的容錯性就是指計算機系統能夠在遭受到突發情況下,為了保護計算機內部的重要的文件的丟失,而采取的有效的手段避免計算機系統崩潰的現象。隨著計算機在日常的生活以及經濟建設過程中的廣泛應用,為了避免因為計算機遭受損害而造成對企業以及個人的不必要的損失,就必須要對計算機系統的容錯性進行加強。
目前,計算機已經被廣泛的應用在了經濟建設、國防建設以及人們日常生活中,由于受到外界的干擾會導致計算機在一定時間內不能提供穩定的服務。計算機系統的故障對于航空航天、國防軍事、核能電力、工業化工以及衛生醫療等部門都會造成很嚴重的損失。為了避免因計算機系統的崩潰而造成的不必要的損失,就必須保證計算機能夠在系統運行錯誤的指令的情況下仍然能夠保證不間斷的為客戶提供相應的服務。為了保證計算機的容錯性,計算機科學的工作者就需要對計算機系統的容錯性技術進行研究以提高。
通常情況下計算機系統發生的系統錯誤可以大體上分為硬件錯誤和軟件錯誤兩類。接下來我們就對計算機的硬件系統錯誤進行簡單的介紹。隨著國際上電子技術的發展以及集成電路工藝的有效的提高,中央處理器發生瞬時故障概率在急劇的上升。
硬件系統錯誤產生的原因主要可以歸結為以下的幾個方面:①晶體管工作電壓的下降造成了集成電路噪聲容限減少的現象,這樣就會造成在硬件使用的過程中主板芯片更加容易受到瞬態故障的影響;②隨著微電子技術的不斷提高,計算機的中央處理器的主頻不斷的提高,在CPU主頻提高的過程中也增加了其發生故障的幾率;③目前集成電路工藝逐步的提高,隨著集成度的提高芯片內部的晶體管的數量也在不斷的提高,這樣也就會增加芯片發生故障的幾率。
以上我們對計算機硬件系統影響計算機系統發生故障的原因做出了詳細的闡述,在計算機工作的過程中出了有硬件系統之外還存在著軟件系統,因此軟件系統對計算機系統也會產生很大的影響。由于在計算機軟件系統的生命周期內,經常會出現因為設計的錯誤而導致的整個計算機系統的崩潰。
以上我們對計算機系統發生故障的原因進行了詳細的分析,經過分析可得計算機系統的錯誤源自于計算機的硬件系統以及計算機的軟件系統兩個方面。由于計算機的廣泛應用,導致了計算機系統的崩潰很可能會對企業以及個人造成嚴重的經濟損失,所以為了能夠盡量的避免不必要的損失,我們需要對計算機系統的容錯技術進行不斷的創新、研究以及突破,以保證我國經濟建設的正常進行。接下來我們就從計算機的硬件容錯技術以及計算機的軟件容錯技術兩個方面來對計算機系統的容錯技術進行詳細的介紹。
2.1 計算機硬件容錯技術分析
在計算機的硬件系統錯誤中根據錯誤的發生的時間以及狀態可以將計算機的硬件系統錯誤分為瞬態錯誤、間歇性錯誤以及永久性錯誤。其中,硬件系統的瞬態錯誤是計算機系統中經常發生的錯誤,同時對計算機系統造成的安全性以及可靠性也會造成較大的影響。而間歇性錯誤是對瞬態錯誤的發生頻率加以控制而產生的硬件系統錯誤,當瞬態錯誤的發生頻率超過了設定的閾值的時候就成為了間歇性錯誤。永久性的錯誤一旦發生就會對計算機造成嚴重的影響,并且只有通過對原有的電子器件的更換才能解決這些問題。一般情況下,計算機相關的電子器件的老化以及電路的短路都會造成計算機硬件的永久性錯誤。接下來,我們將從信息冗余量、硬件冗余、時間冗余以及硬件線程冗余四個方面來對計算機硬件系統的容錯技術進行分析。
2.1.1 信息冗余
一般情況下計算機硬件的信息冗余可以分為糾錯編碼以及檢錯編碼兩個部分。對硬件系統的信息冗余容錯技術主要是通過在原始數據中添加若干的冗余位來實現對計算機系統的故障檢測以及故障修復。通過使用糾錯編碼,可以對計算機硬件系統中的故障進行檢測并糾正錯誤,而使用檢錯編碼能夠對計算機系統中的錯誤進行檢測。使用信息冗余的檢錯方法能夠有效的避免因為錯誤恢復操作而造成的時間延遲,檢查成本低廉的基礎上還具有處理速度較快的優點。
2.1.2 硬件冗余
硬件冗余是根據動態可重構現場可編程門陣列進行開發的一項新的硬件冗余技術,也是計算機系統容錯技術開發最多的一項技術。其中,硬件冗余可以分為很多類,通常情況下根據冗余的程度可以將硬件冗余劃分為部分冗余和完全冗余兩類。在硬件冗余的完全冗余體系之下又可以分為溫備、冷備、熱備以及雙工四種工作方式。由于硬件冗余是整個計算機容錯技術中開發時間最長的一項技術,所以在保證計算機穩定工作的基礎之上硬件冗余的技術手段也是最為成熟的。通過使用硬件冗余技術能夠很好的將計算機系統的穩定性以及安全性進行提高。

圖1 硬件冗余的四種工作方式
2.1.3 時間冗余
在不注意系統時效性的計算機系統上能夠通過使用時間冗余來提高沒有硬件冗余的計算機系統的容錯性。時間冗余是指同一硬件的同一數據在不同的時間片內執行相同的指令集。但是,在使用時間冗余技術的時候會對計算機系統的延時時間造成較大的影響,通常情況下延長時間過短對使系統達不到應有的容錯效果,而延時時間過長則會造成其成本的增長。所以,為了能夠通過使用時間冗余來達到良好的計算機容錯效果,我們必須對計算機的系統延時時間進行合理的掌控。

圖2 時間冗余容錯方法的一般結構
2.2 計算機軟件容錯技術的分析
計算機的容錯技術除了計算機的硬件容錯技術之外還有計算機的軟件容錯技術。相對于硬件容錯系統而言計算機的軟件容錯技術具有方法多種多樣的優勢,但是由于開發的時間較短,所以相對于硬件容錯技術而言軟件容錯技術還是不夠成熟。經常使用的計算機軟件容錯技術有軟件多樣性方法、恢復塊方法以及防衛式程序設計方法。按照計算機恢復的不同的方向可以將計算機軟件恢復技術分為向前恢復和向后恢復兩種,向前恢復是指通過采取有效的措施來彌補因系統的故障而造成的不連貫的現象,并且能夠使系統繼續向前運行;向后恢復主要是指將系統還原到正確的階段部分重新運行計算。
2.2.1 恢復塊方法
恢復塊配置方法主要是將功能相同的主塊和后備塊進行相互的配置,先將主塊啟動運行,如果主塊在啟動運行的過程中出現故障,我們就需要啟動備用塊進行程序的運行,之后完成整個程序的測試過程。如果在測試的過程中出現故障,在使用了主塊和備用塊之后均不能排除故障不能完成測試,則我們就可以判斷故障為不可恢復故障。為了保證在測試的過程中能夠順利的進行,需要保證程序運行的主塊和備用塊之間的相互獨立性,通過加強主塊和備用塊之間的獨立性,來盡量的減少主塊和備用塊之間的錯誤的關聯。通過以上的步驟能夠盡量的減少因為主塊和備用塊之間的錯誤關聯導致的程序運行錯誤,盡量的保證測試計算結果的正確。

圖3 恢復快工作的原理圖
2.2.2 防衛式程序設計法
防衛式程序設計法與現存的計算機軟件容錯技術不同,它沒有采用任何的傳統的容錯技術來實現計算機的容錯功能,是一種比較傳統的保守的容錯機制。防衛式的程序設計法主要的工作步驟是:如果在程序運行的過程中出現相關的程序運行錯誤,程序本身會調用程序自帶的檢測、恢復代碼對整個程序進行相關的處理。通過防衛式程序設計法能夠將降程序運行過程中出現的錯誤,進行必要的檢測以及恢復,并使系統自動的返回到上一個正確的狀態。通過這種檢測方法能夠有效的對程序中出現的錯誤進行必要的檢測,除此之外還能夠對錯誤的影響范圍、類型等因素進行估計,最終達到錯誤恢復的效果。
隨著信息科學的逐步發展,信息對人們的日常生活以及經濟建設起到了重大的作用。而在當下計算機已經逐步的深入到了人們生活工作的每個角落,為了能夠保證計算機系統的工作穩定性以及可靠性,不可避免的要對計算機系統的容錯性進行必要的研發提高。通常情況下,高性能的計算機容錯系統具有高的可靠性、錯誤檢測、錯誤恢復的低延時性、性能的低損耗性以及成本的低廉性等特點。
[1]郭耀輝.探析規則互連多計算機系統的容錯性及診斷算法[J].網絡安全技術與應用,2014(9):89,91.
[2]鄧玉元,李少根.提高系統容錯性的軟件技術[J].現代電子技術,2006,29(23):33~35.
[3]王高才,王國軍,陳建二,等.自適應路由算法優于確定性路由算法[J].小型微型計算機系統,2005,26(2):181~185.
TP302.8
A
1004-7344(2016)17-0235-02
2016-5-11
梁皓(1978-),男,助理工程師,本科,主要從事Etc通信、監控等系統設計、建設和運營管理工作。
覃慶勇(1979-),男,中級工程師,本科,主要從事Etc通信、監控等系統設計、建設和運營管理工作。