李航
晉能控股煤業集團鐵路運營管理山西有限公司礦山鐵路分公司 山西 大同 037007
近年來,計算機技術在社會各個領域中都發揮了重要的作用,在鐵路信號系統中,計算機技術已經成為不可替代的重要技術。鐵路信號系統主要負擔了日常行車安全管理和列車行車組織管理任務,隨著規模的增大及自動化程度的提升,系統復雜程度也不斷增加。因此,在運行當中,對于系統的安全性、可靠性必須基于較高的保障。在計算機聯鎖控制系統的應用當中,以計算機為核心,通過對相關容錯技術的運用,可以提供更為有效的安全保障。
鐵路信號指的是利用圖像、位置、顏色等特定信息,通過機器設備引導對信息進行傳輸,為鐵路工作人員發出指令。當前對于鐵路信號的具體定義尚未統一規定。從廣義上來說,鐵路信號是為鐵路運輸系統服務,是一種特殊的技術設備。在狹義上來說,鐵路信號就是工作人員或系統發出的信號,包括閉合設備、聯鎖、信號顯示等。計算機聯鎖系統,指的是火車行進過程中的軌道、道岔、信號機之間聯鎖關系的處理系統,控制指令由操作員發出,將聯鎖信息輸出[1]。容錯技術,是對故障和錯誤的容忍,在故障發生之后,系統不會由于故障中斷運行,執行結果也不會對系統故障造成的差錯提供報告。容錯計算機系統,是在故障發生之后,仍然能夠控制系統發出指令和完成工作。
在鐵路信號系統運行中,計算機聯鎖控制系統容易發生一些故障,發生原因涉及人為因素、物理因素等方面。在物理因素方面,主要由系統運行外部環境影響、系統內部元器件缺陷等。例如,電磁干擾、機械振動、機械沖擊等均屬于外部環境,通電運行期間產生老化、安裝過程中出現開路、生產過程中氧化穿孔等,均屬于內部缺陷[2]。在人為因素方面,主要包括有目的性蓄意破壞、無意識性操作錯誤等原因。
三模冗余是計算機聯鎖領域中比較常見的一種容錯技術,簡稱為TMR。在三模冗余系統當中,分別含有3個相同的模塊,可以是3臺相同的計算機或是3個相同的其他部件。3個模塊對相同的命令同時執行,將模塊輸出向表決器輸入端傳送,然后將表決器輸出作為系統輸出。在該技術的運行原理當中,基本出發點是對多數模塊正確輸出的承認,糾錯原理主要是少數服從多數。在系統輸出當中,將3個當中兩個正確的多數作為正確輸出結果。在正常運行中,對于總體輸出的正確性關注即可,無須對其中各個模塊的對錯加以分析。一般來說,3個模塊給出的3個輸出應當是相同的。因此表決器選擇一個正確結果作為輸出。而如果有一個模塊發生錯誤,與其他兩個模塊不同,表決器也可以對正確結果進行輸出[3]。但是,如果有兩個模塊同時發生相同的錯誤,表決器就會將其誤認為正確結果輸出。而如果3個模塊輸出的結果都是不同的,系統就無法正常運行。不過,雖然上述幾種情況都有發生的可能,但是在實際運行中發生差錯的概率是很低的。該系統運用三模表決的方式,使系統可靠性大大提高,為行車安全也提供了更大保障。但是,該系統具有較高的復雜性,對于技術水平有較高要求,在三重模塊軟硬件同步方面也面臨較大難度,因此價格成本比較高。
雙機熱備也稱為待命儲備系統,是一種常見的動態冗余技術。在雙機熱備系統當中,包括了S+1個模塊,結合切換開關、故障檢查器等部件構成。其中,處于工作狀態的模塊為1個,處于待命接替狀態的模塊為S個。日常運行當中,由基本模塊負責完成正常工作,作為儲備模塊的待命接替模塊做好運行準備。如果在實際運行當中發生故障,故障檢測器將會發現工作狀態基本模塊處于故障狀態,會自動啟動切換開關,將故障模塊切除,使用正常的儲備模塊繼續運行。如果一個儲備模塊接替工作后再次發生故障,則繼續切除并更換為另一個儲備模塊。這種切除替代的方式,可以運行到所有S個儲備模塊完全耗盡[4]。在具體運用當中,根據經濟原則及性能原則,這種雙機熱備的容錯技術具有糾錯率高、容易實現、結構簡單等優勢,所以在具體運行中應用較為廣泛。雙機熱備模式可以實現雙模并行工作的狀態,能夠實現快速切換、連續運行的目的,對于鐵路信號設備瞬時控制、連續控制的要求均可滿足。所以,在系統硬件結構方面,可采取雙機熱備系統。
在鐵路信號容錯計算機聯鎖控制系統中,主要可以分為三層邏輯,分別是人機會話、維修管理、通信接口層,聯鎖邏輯運算層,數據采集、命令驅動層。
在各個部分具體構成當中,人機會話使用了主機、備機,并且運用了熱備模式。使用同時工作的雙擊,并且具有物理層面上的獨立性。在相同的時間內,僅有一臺設備接受人工操作控制。可以采用鍵盤輸入、鼠標點擊等方式形成操作命令,然后由系統動態數據表為基礎,對其合法性初步檢查,將操作人員錯誤操作消除。然后向聯鎖機發送命令,同時對聯鎖機返回的命令執行情況、站場中信號設備動態狀態信息等進行接收。將值班員各項執行任務完成,在顯示屏中實時顯示系統狀態信息、聯鎖機執行結果等信息。維修管理機不會向聯鎖機發送任何信息,指揮通過車站控制局域網,從人機會話機中接受操作員的操作命令,獲取站場中信號設備的表示信息,以及聯鎖機命令執行情況等。利用這些信息,對值班員操作命令、系統錯誤、站場變化信息、與微機監測接口等進行記錄,還可提供再現、打印、存儲、記錄功能,方便后續維修服務。系統還在這部分配備了全站場室外信號設備監視窗口,能夠讓操作員對情況隨時了解并進行維護。通信前置機中,能夠和車站綜合廣域網及局域網進行通信連接,包括各種輔助行車系統,如旅客向導系統、車次號輸入系統、DMIS系統、CTC系統等。同時,能夠和聯鎖相關功能、聯鎖測試功能等進行通信連接。
聯鎖邏輯運算層中,分別設置了兩臺聯鎖機,且相互作為熱備。可以對人機會話機發出的聯鎖命令進行接收,并按照采集驅動層獲取現場實施狀態數據,完成聯鎖運算,并向人機會話層、采集驅動層發送運算結果。在計算機聯鎖控制系統中,聯鎖邏輯運算層是一個重要的核心部分,其可靠性與安全性,對于整個系統的可靠性和安全性都有直接影響。采集驅動層能夠對人機會話機發出的控制命令加以執行,并將現場信號設備實時狀態發送到維管機和人機會話機。該部分使用了全電子化無觸點的電子模塊,負責采集現場信號設備數據信息,并提供驅動功能。
4.2.1 硬件冗余。在硬件冗余部分,可將系統視為雙模容錯結構看待。這是由于在硬件方面,兩個聯鎖機屬于雙模塊。同時在鐵路信號系統中有實時性要求,所以運用了熱備份的模式。使用兩個集線器,分別將維管機、人機對話機、聯鎖機連接形成了兩個局域網,具有相互冗余的功能。兩個聯鎖機之間,以及人機對話機和兩個聯鎖機之間,分別能夠完成控制信息及數據的相互傳遞,并且使用了TCP/IP的通信協議實現。通過對局域網絡的應用,能夠實現相互通信的高速率要求,并且與DIMS系統等外部網絡的連接上也更加便利。在局部網絡的網絡通信當中,有發生故障的可能,為了避免故障造成整個系統容錯性能的降低,應用了局部網絡冗余的形式。分別在兩個聯鎖機和人機對話機中,設置雙網絡接口板,連接也使用了兩套網線,因此分別連接了兩套局部網絡,進而使整個系統的容錯性能得到了較好的提升。
4.2.2 軟件冗余。在軟件冗余中,使用雙份編碼的聯鎖模塊,而編碼分別使用了不同的編成結構、編程語言,同時也應用了不同物理地址內存空間的數據,采用仿作工作模式。在聯鎖運算結果輸出前和數據采集之后,為了使故障潛伏期減小,使用軟件比較器、同步控制器等進行監控和比較,對故障做出實時監測。在兩個程序相互同步過程中,應用RTLinux實時時鐘,能夠根據任務周期完成同步。如果得出了不同的最終運算結果,系統會對自檢程序加以調用并重新執行,將瞬時故障過濾掉,對是否有永久故障加以確定。A、B機通過聯鎖運算,獲取了2×2的結果,最終結果一致的兩個結果分別向聯鎖執行主機傳輸比較,再次確認一致之后,向人機交互及(M機)發出確認命令,由M機接受之后,對信息進行確認,然后比較命令動態表中的原始命令。確認一致之后,將允許發送信號傳輸給聯鎖執行主機,再由聯鎖執行主機向命令驅動層發送結果命令。而如果比較后發現不一致,向B機發送重復運算信號,對本機動態結果數據表中響應標示位進行修改。A、B機重復運算之后再進行比較。如果超過約定次數之后,結果仍然不一致,則說明A、B機存在故障。此時將A、B機自檢程序啟動,完成故障測試并將故障機找出切換。在切換過程中,M機將允許信號OUTKEY發送,讓相應機器發送命令,設置全局變量work_cpu。在每次比較成功之后,對該變量進行讀取,如果是A,就由M向A發送允許A發送運算的結果命令,并封鎖住B的發送進程。通過這種方式,能夠利用信號在網絡中傳遞的方式完成切換控制,確保了無縫切換,將延遲降到了最低。
4.2.3 智能自測。在智能自測當中,主要是對系統容錯功能的進一步確認和保障。運用該功能,可以確保在系統故障發生后,無須人工處理,能夠自動完成故障的定位和排除。自檢的控制是通過守護進程完成,對守護進程進行運行后,能夠進行系統周期性自我檢查,將系統故障及時發現。在問題發生后,能夠運行終端自檢,將故障模塊找出后立即切換,進而為系統正常運行提供保障。在自檢當中,包括了兩個部分,其一是人機交互機(M機)中對M機的檢查程序,利用系統配置文件讀取,對自身工作是否正常做出判斷;其二是M機和A、B機中利用套接字通信的監測系統。在特定時間內,M機將聯鎖運算命令通過套接字發送給A、B機,并遵循返回狀態,對具體的主機和從機做出設置。當某一個聯鎖機發生故障之后,系統可以立即向另一臺聯鎖機切換繼續完成數據采集工作,并對發生故障的聯鎖機重新啟動。而當兩臺聯鎖機均發生了故障,系統可以切換為HUB,相當于切換到新的工作網絡。A、B通過運算完成自判斷,并向M返回結果,在系統日志文件中記錄,方便后續查詢。考慮到系統要求特殊性,在自檢系統中,根據鐵路特殊工作性質,必須要及時解除故障,不然有可能發生生命安全及財產安全事故。因此要求系統的實時性較高,可以對故障及時發現并處理。在聯鎖機中,要能夠在配置文件中對M機發送的命令實時讀取,同時做好對命令執行的準備,在發生問題之后,切換另一臺聯鎖機,并將故障機立即重啟嘗試。為了保證可靠性與安全性,自檢系統需要將整個計算機聯鎖系統均作為檢查對象,將系統軟件、網絡傳輸、信號采集、聯鎖機、人機交互界面,甚至自檢系統本身均要納入,從而確保檢測的全面性,為系統安全穩定提供更大的保障。此外,系統還需要達到較高的智能化程度,為了方便使用者應用,在自檢系統運行中應當保證完全自動化控制,無須人工干預。通過守護進程,可以對自檢系統的系統檢測及故障自動處理功能提供保障。
在鐵路信號計算機連鎖控制系統中,為了保證良好的運行性能與運行安全,采用了先進的容錯技術。利用硬件冗余、軟件冗余、智能自測方面發揮充分的作用,為系統運行安全穩定提供了有力的支持與保障,進而提升了鐵路信號系統的性能。