張劍
摘 要 介紹CLUSTER技術的結構和特點及在天生橋水力發電總廠信息管理系統應用方案和配置。
關鍵詞 CLUSTER 備份 容錯
中圖分類號:TP3 文獻標識碼:A
1 概述
天生橋水力發電總廠信息管理系統于1999年開始建設。為保證數據的安全性和提高數據庫效率以及方便數據的集中管理,天生橋水力發電總廠信息管理系統采用CLUSTER技術作為主要的數據管理基礎。本文對CLUSTER技術及在天生橋水力發電總廠信息管理系統應用上作一介紹。
2 CLUSTER技術的特點及運行機制
2.1 CLUSTER技術的特點
CLUSTER技術即集群技術是目前較為先進的一種多機容錯及性能提升技術,它分別通過共享SCSI總線和共享內存總線(memory channel)為用戶提供共享外部存儲設備和內存資源的高可用環境。它比較以前單系統提供更大的應用可用性,并且比SMP(對稱多處理)更具伸縮性,比雙機備份技術具有無須人工干預,充分利用資源和數據備份及時等優點。目前CLUSTER技術主要分為三種,即OPENVMS CLUSTER、WINDOWS NT CLUSTER和TRU64 UNIX CLUSTER。
COMPAQ 的TRUCLUSTER可以配置高速的內存通道互連,提供近于SMP的速度,比傳統的網絡互連方式減少了100倍的信息時延。TRUCLUSTER具有分布式鎖管理(DLM)能力,DLM(Distributed Lock Manager)同步對共享信息的訪問,保證共享數據的完整性,為那些高度并行的應用如OPS(ORACLE PARALLEL SERVER)提供服務。
COMPAQ 的TruCluster技術可以提供雙機并行工作方式,即由兩臺或多臺主機組成一個ASE系統,各主機通過公共的SCSI總線連接共享的數據盤,每臺主機都有自己的本地操作系統和本地數據庫系統,共享盤上只存放應用數據。正常情況下,每臺主機上的數據庫并行工作,通過分布式鎖管理對共享盤上的數據進行I/O操作,系統管理員可以根據實際情況人為的將客戶分擔到每臺主機,也可以在ASE中設置一個有公共IP地址的用戶自定義登錄服務,把客戶對數據庫的操作平衡地分布在兩臺主機上以提高系統性能。
WINDOWS NT CLUSTER是基于磁盤共享的,不具備共享內存通道,目前只有英文企業版WINDOWS NT支持。其它方面與TRUCLUSTER類似。
2.2 CLUSTER技術的運行機制
主機之間組成一個ASE(Available Server Environments可用服務器環境),主機通過公共的SCSI總線來連接共享磁盤陣列,主機之間則通過網絡(ETHERNET,FDDI,ATM 等)傳遞信息。
兩臺主機各有自己的本地操作系統,而將數據放在共享盤上。可以對共享盤定義磁盤服務,掛在一臺主機系統的目錄下,另一臺主機上看不到它并可以給ASE中盤服務設置一個IP地址,遠端客戶可用這個公共的IP地址透明地訪問主機系統,不需要知道自己連接的是哪臺主機。
當共享盤所掛的主機發生故障時,該節點所運行的應用軟件系統如數據庫系統等自動被關閉,盤服務便切換到另一臺主機上,應用軟件系統也重新啟動,客戶端只需重新連接即可。
ASE中的一臺主機始終處于熱后備狀態,并可以運行其他軟件。兩臺主機可以定義成互為備份模式,也可定義為負載均衡模式。
故障檢測方式是用“心跳”機制,通過多種途徑檢測節點是否死機。集群軟件能夠檢測應用故障并采取相應的恢復措施,它支持人工故障恢復,支持故障節點重啟動恢復,可以定義故障節點故障恢復后自動成為備份節點或主節點,以接管故障前承擔的任務。
3配置經驗
(1)在安裝WINDOWS NT CLUSTER時,必須在SCSI控制器自檢提示時,按CTRL-A進入配置菜單,將次卡的SCSI ID設置為7,總線終結方式設置為LOW OFF/HIGH OFF,并關閉BUS RESET ON BOOT STATUS。同樣在另一臺上執行此操作,把SCSI ID設置為6,總線終結方式設置為LOW OFF/HIGH OFF,并關閉BUS RESET ON BOOT STATUS。否則不能正常啟動。
(2)在安裝TRU64 UNIX CLUSTER時,需要用戶對該系統指定其所屬ASE的ID;然后是對共享SCSI總線進行編號,編號主要是由于在ASE中要對共享的SCSI總線進行統一管理,所以要求ASE的所有成員系統對這條SCSI總線的編號要一致,安裝程序給用戶提供的缺省編號是從16開始的,用戶在設置編號時注意編號一致。
參考文獻
[1] 劉玲霞,武兆雪,錢淵,夏靖波. Web服務容錯技術研究 [J]. 計算機科學,2009 (01).
[2] 張宇,林云. Veritas Cluster Server集群成員仲裁與數據保護研究 [J]. 數字技術與應用,2011 (11).
[3] 李小群,張文君,潘遠明,肖賀,郭亮,姜志穎. 基于RTEMS的軟件容錯系統設計[J]. 計算機應用研究,2009(03).