羅智鵬
(清遠粵華電力有限公司,廣東 清遠 511500)
隨著信息化、智能化的快速發展和普及應用,越來越多行業通過實施或升級信息化、智能化項目以適應社會發展的需求,在生產過程中收集關鍵數據,對企業不斷完善信息系統集成化、智能化、大數據提供基礎,具有重要的經濟效益。信息化和智能化在水利樞紐的應用也越來越廣泛,特別是近些年,國家大力發展水上交通,清潔能源等,以降低環境污染,但對信息化和數據安全提出了新的要求(《水利工程運行管理監督檢查辦法》(試行)內容中涉及自動化系統缺陷分類標準的要求)[1]。因此,水利樞紐的生產數據和信息的自動化和智能化對安全分析、效率分析等成為關鍵,不僅有利于提高水利樞紐的電站、船閘、水庫調度管理水平,而且還能提高水資源的利用和經濟效益[2]。同時,生產數據對于水利樞紐電站極為重要,其在日積月累發展過程中形成的大數據,可對電站經營發展模式和挖潛改造等提供可靠依據。生產數據一旦丟失,可能產生較大的影響和損失,甚至會使電站、船閘等調度系統無法正常工作,存在安全隱患。為了確保水利樞紐信息化系統的正常穩定運行,以清遠水利樞紐電站和船閘數據容災方式為研究對象,分析樞紐電站及船閘信息自動化數據的集成、傳輸、存儲以及不同容災方式應用下復原點目標(Recovery Point Objective,RPO)和復原時間目標(Recovery Time Objective,RTO)的性能[3](如圖1所示)。為清遠水利樞紐后續電站信息系統升級改造,提高生產數據的安全性、連續性和完整性,達到較好的容災效果。

圖1 故障節點發生前后的數據轉輸示意
從數據容災的性質來看,有狹隘的數據容災和廣義的數據容災。狹隘的數據容災僅是對DBMS(數據庫系統)或者DB(數據庫)進行完全備份或者差異性備份,應用上分為冷備份和熱備份,在數據庫崩潰或者數據丟失的情況下,可以實現恢復。廣義的數據容災,是指整個應用系統的備份,包括平臺和數據庫系統及數據。數據容災有單純數據備份、平臺+數據備份、云備份+平臺等。無論哪種容災,其根本和基礎是數據備份。
數據備份是整個系統運作的最后一道防線,其目的是為了系統宕機或者數據庫崩潰時能夠快速地恢復數據,使系統恢復正常狀態。一般常用的是同機備份、異機備份(包括同城、異地備份)。
按照信息安全技術的相關規范要求[4],同機(本地)備份,信息安全等級屬于第1級。這一級容災備份,實際是上面所指的數據備份,容災恢復能力最弱,只在本地進行數據備份,并且被備份的數據磁帶只在本地保存,沒有送往異地。這種容災方案中,最常用的設備就是數據光盤存儲或者移動存儲設備(較早期主要是磁盤或磁帶機)。磁帶存儲主要適用于存儲數據容量較小的中小型企業,除了選擇磁帶機外,還可選擇磁帶庫、光盤塔、光盤庫等存儲設備進行本地備份存儲。
異機(異地)備份,信息安全等級屬于第2級,該備份是把本地系統的關鍵數據備份,然后送到異地或者異機保存。系統或者數據庫崩潰后,按數據恢復程序恢復系統和數據。這種容災方案也是采用上述存儲設備進行異地或者異機取出備份數據恢復數據庫。
這兩種方式都屬于冷備份,是早期容災的保護措施,但恢復程度很低,且備份內容不完全,容易造成一部分實時數據丟失。同時,本地同機或者異機備份在發生自然災害時或者火災等不可控的情況下,數據將造成巨大的損失。異地備份可以避免該情況,一般存儲到專門的機構或者銀行等。目前主流的模式主要是雙機或者多機熱備,系統及數據庫架構完全一致,但可多線程同時觸發,異地可通過DNS等方式做到無縫切換。在建立容災備份系統時會涉及到多種技術,如:系統上配置ROSE熱備系統、負載均衡系統;遠程存儲技術,如:SAN或NAS技術、遠程鏡像技術、4G / 5G無線傳輸存儲、虛擬存儲、基于IP的SAN的互連技術、快照技術等。
該模式主要是實現整機備份,包括整個系統平臺和數據庫完整備份。包括完整的一臺服務器或者工作站+數據中心(數據庫集)。該模式與上述數據容災儲存方式基本一致,但主要應用方式是熱備份。結合了系統平臺,容災性能相對比單數據存儲容災的方式更強,屬于應用級容災備份[5]。系統架構邏輯是在異地建立一個熱備份點,通過網絡進行數據備份,即通過網絡以同步或異步方式,把主站點的數據備份到備份站點。備份站點在伺服時只備份數據,不處理業務。當發生災難時,備份站點從伺服模式激活為主服務,接替原主站點的業務,從而維護業務運行的連續性。另外一種方式,不設置主從應答服務,整套系統互為對方的備份系統。這兩個數據中心系統分別在相隔較遠的地方建立,都處于工作狀態,并進行相互數據備份,可以按地域進行劃分或者通過負載均衡無縫對接。當某個數據中心發生災難時,另一個數據中心接替其工作任務。通常在這兩個系統中的光纖設備連接中還提供冗余通道,以備工作通道出現故障時及時接管工作。
隨著大數據應用和云服務技術成熟和發展,借助云數據進行容災已成為一種趨勢,應用推廣非常多。在云平臺服務和云數據環境下架設企業的系統平臺(如圖2所示),主要包括生產設備信息收集(應用)前端、互聯網或者高速通信專線、析取器及數據資源池(數據中心)等?;咀龅疆惖?、異機、全天候數據無縫存儲和備份。但由于數據量較大,特別是對外服務的端口和重點信息交換業務,數據以每天數GB的量遞增,而全數據存儲的時間過長,RTO恢復時間也是非常長,不利于系統中崩潰前后數據銜接和恢復,也就是數據備份的能力較差,數據丟失的可能性較大。因此,平臺和云數據差異備份是一種很好的解決方案,設置特定的系統自動執行時間(Auto Time,AT),讓數據庫自動執行差異備份,并上傳至云庫內。該模式前提是保證通信鏈路是暢通的。

圖2 云數據+平臺備份結構示意
從上述數據備份發展到云應用平臺+數據的容災系統,是信息發展的必然過程,特別是“互聯網+”的應用,云系統的普及,促進容災系統的發展。雖容災模式不斷地更新,但需依托整個云應用系統的技術,完全可以不在本地架設太多的硬件設備,服務端架設在云平臺上,企業或者供應鏈不會因為服務器端的崩塌而終止服務,影響業務的持續性。云平臺服務主要包括SaaS(軟件即服務)、PaaS(平臺即服務)、IaaS(基礎設施即服務)等,通過網格計算(Grid Computing)、分布式計算(Distributed Computing)、并行計算(Parallel Computing)、效用計算(Utility Computing)、網絡存儲(Network Storage Technologies)、虛擬化(Virtualization)、負載均衡(Load Balance)等實現相關系統處理和容災,并通過處理復雜的數據分析、匯總和計算,以便整合和分析海量的跨地域、跨領域的數據[6]。通過信息互聯互通、部門相互協同的模式,使系統具有一定的智慧性和協調性,屬于真正意義上的無縫災備系統。云災備架構主要有數據副本管理(Copy Data Management ,CDM)、虛擬容災(virsual Recovery)、一體機等中間模塊化技術,主流產品有阿里云、移動云、華為云災備等。
CDM與連續數據保護(Continuous Data Protection,CDP)有點類似,但思路卻完全不一樣,前者側重利用數據,后者側重保護數據。從大數據意義上分析,CDM更具有發展前景?;贑DM的容災模式,是在虛擬環境下的一種一體化災備,能提供平臺、數據、文件的全面備份能力。同時,基于數據中心虛擬化平臺構建容災系統,支持備份數據集的直接使用功能,支持報表統計、數據分析、容災演練等綜合應用場景,進一步發揮災備系統的應用能力。包括多個數據庫集的同時實現實時備份、掛載恢復能力和負載均衡。
VR整機容災模式主要有陣列復制技術和整機復制技術,整機復制技術使用更為廣泛,特別是在多個生產作業中心或者多個子公司系統關聯時,每個點都建立1套主機服務和1套VR服務,類似鏡像技術,將數據形成快照鏡像儲存云系統數據庫中,在出現單點應用故障或者數據故障時,可在短時間內恢復。
一體機容災模式,是將整個應用服務、數據關聯、數據庫、日志等,可實時存儲和備份數據,完全是一套可應用的企業級應用服務,利用心跳機制,監測主備服務的應用情況,當出現應用服務中斷,則自動啟動接管服務,前端使用時基本是沒有延時和差異。
不同的容災系統,應用方式和管理方式也有差異,性能上也有一定的差距和要求。容災系統最重要的兩個指標RPO和RTO,包括系統的組成和集成方式、帶寬要求、系統架構、數據差異性、投入及維護成本等。通過研究對比,不同災備方式,性能區別較大(見表1)。

表1 不同數據(平臺)備份方式的性能對比
數據容災包括數據的冷備份(本機、異機)和云數據存儲備份,這種組成結構是最簡單,集成度不高,也最容易實現,但RPO和RTO基本以小時計算,數據恢復及時性得不到保證,一般是對數據重要程度不敏感或者對恢復時間要求不緊張的應用場景。常規數據容災是早期企業或者重要行業的一種數據管理措施。
云容災包括CDM(CDP)、VR整機容災、一體機容災。具有云容災的應用系統,依托的就是云服務供應商的硬件設備、軟件設施和平臺服務設施,企業可以不需自建災備機房,開源的平臺也可由企業自行開發,數據和應用系統備份至云端(如圖3所示)。

圖3 云災備架構示意
按照PRO和RTO的要求,災備可每小時備份,也可每天備份一次,一些大型的企業或者對實時響應和數據故障快速重續運行要求高的服務,云災備架構基本是零碎化備份管理,多線程、聯機備份。其性能要求也非常高,無論從數據庫管理系統、操作系統或者應用文件均能備份云端,對病毒侵襲和邏輯災難等防御較好,通過CDP進行數據實時傳輸。因此,RPO和RTO基本可以實現生產本地數據丟失RPO<1 s, 數據就緒時間RTO<5 min;云端與生產系統差異RPO<24 h,云端數據就緒時間RTO<10 min,區域災難事故時在云端實現數據回切及應急使用或檢索,RTO<10 min,RPO<24 h??梢栽诙虝r間內恢復系統的使用。
常規數據備份,多數使用同機備份或異機備份(移動存儲),費用一般較低,萬元以內可以解決,一般企業可采用磁盤陣列RAID10或RAID5也能滿足常規生產數據備份[7]。
云災備系統,按照不同的災備方式和存儲容量、傳輸模式有所不同,一般按照月或者年來收費,數據容災系統的費用受云服務平臺和數據容量的大小影響,不同的應用平臺和數據容量費用有一定差異,但整體投入相比常規數據備份費用高,一般大型企業或者重要單位可采用云災備方式。
結合清遠水利樞紐電站和船閘信息自動化系統的使用情況,電站自動化系統使用的是采用常規數據庫冷備份,船閘信息自動化系統是采用一體機云災備+本地雙熱備運行(如圖4所示)。

圖4 清遠水利樞紐船閘信息系統集成平臺架構示意
電站曾在線路甩負荷的情況下,因線路側未跳閘,電站4臺機組同時甩負荷,高頻切機保廠用電功能失敗,造成全廠失電事故。該事故導致電站自動化信息系統不間斷電源保護動作,信息服務器供電中斷,包括APP服務端、巡檢系統、電站信息系統停止服務,數據中斷?;謴退碗姾螅掌髂苷?,但數據庫及應用平臺因組態軟件啟動驅動丟失而無法重續運行。電站上位機監盤服務脫機,機組需要現地手動開機和監盤,嚴重影響設備的安全穩定運行。同時,在恢復信息化設備期間造成一定的棄水,恢復時間約5 h。
船閘信息化調度系統曾遭黑客攻擊,發生數據文件被鎖,本地服務被迫終止,因云災備系統無法與本地服務器通信(即“心跳機制”作用),云災備接管服務,船閘數據完全同步,船民可正常報閘,中控室可進行遠程調度,僅有3艘船只登記出現數據重復并掛起處理,其余調度數據正常,RPO≈2 s和RTO≈5 min。因此,未造成嚴重的影響。
通過上述兩種信息集成系統失效的情景,不同的災備方式恢復效果相差甚遠。由此可見,船閘運用的云災備系統恢復使用效率及安全性、完整性、時效性遠優于常規數據備份模式。
通過對清遠水利樞紐電站和船閘兩種不同的災備系統和方式的性能對比、影響程度分析,船閘的災備系統更為完善,恢復數據的完整性和續服能力也非常迅速和便捷,但費用相對于常規數據備份高,系統管理、技術支撐能力、維護要求更為嚴格[8]。結合清遠水利樞紐電站的信息化系統實際應用情況,可采用云災備架構的VR整機容災模式,通過限制數據規模,減少投入成本,僅在電站信息化設備發生故障時,通過差異化數據接管服務,從而快速使系統投入運行,通過云平臺來遠程操作電站機組設備和保障數據的同步性,恢復本地后即可切換本地操作,減少生產數據丟失的風險。研究結果可為清遠水利樞紐電站信息系統改造和提升災備能力提供參考。對同類型電站信息自動化技術改造和提升災備能力具有一定的參考意義。