郭德瑞


[摘 ? ?要] 結合企業信息化建設實際,撤銷子公司服務器機房,整合在用服務資源,應用云計算技術部署了統一的服務平臺,建立了云化遠程管理體系。通過兩地雙中心云化建設,對提高服務資源管理水平,降低生產經營成本效果十分明顯。
[關鍵詞] 兩地雙中心;整合;遷移;云計算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 07. 077
[中圖分類號] TP311 ? ?[文獻標識碼] ?A ? ? ?[文章編號] ?1673 - 0194(2020)07- 0186- 03
1 ? ? ?實施背景
信息化已經成為國際石油石化行業和石油企業調整優化結構、提高管理水平、提升核心競爭力的重要方式和途徑。然而,隨著油田信息化助力管理提升實現高質量發展以及生產經營環境的變化,原有的服務資源分散管理帶來的問題日益突出。
本文通過開展信息服務資源整合,并應用云計算技術對服務資源實行遠程統一管理,以確保服務器資源穩定運行,數據資源格式統一、數據源唯一,讀取數據便捷,保證應用系統安全可靠運行。
2 ? ? ?系統設計
2.1 ? 兩地雙中心框架設計
“兩地雙中心”是指同城加異地災備中心的災備模式,具高可用性和數據備份的能力。
異地災備中心是指在異地的城市建立一個備份的災備中心,用于主數據中心的數據備份,當主數據中心由于遭受自然災害等原因而發生故障時,異地災備中心可以用備份數據進行業務的恢復。
在網絡層,兩中心采用萬兆專網互連,保證雙中心之間較大的帶寬,響應實時的業務數據需求,為所有不同的業務提供支持和連接。
在數據存儲層,部署存儲陣列,通過流復制技術將數據實時同步到災備中心,保證數據的完整性和可用性。確保生產中心和災備中心的數據完全一致。異地站點的作用主要是在遭受自然災難,主數據中心網絡故障時可以確保在異地有一份完整的數據拷貝,用于后續業務的恢復。
2.2 ? 災難恢復能力等級需求
根據國家標準《信息系統災難恢復規范》(GB/T 20988-2007) 的定義:災難是指由于人為或自然的原因,造成信息系統嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突發性事件。
災難備份是指為了災難恢復而對數據、數據處理系統、網絡系統、基礎設施、專業技術支持能力和運行管理能力進行備份的過程;而災難恢復是指為了將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態、并將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態,而設計的活動和流程。災備系統的建設包含七要素:數據備份系統、備用數據處理系統、備用網絡系統、備用基礎設施、專業技術支持能力、運行維護管理能力、災難恢復預案。
《信息系統災難恢復規范》將災難恢復能力劃分為6級,災難恢復能力等級越高,對信息系統的保護效果越好,但同時成本也會迅速上升。災備等級主要從RTO(恢復時間目標) 和RPO(恢復點目標) 來考慮。RPO(恢復時間目標) 是指發生災難前最后一次備份的時間點距離當前時間差(數據丟失時間);RTO(恢復時間目標) 是指發生災難后恢復物理系統環境的時間。大部分的用戶關注的是數據安全性,即RPO值(RPO越小,數據丟失越少),但是用戶往往談的更多的是RTO(RTO越小,恢復生產越快)。
RTO/RPO災難恢復能力等級的關系見表1。
結合油田信息生產的實際需求和信息系統災難恢復目標的最低要求,以及《信息系統災難恢復規范》將災難恢復能力劃分為6級的要求,將兩地雙中心恢復能力定為5級。
2.3 ? 兩地雙中心建設策略
依照中國石油行業IT戰略規劃和架構的要求,筆者認為“兩地雙中心”的建設應按照如下策略進行:
兩地雙中心建設要滿足業務的需求。建設資金投入、功能、處理能力、管理方式等必須滿足目前的業務需求,同時還要兼顧未來發展的要求。
兩地雙中心需要建立高可用性的架構。其中災備中心啟用后,就開始為生產中心提供服務。因此災備中心也應該與生產中心一樣,對關鍵業務應用采用高可用性架構,以防止由于單點故障而引起宕機。
兩地雙中心設備應該得到充分利用。系統建設不僅要考慮到緊急情況下的使用情況,還要考慮日常如何利用。例如,為了在平時提供災備中心設備的利用率,可以利用災備中心的設備進行應用的開發和測試。
兩地雙中心建設以用先進、成熟的方法論作為指導,分階段進行。成熟的方法論為災備中心建設的成功提供了保障。
災備中心與生產中心使用結構相同的基礎架構和管理流程。這樣可以大大降低管理與運行維護的復雜度。災備中心的處理能力可以與生產中心不同,但是要滿足業務需要。建設的內容包括面向數據中心提供網絡通訊設備、通訊線路、存儲網絡設備的全面容錯和異地容災;面向數據中心提供部分關鍵業務系統的容錯和異地容。
3 ? ? ?兩地雙中心方案的實現
3.1 ? 實施應用系統和數據資源遷移
一是統計可遷移應用系統與用戶數據。對企業現有應用系統與相關數據進行統計,制作遷移計劃表。計劃8月底完成遷移工作,9-12月進行系統優化,解決遷移過程中發現的問題,同時要做好規劃和分步實施。
二是組織開展數據和應用整合。分析數據庫和應用系統的邏輯結構和對應關系,逐步把油藏、采油等專業數據遷移到異地數據中心主數據庫系統中,梳理數據庫之間視圖關聯信息、數據維護軟件配置信息及數據分析應用軟件數據調用情況,建立統一的用戶訪問試圖,確保各項數據的唯一性,提高數據服務質量。
三是完成服務器物理整合。組織技術人員認真討論、分析各單位服務器性能,確定服務器整合、報廢原則,詳單見表2。將32位機器中運行的應用系統通過P2V的形式轉換到虛擬化集群當中,不改變數據庫和應用系統部署的邏輯結構,保證原有應用的穩定運行,實現系統集中管理。對這些性能落后、無升級利用價值的硬件設備由原單位直接報廢。
3.2 ? 實施云計算遠程運行管理
堅持統一性原則建設一體化平臺,借助云計算技術通過集中式管理系統建立完善的數據體系和信息共享機制,其中集中式管理系統集中安裝在云計算平臺上,通過嚴密的權限管理和安全機制來實現平臺對數據和信息管理系統的把控和安全保障,實現了云管理。
通過開發統一、開放、包容、安全、穩定的管理平臺。滿足了技術研究、生產管理、信息管理等各級人員的需求。實現了服務資源申請與分配業務的自動化、信息化管理。制定了服務器管理流程、應用系統管理流程、擴展業務管理流程和外網管理流程。通過在線設計、審批、實施、跟蹤流程,為業務和人員搭建了高效、共享的工作平臺,通過各項關鍵指標,掌握油田生產運行狀況,為決策管理層提供了有力工具。
3.3 ? 建立異地災備系統,確保數據安全
3.3.1 ? 數據備份
一是建立同步數據備份機制。應用流復制技術建立異地數據中心主數據庫到本地數據中心的數據備份系統,當有數據寫入數據庫時,數據庫間的同步機制會將數據復制一份到災備中心,實現數據庫實時備份。這種備份機制支持增量備份方式,可以節省數據備份的帶寬占用,縮短數據備份時間;二是建立異步數據備份機制。應用系統任務計劃與Oracle EXP/IMP機制,定期將數據復制備份,實現了數據日備份。通過這兩種方式,提高了數據的安全性和服務的可靠性。
3.3.2 ? 業務應用備份與恢復實現
應用環境備份的目的是確保災備中心能夠快速重建數據中心應用系統環境,并實現備份業務系統對生產系統有效替代。對應用環境備份的設計要點包括:
通過配置實現數據中心應用環境的一致性。災備中心的應用環境在技術路線、設備部署方面應盡量保證與數據中心應用環境一致。這樣有利于提高災備應用環境與生產應用環境之間手工切換的效率,也有利于日常檢驗災備應用環境的可用性。一般可通過災備應用環境定期向生產應用環境讀取配置文件、參數等方式,實現兩者配置的同步。
災備中心業務系統實現集群間自動切換模式。數據中心應用服務器一般通過HA等技術建立高可用性集群,保證本地應用服務的高可靠性,滿足RTO一小時以內的災備恢復需求。對于數據通過手工方式進行主備數據庫切換,恢復信息運行。
采用虛擬化技術對備份環境進行整合。災備中心應用環境備份資源畢竟有限,充分利用備份應用資源對數據中心應用環境保護十分重要。虛擬化技術可實現一臺物理應用服務器對多臺邏輯服務器的虛擬。這樣在數據中心里,大量性能要求不苛刻、RTO要求在數小時以上的應用系統災備環境就可以集中部署在少數的硬件服務器資源中,有利于災備中心盡可能提高對數據中心應用系統的災備范圍。保障本單位生產的持續性和穩定性,提高安全性與可靠性。
3.4 ? 完善運維體系,確保服務質量
實行服務器資源云遷移后,應用系統和數據全部集中在異地數據中心,服務器資源的申請與運維對企業生產經營管理的順利開展具有決定性影響,因此開展了制度與崗位職責的重新修訂。運維管理范圍涵蓋本地數據中心運維和異地數據中心資源運維管理兩部分。依據上級公司數據中心相關管理規范,修訂了《數據中心運維管理制度》進一步加強了機房門禁卡發放、機房出入、設備巡檢、故障處理流程等管理內容。同時,修改了中心值班管理內容,增加了非工作時間值班人員機房狀態檢查記錄與處理流程。將異地數據中心云資源聯系人由一人增至兩人,確保聯系暢通,有效保證了本地機房與云資源安全穩定運行。
4 ? ? ?結 ? ?論
通過兩地雙中心云化建設,對提高服務資源管理水平,減低生產經營成本效果十分明顯。一是安全性和服務可靠性進一步提升;二是成本壓力有效降低;三是提高了數據服務質量;四是提高工作效率,節省了人力和工作時間;五是完善的運維業務管理為信息生產提供巨大支持作用。