沈權(quán)權(quán) 聶麗萍

摘 要:本文從高校數(shù)字校園建設(shè)的架構(gòu)中介紹了容災(zāi)的重要性,并從數(shù)據(jù)庫容災(zāi)、應(yīng)用系統(tǒng)容災(zāi)兩方面來設(shè)計完整的網(wǎng)絡(luò)容災(zāi)建設(shè)方案。分析了不同技術(shù)各自的優(yōu)缺點,并描述了備份一體機在管理成本、設(shè)備成本、設(shè)備復(fù)用等方面的優(yōu)勢。
關(guān)鍵詞:數(shù)字校園;數(shù)據(jù)庫容災(zāi);應(yīng)用系統(tǒng)容災(zāi)
數(shù)字化校園發(fā)展到現(xiàn)在,已經(jīng)從最初的單個辦公系統(tǒng)發(fā)展成為云、網(wǎng)、端一體的架構(gòu),技術(shù)融合了通信、計算、軟件,3C終端融合了電信、互聯(lián)網(wǎng)、廣播電視網(wǎng)、物聯(lián)網(wǎng)等。無論校園網(wǎng)如何發(fā)展,數(shù)據(jù)信息安全建設(shè)都是首要考慮的。高校的正常運行已經(jīng)離不開數(shù)字化校園系統(tǒng)。在校園網(wǎng)的設(shè)計原則里就明確包含有“可靠性、安全性和保密性”原則。本文就針對這三方面展開。
目前的數(shù)字化校園的主流建設(shè)要點如下:
從建設(shè)要點可以看出,所有數(shù)字化校園的體現(xiàn)部分都依賴于基礎(chǔ)平臺。表現(xiàn)部分有大量的敏感信息(如:財務(wù)、科研、一卡通等),針對這部分的數(shù)據(jù)都有可靠性、安全性和保密性要求。要做好相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)安全等工作,必須先找到我們要保護的根本,這就得先了解透整個系統(tǒng)平臺的后端架構(gòu),也就是數(shù)據(jù)部分,否則我們就會陷入到“頭疼醫(yī)頭,腳疼醫(yī)腳”的治標(biāo)不治本的境地。每個校園網(wǎng)的建設(shè)都不盡相同,因此在這方面就沒有一個“萬金油”式的方案,只能去根據(jù)各校園網(wǎng)建設(shè)的架構(gòu)具體分析才能得出最終的解決之道。這里我們就以某高校的后臺數(shù)據(jù)中心的架構(gòu)作為本文討論的模型。
該高校的數(shù)據(jù)中心體系結(jié)構(gòu)如下:
從架構(gòu)分析可以看出,整個數(shù)據(jù)中心的所有數(shù)據(jù)都在核心數(shù)據(jù)庫中,所有業(yè)務(wù)都是從該數(shù)據(jù)庫獲取數(shù)據(jù)(財政除外)。這也就意味著數(shù)據(jù)庫系統(tǒng)是整個數(shù)字化校園中數(shù)據(jù)核心,一旦數(shù)據(jù)庫發(fā)生故障,整個數(shù)字化校園就處于癱瘓狀態(tài)。因此核心數(shù)據(jù)的保護就顯得尤為重要。下面我們就討論下如何保護數(shù)據(jù)庫的安全。
1 數(shù)據(jù)庫容災(zāi)
大部分數(shù)字校園的核心數(shù)據(jù)庫都是Oracle,版本都是10G以上。為了保證數(shù)據(jù)庫的高可用,基本都做了各種集群。部分做了底層數(shù)據(jù)鏡像來保證在線數(shù)據(jù)的安全。為了防止數(shù)據(jù)庫邏輯錯誤(如意外斷電、人為誤刪除、病毒、黑客入侵等),軟件平臺公司也會做一些數(shù)據(jù)庫導(dǎo)出的腳本來定期備份,部分學(xué)校會采用專業(yè)的備份系統(tǒng)來做這些事情。從本地安全角度來看,做完上述這些保護措施,數(shù)據(jù)庫本地安全幾乎做得差不多了。但是,從容災(zāi)角度來講,還做得不夠。這些系統(tǒng)設(shè)備都集中在一個機房,當(dāng)發(fā)生機房斷電、火災(zāi)等事件時,所有業(yè)務(wù)都要癱瘓,更嚴重的是數(shù)據(jù)丟失(如火災(zāi)發(fā)生時)。因此本地安全做得再好,也只是把所有雞蛋放在一個籃子里。為了更完善的保護數(shù)據(jù)庫及相關(guān)系統(tǒng),還得建立1個容災(zāi)中心。
我國《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007 )定義的容災(zāi)級別劃分如下:
第1級 基本支持;
第2級 備用場地支持;
第3級 電子傳輸和部分設(shè)備支持;
第4級 電子傳輸及完整設(shè)備支持;
第5級 實時數(shù)據(jù)傳輸及完整設(shè)備支持;
第6級 數(shù)據(jù)零丟失和遠程集群支持。
參考以上標(biāo)準(zhǔn),單做本地數(shù)據(jù)安全的只能達到第1級。容災(zāi)級別每上升1級,建設(shè)費用將成倍增加。為了節(jié)省成本,建議根據(jù)各系統(tǒng)的特點設(shè)計不同的容災(zāi)方案。
首先從數(shù)據(jù)庫考慮,數(shù)據(jù)庫的重要性在之前的分析中就有結(jié)論了,因此有必要將容災(zāi)級別提升到最高級,即RPO=0,RTO接近于0。
其次從業(yè)務(wù)系統(tǒng)方面考慮,要求級別就不那么高了。在之前的系統(tǒng)結(jié)構(gòu)圖里就能看出,業(yè)務(wù)系統(tǒng)處理的數(shù)據(jù)最終是在數(shù)據(jù)庫里保存的,業(yè)務(wù)系統(tǒng)一旦上線運行正常,幾乎很少有改動,只在后期功能調(diào)整、升級等事件時才會有變化,本身并沒有多少數(shù)據(jù)。這些就決定了業(yè)務(wù)系統(tǒng)的RPO至少是以天來計算。
另外,業(yè)務(wù)系統(tǒng)時效性要求(RTO)也各不相同,有的業(yè)務(wù)系統(tǒng)要求在幾分鐘內(nèi)能恢復(fù),有的則幾小時或幾天不等。決定業(yè)務(wù)系統(tǒng)容災(zāi)級別的是RTO,針對哪些RTO要求高的,我們做到第5級,其余的做到第4級即可。
最后從網(wǎng)絡(luò)方面考慮,網(wǎng)絡(luò)是整個數(shù)字校園業(yè)務(wù)系統(tǒng)的載體,脫離了網(wǎng)絡(luò),即使容災(zāi)中心做得再完善,當(dāng)生產(chǎn)中心故障時,容災(zāi)中心相關(guān)業(yè)務(wù)也無法對外提供服務(wù)。因此,容災(zāi)中心的網(wǎng)絡(luò)必須是和生產(chǎn)中心一樣,能獨立對外提供網(wǎng)絡(luò)服務(wù)。確定好了各部分的容災(zāi)等級后,我們就針對各部分的容災(zāi)部署方式來討論。
這里就以O(shè)racle 11g為例,容災(zāi)中心必須有一臺或多臺數(shù)據(jù)庫服務(wù)器,至少有1臺共享存儲。軟硬件平臺搭建好,生產(chǎn)中心的Oracle數(shù)據(jù)怎么過去呢?要實現(xiàn)RPO=0,生產(chǎn)中心和容災(zāi)中心的數(shù)據(jù)庫必須是同步的。同步方式可以在Oracle這層來實現(xiàn),也可以從底層存儲來實現(xiàn),也可以兩者結(jié)合。
Oracle層有oracle dataguard、goldengate、DSG以及IBM的CDC等工具。比較常用的還是dataguard和goldengate,其中dataguard的是整庫同步,goldengate可以整庫同步,也可以具體到某張表同步。每個學(xué)??梢愿鶕?jù)自身需求來選擇相應(yīng)的工具來做同步。
底層存儲同步有兩種方式:
一種是基于存儲設(shè)備自身的同步復(fù)制功能,在兩臺存儲之間做數(shù)據(jù)卷的同步;
一種是基于存儲網(wǎng)關(guān)模式,存儲網(wǎng)關(guān)下掛兩臺存儲,兩臺存儲設(shè)備把空間映射給存儲網(wǎng)關(guān),由網(wǎng)關(guān)做成RAID1(鏡像),最后由網(wǎng)關(guān)映射給oracle主機。
兩種方式各有優(yōu)劣:
第一種優(yōu)勢成本相對較低;缺點是切換操作復(fù)雜,Oracle實例有無法啟動的風(fēng)險(有數(shù)據(jù)庫文件一致性錯誤的風(fēng)險)等問題。
第二種最大的優(yōu)勢是存儲鏡像切換不需要人工干預(yù),當(dāng)一臺陣列故障時,Oracle正常運行不受影響;缺點也很明顯,采用單臺網(wǎng)關(guān)會有單點故障的問題,采用兩臺就要投入更大的成本,另外網(wǎng)關(guān)對下掛的存儲設(shè)備有一定要求,不一定所有的型號都支持,同時網(wǎng)關(guān)對下掛存儲設(shè)備的穩(wěn)定性非常敏感,一旦有敏感報警信息,很有可能被網(wǎng)關(guān)給屏蔽掉,最后網(wǎng)關(guān)也需要非常專業(yè)的技術(shù)員來維護,這給管理員帶來了新的挑戰(zhàn)。
純粹硬件的方式只能解決RPO的問題,RTO還得靠人工或者其他方式來完成,比如依靠主機層的高可用軟件或者是人工手動掛載空間,手動啟動數(shù)據(jù)庫等操作。這些都給容災(zāi)成功切換帶來了一系列的不可控因素。如果能把二者相結(jié)合,把底層數(shù)據(jù)鏡像和上層Oracle等應(yīng)用整合在一個平臺上那就更好了。這方面的產(chǎn)品也有不少:Oracle自身的Real Application Cluster(簡稱RAC)、IBM的HACMP+GLVM、Veritas的Storage Foundation HA(簡稱SFHA)等等。這類產(chǎn)品就集成了上層Oracle應(yīng)用(包括實例、監(jiān)聽等)和底層跨陣列的鏡像以及條帶等功能。在這種架構(gòu)下,能做到容災(zāi)中心和生產(chǎn)中心的數(shù)據(jù)庫都處于工作狀態(tài),也就是我們常說的雙活數(shù)據(jù)中心的概念。
當(dāng)生產(chǎn)中心故障時,只會影響到連到生產(chǎn)中心數(shù)據(jù)庫服務(wù)器的那部分用戶,這些用戶的所有session都會報錯,但只需要立即重連就會自動重新連接到容災(zāi)中心的數(shù)據(jù)庫服務(wù)器,RTO在秒級。之前連到容災(zāi)中心數(shù)據(jù)庫服務(wù)器的那些用戶則不受任何影響。同樣,由于底層存儲是鏡像模式,底層存儲任何1臺故障都不會影響數(shù)據(jù)庫正常運行。這些功能都在一個平臺上實現(xiàn),管理起來相對簡單,相關(guān)的知識庫也非常豐富,管理員只需稍加培訓(xùn)即可上手。
2 應(yīng)用系統(tǒng)容災(zāi)
大多數(shù)高校的數(shù)字化校園應(yīng)用都已經(jīng)運行在虛擬化環(huán)境了,這里就以Vmware vsphere為例來討論。在前面數(shù)據(jù)庫容災(zāi)的基礎(chǔ)上,我們默認生產(chǎn)中心和容災(zāi)中心的SAN(存儲區(qū)域網(wǎng))已經(jīng)打通了。在兩各數(shù)據(jù)中心SAN打通和網(wǎng)絡(luò)都通的情況下,首選方式是生產(chǎn)中心和容災(zāi)中心的所有vmware主機都做成一個服務(wù)器池。這樣一來vmware的容災(zāi)可選方案就比較多了:Vmware自身的有FT和SRM、Veeam、HDS的HDIM、英方的i2cloud、各備份一體機廠商(現(xiàn)在有Vmware認證的備份一體機設(shè)備都能支持直接從備份設(shè)備里啟動成功備份過的虛擬機,這讓虛擬機RTO能在分鐘級,RPO在小時級)等。在前面的分析中我們得知不同的業(yè)務(wù)系統(tǒng)RTO要求不一樣,要求高的分鐘級,要求低的幾小時。RPO要求都在天級別。針對RTO分鐘級的,可以采用FT和SRM來實現(xiàn);RTO在小時級別的,可用方式比較多,各校可以根據(jù)自身的需求選擇相應(yīng)的解決方案。如果RTO分鐘級和RPO天級的,這里比較推薦備份一體機的方案。
管理成本方面:對于一個系統(tǒng)管理員來說,能少熟悉一個平臺就能省很多時間。
投入成本方面:獨立的容災(zāi)系統(tǒng)需要單獨提供相應(yīng)的存儲空間以及主機,全部用FT或者SRM也需要準(zhǔn)備更多的磁盤陣列空間(FT和SRM是vmware虛擬主機的在線復(fù)制,都要占用額外的在線存儲空間)。
設(shè)備復(fù)用方面:幾乎每個學(xué)校都有一套備份系統(tǒng),也都將部分或者全部vmware主機納入備份計劃?,F(xiàn)在的備份系統(tǒng)都支持重復(fù)數(shù)據(jù)刪除功能,僅需要少量的空間即可備份大量的虛擬機。這樣一來備份系統(tǒng)不僅僅只是起到數(shù)據(jù)備份的作用,將備份設(shè)備移到容災(zāi)中心,這個系統(tǒng)就是個vwmare的容災(zāi)系統(tǒng),那些RTO要求不高的虛擬機可以幾分鐘內(nèi)直接在備份一體機里啟動。
容災(zāi)中心選址,作為學(xué)校來講,是否容災(zāi)到異地看各自的需求,首先第一步,作為一個完整的容災(zāi)中心,一般都會選擇本校,同城分校也可以考慮(距離不要太遠,80公里以內(nèi))。
3 結(jié)語
綜上所述,數(shù)字化校園系統(tǒng)通過數(shù)據(jù)庫最高級容災(zāi)、業(yè)務(wù)系統(tǒng)第5級別容災(zāi)以及完整網(wǎng)絡(luò)容災(zāi)建設(shè),使得集成度相當(dāng)高的數(shù)據(jù)中心的到了非常全面的安全和高可用保障。
參考文獻:
[1] 姚文斌,吳淳華.中國災(zāi)備標(biāo)準(zhǔn)和產(chǎn)業(yè)發(fā)展現(xiàn)狀[J].中興通訊技術(shù),2010,16(5) :1-4.
[2] 邱龍金,劉曉潔,趙奎.安全的災(zāi)難備份系統(tǒng)[J].計算機工程與設(shè)計,2011,32(10):3258-3261.
[3] GB /T 20988 -2007.信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范[S].信息安全與通信保密,2007.
[4] 陳宏,郭素芹,羅順輝,等.信息系統(tǒng)災(zāi)難備份策略及關(guān)鍵技術(shù)研究[J].電力自動化,2011,9(10):8-13.
[5] 楊天明.網(wǎng)絡(luò)備份中重復(fù)數(shù)據(jù)刪除技術(shù)研究[J].華中科技大學(xué)學(xué)報,2011(7):47-49.
[6] 宋文功,蔣新華.高校數(shù)據(jù)中心容災(zāi)技術(shù)的探討[J].華東師范大學(xué)學(xué)報(自然科學(xué)),2015(S1):309-312.
基金項目:
此文為2015年浙江省教育技術(shù)研究規(guī)劃課題研究成果(項目編號JB120)
作者簡介:
沈權(quán)權(quán)(1981-),男,漢族,浙江湖州人,碩士,講師,畢業(yè)于浙江師范大學(xué),就職于嘉興職業(yè)技術(shù)學(xué)院,研究方向:計算機網(wǎng)絡(luò)。