王光武 孫濤 周純玉


摘? 要 校園數據中心作為學校教育信息化的核心,承載著信息化建設的各項業務平臺。數據中心通常為校內單位提供信息化平臺托管服務,由于權限的特殊性,如何在有限的權限范圍內保證平臺穩定運行,是運維者所面臨的重要任務。通過研究與總結校園數據中心托管平臺的日常運維工作,希望能夠對相關運維者提供一定的借鑒價值。
關鍵詞 高校;智慧校園;校園數據中心;托管信息化平臺;運維管理;Cacti;RAID
中圖分類號:G434? ? 文獻標識碼:B
文章編號:1671-489X(2021)06-0009-03
0 前言
隨著智慧校園的不斷發展,國內各大高校先后建設或者改造自己的校園數據中心。校園數據中心除運行整體校園網絡核心設備、關鍵應用系統外,為了更好地助力學校信息化事業建設,通常還為校內各單位、部門提供包括實體服務器、虛擬機、信息系統等平臺的托管服務,以此滿足學校各二級單位(部門)各類信息系統的互聯網訪問需求、硬件環境運行等。上述各類托管信息化平臺在學校教育信息化建設中同樣發揮著不可替代的作用。
在高校校園數據中心不斷完善、豐富各項內容建設、提高服務能力的同時,數據中心運維人員除要對權限范圍內的核心系統、設備進行管理與維護外,還需要監控與保障各托管信息化平臺的正常運行。托管信息化平臺有其特殊性,運維人員不會具備這些平臺的最高管理權限(權限在托管單位管理),也不能操作其具體業務,所管理的范圍通常僅包括設備的運行環境,如電力供應、溫濕度保障、網絡連通、硬件運行監控等,也就是通常所說的硬件設施的管理[1]。故此類信息平臺的維護工作是需要數據中心運維人員與托管信息化平臺管理人員協同配合才能完成的。
雖然無權限涉及托管系統的業務管理,只有硬件部分管理與監控,但是也不要輕視此項工作,如果稍有差池,輕者導致托管平臺訪問中斷若干時間,在一定程度上影響用戶使用體驗;重者造成信息系統的數據損壞或系統癱瘓,甚至是重大的經濟損失[2]。
信息系統可用性即信息系統正常運行時間占總運行時間的百分比。對于信息系統這類Web站點來說,行業內通常使用n個9對可用性進行量化[3],如表1所示。
當然還有一個9甚至六個9的定義級別,但是對于1~2個9來說,分別代表總運行時間內業務可能中斷的時間是36.5天、3.65天,這種級別對于對外提供服務的Web信息系統來說已經不再適用。那么如何保證服務達到基本要求的標準——99.9%,就成為擺在運維人員面前的關鍵任務[4]。本文從托管平臺的數據安全、環境維護、監控機制等方面入手開展研究,不斷明確各類托管平臺的管理及運行現狀,根據日常運行情況逐步發現并解決已經存在的各類問題。同時要及時掌握其潛在的運行風險,進而提出合理對策,以此增強托管平臺的安全性和穩定性,保障信息系統內部數據的安全,實現對資源的有效運用,顯著提高信息系統訪問的外網連通率,最終使信息系統達到99.9%甚至更高的可用性。
信息系統可用性并不完全取決于硬件,而是由軟硬件共同決定的。對于承接信息系統運維托管工作的人員來說,信息系統內部如數據庫、中間件等組件,或是信息系統后端管理、代碼實現等,他們是無權管理的,此部分內容將依靠信息系統開發廠商服務、與托管單位管理人員協同配合等方式來實現。運維人員更多是幫助托管單位在服務器硬件、網絡連通、運行環境、系統監控等外界環節進行建設與完善,以此逐步提高信息系統的可用性。
1 數據安全
對于托管平臺即信息系統維護而言,由于其對外提供信息資源訪問服務,將存儲若干的關鍵數據,因此,首要任務就是保障托管平臺上這些關鍵數據的安全。
數據備份與恢復? 對于數據安全來說,數據備份與恢復是一項關鍵及常見的保護手段。由于安全問題的出現多數情況下都是沒有預兆的,也很難對安全問題有一個細致的辨別,不僅有來自外界的非法滲透、入侵等安全威脅,信息系統自身內部同樣存在硬件老損、系統異常等導致數據損壞的隱患。為此,數據備份可以有效保障信息儲存的完整度,主動對不可預測的災難事先進行有效預防,避免因遺忘、單點故障等因素而使數據內容一直置于安全環境下。即使出現安全問題,也能夠利用備份文件將數據恢復,對信息系統的數據安全極為適用。所以,對于服務器中的重要文件或文件夾采用專業的第三方備份平臺進行有針對性的異機備份。通過該平臺,運維人員可以設置對托管平臺內的單文件、文件夾進行異機備份,甚至對于數據庫以及整個操作系統等進行備份。由于數據備份將占用托管平臺的硬件資源、網絡帶寬等,導致平臺對外服務受到一定影響,因此通常在托管平臺相對空閑時間開展備份。同時,要有針對性地設置個性化的備份方案,包括時間、頻率等內容。這就需要運維人員了解托管平臺的服務方式。如學校某個海洋數據分析平臺將在每日凌晨對采集到的數據進行持續5~6小時的分析與加工,以便使用人員能夠在八點查看到分析結果。故該托管平臺的相對空閑時間為日間,在備份方案上采用每日日間方式進行。當然所有備份方案同樣需要運維人員與托管平臺管理人員進行測試與演練,以此確保備份方案的有效性,確保備份到的數據可用、可恢復。
存儲安全——RAID? 雖然磁盤技術飛速發展,單盤容量及其讀寫速度都有了很大提高,但存儲設備的數據安全仍以RAID為主。采用RAID技術的存儲,可具備兩個關鍵屬性:高可靠性和高可用性。高可靠性即設備發生故障時,在降級狀態下依然能夠完成數據的存儲任務。高可用性即設備發生故障時,能夠通過自身的容錯恢復能力走出降級狀態[5]。RAID技術是保護數據的常用方法。有部分行業專家稱,隨著存儲容量的增加,RAID陣列錯誤的概率也會增加,市場對RAID技術的需求已經減少,逐步替代它的是擦除編碼和固態硬盤等相關技術[6]。盡管如此,大型存儲供應商仍然在其存儲陣列中支持RAID。日常使用的Raid技術包括RAID 1、RAID 5、RAID 6等。
RAID 1即兩個硬盤數據完全相同,當有一塊損壞時,另一塊硬盤完全可以不受影響單獨運作。RAID 5是將奇偶校驗信息和相對應的數據分別存儲于不同的磁盤上,其中任意N-1塊磁盤上都存儲有完整數據,也就是說有相當于一塊磁盤容量的空間用于存儲奇偶校驗信息。因此,當RAID 5的一個磁盤發生損壞后,不會影響數據的完整性,從而保證了數據安全。為了提高數據的整體安全,對于存儲設備通常采用RAID 1及RAID 5技術相結合的方式,具體為:對于關鍵服務的系統磁盤,采用RAID 1方式進行;而對于存儲數據的磁盤,采用RAID 5方式進行。另外,從平衡容量、速度和重建時間等方面考慮,對于零散型小文件的存儲服務器通常采用RAID 1方式,而對于存儲視頻等大文件場景采用RAID 5方式。
2 環境維護
運行環境? 硬件所處的運行環境對服務器運行尤為重要,其中的溫濕度指標是服務器能否正常運行的關鍵。溫度偏高時,將會導致硬件元器件運行參數偏離,產生邏輯錯誤,造成電路工作異常;同時易導致CPU、硬盤的加速老化、失靈,帶來無法修復的損害,降低使用壽命。溫度偏低時,極易導致水分凝結在元器件上,出現短路或者漏電問題。而濕度的異常也將給硬件帶來靜電干擾、放電打火等問題,帶給信息系統不可估量的危害。核心機房應配有良好的精密空調系統,使運行環境保持高穩定性,夏季溫度保持在(22±1)℃,冬季溫度保持在(20±1)℃,相對濕度保持在45%~60%。機房要相對密閉,能夠有效減少光線、灰塵的進入。同時,大連地區夏季雷雨天氣頻繁,核心機房均配有防雷接地系統以確保雷雨天氣的安全。上述可靠的硬件條件,保障了大連海洋大學各類托管平臺能夠處于恒溫、恒濕、防塵、防雷等條件的運行環境,滿足了硬件設施各類元器件的運行需求,以此實現托管平臺的穩定高效運行。
電力供應? 保障信息系統的安全穩定運行,電力供應更是至關重要。供電線路故障、事故、雷暴、計劃維修等一系列情況,極易導致斷電問題的出現。為此,在硬盤冗余、網絡冗余的配置下,電源系統也要務必進行冗余設計。大連海洋大學所有托管平臺所需相關的硬件設備,包括服務器、存儲、光纖交換機等,均要求配置雙電源,否則不予辦理托管業務。對于電源的接入,運維人員均給予分別接入不同的供電單元上。這樣假使一路電源中斷,因冗余電源的存在,另一路電源仍正常供電,保障托管平臺硬件仍處理正常運行狀態中。
同時,各路供電單元均配置在線式UPS系統,相對于離線式來說,一方面,在線式UPS系統能夠提供不間斷的穩壓供電,使信息系統硬件持續獲取穩定的電壓輸入,保護硬件設備免受市電噪聲和瞬變的影響;另一方面,當出現輸入中斷時,在線式UPS能立刻將其存儲的電能進行輸出供電,保障托管平臺硬件所需電力的持續供應。
監控機制? 工欲善其事,必先利其器。良好的運維管理始終離不開監控機制的輔助。對于托管平臺來說,運維人員雖然不具備平臺的管理權限,但是可以通過一定的外部監控手段,實時獲取托管平臺硬件設施的各項運行參數,如CPU負載、磁盤空間、網絡流量等,進而形成一系列的歷史數據積累,并通過專用繪圖工具形成圖表,使數據可視化,便于運維人員直觀查看。通過相關的歷史數據分析,實現對托管平臺運行狀態、各項容量的可視分析,為系統優化、運維提供數據參考[7]。
運維人員對于RRDtool都較為熟悉,這是一套開源工具,可以對數據進行保存與繪圖。但是它畢竟只是一套工具引擎,要進行模塊化的數據管理,就需要借助MRTG和Cacti這類軟件。雖然這兩款軟件的作者是同一個人,但是MRTG有些過時,目前運維人員通常使用Cacti。Cacti是一套基于PHP、MySQL、SNMP及RRDTool開發的網絡流量監測工具,其主要功能是通過SNMP協議獲取數據,并利用RRDTool工具儲存和更新數據,進而生成圖表呈現給用戶,方便用戶查看數據。借助此類有效工具,對各個托管平臺的運行狀態進行有效監控與記錄,并在出現異常時及時發現處理,對于管理相對特殊的托管平臺來說是必不可少的。
圖1展示的是通過Cacti監控平臺記錄某個托管平臺一年內的進程數量的監控圖。從圖中可以看出,該托管平臺進程數量整體上呈現增長態勢,在前一年3月進程數量突破2 000,達到3 000左右,并一直維持在這個區間;且在本年度二月份突破4 000峰值,并可能有保持這個壓力的態勢。這種情況對于普通網站硬件資源是比較危險的,硬件資源將會不足。運維人員可以根據此項記錄盡快提醒托管單位管理人員對服務器資源進行調整和規劃,以免出現不必要的宕機及損失。
圖2展示的是通過Cacti監控平臺記錄某個托管平臺3—11月間的HOME存儲目錄磁盤空間的監控圖。從圖中可以看出,該托管平臺HOME目錄磁盤空間自8月以來一直呈快速增長態勢,且目前10 T的總體空間已經達到近50%。按照這個增長速度,空間容量將會很快飽和。可以根據此項記錄,提醒托管單位管理人員對服務器存儲資源進行調整和規劃。
3 結語
本文介紹了大連海洋大學在數據中心托管服務過程中重點關注也是投入較多精力的關鍵工作。無論是數據安全、基礎環境,還是監控機制,核心思想就是要做到冗余備份、防患于未然,在看似正常運轉的時間里,運用專業工具,結合運維經驗等,能夠及時發現其存在的安全隱患,在不影響業務正常運行的前提下,通過有效方式給予及時解決或消除。但是,網站運維不僅僅是這三個方面,網絡安全、網絡鏈路等也都是運維人員關注的重中之重,更需要運維人員與托管單位雙方協作配合、各司其職、肩負責任,方能使所有的投入變成有效的作用,使托管平臺能夠持續平穩地運行下去。
參考文獻
[1]康海燕.網絡隱私保護與信息安全[M].北京:北京郵電大學出版社,2016:11.
[2]陸愛東.計算機數據庫備份與恢復技術的應用策略[J].信息與電腦(理論版),2019(23):118-119.
[3]楊高攀,嚴鵬飛.企事業單位數據中心運維管理分析與研究[J].電腦知識與技術,2019(21):26-28.
[4]王振宇.企業級數據中心運維管理探討[J].科技傳播,2018(4):148-149,151.
[5]謝屹.淺談機房基礎設施運維保障工作研究[J].通訊世界,2018(4):81-82.
[6]李德偉.基于多維數據的智慧運維監控平臺開發及應用[J].電子元器件與信息技術.2018(8):41-44.
[7]王賢亮.談“互聯網+”時代之機房安全運維[J].現代經濟信息.2019(23):96.
[8]張俊濤,榮華良.計算機網絡服務器日常安全和維護框架實踐[J].科技展望,2015(14):236-237.
作者:王光武、孫濤、周純玉,大連海洋大學信息化工作辦公室(116023)。