文/劉建峰 朱亦寧
南京大學:IT服務提升校園網運維效率
文/劉建峰 朱亦寧
如何提高校園網絡的運維管理效率,切實保障應用系統可靠、穩定、高效地運行,以進一步提升用戶的滿意度,是高校網絡信息中心長期的追求。南京大學網絡從平臺架構、運行監控及服務理念等方面進行了系列實踐。
作為基礎設施的校園網絡管理,已經逐步實現從被動式用戶報障服務,轉變到要求能夠主動發現問題,以流程貫穿整個管理過程,提高運維管理的效率,切實保障應用系統可靠、穩定、高效地運行,提高用戶的滿意度,全面提升校園網的服務質量。
雖然通過學校的信息化系統的整合,部分實現運維系統功能的集成和數據的統一,但此前南京大學的網絡運維在資源管理、任務調度、故障處理、任務分發等方面依舊采取傳統的方式,缺少運維服務流程管理的網絡化、自動化,無法及時跟蹤故障情況,不能有效利用歷史故障的發生頻率、發生類型、處理情況、解決辦法等知識的經驗,對于故障的處理無法進行效率評估和考核;技術人員忙于應付突發事件和處理問題,工作效率不高。為此,我校基于校園網運維管理與服務的具體實踐,提出有效提升運維管理效率的方法。
優化網絡架構
傳統的大學校園網普遍采用三層架構模式,即核心、匯聚、接入的三層交換網絡架構,就一般校園應用而言,傳統的三層架構適應校園網在不斷擴展階段的高帶寬內部互聯互通的需求。但是,三層交換模式存在這樣一些問題:支持新業務難,故障點定位慢,無法實現精細化管理,用戶端的安全問題導致全網受影響等等。以上這些問題將隨著校園網規模的逐步擴大、多業務應用模式的疊加、用戶數的不斷增加和流量的爆發式增長而顯得越來越突出,校園網整體的穩定性和可靠性降低,管理維護成本越來越大。
通過國內高校多次學校調研及專家論證,廣泛借鑒運營商的大規模網絡建設與運維管理的思路,南京大學校園網絡在體系架構上一改傳統的思路和模式,即采用以純路由為核心的扁平化的校園網絡架構模式,全網實現精細化的用戶管理。扁平化的網絡架構,并非將網絡物理層面變為兩層,而是從網絡中設備所承擔的功能上進行區分,將網絡劃分為業務控制層和寬帶接入層。寬帶接入層由匯聚和接入層設備構成,僅提供基本的用戶高帶寬接入功能和相互之間的VLAN二層隔離功能;業務控制層則由核心層設備構成,提供網絡中的用戶接入控制、業務功能實現等復雜功能。這樣進行功能劃分后,網絡的層次更加清晰,更有利于全網的管理維護。
精細化管理
以純路由為核心的扁平化的校園網絡架構模式可以實現對校園網進行精細化的管理控制。
通過網絡中的寬帶接入層面實現VLAN 的細分功能,VLAN的劃分可以細致到每個接入層交換機的接入端口,這樣能夠實現任意端口之間的二層VLAN隔離功能,避免相互的干擾和影響,做到可細分、可隔離;當端口數量超過4K時,需要采用QinQ的方案,實現VLAN支持能力的擴展,提供全網4K×4K的VLAN支持。
對用戶的各種信息,如用戶賬號、MAC地址、IP地址、上線時間及其訪問行為的識別和記錄,做到可跟蹤、可追查。
實現基于用戶身份的行為控制,對諸如可訪問的資源權限、對網絡帶寬的占用等方面,做到可控制、可管理。
網絡應用的精細化管理,實現完善的流量識別和控制能力,保障重要應用系統的網絡承載,包括安全性、帶寬保障、可靠性等方面,做到可識別、可保障。
此前我校網絡信息中心的部門設置,是采用縱向一條龍的管理模式,即從規劃、調研、建設、管理到維護都是由一個部門負責到底。在網絡規模不大、應用相對簡單的情況下,此種管理維護模式可以保證最快速度、最高效率的運行。在網絡規模擴大、應用系統增多而高校網絡中心運維管理人員數量增長較低的情況下,常常因為應急性的事務而忽略了很多細節,如分管設備的巡檢和數據備份,數據中心機房的公共設施的健康狀況等。從用戶的角度來講,出現的問題是各式各樣的,涉及網絡、安全、應用系統等各種情況。
顯然,傳統應付式的運維服務方式,已經無法滿足用戶的需求。參考國外大學設定的專門的服務管理機構ITSC(Information Technology Services Center),以及學習國內高校的經驗,我校網絡信息中心成立系統運行部,對內負責數據中心環境及各種應用服務系統,對外負責用戶綜合信息咨詢及故障處理,有統一的服務電話,工作人員登記信息至運維管理系統以進行流轉,負責監控的流程將最終信息反饋給用戶,同時處理結果,形成經驗保存為經驗庫,作為后續維護參考。系統運行部促進了組織業務流程與服務管理基礎架構集成,協調用戶和IT服務人員之間的聯系,為提升運維管理效率做好體制保障。
源自于英國的ITIL(Information Technology Infrastructure Library,信息技術基礎架構庫)管理理論是IT基礎架構運維管理最佳實踐的集合。許多企業多年的實踐證明,ITIL的良好應用可以幫助企業優化IT服務管理流程,提高內外部客戶的滿意度,提升IT服務管理水平,幫助企業降低IT服務成本,提高管理效率,ITIL也就成為事實上IT服務管理的國際標準。
采用ITIL標準的網絡運維服務體系包括:建立符合ITIL標準的統一信息架構,建立服務臺,建設標準的配置管理數據庫和知識庫,規范工作流程,明確工作職責,實現進度可視化,由角色分工向流程分工轉變,實行績效管理。
建立自動化運維管理平臺
IT運維自動化管理建設的第一步是建立IT運維的自動化監控和管理平臺。通過監控工具實現對用戶操作規范的約束和對IT資源的實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用和客戶端等,通過自動監控管理平臺實現故障或問題綜合處理和集中管理。例如在自定義周期內進行自動觸發,完成對IT運維的例行巡檢,形成檢查報告,包括自動運行維護、數據備份、病毒查殺等。
智能告警,提高效率
建立共享數據庫,把各個監控系統的信息采集到同一數據平臺,進行數據分析挖掘,變被動查詢為主動分析。同時根據全面的數據采集和智能化的分析手段,對告警信息進行標準化、壓縮、歸并關聯處理,將重復的告警信息進行合并處理之后,提煉出事件的主要故障排除人員和輔助故障排除人員,將智能化之后的告警事件指派到具體負責人和協助人員,并分配不同的任務,運維人員必須在指定時間內完成流程所規定的環節與工作,以提高運維響應問題的效率。
流程跟蹤,保障進度
IT運維自動化管理建設時,需要建立故障和事件處理跟蹤流程,利用表格工具或知識庫等記錄故障及其處理情況,以建立運維日志,并定期回顧,從中辨識和發現問題的線索和根源。事實證明可以減少運維操作的隨意性和強化執行力度,在很大程度上降低故障發生的概率。同時,用戶也可以通過開放的頁面隨時追蹤該用戶故障請求的處理狀態。
等級劃分,保障核心業務
針對不同的運維流程和不同的業務系統,設定不同的優先級,在設置自動化流程時要引入優先處理原則,例行的事件按常規處理,特別事件要按優先級次序處理,優先級高的優先處理,這可以最大限度地保障核心和關鍵業務的正常服務。
利用外包服務,優化資源配置
就數字化校園運維來講,外包是指將具有基礎性的、非核心、耗時耗力的大量簡單重復性的運行維護工作外包給其他企業來完成,使高校網絡信息中心能優化資源配置,讓有限的技術人員從事網絡技術的研究、應用系統的開發等高層次工作。南京大學自2008年到現在,采用將重復、基礎性的校園網維護維修工作承包給專業公司的模式,取得了很好的效果,解決了高校網絡信息中心人手不足、多校區校園網維護困難的狀況。
采用“校園網維護維修外包,中心工作人員接聽報修電話,登記在報修系統,給外包人員派單”的方式,充分融合了人員、技術設施和流程這三大關鍵因素,形成統一的整體,在相關規則的作用下,形成對運維事件的快速響應、流程化處理,實現事件處理的高效性、效果可重復性和服務質量可期性,切實有效地提高高校師生的滿意度。
目前數字化校園關注的重心慢慢地從“以數據為中心”、“以系統為中心”轉移為“以用戶為中心”。系統運行部以用戶為中心,不斷調整服務體系的組織結構、工作內容、工作方式、工作方法、工作流程和工作范圍,全力保障網絡和應用系統安全、高效、穩定地運行,為用戶提供優質服務。
統一服務平臺
打破時間及地域限制,提供開放式的網絡服務、一站式服務和緊急故障電話24小時服務,同時保證每天14小時的現場服務,在服務過程中注重服務態度和細節。
“以網相連,用心溝通”的服務理念
秉承“以網相連,用心溝通”的服務理念,南京大學網絡信息中心多次開展“請進來,走出去”的活動,與用戶進行溝通交流。一方面把用戶請到中心來,給用戶介紹網絡與數字化校園建設情況,讓用戶更加了解數字化校園建設,了解IT服務人員的具體工作環境、方式、方法,并聽取用戶的合理化建議,并融入后期的工作中。另一方面,我們變被動服務為主動服務,到院系部門單位中去主動幫他們解決在網絡和應用系統中遇到的問題,并聽取部門用戶對網絡建設和應用建設的需求和意見,共建共享合理、優化的數字化校園。
南京大學網絡信息中心在采用了扁平化架構及上述IT服務管理方法后,校園網絡運維變得更加順暢、更加高效和富有針對性。新的實施方案提升了校園網絡服務質量,在師生中贏取了較高的美譽度。
(作者單位為南京大學網絡信息中心)