王昕 景旭 楊會君
[摘? ? 要] 隨著高校信息化的發展,教學、科研等軟硬件資源平臺的增加,加劇了資源浪費和用戶需求的矛盾。以OpenStack為代表的開源云平臺引入雖解決了信息資源管理和按需分配問題,但運維服務效率和運維成本面臨巨大的挑戰。文章立足于高效率、低成本的云平臺管理理念,通過借鑒ITIL思想,以OpenStack為開源云框架,以底層的平臺、軟硬件資源為對象,提出了基于流程的、層次化高校云運維模式。通過基于ITIL改造傳統的云運維業務流程,提高服務效率、節約資源、促進運維過程規范化,最終為IT服務水平的量化提供客觀、科學的依據和標準。
[關鍵詞] 開源云平臺;運維;OpenStack;ITIL
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 11. 076
[中圖分類號] G647? ? [文獻標識碼]? A? ? ? [文章編號]? 1673 - 0194(2019)11- 0176- 02
1? ? ? 引? ? 言
隨著計算機技術的高速發展和信息時代的來臨,為了提升教學水平、科研能力,學校投入大量資金用于教學科研平臺建設,由于缺乏高效、科學的管理模式,存在平臺可擴展性差、資源分配缺乏彈性、無法按需進行部署等問題,導致現有資源利用率低,無法滿足用戶需求。
以OpenStack[1]為代表的開源云平臺解決了計算、網絡、存儲等硬件資源的共享性問題,通過引入分布式計算和虛擬化技術使得用戶可以通過網絡隨時隨地、按需使用、按需付費、節約了用戶使用成本;同時虛擬化技術的引入使得管理層次增加、管理過程復雜、極大增加了日常運維的難度。ITIL(Information Technology Infrastructure Library,信息基礎架構庫)[2]運維實踐理論的提出,被證明可用于企業管理中,并起到優化企業IT管理流程、提高內外部客戶的滿意度、提升IT服務水平,幫助降低IT服務成本,提高企業經濟效益[3]。
本文立足于為高校師生提供更好的技術和服務,將ITIL流程化思想和OpenStack引入高校教學、科研平臺管理,實現高校傳統的“以IT技術為中心 ”,“被動式”[4]的運維模式向“以客戶和服務為中心”,“主動式”[5]的現代運維模式轉化,有效提高服務管理效率,降低高校的日常運維復雜性和總成本。
2? ? ? 基于ITIL的層次化運維模型
鑒于傳統的、以技術為中心的被動式運維管理模式對IT部門的日常運維提出的巨大挑戰,同時作為IT服務管理的最佳實踐標準,大量的成功案例表明實施ITIL可以將IT部門的運營效率提高25%~30%[6],為了解決OpenStack開源云平臺造成的系統層次多、運維復雜等問題,切實改善運維效果,本文以ITIL流程框架為主導,以OpenStack開源云平臺中的軟硬件資源作為管理對象,提出了基于ITIL流程化的、層次化的高校云運維管理模型, 模型自下而上設計了云資源管理平臺層、運維平臺層和用戶服務層三部分。用戶服務層接受來自外部用戶的服務請求并將其請求以流程化的方式傳遞給運維層進行處理,并向外部用戶反饋處理結果。運維平臺層通過調用OpenStack云管理平臺接口為用戶請求提供資源分配服務,同時為服務層提供故障申報、故障解決等一系列流程化管理功能和最終結果反饋接口,在整個模型中起承上啟下的作用。云資源管理平臺層直接對計算、網絡,存儲等資源進行管理,接收運維平臺層提出的各種資源服務請求,為上層的運維模塊屏蔽了底層軟硬件資源細節。
3? ? ? 運維流程設計
鑒于傳統運維模式存在環節繁雜、故障重復遞交率高、資源管理分散、處理周期長等問題,本文用流程化的思想對其進行改造,通過設計自上而下、逐步細化的業務分解流和自下而上、逐步解決的任務反饋流,優化高校云平臺運維流程。此外,考慮到業務部門缺乏專業IT知識,對故障細節描述不清晰,影響后續服務臺故障分類的科學性和指派的準確性增加了現場工程師流程。
在正向分解流中,模型在服務臺之上增設了現場工程師環節,即通過現場工程師對故障進行初步判斷和處理,不僅可以縮短響應時間,也為服務臺提供故障的初步分類;其次服務臺作為故障申報、資源申請的唯一入口,負責故障和資源的記錄、分類并按流程將業務指派給相應的運維人員進行處理;最后由OpenStack平臺調用相應的軟硬件資源。在逆向的反饋流中,OpenStack根據服務請求調用底層的軟、硬件資源,進行計算、處理、封裝,反饋給上層的運維人員;其次運維人員根據云平臺層提供的服務,在運維層實施資源分配與故障處理等流程,處理結果上報給平臺與外部用戶的唯一接口——服務臺;服務臺將處理結果反饋給外部用戶和業務部門。
本設計的優勢除了在不同層之間運用流程化思想,運維層內部如事件管理、問題管理、變更管理、發布管理、日志管理和案例庫維護等功能也運用了流程化思想。
3.1? ?事件管理
本文的事件是指引起IT服務中斷或服務質量下降的活動。服務臺接收現場工程師上報的事件后,首先進行記錄,然后根據故障類型和嚴重程度進行分類,以便指派給不同的運維工程師處理,處理完畢后關閉事件,同時將處理過程記錄形成工作日志,最終將事件處理過程中形成的典型案例整理成運維案例庫。此外通過對事件進行統計分析,將無法解決的事件升級為問題管理。
3.2? ?問題管理
問題來源于事件統計分析中的高頻事件和事件升級,是運維工程師經過多次循環、反復討論確定解決方案,上報并通過專家組評審,最終形成問題。故問題管理模塊主要通過問題來源、記錄、指派、方案制定、評審和實施等多個環節,解決嚴重影響業務系統正常運行的故障。并最終將問題管理、解決流程和案例分別形成知識,記錄到工作日志和運維案例庫。然而如果關系到影響整個IT基礎設施重構的問題,則將問題升級并進入變更流程。
3.3? ?變更與發布管理
本文將系統整體升級或業務規模拓展等關系到系統重構的問題升級為變更管理,同時遞交專家組進行風險和影響等綜合評估,進一步制定詳細的變更方案提交評審,通過的方案將通過遞交請求進入下一個模塊——發布管理。在發布流程中,首先由專家組綜合上一環節的請求制定資源發布方案,同時為確保系統有足夠的資源承擔業務需求,在發布前增加資源審核環節,只有審核通過后才能發布具體實施內容,并進一步組織相關人員進行培訓和測試,改善了傳統的變更管理通過方案評審后直接進入發布流程帶來的資源不確定性,從而將基礎設施改變造成的業務系統無法正常運行損失降到最低。
3.4? ?資源管理
隨著高校資源規模的不斷擴大,傳統的運維方式對資源的可擴展性和容錯性管理不夠靈活,資源彼此孤立,不能共享,突發性故障和即時性負載均衡缺乏靈活性等問題日益突出。本文基于流程化思想,以OpenStack作為底層基礎設施管理的服務平臺,利用分布式架構和虛擬化技術將計算、存儲和網絡等硬件資源以資源池形式進行管理,以虛擬機的方式按需對外提供服務,極大地提高了資源分配的靈活性。
4? ? ? 運維角色設計
隨著教學、科研等業務平臺的增多,對運維人員的業務素質、知識背景等提出新的要求,為提高運維人員工作效率、加強運維團隊成員的融合度,探索專業化的問題解決策略,本文根據運維模型對專業技能的要求設計了如下三種角色。
4.1? ?現場工程師
IT服務實踐中存在大量的一般性和小型故障,由于用戶缺乏IT專業知識,導致故障描述模糊,影響運維效率,模型在服務臺之前增設現場工程師角色作為用戶和運維平臺層之間的過濾器。現場工程師主要對業務部門申報的故障進行初步判斷和處理,及時解決用戶申報的一般故障,只將無法解決的故障提交給服務臺。
4.2? ?運維工程師
信息化技術的進步導致業務功能越來越強大,架構越來越復雜,同時由于基于OpenStack基礎設施云的分布式和虛擬化特性,導致故障處理和系統升級需要不同領域的技術人員協同處理。故本文在運維層中設計了系統工程師、網絡工程師、存儲工程師、云平臺管理工程師等運維工程師角色,為后續的問題管理、變更管理等流程提供強大的技術力量。
4.3? ?專家組
變更和發布作為運維具體方案落地的重要流程,只有經過嚴格論證、評審才能得以具體實施。模型設計了由運維工程師和企業工程師組成的專家組,負責故障的處理、變更、發布等方案的論證、評審與實施,從而確保因基礎設施改變、整體升級、系統重構等重大決策不合理造成的損失降到最低。
5? ? ? 結? ? 論
本文以新工科背景下,解決高校教學、科研及軟硬件資源的多態性和復雜性為切入點,設計了基于ITIL的流程化、層次化的運維模型。通過層次化管理模式,改變傳統的“重建設、輕運維”,“重技術、輕管理”的管理模式;通過自上而下、逐步細化的模塊化設計,實現了運維管理與業務部門的有效銜接,改善了“被動救火式”的人工運維現狀;通過設計前饋的業務流和反饋的任務流,有效提高了故障的解決效率,增加了客戶的滿意度;通過引入ITIL流程化框架,解決了運維成本居高不下的現象。為促進新工科模式下產教研融合,促進運維方式的規范化、流程化提供理論依據和實踐標準。
主要參考文獻
[1]李喆, 魏巍. 基于OpenStack平臺的私有云[J]. 天津科技, 2016(7):80-83.
[2]孟占永,張華,袁東,等. ITIL在高校IT運維服務管理中的應用[J]. 河南科技, 2012(23):55-56.
[3]周宇潔. ITIL管理理論在IT運維服務中的應用[D].上海:上海交通大學,2010.
[4]黃椿棉. 加強企業IT運行維護管理初探[J]. 企業科技與發展, 2015(5):95-96.
[5]章政海. 以“客戶為中心”的IT運維體系的構建[C]// 電力行業信息化年會, 2014.
[6]李煥中.淺談如何通過ITIL理念提升信息運維水平[J].數字通信世界,2015(12):29.