戴山
摘要:計算機房的運維工作—直屬于一種復雜類型工作,尤其是高性能計算機房僅僅依靠單個運維人員技能根本無法實現全面的操作和管理,為了建立起系統的標準化運維體系,需要在高性能計算機房運行維護中引進流程管理技術,促進計算機的運行和維護工作更加快捷和高效。文章從機房運維的現狀出發,對流程管理模式進行了深入分析。
關鍵詞:流程管理;機房運維;標準化
對于核心的高性能計算機房的使用和日常維護要求較為復雜,完備的機房運維體系的建立是近些年來高性能計算機快速發展和廣泛應用大背景下的重要趨勢,流程管理的主要技術服務和價值方向就是保證高性能機房的運作效率,同時要保證機房的使用安全性和低成本,利用流程管理這一先進的計算機管理模式有利于機房“標準化”的建立。
1.機房運維現狀分析
我國目前的大部分學校、企業都擁有自己的獨立高性能計算機房,與此同時,企業的機房運行和維護體系也都已經處于長期連續工作多年的狀態,據統計,企業核心高性能計算機房人為事故沒有發生過,突發的停機狀況也較少。但是隨著企業的技術革新進步和發展,機房設備也在不斷升級,用電制冷越來越處于復雜狀態,由此導致運行維護工作的難度逐步加大。
1.1運維設備多導致技術復雜
每個不同企業的機房場地和內部為了實現不同功能的維護和運作,設備種類較為復雜,例如:必要的高低壓配電裝置,機房內部和科室的精密空調,不間斷電源(UPS)、中央空調裝置、防火報警器、安保設施、電梯維護檢測系統等,一共包含了25種以上的運維設備,部件單元數量更是達到一百以上之多,其中各種設備均利用了不同的尖端應用技術,同時不同設備之間也會存在彼此的聯系和影響,每個不同的設備單元在實際運作過程中如果存在問題都對整體的計算機系統造成連鎖影響,所以對運維的技術要求較高,實際操作的運維難度可想而知。
1.2故障停機損失大
對于企業的核心高效能計算機,如果在運行過程中突發安全故障就會導致重大損失,所以核心計算機的安全運行維護責任重大,根據調查研究表明,企業的運維程序啟動中拖延半個小時,會造成實際產值5萬元以上的損失,同時也會有設備和耗材的多種不同損失。我國的安全生產管理條例中明確規定,運維人員需要承擔因為操作失誤和未采取運維措施導致的生產損失,對于情節嚴重者依法追究其法律責任。所以運維人員對設備操作安全責任意義重大,維護工作的進行必須時刻謹記具體的操作規范,這些都必然造成運維工作的任務量加大。
1.3缺乏先進設備的使用經驗
目前我國的很多企業在高性能計算機房的使用環境保障領域都開始大量引進先進的科學技術和設備,致力于建立高品質的機房工作環境,但是目前單一依靠現行的高性能計算機運行和維護體系很難實現安全規范操作和運行成本的降低;在短期內,國有企業在人員調整方面無法實現較大的變動,外部運維技術力量的引進和新技術的實際操作完全掌握也需要較長時間;實際企業運維部分安全和服務意識已經長期建立,提升空間有限。對于以上問題的解決必然需要對企業的管理模式進行開拓和創新。
2.流程管理模式概要
改進和完善計算機環境同時實現運維環境的安全穩定保障是管理模式調整的重要目的,從而實現更加快捷、安全、低成本的運行管理。最優解決方案就是在實現機房運維長期安全穩定的基礎上,以最低成本實現最高效率。
通過研究管理分析,流程管理是有效解決高效能系統運作和管理中各類問題的有效措施,可以快速實現安全操作和效率提高,流程管理模式的主要目的就是提高組織業務業績,實現系統化管理分析,其中流程管理的主要內容包括流程分析、流程分析和重復定義、資源合理配置、時間分配、管理流程的組織和服務質量、效率評估等。流程管理實現了對日常工作的合理劃分,同時實現不同流程和環節的嵌套和銜接,將不同部門的工作人員進行詳細劃分,賦予不同角色安排在不同崗位。流程管理技術可以有效實現管理目標的合理改變以及過程運作的標準化發展,保證動作、參數、驗證等多個環節的合理標準進步。引進流程管理模式的結合可以有效實現運維工作流程的標準化發展,實現對現有工作模式的的有效調整和優秀資源配置,通過潛移默化地影響,實現工作效率的改進和提高,實現企業管理水平的有效提升。
3.流程管理模式內容研究
3.1梳理資源同時界定職責
流程化工作的主要內容第一步就是對工作內容進行合理的劃分和安排,對所有可用資源進行優化組合。核心機房的運維資源內容主要涵蓋了對人力資源的整理、設備機械資源、維修防護整理、技術技能的掌握整理,其中對于人力資源的優化整理主要的對象就是對所有在崗在職人員,可以對在職人員進行定崗定員分配,對于不同的技術掌握程度進行不同的崗位安排,對于運維的值班安排和場地的維護以及相關操作人員需要格外注意,場地的技術指導和設備安全管理必須有明確的規章制度可循。對于流程優化應該有一個明確認識,明確流程管理的核心目的,同時也是提高流程管理效率的重要方式和重要手段,對流程管理資源配置方面的梳理和總結,有利于實現流程管理的合理化進步,實現運行速度的提高。機房運行和操作具有很大的危險性,對于不同的設備和機械要進行細節和技術驗證以及實踐證實。
3.2梳理流程并踐行標準化
在對現有資源進行合理規劃后,緊接著的一項任務就是流程梳理和具體流程體系的設計。高性能計算機房環境進行控制和保證的主要系統包括:設備運行狀態監控系統、設備操作規范流程存檔、環境穩定流程體系。設備運行狀態監控系統主要作用是對現有設備進行標準化和實時監測分析。對于設備的操作規范流程存檔應該進行預期的步驟標準化研究和安全標準化員工培訓,對于環境穩定流程體系需要對工作環境的規范化和檢驗過程的標準進行綜合整理。
3.3進行標準化交互培訓
流程培訓的標準化發展是確保流程執行和發展安全舒暢的重要保證,同時也是流程管理和技術管理的核心所在,可以快速實現流程執行者的系統知識掌握和操作規范性以及效率的提高,對于機房的運行和維護需要確保維修崗位和值班崗位的合理調整和安排。對于維修崗位人員應該選擇年齡較小同時接受力和理解力較強的員工擔任,重點進行崗位運行和維護的原理分析和基礎操作規范的學習和能力培養。值班崗位人員在大部分企業都屬于已經工作多年的有經驗員工,對于相關設備的維修和管理擁有一定的實際經驗和竅門,在接受系統的流程培訓以后,再對維修崗位進行實踐操作培訓,積極傳授操作流程和操作管理等實際經驗,對操作和管理中的不正當行為進行合理解釋和回答。
4.結語
通過流程管理技術在企業的實踐和應用,可以有效實現企業核心高性能機房的運維體系合理化水平提高,同步實現了工作流程和設備維修的標準化進步,可以更好地推動高性能機房合理化管理工作環境的構建,達到服務企業的管理目標。