華東地區空中交通管理局 裘禛宇
設備的運作精度和故障率將直接影響生產系統的質量,是一類不容忽視的因素。建立健全一套經濟高效的設備維護、管理體系成為眾多企業越來越重視的管理課題。它是提高設備運行質量及其綜合效率最直接、最有效的途徑。對于設備的檢查維修,最常用的有兩種手段:
一種稱為修復性維修(Corrective Maintenance),又稱事后維修(Break-down Maintenance)。它是以設備是否完好或是否能用為依據的維修,只在設備部分或全部故障后再恢復其原始狀態,也就是故障后修理,屬于非計劃性維修。
另一種稱為預防性維修[1](Preventive Maintenance),又稱預防性檢查,是以時間為依據(Time Based)的維修檢查。它根據生產計劃和經驗,按規定的時間間隔進行全面檢查各部件,以預防損壞、繼發性毀壞及生產損失。
如何根據設備特點,科學合理地開展預防性檢查,一直是業界和學術界研究的熱點。但是此項研究大多聚焦于維護周期的選取上:從最早采用的靜態維護策略,即等周期模型;到單一目標決策方法,如V aurio提出的以成本作為目標函數的決策模型[2],及Bahrami等提出的以可用度作為目標函數的決策模型[3];再到多目標函數決策方法,選取多個不同的權重因子賦予多個目標函數[4]等等。
不同于周期性維護檢查,本文討論的預防性檢查,是根據特定需要,確定特定目標而進行的單次預防性檢查。相對于固定項目、時間點的日常巡檢和周期維護,預防性檢查更為全面、深入,且更具預測性;集中信息系統各專業人員,在相對短的時間內,綜合性全面地檢查各部件,可在最短停機時間內完成設備檢查、排除設備意外狀況;高效地利用人力資源,降低人力成本;預防性檢查在事前有充分的計劃準備時間,因此能夠在很大程度上減少風險。
由于預防性檢查最初源于醫學界,是指從預防醫學的立場出發,對醫療設備的異狀進行早期發現和早期維修;而之后,此項技術在工業生產領域得到了較廣泛的運用,指導企業對設備進行維修、潤滑、調整、改造工作的計劃安排,因此,針對醫療器械以及工業設備進行預防性檢查的研究較為豐富,而對于民航界專用信息系統的預防性檢查的研究較少。
本文就如何針對信息系統進行預防性維護這一問題展開討論,從一個案例出發,探討對于信息系統設備硬件、軟件、數據庫等層面進行規范化預防性檢查的方法。
規范化信息系統設備的維修保養是設備管理中一個十分重要的環節。應當對信息系統設備制定相應的操作規程和維護保養制度。特別是對預防性檢查的流程,各階段的工作內容以及所需的文檔,都應當制定相對應的規范。
一個完整的信息系統設備預防性檢查由三個階段組成,分別為計劃和準備階段,執行和維修階段,總結與評估階段。如圖1所示,當特定的檢查需要來臨時,開啟本次預防性檢查:首先對本次檢查分析需求、制定目標、編制計劃、確定檢查方案,并按方案著手準備;然后進入執行和維修階段,并完成檢查及維修記錄;最后總結、評估檢查的有效性、必要性和充分性。
圖1 規范化的預防性檢查流程
制定詳細的預防性檢查計劃,可以使之后的工作秩序化。計劃的內容應當包括:
(1)分析任務特定需求及設備狀況,制定工作目標,確定檢查范圍;
(2)計劃預防性檢查的時間及人員分工;
(3)根據需求,制訂硬件設備、軟件模塊等部件的檢查項目、停機檢查方案和應急預案;
(4)根據檢查內容,確定停機次數、時間、檢查順序等,制訂系統停機操作計劃;
(5)編寫預防性檢查方案文檔。
需要指出的是,預防性檢查方案中應當明確預防性檢查工作實施執行前的準備工作,如:應急備件的準備、相關用戶及保障單位協調工作、詳細的停機操作步驟確定、檢查記錄表和維修記錄表制備、應急車輛應急人員等后勤保障安排等。其中與相關用戶及保障單位協調非常重要,一般而言,在預防性檢查執行前三至五天,應召集相關用戶及保障單位將預防性檢查的檢查目的、范圍、內容及停機時間、影響范圍等告知用戶,聽取用戶意見,并與相關保障單位做好協調工作。
在計劃和準備階段,最為重要的工作有三項:
(1)詳細、全面、深入的制訂每個設備的檢查項目和方案;
(2)制定合理的停機操作計劃和應急預案;
(3)做好與相關用戶及保障單位協調工作。
如執行階段包含停機檢查項目的,在停機檢查開始執行前,應先確認以下四點:
(1)參與檢查的人員是否已經全部到位,人員對自身負責的操作內容、應急預案是否悉知;
(2)負責檢查的指揮人員是否明確,如在檢查過程中發生意見不一致,應統一服從指揮人員安排;
(3)是否已經通知了用戶,在預防性檢查開始執行前。應再次通知用戶,告知影響范圍、大致的結束時間以及備用、應急措施;
(4)備件、應急車輛、應急人員是否已經準備到位,相應備用系統、應急系統是否工作正常。
在執行過程中,除突發事件外,應當嚴格按照操作計劃,按步驟依次執行預防性檢查的操作,并填寫檢查記錄,包括操作執行時間、操作過程、檢查結果等。如在檢查過程中發生意外情況,則立即啟動應急預案進行處置,如:意外造成主用系統癱瘓無法使用的,按預案立即切換至備用或應急系統;又如:在檢查過程中發現重大故障的,按預案立即組織力量或聯系相關技術支持進行維修,并做好相關維修記錄等等。
完成檢查之后需對整個檢查過程進行總結,總結的內容應當包括:實施時間、范圍、參與人員、檢查過程、意外情況、檢查結果、經驗總結等。其中,檢查過程應當著重記錄操作過程、故障處理過程;檢查結果應當記錄檢查中發現的不正常情況,不但要記錄已處理問題,也要記錄待處理的問題及改進方法;經驗總結則是對整個檢查工作得失的分析,以便在今后的檢查工作中不斷提高。
預防性檢查的作用不僅僅在于發現、排除一些故障隱患,同時也能發現平時工作中的一些問題,如布線、標簽、通報流程、配置備份、業務資料核對等環節是否規范、到位。
此外,在預防性檢查完成后的一段時間之內,應回頭重新評估該次檢查的有效性、必要性和充分性,以供日后參考、改進。評估工作可發現檢查過程中的不足,如檢查效率和效果,計劃是否周密、準備工作是否到位、預案是否充分、與用戶的溝通是否充分、時間安排是否合理等等,特別是檢查后一段時間內所暴露出的問題,能夠反映檢查工作的質量。
民航飛行核心數據服務專用網絡(簡稱飛行服務專網)2014年建設,目前覆蓋華東、東北地區十大空管局及其下轄各分局、站,并連接全國各地區空管局、華東地區重要航空公司和機場,承載華東、東北地區多個管制重要信息系統的空管專用網絡。飛行服務專網承載了多個重要管制系統,包括:全國飛行計劃處理系統,華東統一放行和協同決策(CDM)系統,東北統一放行和協同決策(CDM)系統,各地區塔臺電子進程單系統等。對于空管局飛行計劃處理中心,華東和東北空管局流量管理室,華東和東北各地空管局塔臺管制室,以及華東各地機場、航空公司調度室等用戶而言,飛行服務專網所承載的信息系統,提供飛行核心數據服務,是其重要生產系統。
飛行服務專網內主要信息系統均由主、備兩套系統組成。重要設備如核心交換機、核心路由器、關鍵服務器等均有主、備兩臺設備組成,互為備份。為保證金磚會議期間,飛行服務專網內各信息系統的穩定運行,避免出現影響系統使用的故障停機,需要對整個系統做一次全面、深入、徹底的檢查,其檢查策略包含以下三個方面:
(1)深入的主用系統、主用設備檢查。對于在用系統所有網絡、主機、接口等硬件設備;數據庫、通信中間件、應用軟件等軟件模塊,必須深入檢查全部部件運行狀況,評估運行風險,排除隱患;
(2)全面的備用系統、備機、備件檢驗。對于平時不在用的,但作為備份手段而存在的系統、設備、模塊、鏈路等,必須全面檢驗其可用性,確保在主用部件故障時能夠快速啟用,且備用部件性能能夠滿足持續對外服務的需求。
(3)周全的輔助保障手段審核。對系統各類標簽及資料進行核對;對系統的重要備件、常用工具,測試其可用性;對于各類線纜、轉換器等小部件,統計型號、規格,核對庫存備件數量及存放位置,對于備件缺口進行及時補充。
由此可見此次檢查工作具有工作量大、綜合性強、技術復雜、風險控制難度較大的特點。
在預防性檢查計劃過程中,首先,需要確定檢查的范圍,如需要檢查哪些網絡設備、哪些服務器、哪些軟件模塊等等;然后具體深入到每一個設備、模塊的檢查需求中,確定檢查項目和方法。本次預防性檢查的范圍包括所有網絡設備、主機設備、存儲設備檢查;主用、備用系統應用軟件、數據庫、消息中間件等軟件檢查;備件、工具、標簽、資料核查;備用系統可用性檢查等。
下面以一臺網絡設備為例,一臺網絡設備需要檢查以下項目:
(1)設備運行狀況檢查,如CPU利用率、內存利用率等設備負載信息,電源、風扇、溫度等設備硬件狀態。這些屬于較為常規的檢查,通過show processes cpu,Show environment等命令可以看到。
(2)端口檢查。檢查每一個在用端口狀態、配置、傳輸的誤碼率、丟包率等。檢查每一個非在用端口是否關閉,檢查每一個終端的在用端口是否做到mac地址綁定。
(3)設備IOS版本與配置備份情況檢查。檢查各網絡設備的IOS版本是否一致,IOS是否有備份,網絡設備配置是否備份。
(4)設備日志分析、流量分析。檢查syslog記錄,逐條分析過去一段時間出現的告警記錄;檢查流量狀況,評估目前網絡運行狀況,預估流量增長。
(5)冗余部件檢查。冗余電源模塊檢查,關閉一塊電源模塊,檢驗雙電源模塊的備份效果;冗余鏈路工作情況檢查,關閉一臺主用設備或斷開一條主用鏈路,檢驗冗余鏈路的備份效果。
(6)關機重啟測試,用于檢驗設備引導部件工作狀況。
(7)備件情況檢查。包括:備用設備可用性;各類光模塊、光跳線備件是否充足等,如光跳線檢查,我們先統計所有在用光跳線接口、長度、介質(單模、雙模),分別檢查每種光跳線備件的庫存情況。
上述檢查項目中,設備負載、硬件狀態、在用端口狀態、配置備份等檢查項目屬于日常巡檢或者周期維護的范圍;而日志分析、流量分析、mac地址綁定檢查、非在用端口檢查、備件情況檢查、冗余設備、鏈路、電源檢查、關機重啟測試等并不需要經常性地進行,屬于更細致、更深入的檢查,而這些檢查項目都是事前根據任務特點、任務目標,針對性地分析、制訂的,能夠有效地排除設備運行隱患。如日志分析,通過檢查歷史syslog記錄,可以對設備運行狀態做出綜合分析及預測;而流量分析能夠評估出目前網絡運行狀況,發現帶寬不足等隱患;關機重啟測試用于檢驗設備啟動功能正常性;備件庫存檢查則保證了備件的充足與可用;mac地址綁定檢查和非在用端口檢查則保證了網絡的安全性。這些檢查項目都充分體現了預防性檢查的深入性、全面性和預見性。
有些檢查項目,如設備負載、硬件狀態、端口狀態、配置備份、日志分析、備件情況在設備運行過程中隨時可以檢查,而有些項目為了避免風險,只能在停機后檢查,如關機測試、電源模塊檢查、冗余設備、鏈路、端口檢查等。對于非停機檢查項目,應制備檢查表、確定檢查時間、安排專人進行檢查;而對于停機檢查項目,還應當事先針對某一臺或某一類設備制備停機檢查方案以明確步驟 如本次金磚保障預防性檢查中對于一臺核心交換機swicth-02的停機檢查操作步驟如下:
(1)登陸一臺互為備份的核心交換機swicth-01con口,長ping接入層交換機,查看接入層交換機鏈路冗余情況,待swicth-02電源模塊全部關閉時記錄長ping丟包數。
(2)關閉swicth-02交換機電源模塊power 1。
(3)用sh power 命令查看交換機單電源模塊power 2獨立運行情況及耗能情況。
(4)關閉swicth-02交換機電源模塊power 2。
(5)登陸swicth-01con口 ,ping連接至該交換機的主機服務器地址,以此來檢測其連通性。
(6)登錄swicth-01,查看二層拓撲:show spanningtree brief(是否為根),并查看三層拓撲:show ip eigrp neighbors。
(7)開啟swicth-02交換機電源模塊power 1。
(8)用sh power 命令查看交換機單電源模塊power 1獨立運行情況及耗能情況。
(9)開啟swicth-02交換機電源模塊power 2。
(10)登錄swicth-02:用Show module和Show environment命令查看網控監控軟件上各個設備連接狀態是否正常。
(11)swicth-02交換機檢查完成。
明確檢查步驟后,可以估算每臺設備的大致停機時間。如這臺網絡設備的停機檢查時間需要15-20鐘。此外,對于停機檢查項目還應當制備詳細的應急預案以保證檢查過程中的安全性,并就停機內容與相關用戶及保障單位進行充分的溝通。
確定每一臺設備的檢查方案之后,將所有設備的檢查方案整合,形成最后的停機操作計劃。整合應當考慮設備檢查的前后順序以及影響,如檢查量較大則可以并行安排以減少停機維護的時間,制定停機操作計劃需要考慮以下三點:
(1)保證冗余設備或冗余鏈路不同時中斷,如:不同時重啟互為備份的兩條鏈路的相關網絡設備。
(2)為快速定位停機操作產生的意外故障原因,需保證單項功能設備鏈上同時只允許一處設備進行停機檢查操作。
(3)在檢查次序的安排上應盡可能安排較大風險的操作率先進行,以留有足夠的時間應付突發事故。
預防性檢查在事前有充分的準備時間,因此能夠仔細考慮,合理安排、設計停機操作計劃,這能把預防性檢查風險發生的可能性降到最低。此外,由于停機時間是計劃內的,停機前已與用戶充分協調,用戶已經做好了準備;且維護方對每一類設備,特別是高風險的設備都做好了應急預案,充分準備了搶險技術力量,因此,即使風險發生,用戶和維護方也都能夠從容應對,減少風險所帶來的損失。
通過預防性檢查,能夠發現系統存在的隱患。仍以網絡設備為例,在預防性檢查中,我們發現了核心機房內的一臺核心交換機電口模塊無法在重啟后正常啟動;還有一臺核心路由器廣域網接口有一定數量的input error 與 crc 校驗錯誤,丟包率在1%左右等等,這些隱患不通過系統的、全面的、深入的檢查是難以發現的,特別是對于冗余設備、鏈路以及備份設備、鏈路等部件所作的檢查,能夠切實保障冗余、備用部件在緊急狀況下發揮應有作用。
此外,在之后的評估工作中,對于網絡設備,我們將重心放在了一些曾經有過錯誤日志的端口上。同時還對一些不規范標簽、走線、資料等進行了整改,取得了良好的效果。
有效運用預防性檢查具有大量好處,如在可控狀態下對設備進行檢查,能夠最大限度避免風險及對業務的影響,可消除故障后的修復性維修所產生的停機損失;全面、深入的檢查可有效發現隱患,特別是通過檢查能夠驗證冗余部件、備用部件的可用性。預防性檢查具有預見性,如數據庫、網絡性能分析可有效跟蹤、預見業務發展,提前發現系統將來的瓶頸及隱患,大大提高系統的保障水平。在實施過程中,尤其要注意前期的計劃與準備工作的完善性。發現問題的同時最大限度避免風險才是預防性檢查的關鍵所在。
[1]Barlow R E,Hunter L C.Optimum preventive maintenance policies[J].Operations Research,1960,8(1):90-100.
[2]Vaurio J K. Optimization of test and maintenance intervals based on risk and cost[J].Reliability Engineering and System Safety,1995,49(1):23-36.
[3]Bahrami G K,Price J W H,Mathew J.The constant interval replacement model for preventive maintenance:A new perspective[J].International Journal of Reliability,Quality and Safety Engineering,2000,17(8):822-838.
[4]Xia T B,Zhou X J,Xi L F.Multi-attribute Model for Dynamic Preventive Maintenance Decision with Hybrid Evolution Factors[J].Journal of Shanghai Jiaotong University,2009,43(5).