文|上海世博會事務協調局信息化部 忻 燁
世博園區信息基礎設施的運維與應急管理
文|上海世博會事務協調局信息化部 忻 燁
世博園區信息基礎設施包括地下管線、通信機房、通信基站等公共基礎設施,公眾通信網、世博專網等網絡設施,攝像機、揚聲器、票檢機、預約機等信息終端設施三大部分,基礎設施數量眾多且分散分布在5.28km2的園區建筑內或公共場地上。
世博會運行期間經歷梅雨、雷暴、高溫、臺風等惡劣天氣,臨時建筑內的通信機房和場地上的終端設施面臨著考驗,184天中每天14小時的長時間開園將給日常巡檢、搶修等帶來困難。
信息化服務對象有組織者、參展者、參觀者、媒體記者等,保障等級高,業務提供面廣,基礎設施為信息系統安全的可靠運行承擔著重要的支撐作用;面對園區信息基礎設施運維保障工作的重要性和高難度,我們必須采取行之有效的運維管理體制,以確保世博信息化應用系統的穩定運行。
園區信息基礎設施分為公共基礎設施、網絡設施、終端設施,世博會期間的運維保障需求如下:
(1)公共基礎設施
管線:園區內信息管道供世博會組織者、通信運營商及安保單位使用。永久性市政道路信息管道內以通信運營商、安保等單位敷設中繼光纜、銅纜為主,臨時性地塊內信息管道主要為接入層光纜、銅纜和會期使用的各類信息化終端設施所需的線纜。
園區總計建設永久性信息管道42溝公里,各路段視場地情況和實際需求從17孔到36孔不等,臨時地塊的信息管道80溝公里,各段管道約為5孔,信息井1000余個,弱電井3000余個,管道通暢和井蓋完好的監控與維護工作是基礎設施運維的基本工作之一。
通信機房:用于會期運行指揮和管理的聯網信息化系統,較多且分布廣泛,因此園區內專用機房達100余處、通信運營商永久機房10余處、運營商臨時機房近百處,另外視各建筑體量和用途在場館與配套設施、管理用房中設置1~4處弱電間。
由于大部分機房設置在臨時建筑中,無法按規范的信息通信機房建設,考慮到世博園區臨時建筑及其內配套設施的特殊性,我們配置了移動式空調和大功率風扇作為應急手段,購置了防汛物質應對梅雨、臺風天氣。因此相對機房內的機架、UPS、橋架走線而言,惡劣天氣下的墻面滲漏水和環境更成為運行期需要重點關注的問題。
此外,園區內建設有13處移動通信宏基站,在園區的高架步道、出入口及人流密集區還建設了400余個移動通信街道站,這些移動通信設備的穩定運行將確保大客流時的通信暢通。
(2)網絡設施
運營商通信網絡:運營商的固定通信網、移動通信網、有線電視網等公眾通信網絡,延伸至園區各場館、配套設施、出入口等區域,提供語音通信、傳真、視頻會議、高帶寬數據傳送和因特網接入、電子商務、IT代維等業務及信息亭、手機導游導覽等園區各類信息服務,滿足組織者、參展者、媒體記者、游客的個性化、全方位的通信需求。
專用通信網絡:世博信息化應用系統的高可靠運行離不開通信網絡,根據信息系統的差異化需求建設了業務專網、視頻專網、商業專網,并為網上世博會提供可全球最大規模的CDN服務。園區專網覆蓋全園區并按業務需求延伸至園區外,專網接入點達250處左右。
(3)終端設施
終端設施主要包括3500臺攝像機、3200臺揚聲器及300臺顯示大屏、600多臺票檢機、預約機等設備,滿足園區運行指揮對視頻監控、場館預約、信息發布、廣播等系統需求。其中攝像機安裝高度都在4m以上,部分安裝高度甚至達到12m。因此,眾多終端設備的巡檢、維修、清潔,特別是高空作業帶來工作量大、操作難度高等問題。
信息化基礎設施是世博信息化應用系統安全可靠運行的基礎保障,基礎設施運維工作的周全、細致將能更好地演繹“信息技術助力精彩世博”。通信基礎設施的常態管理與應急管理的有效結合,對園區平穩運行起著關鍵性作用。
世博局信息化部是世博信息化運行管理的組織、協調、分析決策和保障機構,本著“誰建設,誰運營”的原則,各信息通信系統的建設和運營單位是信息化現場運行保障的中堅力量。鑒于信息化項目復雜程度高、關聯性強、參建企業多、各專業之間不可替代性等特點,同時結合世博園區面積大、運行時間長、信息化服務對象多的狀況,我們建立了中央和現場兩級運維體制。其中,IOC(信息化運行中心)是信息化運行管理的中央指揮機構,在園區運行指揮中心領導下工作;現場運行保障團隊則分布在各園區,是信息通信運行保障的執行團隊。
信息基礎設施的常態管理遵循信息化部總體原則,并重點考慮了以下幾個方面的內容:
(1)崗位設置:在IOC設置管線、機房、網絡、終端設施四類專業崗位,由專業保障單位(均為本項目承建方)的團隊擔當,信息化部的項目經理在綜合崗位值班。現場運維工作通過在浦東、浦西園區設立的多處備品備件存放點,安排專業保障單位的技術人員值守,快速響應各類故障處置。
運維技術人員通過網管監控、現場巡檢、日志報告、日間/夜間搶修等方式開展日常保障工作。為了使在崗人員更好地掌握信息化基礎設施運行保障的目標、內容、范圍、體系與分工、流程與機制,在各專業保障單位和世博局共同編制的《運維保障方案》基礎上,我們還編制了《通信與設施設備運行保障工作手冊》,工作內容、流程與分工界面等有效規范并指導了團隊的工作。
由于信息基礎設施各崗位工作具有關聯性,為使團隊之間有效配合,我們將園區信息基礎設施的建設情況編制成知識庫進行培訓和日常查詢使用,提高了保障工作的協同性。
(2)制度建立:由于世博園區184天無休、9時~23時開園,因此信息基礎設施保障隊伍根據現場情況分為三班二運轉和四班三運轉以提供7×24小時高質服務。為了不影響游客觀展和參展方正常工作,開園期間我們主要執行網管監測、巡檢及應急搶修,而設備維護保養(尤其是外場地登高、開井作業)可能引起網絡或系統中斷的維修、割接及根據運行管理需要的補充建設等大部分工作則均在夜間實施。針對現場工作條件欠缺、工作量大、協調面廣的特點,我們購置必備物資、優化工作流程,并建立與各片區、場館管理部及物業定期溝通機制。經過一段時間的團隊及與其他團隊的磨合,形成了權威、順暢的組織指揮體系,建立了快速、有效的溝通協調機制。
信息基礎設施應急管理堅持“預防為主、重點保障”的原則,實現資源分配向重點工作、重點活動、重點場所傾斜,建立專家團隊并充分利用成熟的技術手段、產品、經驗和解決方案,對預警預測、預案管理、處置過程進行信息化支撐,滿足對應急管理的計劃性、可溯性和可操作。
(1)事件分級及預案
我們對事件性質和影響面兩個因素,對事件進行分級,具體如表1所示。

表1
針對不同等級的事件,我們制定對應的應急方案,以信息發布系統的顯示屏為例,Ⅰ級、Ⅱ級事件類別及應急方案如表2所示。
信息化機房的Ⅰ級、Ⅱ級事件類別及應急方案如表3所示。
在試運行期間,世博園區專網某重要匯聚節點曾發生故障,導致局部區域網絡及系統中斷。由于事件發現及時,且故障判斷迅速準確,通過重啟設備暫時消除了故障,因此未對運行帶來重大影響。隨后,根據應急預案,我們啟動了以下幾項工作:

表2
(1)根據故障初診結果,當天晚上閉園期間重啟所有同類型網絡設備,并采取臨時性的技術手段確保故障在兩周內不再復發,并通知各應用系統團隊做好相關預案工作。

表3
(2)組織專家團隊緊急會診。由于該故障較為罕見,設備供應商調動了上海、北京、美國三方專家共同參與故障的深度分析和修復方案的討論。
(3)修復方案未完成前,安排設備廠商的專家入駐世博園區信息化進行24小時值守。
三天后,廠商確認故障為軟件BUG,一周后提供了修復方案。根據方案,我們組織力量利用夜間對網絡進行升級,徹底解決了隱患。
從目前運行情況看,信息基礎設施在“信息化助力成功、精彩、難忘的世博會”中扮演了重要的角色,發揮了突出的作用。希望由此積累的體會和經驗能與信息基礎設施領域的同行們分享,為今后中國的大型活動項目提供借鑒并推廣應用。