■文/許利峰
駐外分社技術系統運維安全探討
■文/許利峰
作為全球四大通訊社之一的新華通訊社,其在海外布局的各個分社為其履行報道世界的職能發揮著舉足輕重的作用。自從中央提出增強國際傳播能力建設以來,新華社駐外分社不斷擴點,分社數量一度達到180多家的規模。在這種情勢下,各大總分社切實承擔起了一線指揮部的職責。總分社職能加強的同時,對前方技術工作也提出了更高要求,駐外分社日常編輯、發稿、辦公、報道、指揮等工作要有條不紊地進行,業務依托的各個技術系統就必須安全可靠運轉。
新華社;運維;探討
為適應近幾年來新華通訊社總社、分社職能不斷加強完善以及海外報道任務陸續增加的需要,對應的技術系統也在不斷上線擴充,例如海外供稿網站、eEews鏡像站點、國際寬帶網系統、屏幕媒體系統、駐外分社會議系統和一體化編輯發稿系統等都是近些年陸續上線運營的系統,這些系統的正常運轉為駐外分社順利開展各項工作、提升工作效率助力不少。各個系統上線運行意味著運維節點的增加,技術室的運維任務也如同系統補丁一般累積式增加,然而幾個總(大)分社技術室建立的時間先后不一,其機房的環境、規模和硬件條件也不盡相同。新華社亞歐總分社即將對分社辦公樓進行整體裝修改造,其中涉及技術機房、樓宇布線和安防等方面的內容。本文基于梳理亞歐總分社技術機房及技術系統的運維現狀,對亞歐總分社技術系統運維現存問題進行歸納,并就如何解決這些問題以保障技術系統運維安全進行探討,以期對總社制訂新華社駐外分社技術系統運維保障工作規范提供參考。
1.1技術機房硬件條件不達標,服務器存放有隱患
亞歐總分社辦公樓的前身是一所當地幼兒園,建成于20世紀80年代,新華社于90年代購入并裝修,由于當時并未對整個樓房進行徹底改造,所以樓內技術機房的布局并不盡如人意,以目前的標準來看機房的規范頗為簡陋甚至存有隱患:機房內有供暖管道,到了供暖季自動上水;用家庭式壁掛空調代替專用空調7×24小時高強度運行,空調故障風險較高;沒有煙感和溫控等報警裝置,機房的運行情況靠值班人員的頻繁巡視來檢查,即使發現問題時間也會滯后。
1.2服務器集群系統關鍵設備單點無冗余,且缺乏代維服務
關鍵技術系統設備存在單點現象,而且服務器集群系統均沒有購買當地代維服務。部分技術系統建設上線時間較早,受當時條件所限,并沒有為系統所有設備購置備份機,一些設備原廠商已經停產相應設備,這些設備一旦出現硬件損壞,系統就會無法對外提供服務。
1.3綜合布線和基礎網絡問題
亞歐總分社前身是莫斯科分社,由于當時技術系統規模較小,對計算機網絡需求不大,分社裝修時并未考慮綜合布線方案,取而代之的是飛線模式:從二樓技術機房牽出網線從大樓外墻(樓頂)引到辦公室或者宿舍。在當時,這種拉線方式很好解決了工作生活需求,然而,將這種近20年前的走線模式用于今天的工作環境,其尷尬之處可想而知。隨著分社業務、系統、人員等規模不斷擴大,綜合布線缺失的弊端越來越顯現,不僅容易造成網絡不穩定、數據擁堵和訪問中斷的問題,而且一旦出現故障,難以定位故障點,經常需要到交換機端通過拔出網線的方式來排除故障端,形成維護困難、效率低下的局面。
隨著通信技術的迅速發展,網絡帶寬越來越寬,資費也越來越便宜,這種背景下,百兆寬帶、光纖接入已非常普遍。分社一般都會租用2條以上的寬帶線路。饒是如此,遇到網絡運營商故障訪問不出去的情況也難避免。另外,各分社用作外網接入代理的服務器也不盡相同,有的采用PC機作代理,有的則采用家用路由器,貌似各有千秋,其實穩定性都較差,對帶寬的使用率也難以達到最大。
1.4UPS供電的保障
分社在用的ups電源共3組,一組購置于20世紀90年代,體型碩大,型號老舊,雖然換過兩次電池、仍在服役,但隨時有故障報廢的風險;另外兩組購置于2000年左右,容量較小,放置在機房專門為服務器保障供電。分社這些電源并未集中安置,電池容量大小不一、各自為戰,電源線路雜亂,有的線路使用多年,已經開始老化,易引發短路對UPS電池造成沖擊。分社的UPS電源沒有購買代維服務,所以無法定期對電源進行巡檢,不能了解其健康狀況,若出現故障只能現買新電源替代。一旦個別UPS設備損壞,會影響到對整體系統供電的保障。
1.5各技術系統的技術文檔保存規范問題
分社各個技術系統的上線的時間不一,新系統上線之后,分社技術人員接受培訓并接收相應的技術文檔。由于駐外技術人員輪換頻繁,一些系統文檔經過幾年已經不可查,或者系統的配置在后期運行過程中發現問題,經開發人員做過更改,相關細節在對應文檔中未及時更新。
第一,針對技術機房硬件條件問題,完美的方案自然是按照技術機房的業內標準嚴格設計建設(裝修)驗收,但是這得視分社整體情況決定,單獨為技術室機房申請專項裝修的可行性并不大。這就需要我們在現有基礎上充分考慮,找準薄弱環節重點保障。
防水:機房跑水多是因為當初選擇機房時忽視了先有的暖氣管道等設施,雖然一般會關閉管道閘門截斷水流,但是管道老化破裂的可能性也要消除。因此徹底的做法是通過施工改變管道走向,不讓其經過機房,徹底避免隱患。
溫控:溫度控制是保障機房安全的關鍵。盡可能配備專用空調并安裝備機,定期巡檢。如果無法購置專用空調,只能選用家庭式大功率壁掛空調,則須根據機房內設備規模冗余安裝。因為家庭式掛機在7x24小時高負荷運轉情況下發生故障的概率較大,實現冗余安裝后,可以按周期輪流開啟不同空調組來對機房進行降溫,既可延長其服役壽命,也可在空調機出現故障后爭取到處置的時間。另外應在機房安裝溫度報警裝置,一旦出現空調意外停機導致溫度升高,報警裝置可自動啟動備機并同時發出報警信號(如鳴叫或自動撥打電話等方式)。機房還應考慮緊急通風方式(如預裝排風管道),起碼應配備排風扇的裝置,以應對極端情況下機房散熱問題。
煙感:安裝煙霧報警裝置,避免設備短路或線纜膠皮老化后引發火災。
視頻監控:在機房內部安裝攝像頭,監測非巡視時段機房狀況。
第二,隨著上線系統增多,服務器數量也直線上升,服務器出保以后故障易多發。現在服務器一旦出現配件故障往往只能通過國內購買備件托人帶來的方式解決,時效較差。建議可由總社牽頭,一方面對各分社業務系統常見硬件故障進行匯總梳理,對通用易發故障的重點服務器的硬件故障作出指導,對常規易壞配件提前進行預備,例如硬盤、電源等;另一方面,可通過復用服務器實現的業務需求盡量遷移,以精簡硬件,縮小服務器規模。與此同時,分社在當地公司設法尋找有資質的專業公司提供代維服務。對于一些老舊待淘汰的服務器,提前在當地購置可替代的備用機,擇機更換。
第三,綜合布線缺失的困境只能通過裝修布線來解決,應按業內規范設計實施,且應充分考慮冗余信息點的設置。
為提升使用當地互聯網的可用性,建議分社可租用不同運營商的線路互為備份,并使用具備圖形管理界面的專用路由器作外網接入代理服務器。
第四,購置大容量的ups電源,安排符合規范的場地集中統一放置,替代零散的小容量ups電源,同時購買代維,定期對電源進行巡檢。對于在用的大容量ups電源,務必簽代維,并對電池定期巡檢,對蓄電能力明顯下降的電池進行更換。對工作人員明確辦公區域用電規定,非計算機設備不允許接入ups電源,并定期宣傳檢查。
第五,重視技術系統文檔的保存整理工作。相關電子文檔應有多種介質保存,若有變更應及時更新。各系統核心資料應打印裝訂成冊,集中存放,便于翻閱。對于日常維護經常使用到的操作,應撰寫簡明操作指南,打印出來存放于操作臺邊。對于各系統日常運維中出現的故障以及處理經過,應專門記錄在冊,便于日后備查。
新媒體的興起風起云涌,世界傳媒格局正在進行重大變革。在此背景下,新華社也在進行戰略轉型、戰術調整。作為前沿陣地,駐外分社必須和競爭對手短兵相接,毫無退路。在這場沒有烽火硝煙的競爭中,為確保我們能穩扎穩打、步步為營,技術保障工作務必先行。只有扎實做好技術系統的安全運維,確保各系統正常運轉,才能保障分社的戰斗力,才有利于我們更快更好地向世界傳播中國的聲音。
(作者單位:新華社亞歐總分社)
G203
A