宋瑩,潘振祥,王志勇
(河南省國土資源廳 信息中心,河南 鄭州 450016)
目前,我國政府部門電子政務工作的重點已從大規模網絡、平臺、業務系統的建設階段轉向以深化應用、提升應用效益為主要特征的“運行維護”階段[1]。承載電子政務系統運行的內部辦公網絡一般分為內網和外網兩個相互獨立的網絡,內網承載政務系統的運行,外網一般不承載或者承載少量非核心的業務系統,與互聯網相連。由于內網故障會直接導致政務審批工作的中斷,所以,內網安全一直是網管員們關注的重點,外網運維管理一直放在次要的位置。但是,隨著互聯網應用的發展,外網的運維管理也越來越重要。
外網應用的典型特征是要與互聯網保持暢通,一邊滿足服務民眾的需求,一邊滿足政府工作人員登錄互聯網的需求。
《中華人民共和國政府信息公開條例》自2008年實施以來,政府信息公開和政府門戶網站建設成為各級政府部門很重要的一項工作,納入崗位責任考核,并且不斷提高考核要求。因此,各個政府門戶網站信息公開內容越來越豐富,交互服務功能也越來越多。如國土資源行業,土地和礦產資源的審批公告要及時公布,土地使用權交易和礦業權交易必須提前公示,讓申請人在規定時間內提出采購申請,時效性很強,各級國土資源部門已把這些公告和公示從傳統媒體轉移到門戶網站,設定專門欄目予以發布。門戶網站的交互功能也從原來單一的郵箱功能變成公眾參與的諸多欄目,如在線咨詢、在線訪談、網上調查、網上申報等[2],為民眾提供更加便利的服務,體現政府的服務職能。
政府工作人員在工作中也越來越依賴互聯網資源。撰寫公文,需要在互聯網上搜集信息,了解政策;日常辦公,大量公文及管理工作資料也常常在本級或者上級門戶網站公開,政府網站往往設計“管理工作”和“資料下載”欄目,方便工作人員下載使用;常常使用郵件、即時工具,和上下級、同行、業務支撐合作單位等保持溝通,傳遞一些不涉密的工作資料,加快推進工作進度。特別是,還有一些單系統業務數據也要通過互聯網鏈路及時上報上級部門。
隨著這些應用的拓展,政府部門外網一旦中斷,門戶網站服務器將不能再對外提供服務,給民眾帶來很大的不便,工作人員辦公也會受到很大影響,因此,外網安全已逐漸和內網網絡安全提到同樣重要的位置,外網時刻與互聯網保持暢通成為外網管理必須完成的一個任務。
為了滿足以上外網運維管理需求,我廳外網運維管理體系分為以下3個層次。

圖1 網絡運維管理體系圖Fig.1 Network operation and maintenance management system
對網絡劃分多個安全域,增加網絡訪問控制來提高安全級別,實現內部網絡訪問的高安全性,目前技術最為成熟的專用網絡訪問控制設備就是網絡防火墻。作為整個政府單位網絡的第一道屏障,必須在外網部署防火墻功能,防火墻設備的性能需要參考外網帶寬,以及應用要求,包括并發連接數以及每秒新建連接數指標等[3]。網絡防火墻的接入實現有獨立防火墻設備與交換機專用防火墻模塊兩種方式,防火墻模塊安裝在核心交換機模塊擴展槽位,通過背板連接的形式與核心交換機各板卡間實現了高速通信,從而將核心交換機“變成”多端口的防火墻,轉發性能超過專用的千兆防火墻。本方案采用交換機專用防火墻板,對服務器區域進行劃分,分為管理服務器區和對外業務服務器區。
在管理服務器區架設一臺服務器部署網絡客戶端管理系統,利用該系統,可以對客戶端資源進行有效管理,對IP地址實施管理,定位人員和計算機;部署安全策略,實施網絡接入控制,不合法的計算機不允許介入網絡;實施網絡訪問控制,網絡殺毒軟件及操作系統補丁升級不及時則發信息提醒安裝,甚至不允許登錄網絡。
通過核心網絡防火墻和網絡客戶端管理系統,保障網絡基礎安全。
在互聯網出口部署網絡防火墻,負責網內用戶上網的NAT轉換,對進出外網的數據包進行過濾,過濾常見網絡病毒,并實施門戶網站服務器、FTP服務器等重要服務器的對外服務轉換功能,以及對各服務器所提供的服務進行訪問控制。在管理服務器區架設一臺服務器部署日志審計系統,對出口流量進行審計,系統提供對多種網絡服務(SMTP、POP3、WEB、FTP、DHCP等)的監視,滿足國家互聯網登錄管理中的相關審計要求。目前,網絡防火墻和日志審計系統已是互聯網出口管理必備的設備。
隨著互聯網應用的發展,這樣的管理手段已不能滿足管理需要,網內用戶不斷抱怨網絡登錄速度慢,甚至常常出現不能登錄現象,通過互聯網向上級直報數據也往往無法登錄。通過分析,原因主要是:1)登錄互聯網的用戶增加,由原來的一個部門1~2臺計算機逐漸變為每個人一臺,網內用戶約600人,在線用戶也逐漸在增加,工作時間內在線用戶常常保持在400~500人,而出口帶寬經過擴容增加為100 M;2)P2P等無關業務占據了大量的傳輸資源,造成了其他應用的接入困難;3)對P2P等無關業務缺乏監測和管理手段,無法做到流量合理分配,單純擴容造成資金成本提高,卻無法從根本上解決問題。近來出現一些P2P封殺工具,但簡單封殺并不是最根本的解決途徑,同時P2P也是一種很不錯的網絡應用技[4]。如何有效地分析網絡應用協議,合理規劃帶寬資源,才是最終的解決途徑[5]。因此,我們在防火墻后增加一臺專用流量控制設備,采用透明橋接方式串聯在外網核心交換機與防火墻之間,保證所有進出流量可以管理。
根據實際情況,目前流量的分配如圖2所示。
重要用戶組:此組包含外網重點業務,如業務審批配號系統等的用戶,優先保障;服務器組:此組包含外網WEB服務器等IT基礎架構中需要進行帶寬保證的各服務器;P2P組:此組進行P2P,流媒體等大流量應用的帶寬合理分配,通過帶寬限制保證不影響正常用戶的互聯網瀏覽等。
經過帶寬擴容和流量調控,在測試期,經過不斷的觀察,收集反饋和優化,目前我廳互聯網流量典型情況如圖3所示。結合日常高峰時段流量分析,P2P流量得到合理限制,在兼顧P2P下載的同時,總流量無明顯峰值,目前我廳互聯網業務系統訪問速度大幅提高,網站瀏覽流暢,P2P流量得到了合理分配,互聯網登錄的不同應用需求得到相應保障。

圖2 網絡流量分配策略Fig.2 Network flow distribution strategy

圖3 日常網絡流量趨勢圖Fig.3 Daily network flow trend
在核心交換機以旁路方式部署一臺IPS設備,它作為入侵防御系統可以識別并阻止惡意流量、蠕蟲、病毒和應用程序濫用;提供智能化的威脅檢測和保護;借助聲譽過濾和全局監測,防止威脅入侵。
在核心交換機以旁路方式部署一臺綜合安全管理平臺,全稱為安全監控分析和響應系統(MARS)。此系統是一個威脅管理、監控和防御設備,將傳統安全事件監控與網絡智能、上下文關聯、因素分析、異常流量檢測、熱點識別和自動防御功能相結合[6],自動實現威脅等級分析、網絡攻擊拓撲描繪、網絡防御方案即時生成等功能,可以幫助準確識別和消除網絡攻擊。
設定IPS與 MARS聯動,作為探測器為MARS服務,在核心交換機上做鏡像端口,把需要檢測的流量引入到IPS。確定MARS與IPS直接的鏈路是相同的,數據可以正常到達。
2012年×月×日14:30左右,出現互聯網訪問困難,甚至出現部分Vlan全部無法訪問外網。通過應用已部署的管理工具,逐步分析解決了這次故障,特別是近期部署的MARS為快速定位故障點起到了重要的作用。
接到用戶電話后,分析故障現象,首先通過本地終端查找數據包傳輸中在哪個節點出現問題,操作步驟如下:
1)首先從終端PC機PING網關,鏈路通;
2)PING核心交換機的上連接口地址,鏈路通;
3)PING防火墻下連接口地址,出現大量丟包現象。
觀察網絡中設備狀況,發現流控設備警告燈長亮,嘗試登錄流控管理界面,已經無法正常進入,故將流控設備撤除,使核心與防火墻直接互聯,觀察終端訪問互聯網絡,發現問題消失,訪問外網正常。
事后查詢流量控制設備的統計報表,發現當時的流量已遠超過日常的100~120 M總流量如圖3所示,最高值沖到了180 M,如圖4所示。

圖4 故障期間流量趨勢圖Fig.4 Daily network flow trend during the fault
經過幾分鐘的使用后,網絡再次出現大量丟包現象,繼續查找問題所在。
通過上面排查現象,初步認為是外網防火墻的問題。直接使用PC與防火墻的MGMT管理口相連,使用PING管理地址驗證鏈路互通情況,發現即使通過管理口相連,也會出現大量丟包現象,無法順暢登錄到防火墻的管理界面。根據此現象,懷疑防火墻的CPU與內存利用率占用過高導致無法正常運轉。最后通過登錄到管理界面(速度很慢),驗證防火墻的利用率確實高達70%多。根據以上現象,結合部分Vlan完全無法訪問外網,其他用戶卻可以訪問的現象,初步認定是局域網中有病毒大量泛洪,導致網絡癱瘓。
為了驗證是否為病毒攻擊,登錄到核心交換機查看資源利用率,從telnet到核心,查看CPU與內存情況,截圖如圖5所示。通過查看發現核心交換機利用率并不高,這樣就感覺病毒攻擊引起的可能不是太大,如果為病毒泛洪,核心交換機的CPU和內存使用率也會居高不下。
為了進一步查找問題根源,使用了前期剛剛進入試運行的MARS及IPS傳感器體系,通過查找問題發生時間段的MARS告警分析,有圖6顯示的信息。

圖5 核心交換機資源利用率Fig.5 Core switch resources utilization

圖6 故障期間網絡拓撲圖Fig.6 Network topology during the fault
根據圖中顯示,大量客戶終端主機都通過某一臺主機訪問外部固定的公網地址。根據IP地址和客戶端管理系統,查詢到此主機為某處室人員使用,上樓查看,發現該處室大量終端同時都在訪問某考試網站觀看同一培訓視頻。綜合以上故障現象,交換設備分析,并利用MARS系統的異常事件分析功能,排除了網絡中大規模病毒爆發的懷疑,問題確定為多個用戶同時訪問同一網站的同一視頻,造成流量控制設備先前策略無法定位,策略失效,引起帶寬的大量占用,從而導致其他用戶無法正常上網。
登錄離線狀態的流量控制設備,更改限制單IP最大帶寬額,分別調整為原始值的50%,保存配置。經過觀察,網絡使用情況恢復正常。且此策略下面對今后出現的類似應用,也不會造成流控或防火墻的過高負載。至此故障解決。
網絡運維體系建設是一個不斷適應和發展的過程。明確網絡應用需求,選擇合適的網絡運維管理方式和技術工具,根據實際應用,配置恰當的策略,并隨著應用的發展不斷調整。
[1]運維管理體系的論述[EB/OL].http://wenku.baidu.com/view/fc54c1c608a1284ac8504381.html.
[2]河南省國土資源廳門戶網站[EB/OL].http://www.hnblr.gov.cn/viewpage?path=/index.html.
[3]曾昶.政府外網優化設計實踐 [J].通信與信息技術,2010(2):60-62.ZENG Yong.Optimization design of the outside network in government[J].Communication and Information Technology,2010(2):60-62.
[4]蔡一聞.淺談如何優化高校網絡運維管理[J].科技資訊,2009(10):31-32.CAI Yi-wen.How to optimize the operation and maintenance management in university network[J].Science and Technology Information,2009(10):31-32.
[5]吳京偉.大學校園網絡運維體系研究[M].安徽:合肥工業大學,2009.
[6]安全監控分析和響應系統概覽[EB/OL].http://wenku.baidu.com/view/5a54b10abb68a98271fefaac.html.