■ 江蘇 楊瑩瑩 肖瑞興
編者按:某單位引入了云桌面系統,與PC 環境不同的是,云桌面系統一旦遭受病毒攻擊,處理起來更加困難。而該單位所遇到的業務系統無法收發外網文件正是由于云桌面感染病毒風暴引起的網絡故障。
經過多年的發展,桌面虛擬化技術日益成熟,在多個行業擁有較為廣泛的部署。
某單位辦公網絡在2015年引入了華為云桌面系統,實現了網絡化、虛擬化辦公,在提高用戶辦公效率、降低管理成本的同時,也對網絡管理人員的技術水平提出了更高的要求。
本文通過單位出現的一則云桌面病毒風暴引起網絡故障的實例,講述分析及解決過程及云環境下處理網絡病毒問題面臨的挑戰。
單位云數據中心接入交換機為HW5700,該交換機與數據中心核心交換機HW 12700 之間存在VPN 客戶端設備,用于和外單位服務區的VPN 服務端設備組成加密通道。HW5700 通過路由器連接到外網。核心交換機HW12700 下接兩臺HW7700 匯聚交換機,其中一臺HW7700下接云桌面服務器集群,另外一臺下接各樓層交換機,用戶通過瘦終端接入網絡并訪問云桌面系統服務器,或者通過傳統PC 訪問網絡。
某天,有用戶反映多個業務系統無法收發外網文件,網管人員在臺式機上Ping網關1 和網關3 正常,Ping路由器正常,Ping 網關2 則丟包嚴重。在云桌面虛擬機上Ping 網關2 正常,Ping 網關3 丟包嚴重。
數據包從網管人員臺式機到達網關2,依次要經過網關1、網關3 和VPN 客戶端。通過Ping 網關1 和網關3 都正常,而Ping 網關2 丟包,說明故障點可能在VPN 客戶端或網關2。數據包從云桌面虛擬機到網關3,依次要經過網關2 和VPN 客戶端,Ping網關2 正常,而Ping 網關3丟包,說明故障點可能在VPN客戶端或網關3。結合兩條路徑分析,很可能是VPN 客戶端出了問題。
于是網管人員跳開VPN客戶端來進行測試,發現內部網絡恢復了正常,但是Ping 路由器卻出現大量丟包,說明網絡中存在其他的故障點。
由于網絡斷斷續續,所以判斷可能是用戶機器感染了病毒導致了數據量過大。斷開各樓層交換機,問題依舊。于是網管人員估計是數據中心機房內的云桌面虛擬機的問題比較大。

第二天,華為技術人員前來查看,在用戶云桌面上安裝抓包軟件進行流量統計和抓包,但一抓包云桌面虛擬機立即死機。技術人員登錄交換機管理軟件查看端口狀態,發現HW12700 上端口數據量非常大,分析數據包發現有至少三臺虛擬機對一個內網中不存在的地址218.7.219.90 發包,數據量非常大。
由于HW12700 的性能很好,所以內部網絡可以正常通信,而VPN 客戶端的出口僅有百兆,所以一開始數據包阻塞在VPN 客戶端處,當將其跳開以后,由于路由器的帶寬有限,于是數據包阻塞在路由器處。技術人員立即在HW12700 上進行病毒ACl 訪問控制,禁止所有虛擬機對218.7.219.90 發包,網絡逐漸恢復正常。
之后技術人員登錄其中一臺問題虛擬機發現,網卡向外發送的數據量達到正常數據量的上百倍,安裝抓包工具發現絕大部分數據包都是發送給地址218.7.219.90,通過“任務管理器”→“性能”→“資源監視器”→“網絡”可看到WP9service 進程發送數據包達100 MB,定位后發現其位于webplay 播放器的安裝目錄下。網管人員上網查找資料,發現WP9service 是webplay 播放器進程,很可能感染了木馬病毒,但采用殺毒軟件沒有查到病毒。之后網管人員將WP9service.exe 文件手動刪除,并卸載webplay 播放器,重啟虛擬機,網卡發送數據恢復正常。其它問題虛擬機采用同樣的方法進行處理。最后還原HW12700 配置,接上VPN 客戶端,網絡恢復正常。
自從部署了云桌面系統用于日常辦公后,在網絡管理維護方面給技術人員提出了新的挑戰。
一方面,病毒造成的危害更大了。用戶虛擬機集中在服務器集群上運行,都連接到同一臺交換機HW7700,染毒虛擬機同時爆發,產生病毒風暴,會使數據包都集中在HW7700 上或上一級故障點,造成網絡阻塞,導致所有TC 都無法訪問虛擬機。而且病毒風暴也會導致資源池內CPU 和內存資源被大量占用,使得大量虛擬機不能正常工作。
另一方面,病毒處理起來更復雜。傳統PC 環境下,發現用戶終端感染病毒時可以直接斷開該用戶端口,或者是斷開染毒終端所在交換機,然后通知其殺毒處理,這些都不需要修改交換機配置,并且也不會影響到其他用戶訪問網絡。在云桌面環境下,用戶虛擬機集中存儲在一個服務器集群上,沒有辦法采用斷網殺毒的方式處理。因此,只能先在交換機上進行ACL 控制,然后通知用戶處理,處理完再恢復交換機配置。