筆者單位有兩個辦公區,因業務需要,近期在兩個辦公區部署了視頻會議系統,每天都要進行視頻會議。在系統使用過程中發生過一次意想不到的故障,其解決過程也頗有戲劇性。
兩個辦公區原來分別配備了中興T800和寶利通8000視頻終端,現在使用華為AR2200系列路由器和S5700交換機,通過一條10M的專線實現兩臺視頻終端的連接。由中興T800作為主叫方,呼叫寶利通8000召開會議。系統調試很順利,但在日常召開視頻會議的過程中,出現了一個奇怪的故障:會議正常進行時,視頻終端會自動掉線,必須重新連接才能繼續進行視頻會議。

圖1 系統連接示意圖

圖1 T800視頻終端異常呼叫記錄
開始以為是偶發故障,后來發現每當視頻會議超過一定時長,視頻終端必然掉線,嚴重影響了業務工作的開展,必須盡快解決故障。
無論視頻會議掉線前后,兩臺視頻終端均能迅速連接,會議的音、視頻信號也均正常。因此初步判斷兩套系統硬件設備及網絡線路正常,故障原因很大可能是在軟件設置方面。
首先懷疑是視頻終端的參數設置問題。當登錄到中興T800上查看呼叫記錄時,發現每次中斷幾乎都發生在13分 20秒(800秒)左右,如圖2紅線處所示。在中興T800的系統設置中查找和時間有關的選項,但沒有收獲。同樣查找了寶利通8000的系統設置,也沒有發現。聯系中興技術支持,答復中興T800中沒有相關的時間設置選項。
隨即將目光關注在網絡設備上。網絡連接兩端的華為S5700交換機均未做任何設置。但因安全的需要,在華為AR2220路由器上啟用了防火墻,只開放了部分地址的HTTP和FTP協議,而對視頻終端的IP地 址192.168.2.12和192.168.1.161之間的通信完全開放。按理防火墻不應對視頻會議產生影響。抱著試一試的心態關閉AR2220上的防火墻,打開視頻會議系統,果然故障不再出現。看來自動掉線的原因找到了,需要從防火墻的配置入手消除故障。

圖3 T800視頻終端正常呼叫記錄

圖4 通過console口抓取到d 信息
華為路由器防火墻與時間有關的配置主要是防火墻會話表老化時間,各個協議的默認值不同,常用協議HTTP為 600秒,UDP為 120秒,ICMP為20秒。在路由器上監控通過防火墻的所有會話,發現兩臺視頻終端間的通信使用的是UDP端口。雖然覺得不會起什么作用,但仍使用“firewall session aging-time”命令將防火墻的UDP協議老化時間調整為1200秒。重新啟用防火墻再進行測試,故障重現了,并且故障發生的時間沒有隨著老化時間的調整而改變。將其他協議的老化時間也分別進行了調整,故障依舊。
無奈之下,只好先暫時關閉防火墻,保證視頻會議的正常。同時,聯系華為技術人員尋求支持。他們也感覺比較奇怪,要求提取路由器部分運行狀態信息進行分析。但當執 行“display forward error counter”命令時,路由器提示是無效的命令。經檢查發現華為AR2220路由器操作系統版本為V200R001,不支持前述命令。華為技術人員建議先將路由器的操作系統升級到目前較新的V200R007版本。于是根據路由器的具體型號,從華為官網上下載了對應的操作系統安裝包。
筆者之前備份路由器操作系統,習慣使用TFTP軟件。由于新的安裝包有100余兆,因此決定使用FTP方式。特地在路由器上添加了FTP用戶,使能路由器的FTP服務端功能,并配置傳輸格式為binary。 將新安裝包上傳至AR2220路由器。隨后依次執行下面幾條命令:

路由器啟動后,執行命令“display version”,查看路由器操作系統當前版本依然為 V200R001C00SPC500,升級失敗。重新下載升級文件,檢查了操作步驟,反復嘗試了幾次均未升級成功。
查看路由器的日志,找到一條相關信息: qxzxbgl ENTITYTRAP/4/SYSTEMROLL:OID 1.3.6.1.4.1.2011.5.25.219.2.11.3 System rollback。又通過console口抓取到如圖4所示信息。
很顯然系統升級到V200R007版本時出錯。幸運的是,筆者還未刪除V200R001版本老系統,路由器自動使用老系統文件進行了啟動。判斷出現該情況是因為V200R001過于陳舊,無法直接升級到V200R007。只好又從官網下載了AR2220-V200R003C01SPC900.cc安裝包。按照之前的操作,先將系統從V200R001升級到V200R003,再升級到V200R007。這兩次操作都非常順利,很快完成了升級工作,檢查系統版本、配置文件、運行狀態等均正常。
這時再輸入“display forward error counter”、“display session v”等命令均可正常執行。
收集了所需的診斷信息,路由器運行狀態也正常,于是筆者啟動視頻會議系統,想再觀察一下故障情況。沒想到有了意外收獲,在防火墻開啟時,視頻終端連續運行40多分鐘依然穩定,一到800秒就自動掉線的問題消除了。確認故障消除后,保持路由器配置不變,在業務工作中連續多次使用視頻會議系統,再未發生類似情況。
分析原因,認為是原來的操作系統版本陳舊,至少在狀態檢測防火墻方面存在未知Bug。召開視頻會議時,在某些特定條件下觸發了這些Bug,導致產生之前的故障。而新版本操作系統軟件從體系架構、協議實現方式、算法等方面都有了全面改進,最直觀的表現是僅軟件大小就從60余兆增加到130兆,應該修復了原來系統中的一些隱形Bug,因此系統升級完成后故障也就自然修復了。
因為安全保密方面的要求,單位業務網絡與其他網絡物理隔離,受外界干擾較少,所以之前比較重視操作系統和配置文件的備份工作,而忽視了服務器、路由器等關鍵設備的軟件升級、安裝補丁等工作。如華為路由器的操作系統五六年來已經更新多個版本了,從功能、性能、安全、穩定性等方面都有不同提升。而單位的相關設備一直未進行更新。
這次故障的發生和解決,提醒我們必須重視系統軟件的及時升級工作,以修復系統漏洞,實現系統新功能,提高設備性能。
另外,通過這次故障處理,還有一些體會與大家分享:
1.同一系列的設備往往有多個細分型號,下載升級包時要注意選擇與自己設備細分型號完全對應的版本。
2.新的操作系統,其文件尺寸往往較大,因此在升級前要注意檢查設備是否有足夠的空間存放新的文件。同時最好使用二進制的FTP方式傳輸大文件。
3.在沒有確認升級成功、系統能夠穩定運行之前,最好不要刪除舊操作系統文件和配置文件,以便萬一升級失敗還有備用手段。