License是一種不依賴于硬件的軟件保護方法,主要通過含有授權信息的License文 件,來規(guī)定用戶可以使用的功能、性能和其他相關約束。它可以控制系統支持的用戶接入數目等一系列內容。筆者單位的互聯網用戶最近頻繁出現撥號故障,通過排查網絡設備,并運用抓包工具對PPPOE會話分析、查看BRAS設備日志信息,最終將故障源頭定位在License上,即系統支持的用戶接入數目達到上限。重新申請安裝License后故障排除。接下來就詳細介紹故障的處理過程。
近日,陸續(xù)接到互聯網用戶報修,反映的故障現象是用戶瀏覽網頁時掉線,時間大多集中在夜間。針對這一故障現象,我們決定進一步收集故障信息,快速找到故障點。

圖1 PPPOE會話抓包示意圖
首先向一線運維人員了解情況,得到的信息是最近幾天晚上寬帶用戶會集中報修,而且會在晚上10點左右故障自動恢復。了解了這一信息,我們通過用戶的ONU地址迅速鎖定了OLT設備。從OLT設備的溫度、內存和CPU利用率等方面進行查看,并且在BRAS上查看連接該OLT的端口利用率,均沒有發(fā)現問題。
為了進一步掌握第一手資料,我們在夜間用戶反映故障的時間段至現場排查,就在撥號上網的同時,顯示錯誤代碼651。但是重復撥號還可以撥上去,然后正常退出來就撥不上去了。
針對這一故障現象,我們在現場撥號的同時在Radius服務器上查看賬號上線記錄,只有撥號成功的時候,Radius上可以看到賬號正常上線,但是撥號651的時候,Radius沒有接收到賬號的請求記錄。
既然可以撥號成功,就可以排除賬號和服務器的故障嫌疑。既然Radius服務器運行正常,那么為什么撥號不能成功呢?為了進一步了解寬帶用戶PPPOE撥號的會話過程,需要使用抓包工具進一步采集信息,從而盡快找到故障原因。具體的PPPOE會話抓包示意圖如圖1所示。
通過圖1可以看到撥號的電腦和BRAS進行PPPOE報文的交互過程,在進行寬帶賬號進行認證的時候,顯示認證失敗Auth Failed。剛才我們講到在撥號錯誤的時候,賬號撥號的信息沒有到達Radius,而且BRAS返回的信息顯示認證失敗。這樣就可以進一步將故障的排查點指向BRAS。
登錄到BRAS上使用命令show submanage ip-pool used-rate domain jn 查看用戶地址池的使用情況,得到的信息是地址池內的IP地址充足。如果地址池的IP地址數量達到上限,撥號會顯示錯誤代碼734,而這里顯示的是651。排除地址池的問題后,緊接著在BRAS設備上使用命令show logging alarm查看到設備告警信息:
threshold({ | system| }, CurCount = 16000,MaxCount = 16000, Current= 100%, threshold =100%)
這個告警信息頻繁出現,該告警信息清晰地告訴我們,用戶數已經超過閾值16000,閾值的使用率也是100%。再使用命令show License查看用戶數,已經到達16000。
了解了故障根源,立即著手申請License,并準備安裝新的License,具體的步驟是,使用FTP軟件上傳至BRAS,然后安裝、使能和更新即可。安裝完新的License后,查看到設備可支持最大上線數達到64000,正常用戶在線數達到16200。經過對網絡驗證測試,撥號恢復正常,故障得以排除。
上面我們從得知故障現象入手,按照網絡拓撲結構先后查看OLT和BRAS的相關參數,并使用抓包工具對PPPOE會話進行了分析,得知是BRAS拒絕了撥號認證。也正是這一工具的使用,使我們迅速縮小了故障范圍,最后,結合BRAS的告警日志找到了故障根源,通過安裝新的License后故障徹底排除。
其實,故障的處理過程也是自身能力不斷得到提高的過程。故障的出現并不可怕,可怕的是找不到頭緒。故障出現后,最主要的是收集相關信息,然后根據這些信息迅速做出判斷,并使用show命令查看設備告警信息進行輔助。同時,掌握抓包工具的使用至關重要,它可以清晰地將數據包轉發(fā)過程展現在我們面前,對故障的準確定位和處理提供良好的理論依據。故障處理的基本思路是逐步縮小故障范圍,進而找到故障點解決問題。
后期,我們在BRAS上查看互聯網用戶僅12000,其他的4000是VOD點播用戶,這樣整機用戶數就超過16000。針對這次故障,我們認真排查了其他BRAS的License,并將License用戶數使用情況進行實時監(jiān)控,在利用率達到85%時會出現告警,在一定程度上做到了問題的早發(fā)現,早診斷,以期將網絡維護的更加穩(wěn)定和諧。