■
隨著網絡規模的不斷擴大用戶數量的不斷攀升,隨之而來的網絡設備端口的流量也在增加,端口流量的增大勢必會造成數據的擁塞,從而導致用戶上網體驗差,為了更好地解決這一問題,我們采用了鏈路聚合辦法來解決OLT上行鏈路擁塞的問題,但是鏈路聚合也要正確使用,否則不但達不到增加網絡帶寬的目的,反而會產生網絡故障。下面就結合一個故障案例來具體介紹一下鏈路聚合在配置中應該注意的問題。

圖1 網絡拓撲結構
近日,我們陸續接到用戶的報修,反映晚上上網速度比較慢。得知這一消息后,我們根據用戶所使用的設備情況,初步斷定是城區傳輸設備5566互聯BRAS的端口流量擁塞引起的。獲取這一信息很簡單,只要登錄到城區的5566上查看端口的利用率即可。知道這一故障原因后,我們決定使用鏈路聚合來增加兩臺設備間的鏈路帶寬,可是就在我們對兩端設備進行配置后發現,鏈路聚合組一直不能生效。
為了更好地解決問題,清晰地找到故障的節點,我們首先了解一下網絡的拓撲結構(如圖1)。
從圖1中我們可以看到,城域網由四個基站的5566組成,中心站5566使用1G通道上聯BRAS,得知網絡拓撲結構后我們開始排查鏈路聚合的故障。首先我們登錄到5566上使用命令show interface trunk查看配置即:

從上面的配置可以看到,在鏈路聚合組Trunk1/3中已經有成員端口1/17和2/19,但是通過命令show interface看到trunk1/3處于Down的狀態。查看完5566上配置后,緊接著再查看下BRAS上配置,我們在BRAS上定義鏈路聚合組smartgroup4作為和5566互聯,同樣使用命令show lacp internal查看聚合組的狀態顯示端口gei-0/0/0/5和gei-0/0/0/6處于Inactive狀態,這樣通過查看兩端設備的鏈路聚合組狀態后,我們發現兩端的鏈路聚合組都處于Down狀態。
知道了故障現象,我們就需要將問題解決。首先分析一下兩端設備的配置命令是否存在不妥之處。既然是配置鏈路聚合,它的作用是增加物理帶寬,實現鏈路的負載分擔和備份的作用。我們將兩側端口的主要配置拷貝下來進行分析比較,其中5566上的鏈路聚合配置如下:

通過上面我們可以看到,兩端設備鏈路聚合的配置似乎沒有什么問題。但是,仔細比較這兩個配置可以發現端倪,在5566上我們配置的trunk1/3是靜態的,而在BRAS上配置的smartgroup模式是動態的。問題分析到這里我們找到了問題的根源,原來鏈路聚合的模式在BRAS上是這樣定義的,模式Passive是接口的LACP處于被動協商模式;Active 是接口的LACP處于主動協商模式;而如果使用模式on 則是靜態trunk,此時不運行LACP,聚合的兩端都需要設置成靜態的模式。而我們在BRAS上設置的是主動協商模式,是屬于動態的鏈路聚合,和對端設備5566的鏈路聚合模式不相同,所以端口的鏈路聚合始終處于Down狀態。
知道了鏈路聚合的故障是因為兩端設備設置的鏈路聚合模式不同引起的,所以我們決定修改BRAS上的配置:

通過上面的配置,我們將鏈路聚合的模式由動態模式修改成了靜態模式,這樣我們查看了一下兩端設備的鏈路組的狀態都已經處于Up狀態,然后再查看兩端設備,可以看到流量已經在兩個端口上實現了分擔,這就說明我們配置的鏈路聚合是正確的。
通過后期對客戶的回訪,客戶對網絡體驗度得到了明顯的提升。其實在日常網絡開通和維護的過程中,需要做好準備工作,把前期工作做扎實,在后期網絡的維護中才不容易出錯誤,可以事先查看設備的配置手冊或者請教廠家工程師,在充分論證和推敲的基礎上,對網絡進行平滑升級和改造,這樣才能讓升級工作順利完成。
通過此次故障的排除,我們打算在后期匯聚設備連接BRAS的時候,都采用鏈路聚合的方式連接,雖然暫時在鏈路聚合組中可以只有一個端口,但是后期在鏈路擴容的時候,只需要把額外增加的端口加入到鏈路聚合組中就可以了,不至于中斷業務來配置鏈路聚合。只有把眼光都要放遠一些,只有把工作做到前面,才能在后期的網絡運維中贏得主動,才能把網絡工作做得更好,從而進一步將客戶服務質量加以提升。