某個(gè)工作日下午,筆者所在單位Internet網(wǎng)絡(luò)突然中斷,由于Internet網(wǎng)關(guān)處部署了很多設(shè)備,除了防火墻是路由模式部署之外,其他設(shè)備均為透明模式部署,所以筆者利用traceroute命令排查故障點(diǎn),發(fā)現(xiàn)測(cè)試數(shù)據(jù)包僅僅只能到達(dá)核心交換機(jī),下一跳就超時(shí)。而且通過(guò)管理口登錄防火墻,發(fā)現(xiàn)防火墻狀態(tài)都正常,與運(yùn)營(yíng)商局端通信也都正常,這就排除了防火墻故障的可能性,而且證明故障并不是發(fā)生在運(yùn)營(yíng)商局端,而是在單位內(nèi)部這些透明模式部署的設(shè)備中。
筆者通過(guò)管理口逐個(gè)登錄設(shè)備檢查,發(fā)現(xiàn)各個(gè)設(shè)備均運(yùn)行正常,但是從上網(wǎng)行為管理設(shè)備的系統(tǒng)報(bào)警日志中發(fā)現(xiàn)了“檢測(cè)互聯(lián)網(wǎng)錯(cuò)誤,無(wú)法正確連接互聯(lián)網(wǎng)”的提示。為了使Internet網(wǎng)絡(luò)快速恢復(fù),筆者嘗試重啟了上網(wǎng)行為管理設(shè)備,重啟完成后,Internet訪問(wèn)恢復(fù)了正常,各設(shè)備也沒(méi)有再出現(xiàn)各類(lèi)異常報(bào)警日志。
從上述故障現(xiàn)象分析,很容易將故障源頭定位在上網(wǎng)行為管理設(shè)備上,但是仔細(xì)檢查設(shè)備自身的狀態(tài),并無(wú)任何異常,唯一可以追溯的依據(jù)就是系統(tǒng)報(bào)警日志,這條日志說(shuō)明上網(wǎng)行為管理設(shè)備與其上下行設(shè)備的網(wǎng)絡(luò)連接出現(xiàn)了問(wèn)題,進(jìn)而影響到Internet訪問(wèn),原因可能有三個(gè)方面:
1.上網(wǎng)行為管理設(shè)備自身故障。出現(xiàn)故障時(shí)已經(jīng)登錄設(shè)備查看運(yùn)行狀態(tài),并無(wú)任何問(wèn)題,而且重啟后能夠恢復(fù)正常,所以能夠排除設(shè)備自身問(wèn)題。
2.上網(wǎng)行為管理設(shè)備上下行設(shè)備故障。出現(xiàn)故障時(shí)同樣也查看了上下行的設(shè)備狀態(tài),一切正常,而且只重啟了上網(wǎng)行為管理設(shè)備,并未對(duì)上下行設(shè)備做任何處理,Internet網(wǎng)絡(luò)就恢復(fù)了正常,所以能夠排除上下行設(shè)備的問(wèn)題。
3.上網(wǎng)行為管理設(shè)備上下行線(xiàn)路故障。上網(wǎng)行為管理設(shè)備網(wǎng)口和上下行設(shè)備的網(wǎng)口都是10/100/1000Mbps電口,而且都配置為自動(dòng)協(xié)商模式,正常情況下網(wǎng)口應(yīng)該均協(xié)商為千兆全雙工狀態(tài)。但是,如果網(wǎng)口之間的鏈路出現(xiàn)問(wèn)題,那么有可能造成協(xié)商不成功,進(jìn)而出現(xiàn)網(wǎng)絡(luò)中斷的故障。
筆者仔細(xì)檢查上下行線(xiàn)路,發(fā)現(xiàn)上行線(xiàn)路使用的是成品六類(lèi)網(wǎng)線(xiàn),而下行線(xiàn)路使用的是自己制作的網(wǎng)線(xiàn)。會(huì)不會(huì)是網(wǎng)線(xiàn)的問(wèn)題呢?如果是網(wǎng)線(xiàn)的問(wèn)題,那么是上行線(xiàn)路還是下行線(xiàn)路呢?
筆者重新登錄上網(wǎng)行為管理設(shè)備,觀察上下行網(wǎng)口的狀態(tài),上行網(wǎng)口狀態(tài)正常,為千兆全雙工,但是下行接口速率已經(jīng)變?yōu)榘僬兹p工了,檢查其下行設(shè)備對(duì)應(yīng)的網(wǎng)口,接口速率也變?yōu)榘僬兹p工了,這說(shuō)明兩個(gè)網(wǎng)絡(luò)接口重新進(jìn)行了速率協(xié)商,由原來(lái)正常的千兆全雙工協(xié)商為百兆全雙工,雖然現(xiàn)在Internet網(wǎng)絡(luò)已經(jīng)暢通,但是傳輸速率只有100Mbps,顯然是存在問(wèn)題的,如果不徹底解決,一方面?zhèn)鬏斔俾薀o(wú)法達(dá)到千兆要求,另一方面還可能出現(xiàn)網(wǎng)絡(luò)中斷或不穩(wěn)定的問(wèn)題。
下班后,筆者用一條6類(lèi)成品網(wǎng)線(xiàn)替代了原來(lái)的手工網(wǎng)線(xiàn),下行接口速率很快自動(dòng)協(xié)商為千兆全雙工,Internet網(wǎng)絡(luò)也恢復(fù)正常。
為了確定這條手工網(wǎng)線(xiàn)是否真的存在問(wèn)題,筆者利用測(cè)線(xiàn)儀進(jìn)行了測(cè)試,發(fā)現(xiàn)第5根線(xiàn)不通,這就證實(shí)了前面的分析:由于上網(wǎng)行為管理設(shè)備和下行設(shè)備對(duì)應(yīng)的網(wǎng)口都是自動(dòng)協(xié)商模式,之前這根網(wǎng)線(xiàn)沒(méi)有問(wèn)題時(shí),肯定是自動(dòng)協(xié)商為千兆全雙工;后來(lái),由于線(xiàn)路老化,導(dǎo)致協(xié)商失敗,所以出現(xiàn)了斷網(wǎng)的故障,重啟上網(wǎng)行為管理設(shè)備后,線(xiàn)路重新進(jìn)行協(xié)商,由于百兆傳輸僅用到了1、2、3和 6這四根線(xiàn),第 5根線(xiàn)故障并不影響百兆傳輸,所以會(huì)自動(dòng)協(xié)商為百兆全雙工,數(shù)據(jù)仍然能夠正常傳輸,但是傳輸速率就大大下降了。
由于網(wǎng)線(xiàn)、光纖等鏈路介質(zhì)傳輸數(shù)據(jù)穩(wěn)定,日常排除網(wǎng)絡(luò)故障時(shí)很容易將其忽略,加上網(wǎng)絡(luò)接口一般使用自動(dòng)協(xié)商的機(jī)制,更加掩蓋了傳輸介質(zhì)的問(wèn)題。在千兆網(wǎng)絡(luò)已經(jīng)普及的情況下,建議使用網(wǎng)線(xiàn)時(shí),一定要提前進(jìn)行連通性測(cè)試,確保8根線(xiàn)路均暢通,網(wǎng)絡(luò)線(xiàn)路工作在最優(yōu)狀態(tài)。同時(shí),重要的骨干線(xiàn)路一定要使用六類(lèi)成品網(wǎng)線(xiàn),不可使用手工網(wǎng)線(xiàn),并定期進(jìn)行更換,最大程度避免因傳輸介質(zhì)導(dǎo)致的網(wǎng)絡(luò)故障。