引言: 在日常網絡使用中,會有出現很多網絡故障,原因多種多樣,故障現象也多種多樣。在這些網絡故障中,最難排除、排除用時最長的故障當屬丟包類故障,而丟包類網絡故障的產生,很多都是由網絡設備使用不規范、配置操作方法不當、沒有按照標準布設線路等原因造成的。本文介紹筆者在日常工作中碰到的三起比較典型的丟包類網絡故障。
在日常網絡使用中,會有出現很多網絡故障,原因多種多樣,故障現象也多種多樣,有些網絡故障雖然很少出現,但故障排除時卻很棘手,有些看上去甚至是很奇葩的網絡故障。在這些網絡故障中,最難排除、排除用時最長的故障當屬丟包類故障,而丟包類網絡故障的產生,很多都是由網絡設備使用不規范、配置操作方法不當、沒有按照標準布設線路等原因造成的。筆者在日常工作中,曾碰到過三起比較典型的丟包類網絡故障。
單位網絡機房對所有的網絡設備進行了備份檢修,對所有的網絡線路進行了整治,加裝了配線架和很多配線面板,重新布設了部分網絡線路,便于日常使用管理。任務完成后,各網絡經測試運行均正常。一天,有用戶反映無法打開外網網站,筆者使用值班計算機打開該網站,發現該網站確實無法打開,使用Windows下的ping命令進行測試,發現至該網站的網絡正常,回顯沒有發現掉包和明顯異常延時。筆者判斷可能是該網站存在問題,然后又測試打開其他外網網站,發現也無法打開。隨即又測試對外部網絡的其他網絡應用,發現對外的文電收發正常,使用FTP下載外網軟件,雖然速率慢點,但是也能下載。該網絡對外連接采用2M同軸專線連接,通過光端機2M端口連接外部網絡,中間加裝有路由器和硬件防火墻。針對出現的故障現象,筆者判斷可能是硬件防火墻在維護時出現了維護故障,有可能同事在防火墻上增加了禁止訪問外網80端口的控制策略,因路由器和交換機上均未做相關的訪問控制策略。進入硬件防火墻配置界面,沒有防火墻并沒有禁止訪問外網80端口的策略,這個故障讓人難以理解和解決。為確保故障解決,筆者電話聯系外網網站管理員,詢問其網站運行是否存在故障,是否對筆者單位的網絡IP地址段做了訪問限制。經詢問,該外網網站運行良好,沒有出現無法訪問的故障,同時也未對筆者單位的IP地址做訪問限定,筆者還是第一次遇到這樣的故障現象。故障具體可以描述為:無法訪問外網網站卻可以Ping通外網網站,其他外網應用均基本正常,防火墻、路由器和交換機未做限制訪問策略,外網網站運行正常,外網也未針對本單位進行做任何訪問限制。
遇到這個故障,除了一些常規的故障排除手段外,筆者幾乎無從下手。后筆者在1臺Linux服務器上Ping外網網站,發現竟然有丟包,而且丟包率高達33%,但在Windows操作系統中卻沒有丟包也沒有很明顯的延時。
后查閱了相關資料,發現Windows操作系統中的Ping命令功能相對單一,其主要作用是檢測網絡連通性,只能進行很少的參數設置,只要能正常接收到目標的回復報文就說明目標可達,但對回復報文的具體內容不做任何解讀。而Linux操作系統中的Ping命令功能卻相對強大,除具備Windows操作系統中Ping命令的功能外,對回復得到的報文也會進行解讀,如果報回復文內容不正確、長度不正確,則會認為是無效包,進而理解為丟包。
針對此故障,筆者對前期網絡機房和網絡線路的相關操作進行了梳理,并認真查看了值班日志。對網絡機房的檢修整治后,對所有的網絡進行了測試,所有的網絡運行狀態均正常,而故障產生前一天,還能正常訪問外網網站。看來故障就發生在當天。
通過查看日志,發現當日進入過網絡機房的有一名同事,負責打掃網絡機房的衛生,通過詢問該同事,該同事說打掃衛生時,未觸碰網絡設備和網絡線路,通過調閱視頻監控,發現該同事進入機房后主要清理了地板和配線架機柜,通過分析,筆者感覺故障原因可能還是產生于網絡機房。
進入網絡機房后,發現在配線架上有許多掉落的細長銅絲,而這些細銅絲是前期網絡線路整治中,制作2M同軸線時掉落的,本來這些細鋼絲是在配線架機柜頂上,而打掃衛生的同事在清理時將部分銅絲掉落至配線架上。進一步檢查發現,有1根細銅絲將配線架至光端機和配線架至基帶子Modem的2個配線接頭連接在了一起,造成了短路。雖然細銅絲非常細,而且也僅僅是很細微的觸碰了配線接頭,就造成了短路。在將該銅絲清理后,再訪問外網網站,發現可以正常訪問,故障排除。
單位開始逐步對所有的老舊網絡交換機進行升級,使用10M/100M/1000M的華為交換機替換原有僅有10M的銳捷網絡交換機,其他網絡設備和線路都沒有做任何更改。在更換了某個單位的交換機后,該單位反映有部分計算機網絡異常,各網絡應用無法正常使用。在網絡中心值班計算機上Ping該單位的無法上網計算機的網關,可以Ping通,因單位劃分了VLAN,該單位的上網網關設置在網絡中心的核心交換上,能夠Ping通也屬正常。然后再Ping該單位的無法上網計算機IP地址,卻無法Ping通。經詢問,在更換新的交換機后,未修改計算機的網絡參數。
到了該單位后,使用ipconfig /all命令查看該計算機網絡配置,發現其IP地址為169.254.x.x,原來是沒有獲得正確的IP地址,為確保其正確上網,使用手動方式設置正確的IP地址,再使用ipconfig /all命令進行查看,發現配置正確。在該單位計算機上對其網關進行Ping操作,發現仍然不通。看來可能是網絡線路或網絡設備存在問題,因其網絡結構僅有交換機發生了變化,故觀察更換的新交換機,發現交換機各指示燈顯示均正常,從該交換機端口上連接上筆者的筆記本電腦,發現上網正常。看來還是該計算機可能存在問題,而最常見的原因一般是計算機存在病毒,網卡損壞或操作系統故障等。該計算機擁有者說在更換交換機之前上網均正常,而在更換交換機后計算機沒有開機使用,出現上述故障的可能性不高。按照故障排除方法對該計算機進行病毒查殺,發現沒有病毒,再對其網卡進行檢測,發現該臺計算機無法Ping通其他計算機,看來很可能是操作系統或網卡故障,使用交叉網線將該臺計算機直接連接筆者筆記本電腦,使用Ping命令進行互Ping測試,可能互通。由此筆者判斷出故障產生在交換機和該臺計算機的網絡線路上,重新制作了RJ45水晶頭,重新測試,還是無法上網。筆者又對該計算機的網卡進行設置檢查,發現其網卡的工作模式和速率為均為“AUTO-SENSE”,也就是說該網卡使用的是速率自適應模式,筆者將其手動設置為“10M,FULL”,再重新進行測試,發現竟然可以Ping通,而且上網也恢復正常。筆者對該網線進行檢查發現,該網線為混用網線,從交換機上連接出來的網線為正品超5類網線,但至該臺網絡故障計算機因網線長度不足,使用了網線對接頭,而網線對接頭至該臺計算機的網線使用的為劣質網線,其連接速率根本無法達到100M,而交換機和網卡自適應協商后的默認網速為100M,但網線無法達到100M,最后造成其網絡異常。在重新更換了正品超5類網線后,再將其網卡的工作模式和速率調整為“ATUO-SENSE”模式,發現操作系統提示網絡速率為“100M”,網絡恢復正常。
單位在野外臨時搭設了兩個帳篷,在兩個帳篷之間需要連通網絡來傳輸數據,網絡應用要求速率不少于1Mbps,網絡必須保持穩定,且不得中斷。因兩個帳篷之間距離約4公里且之間無法通視,無法使用微波等無線設備來溝通網絡。由于天氣原因,利用衛星構建的網絡不太穩定。因為地處偏僻,無法使用公共網絡,只能自主架設有線來構建網絡。時間緊急,臨時架設光纜用時較長,故選擇架設非屏蔽的電話線來架構網絡,兩端使用數/模調制解調器來傳輸數據,速率可以達到2Mbps,可以滿足需求。
網絡構建完成后并進行了測試,發現網絡中有丟包,丟包率還很高,網絡根本無法滿足需求。有丟包就說明網絡不穩定,不穩定由可能是因設備原因造成,也可能是電話線在架設過程中被壓或各接頭連接不緊密造成。隨即兩端均更換了新的調制解調器進行測試,并重新制作了水晶頭,重新進行測試,跳過交換機,結果發現網絡中仍然有丟包現象。根據日常保障經驗,最大的可能性會出現在架設的電話線上,一般是電話線接頭連接不緊密或電話線有損傷造成的。使用電話線兩端連接磁石電話進行檢測,發現線路正常,通話質量很好。將電話線一頭短接并使用萬用表進行測試,發現電話線沒有短路和斷路現象,電阻值也在正常范圍。但電話可以正常使用不代表傳輸網絡數據就行,因語音通話對線路要求不高,速率更是只要幾Kbps就可以滿足需要,而網絡則不然,隨后還是安排同事對電話線進行巡線檢查。通過檢查,發現有部分接頭連接確實不是很緊密,部分接頭還被浸泡在水下。在重新進行了連接和整改后,網絡質量有明顯好轉,網絡可以使用,但仍然有丟包現象。線路沒有短路斷路,各網絡設備正常,各接頭連接良好,在端對端連接的情況下還是出現了丟包現象。筆者通過分析得出結論,故障還是由電話線引發的。
后檢查發現,因兩個帳蓬地處偏僻,帳蓬的供電分別有兩臺車載式柴油發電機進行供給,沒有使用市電,而電話線在架設過程中有經過該兩臺發電機,發電機的電磁干擾引發電話線內模擬信號受到干擾,進而造成網絡不穩定。隨即對電話線進行了重新調整,調整后,網絡恢復正常,沒有丟包現象出現。
很多故障都是在不經意間產生的,雖然發生的概率很少,但是在排除故障時確實是很棘手。而這些網絡故障的產生都是因為使用者使用不規范、操作不得當、沒有按照標準要求布設線路和使用網絡設備造成的。