劉 巧
(溫州醫科大學,浙江 溫州 325035)
網絡卡頓,系統、網站打不開是校園網的常見問題,這類問題的排查和解決并不容易,會花費運維人員大量的時間和精力。為了提高相關從業人員的工作效率,根據工作中的實際經驗對發生這些問題的原因和處理辦法進行整理,以期為相關人員提供參考。
1)鏈路太長。從前端頁面到后臺服務器,從Web 應用服務器到后臺數據庫,任何一個環節的問題都有可能導致請求整體卡頓,到底是前端資源加載過慢,還是數據庫出了問題,還是新發布的服務端代碼有性能問題?出現問題的原因五花八門。
2)業務發展、迭代速度快,會導致業務系統頻繁修改接口、增加依賴、代碼質量惡化。
不同應用由不同的團隊、人員分別維護,加劇了問題排查的難度。
一般問題都來源于設備。按照與用戶的距離由近到遠劃分,網絡設備故障產生的影響大小可以從4 個方面描述[1]。一是底層的用戶端設備,包括PC、網卡、水晶頭、網線、網絡模塊、無線路由器、無線接入點 (Access Point,AP)、電源等;二是中間層設備,一般設置在弱電間,包括網線、接入層交換機、Poe 交換機、光纖、匯聚層交換機、電源等;三是核心層設備,這些設備一般設置在核心機,主要有防火墻、光纖、尾纖、光模塊、電源等,見圖1。

圖1 網絡設備的組成
網絡拓撲圖可以比較直觀立體地呈現各個網絡設備的布局,它也是排查網絡故障的重要手段,出于安全考慮,本文不對外公開溫州醫科大學的網絡拓撲圖。
圍繞這些網絡設備,根據實際工作經驗,常見的網絡故障及其解決辦法有以下8 個方面。
表象:單人故障。
原因:瀏覽器損壞、網卡驅動丟失、中病毒。
排查方法:ping 127.0.0.1,或者通過儀器設備排除網絡故障。
解決方法:重裝系統。
表象:單人或多人網絡故障。
原因:模塊內針腳損壞,模塊老化損壞,模塊內網線沒卡牢,模塊線路沒按順序打等。
排查方法:拆開模塊檢查。
解決方法:修復或者更換模塊。
表象:單人或多人網絡故障。
原因:墻體內線路老化或被老鼠咬斷。
排查方法:用網絡測線儀檢測。
解決方法:重新布線。
表象:單人或多人網絡故障。
原因:路由器故障、路由器至電腦或者模塊跳線故障。
排查方法:查看主干口,即廣域網 (Wide Area Network,WAN)口的燈是否亮、是否恢復出廠設置、登錄路由器查看是否獲取網際互連協議(Internet Protocol,IP)地址、測線儀檢測。
解決方法:更換路由器或者更換跳線。
表象:單人或多人網絡故障。
原因:交換機老化、交換機損壞、交換機配置問題、交換機至配線架的跳線故障、機柜內的插板沒電。
排查方法:ping、查看燈是否亮或是否狂閃(線路環路)。
解決方法:更換交換機或者更換跳線。
表象:多人網絡故障。
原因:光纜斷線、光纜信號衰減、光纜線路接錯等。
排查方法:紅光筆、測光衰儀器。
解決方法:光纖重新熔接、光纖重拉。
表象:單人網絡故障。
原因:不在同一網段打印機不能共享。
排查方法:ipconfig。
解決方法:調整網段。
表象:單人網絡故障。
原因:未能自動獲取域名服務器、軟件自動獲取了中國電信的域名系統 (Domain Name System,DNS)服務器。
排查方法:ipconfig/all。
解決方法:給電腦固定域名服務器。
系統、網站訪問出現問題,除了網絡故障和自身的代碼故障外,其他問題可能與以下的設備和軟件有關:防火墻、玄武盾 (云防護) 、代理服務器 (nginx) 、Web 應用防火墻 (Web Application Firewall,WAF) 、前置機 (nginx)、服務器 (硬件、云主機、操作系統、系統自帶防火墻)、360 安全衛士、統一監管平臺 (360)、360 安全狗、DNS。
超文本傳輸協議 (HyperText Transfer Protocol,HTTP)狀態碼:當用戶試圖通過HTTP 訪問一臺運行主機的內容時,Web 服務器返回一個表示該請求狀態的數字代碼,該狀態記錄在服務器日志中,或可能在Web 瀏覽器顯示,即打開頁面發生錯誤時瀏覽器顯示的錯誤信息碼。狀態碼可以指明具體請求是否成功,還可以揭示請求失敗的確切原因。這也是排查系統、網站訪問故障的有效手段。常見的協議狀態碼如下。
1** 保留
2** 表示請求成功地接收
3** 為完成請求客戶需進一步細化請求
4** 客戶錯誤
5** 服務器錯誤
圍繞這些設備、軟件并根據實際工作經驗,系統、網站可能發生的訪問故障主要有以下9 個。
1)您訪問的網站并未申請接入云防護,如需防護請網站建設方聯系當地銷售 (云防護)。原因:玄武盾未配置443 端口。
2)您的訪問可能對網站造成危險,已被云防護安全攔截。原因:玄武盾攔截。
3)“502 Bad Gateway nginx”。原因:一是 (內網訪問正常)外網通過代理轉發,服務器上的安全狗判斷為攻擊,從而攔截該正常訪問;二是 (內外網訪問不正常) 服務器 Web 服務 (Tomcat,Apache,IIS 等)出現故障。
4)無法訪問此網站,172.18.6.20 的響應時間過長。原因:服務器開啟了防火墻,80 端口被禁止訪問。
5)一是請求失敗原因 “Http failure respond http://*** 400 Bad Request!”;二是 Bad Request;三是請不要使用非法的統一資源定位系統 (Uniform Resource Locator,URL)地址訪問。原因:Waf 攔截。
6)一是校內ping authserver.wmu.edu.cn,返回外網地址;二是校內telnet authserver.wmu.edu.cn 80,返回外網地址。原因:電腦DNS 配置錯誤。
7)一是 “504 Gateway Time-out nginx/1.15.3”;二是 “504 Gateway Time-out”。原因:服務器 (硬件、云主機、操作系統、自帶防火墻)故障。
8)“500 Internal Server Error nginx”。原因:代理后臺打開了GZIP 壓縮功能,關閉該功能后恢復正常。
9)“出錯啦!該網站無法訪問;可能的原因為:您正在訪問的目的地址為:idp.***,是否輸錯了地址,如果地址正確的話,表明該目的資源還沒有發布,請聯系管理員修改配置并發布此資源。您正在使用IPv4 地址*** 進行訪問,目的資源沒有對IPv4 進行發布,請聯系管理員修改配置并發布此資源。(錯誤代碼502) ”原因:該資源僅使用443 端口,代理服務器未開通443 端口。
作為前端的打開工具瀏覽器,其實也很重要。目前主流瀏覽器主要是四大內核,而隨著瀏覽器的發展現在也出現了雙內核,像360 瀏覽器、QQ 瀏覽器都是采用雙內核。綜合上述問題與解決辦法得出以下5 點:一是400 和Bad Request 報錯,WAF攔截可能性較大;二是5**報錯,服務器 (硬件、云主機、操作系統、自帶防火墻)、代理都有可能;三是非80 端口,例如443 端口,注意玄武盾和代理的配置問題;四是網絡、系統、服務器、機房、電腦、程序等的變動,例如電腦被安裝了不良軟件、增加了新設備等引起新故障;五是不同的瀏覽器打開網頁的顯示格式不同。
通過以上介紹,相信大家對于解決類似問題的邏輯思路有了比較清晰的了解。當然,不同的高校采購的設備不盡相同,即使使用了相同的設備,也會因為里面細微的配置不同而產生不同的故障。對于用戶來說,需要加強網絡與計算機基礎知識的普及,應具備最基本的主機故障診斷和處理能力。對于校園網的管理人員來說,需要對整個學校的網絡拓撲了如指掌,應具備扎實的計算機網絡理論知識,熟悉各種網絡設備的連接與配置,加強對網絡技術的學習,還要勤動手、多總結,積累經驗,加強交流,以更好地為廣大師生服務。