文|美國福祿克公司 尹 崗
這是千兆向萬兆升級時常見問題,被稱作“升級陣痛”。主要表現是升級后誤碼率高,或無法實現升級。
單模光纖通常是因為光纖衰減值過大或者跳線、連接點光纖端面臟污所致,一般經過清潔端面就可以改善。
多模光纖的情況稍微復雜一些,多模62.5μm的光纖萬兆只能實現穩定的26m長度,超過26m則可能無法實現升級連接。所以,升級前需要確認光纖是否是50μm的OM3光纖,如果是還要檢查長度是否超過300m,光纖的衰減值是否超過2.6dB。滿足上述條件一般可以成功升級為萬兆光纖鏈路,但仍有部分鏈路會出現誤碼率高或者不能實現連接的情況。這里面的原因主要是光纖鏈路中存在質量較差的連接點或者熔接點,雖然總的衰減值沒有超差,但這些問題“點”會引起誤碼率上升。不少網管和維護人員往往花費大量時間去嘗試更換交換機/路由器的光模塊,甚至更換主機,直至精疲力竭無計可施的時候才開始再次懷疑光纖本身是否有問題,但如果有多余備用光纖,則這個問題會繼續潛伏下來,直至下一個升級失敗。
由于OM3是“激光優化”光纖(折射率漸變光纖),所以光纖熔接的質量(比如端面是否對齊)會嚴重影響信號的色散表現。同樣,連接器臟污、直徑不匹配、軸心不匹配等都會明顯地影響色散值,導致誤碼率上升直至無法連接。
顯然,最好的辦法是在現場對萬兆信號的色散進行測試,但由于現場測試設備價格昂貴(一般是基于實驗室的臺式設備),使用不變,故TSB140建議了另一種間接的測試方法,那就是光纖鏈路的二級測試,二級測試是指在一級測試的基礎上增加OTDR曲線測試,以便確認鏈路中是否存在引起質量下降的“事件”。此處所指的OTDR曲線的測試方法使用常見的高解析度OTDR,測試結果將反映出光纖鏈路中每個連接點的反射值、脈沖變形、隱形短跳線、熔接點、過度彎曲、光纖氣泡、直徑不匹配、材料混用等問題,這些因素是造成萬兆鏈路色散超差的重要原因。雖然不能直接測試色散值,但用這個方法可以解決98%以上的升級陣痛問題,如圖1所示。

圖1 OTDR曲線舉例(反射峰是接頭,下跌處是熔接點或彎曲過度點)
測試的時候需要注意三個問題:
一是一定要使用高解析度的OTDR。由于長途干線OTDR一般設計為大動態范圍,長距離量程,低解析度,故不適合短距離萬兆鏈路的精確測試,應選用高解析度的OTDR測試儀(通常這類OTDR被稱作園區網類OTDR,適合短距離、多跳接、數量龐大的局域網/園區網)。
二是使用補償光纖。由于OTDR存在發射死區和事件死區,所以被測鏈路與OTDR測試端口的第一個“連接點”往往是不能被準確測試的,常見問題就是雖然OTDR測試合格,但鏈路還是不能升級至萬兆,退回到千兆則工作“仍”很正常。解決的辦法就是使用一段發射補償光纖“嵌入”到OTDR和被測鏈路中,這樣被測鏈路的第一個連接點就被移至發射補償光纖的另一端,由于發射補償光纖有一定長度(比如100m),一般都能避開事件死區和衰減死區,讓第一個連接點完全暴露于精確的檢測段之中。
與發射補償光纖類似,被測鏈路的末端由于OTDR測試時是開路的,所以反射的光信號“波形”與非開路狀態是不同的,而實際工作中均處于非開路狀態(后面一定連接有鏈接器),所以,為了正確評估一條光纖是否能支持萬兆,還需要在末端加上一條接收補償光纖(通常也是100m),這樣就能完整地檢測出被測光纖鏈路從“頭”至“尾”連接質量,如圖2所示。

圖2 面包(補償光纖)
三是雙向測試。由于多模萬兆光纖鏈路一般都很短(300m),絕大多數都在室內設置不止一個跳接,用來跳接的跳線一般都很短,比如2m的跳線在OTDR曲線的“事件評估表”中會被標注為隱藏事件,也就是說跳線的一端質量會被評估,而另一端質量則被隱藏。為了準確地評估整條鏈路,則需要反向再測試一次,以便觀察跳線另一端連接點的質量。
診斷及處理方法:根據高解析度OTDR提供的測試曲線和事件評估表,我們可以清楚地定位出現問題的連接點/熔接點以及事故點的精確位置。如果是接頭臟污,則清潔之;如果是端面研磨質量問題(比如破損,檢查工具如圖3所示),則需要重新更換跳線或者更換尾纖;如果是熔接點質量問題,則需要重新熔接光纖;如果是氣泡則需要更換光纖;如果是彎曲半徑過小或者捆扎過緊則需要采取對應措施。

圖3 光纖顯微鏡
電纜鏈路及其連接的萬兆設備總造價比光纖設備低20%~40%,是部分預算偏緊的用戶的最佳選擇。
一般Cat.6的電纜鏈路不能支持100m萬兆連接,但如果距離較短(比如37m以內),則支持萬兆沒有問題。屏蔽的Cat.6支持萬兆100m基本沒有問題,如果要采用非屏蔽,則Cat.6A是較好選擇。
那么,升級前如何保證所選擇的鏈路能支持萬兆鏈路呢?是不是所有Cat.6鏈路就不能支持100m萬兆鏈路?
升級前的評估很重要。如果是Cat.6屏蔽線,升級前一般只要檢查單根電纜滿足Cat.6電纜要求以及接地檢查沒有問題即可勝任。如果是Cat.6非屏蔽電纜,則需要加測外部串擾參數,比如PS ANEXT、PA AACR-F等,如果符合要求也可以穩定地支持萬兆。外部串擾測試不合格的鏈路可以采取減小電纜束的方法,這樣可以減少電纜線束間的外部串擾,直至達到要求。需要注意的是,這類電纜鏈路需要加注,不允許今后再次增加敷設電纜鏈路的數量,否則可能制造出新的“失敗鏈路”,并引發在用鏈路的批量性能故障。
診斷及處理方法:使用HDTDR和HDTDX等工具可以直觀地查看問題出現的精確物理位置。如果是電纜受傷或者彎曲半徑過小、捆扎過緊、連續彎曲布線等,則需要在故障位置采取對應措施;如果提示是模塊處出現問題,則需要重新打接模塊、更換模塊、更換跳線或者水晶頭等;如果是電纜質量本身有問題,則需要更換電纜或者啟用富余的備用電纜;如果是因為電纜束過大則需要重新分束或者重新敷設高質量的電纜。
為了控制因人員因素引發的不安全事故,廣泛采用數據集中的數據中心建設方法。這樣可以把對人員的控制減少到少數幾個人,大大減少了人員控制的風險。但這會造成設備升級的速度加快。通常最常見的升級內容是增加服務器和存儲設備的數量,這需要使用新的跳線來連接服務器、交換機和存儲設備,形成新的網絡拓撲結構。跳線質量問題是引發這類升級失敗的最常見原因。
光纖跳線不合格主要集中在端面污染、軸心不匹配和回波損耗超標。投入運行前應該對選用的跳線進行質量檢驗(這個環節在10/100M低速鏈路中通常不需要),檢驗的內容是參數檢驗和光學檢驗。參數檢驗主要是檢測跳線損耗和回波損耗是否符合要求,光學檢驗主要是使用光纖顯微鏡檢查跳線端面的清潔度和研磨質量。參數檢驗合格的跳線有可能端面不經意中受到像指紋等類似“事件”的污染,導致誤碼率上升甚至連接失敗。參數檢驗不合格的跳線經過清潔后多數也都能恢復正常,所以,在升級高速鏈路的時候一般都要求安裝工藝中一定要執行檢查和清潔端面這個最有效的質保環節。
電纜跳線不合格主要集中在水晶頭不合格、跳線與設備插座不匹配等情況。Cat.6和 Cat.6A對部分廠商的產品來說存在兼容性要求的,也就是說必須使用廠商指定的跳線。使用制定跳線雖然會提高鏈路的整體質量,但也會帶來一些麻煩,最大的麻煩就是不兼容。如果一個網管人員習慣使用某個廠商的跳線,則新來“接班”的網管人員則可能因為不了解這種默認“嗜好”而在新增設備或者調整網絡拓撲結構的時候使用他喜歡的其他廠家的跳線,這就可能引發升級失敗的風險。如何保證系統所用的跳線是兼容的?最簡單的辦法是:使用兼容性的永久鏈路適配器進行鏈路檢測,如果檢測通過則證明此鏈路是支持跳線互換的。然后,在接入新的跳線時對批量采購回來的跳線進行兼容性檢測,如果檢測合格則可以大膽使用這種可互換性兼容跳線。
診斷及處理方法:測試光纖跳線的衰減值和回波損耗值,查看和清潔光纖端面,直至更換新的合格的光纖;測試電纜跳線的參數,確認跳線是否參數達標且符合互換性要求,否則更換電纜跳線及品牌,直至合格。
由于計算機網絡的可靠性要求規范體系建立比較緩慢,造成系統管理維護上普遍采用“事后維護”的方式進行,“事后維護”是指不出問題不去維護,出了問題采取維護這樣一種維護觀念和方式,它對高可靠性網絡往往帶來災難性的后果和巨大損失,人們此時往往熱衷于談論如何“亡羊補牢”,仍然較少討論如何未雨綢繆,防患于未然。這種非常落后的方式之所以大行其道,主要還是因為目前個體用戶的實際使用帶寬較低,特別是視頻帶寬供應不足造成的。對要求較高的數據中心用戶,在國際國內標準中均有部分涉及(比如TIA 942、GB 50174等),但對可靠性和電纜光纜系統的對應要求上還是比較模糊的。
其實,達到高可靠性的手段很簡單,那就是合理采取選型測試、進場檢測、監理測試/隨工檢測、升級評估檢測、開通檢測、定期檢測、進貨檢測等手段。目前的現狀是,驗收測試是第一次也是最后一次質量把關的機會,對于建成后的網絡雖然至關重要,但是其中堅持定期檢測才是最有效防止問題出現的簡便手段。遺憾的是,這是整個可靠性保證環節中最難控制的環節,也是最容易被忽視的手段,即便我們為此付出高昂代價也“在所不惜”。
光纖、跳線等的質量檢測屬于元件級檢測。同樣地,電纜、模塊、跳線也屬于元件級檢測范疇。一般應使用對應的標準和適配器去進行檢測。比如,電纜檢測應使用電纜測試標準和電纜測試適配器,不應使用通道測試標準和通道適配器來進行檢測;跳線則應該使用跳線測試標準和跳線適配器來進行檢測,而不應使用通道測試標準和通道測試適配器來進行檢測。事實上,使用通道標準和通道測試適配器來進行電纜和跳線的檢測曾經在集成商和工程商中間非常流行,在部分生產商特別是跳線生產商當中至今也沒有絕跡。
另一個需要注意的問題就是電纜的兼容性問題,也就是前面提到的居中性問題。從Cat.6到Cat.6A都存在這個問題,這造成跳線互換使用的過程中出現種種問題,給甲方造成巨大的困惑。
對于Cat.5e及以下規格的鏈路,雖然基本上不存在兼容性問題,但仍然存在只是檢測連通性的普遍問題。