關夢婷,李花順
(1.武漢郵電科學研究院,湖北武漢 430074;2.國網吉林市供電公司,吉林吉林 132001)
業務流量幾何式地爆炸增長標志著萬物互聯時代的到來,在這種情況下,全光網應運而生,同時智能光網絡也向實用化的目標不斷發展[1]。在自動交換光網絡(Automatically Switched Optical Network,ASON)的基礎上,優化后最終實現E2E 的智能光網絡稱為波長交換光網絡(Wavelength Switched Optical Network,WSON)。WSON 集成了ASON 的傳統功能,此外還具有解決波長智能調度問題的能力,同時具有自動發現波長的能力[2]。文中研究光網絡的生存性,并提出一種新的基于WSON 控制平面的OAOSC(Optical Amplifier-Optical Supervisory Channel)聯合告警算法,并用烽火通信公司的設備進行五節點拓撲實驗,驗證該算法的實現與合理性,總結該算法的優點。
WSON 三大平面包括傳送平面(TP)、管理平面(MP)、控制平面(CP)[3]。三大平面之間通過不同的接口實現交互,NMI-T 為傳送平面與管理平面的接口,NMI-A 為管理平面與控制平面的接口,CCI 為傳送平面與控制平面的接口,具體模型如圖1 所示。傳送平面完成業務的傳送,管理平面完成對控制平面和傳送平面的管理,控制平面完成資源的自動發現和連接的自動化[4]。

圖1 WSON三大平面與三大接口
WSON 三大功能包括資源自動發現、業務自動部署、故障自動恢復。當網絡故障時,WSON 啟動自動保護與恢復,這是WSON 功能的核心。控制平面的三大協議為鏈路管理協議(LMP)、信令協議即資源預留協議(RSVP)、路由協議即開放式最短路徑優先協議(OSPF)[5]。LMP 完成資源的自動發現功能;RSVP 完成連接管理功能;OSPF 完成路由泛洪等功能。
是否加載控制平面是智能光網絡與傳統光網絡最大的區別。在傳送平面檢測到業務、連接故障之后,即向控制平面發送告警,控制平面隨即自動啟動保護、恢復等操作,這是網絡智能化的關鍵。因此,WSON 具有很強的智能性和生存性。WSON 與ASON在控制平面的主要區別為WSON 更多地集中于光層。控制平面可以對光網絡中的端到端連接進行動態控制,實現連接的動態建立、拆除及網絡資源的自動發現與動態分配[5]??刂破矫鎱f議及接口模型圖如圖2 所示。

圖2 控制平面協議及接口模型圖
光網絡的生存性是網絡抵制故障干擾的能力,具體表現為當網絡發生故障時將業務倒換至替代路由或保護路由上,使網絡恢復或維持在穩定的業務水平。光網絡生存性技術一般可分為兩種:保護和恢復。WSON 中的保護和恢復在光層實現,主要特點是高速響應以及高速實現[6]。
基于控制平面的保護恢復機制主要包括三種:保護、恢復、保護和恢復相結合[7]。光層的保護主要可分為光復用段層保護(OMSP)以及光通道層保護(OCP)等。WSON 可兼容傳統OTN 保護機制,能夠抵抗多次光纜故障,從而增強整個網絡的可靠性。引入WSON 控制平面后,網絡采用重路由恢復策略,可提高網絡整體利用率[8]。
WSON 的保護是指在加載業務之前預先計算保護路徑,此時保護路徑資源處于占用狀態,當業務原始路徑發生故障后,業務倒換至保護路徑,避免業務中斷,保護類的業務稱為1+1 保護業務,例如光層普通1+1 業務與光層永久1+1 業務。WSON 的恢復是指在故障發生后,重新計算一條路徑,之后將業務倒換至該路徑上,從而保證業務不會中斷,這一類故障后才算路的業務稱為恢復類業務,例如重路由,恢復并不需要事先計算保護路徑?;謴头绞讲捎玫乃懵匪惴ㄅc網絡選路一致,其實質都為在網絡空閑資源中選出一條新的可用路徑。WSON 中的保護恢復是動態建立的,因此極大提高了網絡的靈活性。當檢測到業務出現故障時,WSON 控制平面收到下游上報的告警報文,在具體分析故障后根據故障原因發起保護和恢復,最終在網絡資源允許的情況下,將發生故障的業務恢復到正常狀態,即實現連接的動態調度。通常來說,保護的倒換時間在幾十毫秒以內,通常為10 ms;恢復的倒換時間一般在400~800 ms 的范圍內完成[9]。保護與恢復方式對比表如表1 所示。

表1 保護與恢復方式對比表
光網絡中可能發生不同類型的故障,故障的發生往往會導致業務大面積中斷,引起網絡癱瘓等問題。告警是故障檢測和故障定位的前提,能夠產生告警的功能或模塊可以稱為“檢測點”,每個告警都屬于一個檢測點,且都有告警原因,故此告警可以設置一個“告警唯一標識”。告警原因、告警檢測點和告警唯一標識三元組共同確定一個告警[10]。當一LSP 或跨距段失效時,其恢復操作可按順序分為以下五步:故障檢測、故障定位、故障通告、網絡恢復和業務復原[11-15]。
當發生故障產生告警時,網絡需向上層平面傳送告警,從而使控制平面能感知到故障,并進行相應的保護或恢復動作,實現智能控制。
WSON 中網元節點間的故障稱為線路側故障,這類故障由OSC 向控制平面進行通告,進而觸發保護倒換功能。在DWDM 系統中,OSC 是傳輸通道,其功能為在相鄰節點間傳送監控信息、管理開銷、自動保護倒換等。OSC 告警無法覆蓋實際工程中的某些場景,例如網元節點內部故障及WSS 連纖、上下話、放大器的連纖故障等[16]。
WSON 控制平面通過設置定時器,在業務建立完成并加載保護通道之后,周期性檢測OTU 告警,當檢測到OTU 告警后,觸發業務保護倒換功能。采用OTU 告警能夠增加告警場景,可以有效解決長距離傳輸信號質量差、網元節點架內連纖故障等問題[16]。OTU 告警與OSC 告警并不沖突,OSC 檢測線路側故障,OTU 檢測網元內部故障,二者可結合起來共同用于WSON 業務的保護與恢復功能中。
WSON 控制平面在工程上常采用OTU 告警,但目前OTU 告警存在無法具體得知故障節點的問題,故控制平面在收到告警觸發業務倒換重新算路時無法排除故障節點,這將會大大浪費業務倒換的時間。在此基礎上,文中提出一種新的告警算法,即在傳統OSC 告警之上加入對OA 狀態的描述,組成OAOSC 聯合告警算法,目的為向控制平面上報具體故障信息。該算法的提出可有效解決OTU 告警算法的缺陷,節省業務倒換所需時間。該算法的設計需同時考慮光監控信道的狀態與光通道的狀態,故最終將會出現4 種狀態信息,如圖3 所示。

圖3 告警字段上報結果
算法具體實現過程:當光監控信道與光通道狀態發生變化時,光監控信道單元將攜帶光通道和光監控信道當前狀態信息的告警報文發送到控制平面,控制平面內的決策模塊在收到兩者組合狀態信息的告警報文后,按照規則判斷是否進行鏈路更新與業務倒換。告警與WSON 控制平面交互流程如圖4 所示。以重路由業務為例,在節點A 與節點B 之間建立帶返回重路由業務,波長選擇開關(Wavelength Selective Switch,WSS)打開A-B 開關,此時若斷開A-B 之間的光纜,則光監控信道故障,A-B 之間主光道也會發生故障,上報OSC_FAULT_OA_FAULT 到控制平面,此時,控制平面進行業務倒換并將鏈路設置為不可用,業務重路由至A-C-B,此時WSS 端口開關情況為A-B 保留,但A-B 鏈路不可用。之后對A-B 之間鏈路進行恢復,監控信道恢復,光監控信道單元向控制平面發送OSC_OK_OA_FAULT,此時決策模塊對WSS 端口記錄進行檢索,判定之前有業務經過,成功觸發返回流程,將鏈路資源恢復為可用,業務返回到A-B,當業務穩定后上報OSC_OK_OA_OK,無動作。

圖4 告警與WSON控制平面交互流程
該算法設計的控制平面內決策模塊的功能有:1)根據WSS 的歷史記錄判定該鏈路上是否曾有業務經過,若有則觸發業務返回流程,并將鏈路恢復為可用;若無,則不進行任何操作,將鏈路恢復為可用;2)決策模塊判斷當前業務是否為帶返回業務,若為帶返回業務,則保留本端與對端之間的WSS 端口配置;若為非返回業務,則不保留WSS 端口配置,并在業務倒換后,刪除本端節點和對端節點之間的當前端口配置。
OA-OSC 聯合告警算法可以根據鏈路和信道的實時狀態進行復雜的鏈路和業務管理,進一步提高網絡的穩定性。OA-OSC 聯合告警算法的優點為:1)光監控信道單元向控制平面發送的告警信息同時包括光通道和光監控信道的當前狀態信息,可以實現根據鏈路和業務的實時狀態進行復雜的鏈路和業務管理,從而提高網絡傳輸的穩定性和效率。2)在光監控信道版本升級或者光監控信道單元更換等情況下,避免由于光監控信道告警引起業務倒換所造成的業務中斷,同時滿足光監控信道的維護需要。3)在原有的光監控信道告警報文的基礎上,告警報文僅需修改端口狀態字段的值,從而充分利用光監控信道和控制平面之間的現有通信配置,有利于在現有網絡設備上實現提出的創新方法[17]??刂破矫媾c光監控信道以及光送放大器之間的交互模型如圖5所示。

圖5 控制平面與光監控信道以及光送放大器之間的交互模型
利用烽火通信公司的設備進行對比實驗,以驗證新機制的優點。構造某個五節點拓撲,建立源節點1 到宿節點3 之間的業務,此時業務在1-2-3 上,如圖6 所示。當節點1 和節點2 之間產生故障時,若此時用OTU 告警觸發業務自動倒換,業務按照最少路徑路由算法重新算路,OTU 告警無法告知具體哪兩個節點之間產生故障,所以控制平面自動算路到1-2-5-3 或1-4-5-3 上,若先算通1-2-5-3,倒換至該條路由上,如圖7 所示,經過業務穩定時間(此實驗設為6 ms)后,業務倒換失敗,重新算路后倒換至1-4-5-3,如圖8 所示,再次經過一個業務穩定時間之后,業務倒換成功,此時在網管界面上顯示業務倒換成功的用時為12 ms。若此時用OA-OSC 聯合告警算法觸發業務自動倒換,業務按照最少路徑路由算法,由于該告警算法可以通告哪兩個節點之間鏈路不通,故控制平面算路排除1-2 節點之間的故障路徑,會直接算路到1-4-5-3,如圖9 所示,業務倒換成功,此時在網管界面上顯示業務倒換成功的用時為6 ms。該實驗驗證采用OA-OSC 告警算法能告知控制平面哪些鏈路不可用,在算路時排除故障節點,提高算路成功的概率,如此可減少業務倒換時間,有利于業務恢復,進一步提高控制平面的效率。

圖6 路由1

圖7 路由2

圖8 路由3

圖9 路由4
隨著網絡業務流量的增長,光網絡各方面技術在不斷提高,對網絡的生存性技術要求也越來越高。增加告警類型能覆蓋更多告警場景,從而處理更多的網絡故障情況。告警是保護與恢復機制實現的前提,文中提出的OA-OSC 聯合告警算法在實際工程應用中可進一步節省業務倒換時間,進而提高網絡效率和穩定性,同時進一步完善網絡生存性。但目前告警機制可檢測到的網絡故障場景仍然有限,仍需繼續研究不斷完善。