邵智辰,謝昆峰,左發興,胡 亮,陳建平,吳龜靈
(上海交通大學 區域光纖通信網與新型光通信系統國家重點實驗室,上海 200240)
高精度的光纖時間同步在通信、航天航空和導航定位等領域有著重要的應用前景[1-3]。隨著光纖時間傳遞系統的不斷發展,設備規模變得越來越大,種類和數量變得越來越多,對系統的靈活性、完備性、安全性和高可用性的需求更是在不斷增長,缺少一個完整監控系統的局限性慢慢體現了出來[4-5]。首先,隨著系統節點的增加,當某個節點出現故障或信號發生異常時不能及時定位故障的源頭,導致處理故障的時間往往都消耗在尋找故障的位置。其次,隨著業務的擴展,系統節點的位置分布在全國各地,為了獲取大規模系統中各節點的信息和數據,現有的時間傳遞系統需要有技術人員在機房實時值守,耗費大量的人力和時間。最后,儀器本身只能存儲少部分的數據,無法實現歷史數據和歷史狀態的回放。
針對以上問題,本文設計了高精度時間傳遞系統監控系統的總體架構,包括故障管理、性能管理、配置管理、安全管理和數據管理5個部分,定義了各部分的功能,并設計了相應的數據庫結構。在基于雙向時分復用同纖同波(BTDMSFSW)光纖時間傳遞系統[6-8]上實現和測試了監控系統。結果表明,該系統能夠實時地監控傳遞節點狀態、傳遞系統的性能,并處理監測到的故障,提高系統運行的可靠性。
監控系統的結構主要有3種,分別是集中式系統、分布式系統和層次型系統[9]。考慮到便于集中管理的優勢,設計的時間傳遞監控系統采取集中式的結構,如圖1所示。監控節點通過網絡與時間傳遞系統中的近端、遠端和中繼節點相連;時間傳遞節點將本站點的鐘差數據、狀態信息等通過網絡發送至監控系統的管理信息庫;監控系統通過數據庫實現配置管理、故障管理、性能管理、數據管理和安全管理。
圖2是設計的光纖時間傳遞監控系統的總體架構。各部分功能如下。
1)故障管理。用于發現、定位系統出現故障的位置和原因,并采取一定的恢復方式,保證時間傳遞系統的正常運行,分為3個部分,即故障檢測與診斷、故障恢復和故障記錄。故障檢測與診斷用來檢測、識別和定位故障,并產生告警信息。光纖時間傳遞系統主要的故障信息包括輸入時間信號(PPS)異常、參考頻率信號異常、光纖鏈路狀態異常、設備異常等。故障恢復在檢測到故障時采取切換主備光纖、設備、數據傳輸方式等保證系統的運行。故障記錄將故障信息存儲在數據庫中。

圖1 光纖時間傳遞監控系統結構圖Fig.1 Structure of optical fiber time transmission monitoring system
2)性能管理。用來采集和分析系統數據,監測和評估系統性能,確認系統性能在可接受的水平內,包括數據采集、性能計算、評估分析。數據采集獲取每個傳遞節點測量的時間間隔。性能計算利用數據采集獲取到的時間間隔計算時間傳遞的穩定度,繪制相應的曲線。評估分析根據各傳遞節點的性能對系統做綜合評估和分析,根據設定的閾值產生告警信息。
3)配置管理。用來對系統運行參數、鏈路連接、數據傳輸方式等進行遠程配置。時間傳遞系統的配置信息包括系統運行參數、系統告警參數和數據接口參數。系統運行參數包括鏈路連接狀態、系統校準參數和設備參數等;系統告警參數包括故障、性能和安全等告警的類型、方式和閾值等;數據接口參數包括數據通信接口地址、碼率等。設計的配置管理模塊包括配置信息的初始化、配置更新和配置備份。配置信息的初始化在系統更新或重啟后從數據庫讀取存儲的系統配置,快速恢復系統狀態。配置更新讀取系統管理員設定的配置信息,并通過網絡下發給系統相應的設備。配置備份將每一次配置的更改記錄在數據庫中。

圖2 光纖時間傳遞監控系統總體架構Fig.2 Overall architecture of optical fiber time transmission monitoring system
4)安全管理。用來保證只有具有一定權限的用戶才能進入系統查看和修改系統信息,防止系統被破壞或是數據被竊取,包括用戶分類、身份驗證,以及數據存儲的安全和保密。用戶分類將能夠進入系統的用戶分為不同等級的用戶。身份驗證根據用戶名和密碼檢查登錄用戶的合法性和權限,并記錄每一次的登錄信息,對超過指定次數的非法登錄做出告警。數據存儲的安全和保密用來保證系統的數據被安全的存儲在數據庫中不被泄漏。
5)數據管理。負責存儲和維護系統的性能、配置、用戶、告警記錄等數據,并提供數據的歷史回放與分析。管理員可以通過數據管理子系統調用和查看歷史的數據信息、歷史的狀態信息和歷史告警信息。
管理信息庫的結構如圖3所示,包含故障表、性能表、配置表和安全表。故障表和性能表對每個節點都有一個子表。配置表又分為當前配置表和修改配置表,當前配置表用來存儲當前的配置,修改配置表用來存儲待修改的配置。配置表中包含了針對不同配置項(如光纖、數據傳輸方式等)的子表。安全表用來存儲用戶信息和登錄記錄。
本系統實現了對輸入秒脈沖信號(1PPS)異常、輸入10 MHz頻率信號異常、光纖鏈路異常的監控。其中,輸入PPS信號和10 MHz頻率信號通過光纖時間傳遞端機的可編程邏輯門陣列(FPGA)板卡實現監控,光纖鏈路通過光收發器對輸入光監控。PPS是頻率為1 Hz、脈寬在20 ms和200 ms之間的脈沖信號,10 MHz頻率輸入FPGA后可以認為是頻率為10 MHz、占空比為50%的方波信號。通過FPGA本地100 MHz晶振實現對PPS和10 MHz的監控,故障監控狀態機如圖4所示。圖4(a)中IDLE狀態產生告警;State1狀態代表檢測到PPS的上升沿;State2狀態代表此時脈寬大于20 ms,符合要求;State3狀態代表PPS脈寬小于200 ms,是正常的輸入PPS信號。圖4(b)中IDLE狀態產生告警;State1狀態代表檢測到10 MHz參考頻率上升沿;State2狀態代表檢測到10 MHz參考頻率下降沿。

圖3 管理信息庫的結構Fig.3 Structure of management information base

圖4 故障監控狀態機Fig.4 Fault monitoring state machine
配置管理和故障管理緊密相關,兩者的關系如圖5所示。圖中上面部分是傳遞節點,中間部分是數據庫,下面部分是監控節點。傳遞節點中故障管理模塊對信號進行監控,當各傳遞節點檢測到有故障發生時,產生告警信息并存入數據庫中。監控節點查詢數據庫中傳遞節點的狀態,進而定位和判斷故障類型,并做出相應處理決策,如將輸入信號故障及時通知系統管理員,切換光纖至備用光纖解決光纖鏈路故障等。監控節點將需要修改的配置寫入數據庫的修改配置表中。傳遞節點的配置管理模塊讀取數據庫中的修改配置表,當查詢到有配置更新則修改相關配置。
通過當前配置表和修改配置表來協調監控節點和傳遞節點的配置更改過程,配置更改流程圖如圖6所示。傳遞節點查詢數據庫當前配置表。若當前配置表中的配置信息與實際配置不一致則先向當前配置表寫入實際配置記錄。之后查詢修改配置表,若有配置需要更新則修改自身的配置,成功修改后向當前配置表寫入修改后的配置記錄。監控節點將需要修改的配置信息寫入修改配置表后查詢數據庫中相應的當前配置表。若查詢到當前配置已全部修改完成后,將修改成功的記錄寫入修改配置表。

圖5 故障管理和配置管理的關系圖Fig.5 Relationship between fault management and configuration management

圖6 配置更改流程圖Fig.6 Configuration change flowchart
實測的鐘差和時間偏差(TDEV)能準確反映系統性能的指標,但實際應用的系統中傳遞節點不能得到實測的鐘差。考慮到利用傳遞節點測試的時間間隔計算出的相對鐘差( ΔT)也能大致反映實際鐘差的趨勢,本文采用 ΔT實時監控時間傳遞的性能。對BTDM-SFSW時間傳遞系統,ΔT由主站測得的時間間隔TAB、從站測得的時間間隔TBA、時間延遲量Td計算得到

系統通過對 ΔT設定一個閾值實現性能監控,當計算出的 ΔT超過閾值時,系統產生告警信號并將告警信息記錄進數據庫。合理的閾值設計是性能監控的關鍵。由于系統是一個反饋控制系統,發送給晶振的反饋值會隨著 ΔT的變大而變大。但是光纖鏈路的抖動和數據接收誤碼的存在會導致計算出的 ΔT的突變,若用某一時刻突變的 ΔT計算出的反饋值輸入給晶振,會導致系統性能的瞬間惡化。故當 ΔT超過閾值時,不需要將反饋值輸入給晶振,使 ΔT在沒有反饋的情況下隨時間緩慢增長。若閾值過小,雖然能夠很好的監控系統性能,但是增長的 ΔT容易超過閾值,造成反饋系統的停止運行;若閾值過大又不能很好的監控系統性能。因此本文通過對 ΔT閾值的自適應的調整實現性能監控。當系統剛開始運行時,主從兩端的時間還不同步,需要將閾值保持在較高的值保證反饋系統運行;在系統趨于穩定后將閾值保持較低的值對 ΔT的大小實時監控,當遇到偶發的突變則適當調高閾值,保證鏈路重新正常后的 ΔT不超過閾值。
在基于BTDM-SFSW時間傳遞系統上實現和測試了光纖時間傳遞監控系統,圖7是監控系統的測試圖。主、從傳遞節點分別包含一個時間傳遞端機和一個監控上位機,上位機中運行監控軟件客戶端。監控節點為一個上位機,運行監控服務端和數據庫。主、從端時間傳遞端機通過主、備兩根光纖連接,監控節點和傳遞節點間通過局域網連接。

圖7 光纖時間傳遞監控系統的測試圖Fig.7 Test of optical time transmission monitoring system
圖8是光纖故障時主備光纖切換前后時間間隔和鐘差的變化曲線圖。圖8(a)中TAB是主站測得的時間間隔,TBA是從站測得的時間間隔。可以見到,主用光纖在第11 s時斷開,其后的1 s內,主、從端測得的時間間隔都減少了約50 μs。這表明系統成功地由30 km的主用光纖切換到了20 km的備用光纖,保證了時間傳遞的持續進行。又在第21 s時將備用光纖斷開,系統又成功切換回了主用光纖。圖8(b)是計算出的相對鐘差,可見相對鐘差沒有中斷或突變,即沒有受到主用光纖或備用光纖斷開的影響。上述結果表明,故障管理能夠有效處理光纖鏈路斷開故障,在不影響傳遞性能的情況下保證系統的持續正常運行。

圖8 變化曲線圖Fig.8 Change curves
本文設計了時間傳遞監控系統的總體架構和管理信息庫的結構,實現了故障管理、性能管理、配置管理、安全管理、數據存儲的功能,在BTDM-SFSW時間傳遞系統上進行了驗證。結果表明,系統能夠實時的采集數據信息和狀態信息,做出故障處理,并回放任意時刻的歷史數據和歷史告警信息,為大范圍多節點時間傳遞時間系統的穩定可靠運行提供有效保障。本系統使用數據庫作為傳遞節點和監控節點之間的橋梁,無需直接建立連接,易于后期多節點的拓展,同時減少了系統數據流量。在未來節點變多且不易管理時,可以考慮使用標準的網絡管理協議實現對系統的監控,如SNMP協議。