周學軍,李 江,周方圓
(延安大學 物理與電子信息學院,陜西 延安 716000)
遠程和本地電纜通信系統的現代技術基于光纖數據傳輸系統。光纖通信傳輸可以提供滿足用戶要求的高數據速率。傳輸的最常見問題之一是錯誤檢測和糾正,通常來自兩種不同的方面:一是影響傳輸線的重大干擾,二是通信路徑中的故障。由于應用了阻止任何入侵者使用的新技術,第二種情況很少發(fā)生,大多數集中在第一種錯誤上[1]。此前的研究人員設計了許多算法,或使用軟件或硬件來執(zhí)行檢測。在這項研究中,提出了一種新的K-means聚類方法來進行光纖通信的故障檢測。模型主要用作K均值聚類的輸入變量,而失真曲線則用于識別初始聚類的最佳數量。
光纖通信傳輸包括收集和管理大量信息和數據,因此數百萬個地方的數百萬人可以在短時間內執(zhí)行數十或數百筆交易,從而導致記錄數十億個事件。在光纖通信故障檢測中,為了處理如此大量的數據,需要使用特殊的檢測方法。現階段,檢測方法可以分為兩種方法——前向糾錯(FEC)和自動重復請求(ARQ)。在FEC中,發(fā)送過程發(fā)生前,在發(fā)送方將一組比特添加到消息中稱為糾錯碼。接收器使用這些糾錯碼在本地檢測和糾正錯誤,無需重新傳輸損壞的位。這些技術中的大多數都能成功檢測到錯誤,但無法糾正錯誤,尤其是當損壞的位數超過兩個時[2]。在ARQ中僅提供錯誤檢測功能,而未嘗試糾正任何錯誤接收的數據包。通過在發(fā)送方站點上重新傳輸已損壞的位或數據包,可以進行糾正。
如上所述,盡管傳統的光纖通信故障檢測提供了詳盡的方法,但是當故障數量增加時,將增加內存和計算時間的需求。為了解決這個問題,提出了一種基于數據挖掘的光纖通信故障檢測方法。數據挖掘是一種用于對半結構化或非結構化數據集進行分類的方法,是最常見且有效的數據分類方法之一[3],用于減少定位誤差。使用對象的先前位置數據迭代地估計對象的位置,并使用新的測量值更新這些估計值。在數學上,數據挖掘以K均值聚類估計線性系統的狀態(tài),并最小化估計誤差的方差,具有豐富的數據容量、非接觸功能、重復能力和耐用性。以數據挖掘實現光纖通信故障檢測進行數學分析和實驗評估發(fā)現,數據挖掘方法所需的數據量僅為傳統檢測方法所需數據量的1/4。
通過分析光纖網絡故障的實際案例可以看出,光纖網絡故障主要分為IP連接故障、網絡結構故障、物理故障和軟件故障4種類型。目前,現有的IP網絡故障診斷工具如嗅探器,不具備分析光纖網絡故障的能力,不能提供故障原因,而控制網絡故障的早期征兆往往與網絡級錯誤混雜在一起。常見的IP網絡指標有幀沖突、巨幀、超短幀、循環(huán)冗余錯誤幀、TCP校驗錯誤、分段消息、重傳消息、包到達間隔、吞吐量以及包突發(fā)等。通過分析網絡故障報警情況,這些指標本身并不是唯一的,但大多數商用IP網絡診斷工具都沒有對它們進行分析[4]。由于普通工具不能完全檢測控制網絡的故障,只能生成故障網絡報警,因此有必要建立新的檢測分類和檢測方法。
遠距離光纖通信傳輸故障數據挖掘中,需要考慮發(fā)送的數據包大小、通過其發(fā)送數據的協議、控制流協議、噪聲速率和數據包準備等。
3.1.1 封包大小
包大小由模擬器的用戶確定,需選擇要通過幀發(fā)送的字節(jié)數。系統本地主機通過TCP所允許選擇的最大字節(jié)數為1 024 Bytes。
3.1.2 本地主機協議
傳輸控制協議(TCP)是主機環(huán)境,幀通過該協議從發(fā)送者傳輸到接收者。要使用它,必須在發(fā)送方和接收方定義一個套接字,以定義本地端口和遠程端口進行通信。
3.1.3 控制流協議
有許多控制流協議,如停止和等待、滑動窗口、返回N、重復選擇以控制發(fā)送方和接收方之間的幀流量。工作中使用Go-Back-N協議,接收方檢查數據包中是否有錯誤,會向發(fā)送方發(fā)送否定確認。
3.1.4 噪聲率
噪聲率受許多因素影響,如傳輸中使用的介質類型、電磁場或環(huán)境噪聲等,因此在傳輸過程中將其設為可變。為了生成它,使用一個隨機數生成器提供一組隨機數,并根據其值更改位。
3.1.5 準備數據包
數據包是一組字符,其中字符數由數據包大小確定。生成數據包的字符后,將其轉換為二進制流,以便如在實際網絡中對其進行處理。一旦完成二進制流,下一步便開始選擇檢測算法。這里使用數據挖掘算法,將多余的偶數和奇數位添加到幀中的每個字符。
3.1.6 檢測程序
發(fā)送者和接收者在檢測過程中具有一系列明確的角色。發(fā)送者從用戶或系統讀取數據包,并將數據包存儲在特定的緩沖區(qū)中,以便對其進行操作。數據包分為特定大小的幀,必須與接收器一起容納。
基于數據挖掘的光纖通信故障檢測依賴于隱含的假設,即從故障的服務器到另一臺運行的服務器的切換任務。因此,對光纖通信中的傳輸故障數據進行挖掘,其將數據分為K組和E組,每組必須包含至少一個對象。所以,將基于K失敗和E接管其任務的情況,解釋此切換機制的細節(jié)。在無故障情況下,傳感器和傳感器發(fā)送的所有數據包均由K和E兩個服務器接收。只有K響應這些數據包,計算必要的控制數據包并將其發(fā)送到指定的執(zhí)行器節(jié)點。當E檢測到丟失的數據包(表明K發(fā)生故障)時,它進入循環(huán)以替換不活動的K,并將控制數據包發(fā)送到指定的執(zhí)行器。必須設計在E上運行并用于在故障情況下備份K的控制過程,以適應丟失一個數據包的情況。同樣,控制系統必須不易丟失一個控制包。這是為了克服在K和E之間切換時最多丟失一個數據包的可能性。這種情況下,一種簡單的解決方案是“保留先前的樣本”技術,直到接收到新的控制為止。
光纖通信系統發(fā)生故障的可能性可以通過3個可能事件來表征,即爭用引起的沖突、帶寬不可用和信道錯誤。令pf表示由于上述3個可能事件而導致的失敗概率,則:

其中pe表示由于信道引起的錯誤概率,pc表示由于爭用引起的沖突概率,q表示基站(BS)接受帶寬請求的概率,Tr表示響應時間或等待時間。通過重新排列,可得:

其中,pu表示帶寬不可用的概率,pce表示由于沖突和信道錯誤引起的概率。然后,pf變?yōu)椋?/p>

通過假設3個事件彼此獨立,可以得出(5)中的故障模型。為了提高性能,通過考慮建議的故障模型計算退避因素(如減少碰撞)和響應時間(如減少等待時間)。
通過Matlab仿真驗證針對光纖通信開發(fā)的故障模型,在RZ9681型通信實驗平臺完成遠距離光纖通信中故障數據挖掘的實驗分析,仿真結果如圖1所示。對于此模擬考慮以下數據:幀的持續(xù)時間為5 ms,物理幀中用于帶寬請求的爭用時隙數為16,最小爭用窗口為8,由BS設置的等待時間(響應時間)的初始值為5,退避階段的最大數量為MAC為6。此外,MAC參數是根據1 000條實際傳輸故障樣本數據中給出的標準配置的。通過針對不同的q值(即0.25和0.60)改變競爭站點,可以根據競爭效率和訪問延遲進行評估。此外,所有模擬均考慮到系統的易錯通道,共劃出70個故障區(qū)間,其中實際樣本傳輸故障數據和不同傳輸故障的錯誤率分別為80%和90%,兩組重疊就是判斷正確。通過計算得到競爭效率隨著站點數量的增加而增加,并達到飽和。對于改良的EIED補償,此飽和區(qū)域的競爭效率介于24.5%~28%,而對于常規(guī)EIED補償的競爭效率介于32.5%~43.8%。如果退避機制在帶寬可用性較低的情況下表現良好,則可能是有效的。如果帶寬更大,則由于帶寬不可用而導致的故障以及由于在同一TxOP上進行傳輸而引起的沖突不會那么明顯。

圖1 不同方法光纖故障精度趨勢圖
提出的遠距離光纖通信中傳輸故障數據挖掘方法的識別與實際情況較為符合,可以顯著降低由于帶寬差異而造成在同一TxOP上的傳輸,證明該方法可信度較高。