中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2025)08-0010-06
Abstract:The Long TermEvolution of Metro (LTE-M) network fault prediction datasetof rail transit has the problems ofunbalancedsamplesandsmallamountofsampledatawhichimpacttheacuracyoffault prediction.Inordertosolvethe above problems,this paper proposes aresearch methodofLTE-Mfault predictionofrail transitbased onconditionalTime-series Generative Adversarial Networks (TimeGAN).Bydefiningdynamic autoencoderandstatic autoencoderinTimeGANmodel,this method furtherexploresthedynamicandstaticcharacteristicsofLT-Mfaultdataofrailtransit,andintroducesGELUactivation functionnthepotentialspaceofgeneratoranddiscriminatortoaceleratemodelconvergenceandgeneratesyntheticdatacloser toreal data,thusefectivelyalleviating the problemofunbalancedfaultdatasetandsmalldatavoume.Theexperimentalresults showthatwhenthedatasynthesizedbytheTimeGANmodelisusedforfaultpredictiontraining,itcanproducebeterediction results than the original data.
Keywords:rail transitLTE-M;fault prediction;time-series;TimeGAN
0 引言
隨著新一代移動通信的飛速發展,軌道交通通信基礎設施規模也迅速擴展,LTE-M網絡作為軌道交通網絡關鍵組成部分,其復雜性也隨之增加。軌道交通LTE-M網絡系統中任何一個設備發生故障都可能觸發一系列設備的連鎖告警反應,從而產生大量的告警信息。這不僅阻礙網絡管理人員對故障的及時和準確定位,也極大地增加了網絡維護的難度。實時準確監測網絡設備并實現故障快速定位甚至預測網絡故障成為維護網絡通信質量的核心任務。
隨著深度學習在故障預測領域的廣泛應用,深度學習技術對網絡故障預測的研究也層出不窮,但是現有故障預測研究,對時間序列特征間關系的挖掘還不夠充分,導致預測精度較低。基于深度學習的時間序列預測主要涉及金融股票[1]、軌跡預測[2]和工業指標[3]等多個領域。基于深度學習的故障預測方法通過學習歷史數據的特征,展現出對網絡結構調整的高度適應性。施清譯[4等提出一種將時序生成對抗網絡和通道空間雙注意力機制相結合的數據生成方法,合成了與實際電器功率數據相似度較高的合成數據。雖然深度學習技術的發展帶來了預測性能的提升,但其性能的提升往往依賴于大量的訓練樣本數據集。然而,在面對實際數據集時,可能面臨數據量不足導致樣本不均衡等問題。數據集的數量較少使得預測模型難以捕獲數據中的特征依賴關系,預測模型的準確性往往難以達到預期。
數據增強是擴充數據的一種方法,近年來廣泛應用于回歸分析和分類領域,并取得了較大進展。然而,針對時間序列數據的增強方法研究仍然較少。對抗生成網絡(GAN)[5]利用合成虛擬樣本的概念,創造了合成數據。通過聯合訓練生成器和判別器,GAN逐步擬合原始數據分布。基于GAN的數據增強策略,Zhang等開發了一種改進的耦合生成器對抗堆疊自編碼器(ICoGASA),以模擬更真實的天氣預報誤差和不同居民的生活方式,并根據訓練樣本生成合成樣本(RSS)。改進的條件生成對抗網絡(RegGAN)[7]通過采樣生成新的特征數據,并改進了CGAN以生成相應的估計值。連續循環神經網絡(C-RNN-GAN)結合了對抗性訓練和循環神經網絡,用于時間序列數據增強,但未能很好地捕捉時間步依賴關系及其動態特征。Yoon等人提出的TimeGAN方法結合了預測任務的監督學習和編碼任務的非監督學習,有效生成時間序列數據。Zhang[1o]等,提出數據的質量和數量是影響模型預測精度的關鍵,并將TimeGAN應用于供熱領域,增加了數據量,并提高了預測模型的精度。王渝紅[等,提出一種基于條件生成對抗網絡(CGAN)與遷移學習的暫態電壓穩定超前判別方法,取得了較好的實驗效果。周琳茹[12]等,采用基于注意力機制的生成對抗網絡對任務分析方法進行研究,使得模擬生成的數據集精度有了較好的提升。
基于上述軌道交通LTE-M網絡故障預測研究中存在的問題,首先分析軌道交通LTE-M網絡故障特征,并引入TimeGAN模型,該模型將自回歸學習和對抗學習無監督訓練相結合,使用兩個自編碼器分別處理動靜態數據,進一步挖掘軌道交通LTE-M網絡故障的潛在靜態分布規律和動態依賴演變特性,從數據層面解決數據集中存在的樣本不均衡問題;在生成器與判別器的潛在空間使用GELU激活函數,GELU函數的平滑性和近似線性特性有助于加速梯度下降算法的收斂,使TimeGAN模型更快地學習和適應數據,生成高質量的新樣本。為了驗證生成數據的真實性和有用性,比較了數據增強方法所生成數據的分布差距以及合成數據用于預測時的預測效果。
1軌道交通LTE-M網絡故障特點分析
軌道交通LTE-M網絡故障與告警日志數據和網絡日常運行數據的變化密切相關。在軌道交通LTE-M網絡管理系統中,網絡日常運行數據可以提供關于故障發生時設備狀態的詳細信息,幫助網絡管理人員及時進行故障定位。告警日志數據記錄系統在設備運行過程中記錄各種告警事件,包括設備號、告警名稱、告警級別以及發生時間等信息,如表1所示是部分網絡告警日志記錄的示例。

如表2所示是部分網絡日常運行數據的示例。通過分析告警日志數據以及網絡日常運行數據總結出LTE-M網絡故障數據動靜態特征。本文將軌道交通LTE-M故障數據集特征劃分為兩個維度。

1)告警日志數據:告警日志數據是記錄不同告警發生時間的數據,其告警的種類在系統中是有限,數據種類是有限的意味著數據集中的每個數據點都屬于已知的、固定的類別或取值范圍,在一定范圍內是固定不發生變化的,因此可以將告警數據看作靜態特征數據。
2)網絡日常運行數據:網絡日常運行數據記錄網絡設備運行狀態,其是典型的時間序列,當網絡日常運行數據出現異常波動時,可能預示著網絡設備在運行過程中,出現了異常。這類數據隨著時間的波動變化具有季節性、周期性等特點,故將這類數據劃分為時態特征數據。
2 TimeGAN原理
TimeGAN模型由三個部分組成,分別是GAN網絡、動態編碼器和靜態編碼器,如圖1所示。該模型為了降低對抗性學習空間的高維性,引入了兩個嵌入網絡,分別提供動態和靜態特征與潛在表示之間的可逆映射關系。在學習嵌入空間對抗性聯合訓練時,引入使用原始數據作為監督的逐步監督損失以及真實序列和合成序列上的無監督對抗損失,從而鼓勵模型捕捉數據中的逐步條件分布。
基于TimeGAN模型將時間序列數據特征劃分為兩種:靜態特征和時態特征。考慮軌道交通LTE-M網絡故障數據包含靜態特征和動態特征。聯合訓練四個損失函數的主要目的是減少合成數據與原始數據在特征分布上的差異。TimeGAN的目標是將GAN目標和ML目標相結合。這樣自然會產生一個訓練過程,其中包括簡單地添加監督損失來指導對抗性學習:


2.1 嵌入式和恢復網絡
TimeGAN模型中,加入兩個嵌入式和恢復網絡的自的是進行動態和靜態數據隱藏空間和特征之間的映射轉換,實現對軌道交通LTE-M網絡故障數據集特征計算維度的降低,同時讓生成器G在低維度空間中學習數據集的潛在時間逐步依賴分布[13]。本文設計了兩個自編碼器網絡將動態特征數據和靜態特征數據分開進行特征提取,減少特征之間的干擾,提高模型的性能和泛化能力,嵌入網絡與恢復網絡維護一個重構損失函數LR:


在時間序列數據中,為了生成與真實數據分布接近的合成數據,對于D和G網絡的對抗訓練損失函數LU定義為:

為了準確的捕捉到時間序列在時間維度上的動態特征,生成器G在生成數據時,基于時刻t-1的輸入數據預測下一時間步 t 的數據。這意味著生成網絡能夠在隱藏空間中學習并捕捉整個時間窗口內數據在特征維度和時間維度的分布。其預測損失函數LS公式為:

2.2生成網絡和判別網絡
本文將兩個自編碼網絡提取特征之后的動態特征數據和靜態特征數據疊加組合,得到一個綜合特征向量輸入到生成器中,整體訓練過程包括數據的預處理、降維和模型訓練。針對連續的網絡日常運行數據預處理采用標準化和平滑化處理,離散數據則采用熱獨立編碼建立索引,在離散的告警日志數據降維中將稀疏的熱獨立編碼降維成稠密的矩陣。將降維后的綜合特征向量輸入LSTM中得到當前時刻的狀態輸出,如式:
,
,其中, ν 為迭代更新函數,
為輸入的時間序列, s 為靜態特征數據。
2.3 GELU激活函數
激活函數作為神經網絡是否傳遞信息的“開關”,對于神經網絡來說至關重要。高斯誤差線性單元激活函數(GELU)是在激活中引入了隨機正則的思想,對神經元的輸入進行概率描述,本文提出將GELU激活函數應用于TimeGAN生成器網絡和判別器網絡的隱藏層。
GELU函數是一種平滑的非線性函數,其曲線呈現類似S型曲線的形狀。其在整個實數范圍內都有連續的導數,從而更容易優化和訓練深度神經網絡。GELU函數呈現線性的特性能夠避免梯度消失和梯度爆炸,能夠穩定生成對抗網絡的參數更新。使用GELU函數作為激活函數可以加速模型的訓練收斂過程,減少訓練時間和資源消耗,使TimeGAN模型更快地學習和適應數據。
3 LTE-M網絡故障預測實現
3.1 基于TimeGAN的軌道交通LTE-M故障預測實現流程
基于TimeGAN的軌道交通LTE-M故障預測實現,具體步驟如下:
1)收集整理地鐵近16個月以來的網管告警日志和設備日常運行日志數據,確保樣本覆蓋常見故障模型與變化趨勢,并對日志進行清洗,剔除噪聲,采用Min-Max對訓練樣本進行歸一化,將各個數據特征值統一到相同的量級。2)在TimeGAN網絡結構中,配置生成器、判別器和自編碼器模塊,確保生成數據在時間序列和特征空間上的一致性。設置調整TimeGAN模型網絡的超參數,將訓練樣本輸入模型進行訓練。3)利用訓練完成的TimeGAN模型生成與原始數據分布相似的合成故障數據,以擴展訓練樣本量并增強模型的魯棒性。4)將TimeGAN生成數據和原始數據一同輸入LSTM網絡,以進行故障預測模型的訓練。5)通過MAPE、
、MAE等指標,量化模型在預測故障時的表現。
3.2 評估指標
3.2.1 數據生成評估指標 t-S N E
針對本文所提及的訓練TimeGAN模型測試,本文將合成的數據與原始數據進行t分布-隨機近鄰嵌入(t-SNE)。
是一種降維技術,其將不同數據之間的相似程度轉化為概率分布。使得具有相似特征的過程數據在低維空間中呈現相似的分布,有助于評估合成數據的真實性。
3.2.2 故障預測評估指標
為了驗證文中提及的數據生成方法的可行性和有效性,需對故障預測效果進行質量評估。采用MAPE、
、MAE等指標,具體內容如:
1)MAPE。平均絕對百分比誤差(MAPE)是用來衡量時序序列擬合精度的統計指標。MAPE的值越小,說明故障預測模型精度越高。

其中, N 為樣本的數量,即預測值和實際值的總數,
為實際值,第 i 個樣本的真實值。
為預測值,
第 i 個樣本的預測值。
2)
。為了直接的觀察故障預測結果的準確性,通過對模型擬合程度進行檢驗。越接近1表示擬合程度越好。

其中,
為第 i 個樣本的真實值。
為第 i 個樣本的預測值。
3)MAE。MAE是真實值與擬合值之間差值的絕對值之和的平均值,僅衡量誤差的平均模長,而不考慮方向,取值范圍也是[0, + ∞ ] 。當真實值與擬合值完全吻合時,等于0,即完美模型;誤差越大,該值越大。

其中,
為第 i 個樣本的真實值。
為第 i 個樣本的預測值。
4實驗結果與分析
4.1 訓練數據處理
地鐵14號線和18號線2022年12月至2023年12月期間設備日常運行數據和告警日志部分數據如圖2所示。
時間序列數據集有一個額外的維度一一時間,可將其視為3D數據集。如圖2所示,一個包含四個特征和四個輸入實例的數據集,本文時間序列數據是在該數據集上的第三維擴展,其中每個新表格只是新時間步長的另外一個數據集,本文選取一個大小為24的窗口,并將這個窗口沿著數據集縱向移位采樣,從而獲得更多數量的2D矩陣,每個矩陣的長度為24,并具有該數據集所有列的特征。在上述示例數據集中,有26行。通過每24行移位采樣,可得到3個2D矩陣,每個矩陣有24行和4個特性,得出一個維度為(3,(24,4))的數據集,其中每個實例中有24行和4個特性。此外,在將數據集輸入TimeGAN之前,需要對數據集進行重構,以便模型能夠在固定的時間長度內學習數據的時間動態。
4.2 超參數設置
本文實驗是在Python3環境中使用TensorFlow和Keras進行的。訓練過程在一臺使用NVIDIAH100GPU的機器上進行。在TimeGAN模型的訓練中,選擇4種不同的故障類型和4種不同網絡日常運行數據類型進行合成序列生成,每個序列長度為10000,使用大小為24的滑動時間窗來捕獲時間依賴性。該架構使用三層門控循環單元(GRU)網絡構建,用于嵌入、恢復以及生成和判別組件,隱藏層的維度是設備類型數量的四倍。采用數據歸一化來促進模型收斂,生成的序列進行反歸一化以解釋結果,λ和分別設置為1和16。以TimeGAN為基準,所有訓練都使用Adam優化器進行細化,設置學習率為0.0001,beta值為0.9和0.999。
4.2.1 數據生成與可視化
為了驗證本文所提出的數據增強方法能夠改善軌道交通LTE-M網絡故障預測精度因數據不均衡和數據量小而不準確的問題,將收集整理的地鐵12個月的LTE-M網絡故障數據集,利用TimeGAN數據增強方法進行數據擴充,然后將原數據訓練的數據增強網絡生成的3000個合成數據與原3000個數據樣本進行可視化對比,結果如圖3所示。灰點和黑點分別代表生成模型訓練LTE-M故障數據樣本之后生成的二維空間映射數據集和真實數據集。在圖3中TimeGAN生成的數據與原始數據更好地對齊,偏移數據點更少。
4.2.2 預測內容
本文將與TimeGAN原理類似的RCGAN和C-RNN-GAN兩種模型作為對比對象。使用TimeGAN、RCGAN和C-RNN-GAN模型訓練LTE-M故障數據樣本,分別生成四組生成數據,再將生成數據輸入LSTM預測模型,計算三組預測值的MAPE、
、MAE值,如表3所示。可見RCGAN和C-RNN-GAN預測效果均不佳,TimeGAN模型預測效果較好。TimeGAN模型在軌道交通LTE-M網管故障數據時間序列潛在信息的利用上表現出更高的效率。實驗還驗證了該模型在故障預測問題上的精度更高。


5結論
本文對軌道交通LTE-M網絡故障預測問題進行建模,針對LTE-M故障預測數據集樣本不均衡和數據量較小等問題,提出TimeGAN時間序列生成模型,用于LTE-M網絡故障數據預測,主要特點如下:
1)將告警日志數據和網絡日常運行數據劃分為故障數據的動靜態特征,并作為TimeGAN模型的條件監督項,融合了自回歸模型有監督訓練與對抗學習無監督訓練。
2)TimeGAN提出設計兩個自編碼器網絡分別對軌道交通LTE-M動靜態特征數據進行特征提取,提高特征提取的準確性,避免動靜態特征干擾,使得合成數據與原始數據更加接近,真實性更高,優于其他數據增強網絡。
將收集整理的地鐵16個月的故障數據集輸入改進模型,得到質量更高的合成數據,再將合成數據輸入LSTM網絡預測模型,實驗結果表明,TimeGAN模型生成的數據在用于故障預測訓練時,能夠產生更好的擬合效果,有效提升軌道交通LTE-M網絡故障預測的精度。
參考文獻:
[1]陳東洋,毛力.融合增量學習與Transformer模型的股價預測研究[J].計算機科學與探索,2024,18(7):1889-1899.
[2]李娜,羊釗,王業萍,等.融合時序注意力的CNN-BiGRU四軸無人機軌跡預測方法[J/OL].武漢理工大學學報:交通科學與工程版,2025:1-9[2025-03-13].http://kns.cnki.net/kcms/detail/42.1824.U.20240409.1221.046.html.
[3]謝博才,宮殿君.基于機器學習的道岔故障診斷與預測研究綜述[J].鐵路通信信號工程技術,2021,18(8):93-99.
[4]施清譯,汪偉,安斯光,等.基于時序生成對抗網絡和注意力機制的電器數據生成方法[J].現代電子技術,2024,47(11):161-167.
[5]李蘭,張潔,劉杰,等.基于GAN的社會和場景感知行人軌跡預測[J].計算機應用與軟件,2024,41(6):72-78.
[6] ZHANGGQ,GUOJF.ANovel Ensemble Method forResidential ElectricityDemand ForecastingBased onANovelSample Simulation Strategy[J].Energy,2020:207:118265.
[7]CHENZS,HOUKR,ZHUMY,etal.AVirtualSampleGeneration ApproachBased onaModified ConditionalGAN and Centroidal Voronoi Tessellation Sampling to Cope WithSmall Sample Size Problems:Applicationto softSensing forChemical Process[J].Applied SoftComputing,2021,101:
[8]丁琳琳,胡永亮,李昱達,等.基于條件對抗增強的Transformer煤礦微震定位方法[J].計算機與數字工程,2024,52(1):1-8+17.
[9]YOONJ,JARRETTD,SCHAARMVD.Time-Series Generative AdversarialNetworks[EB/OL].[2024-09-28].https:// papers.nips.cc/paper/8789-time-series-generative-adversarialnetworks.pdf.
[10]ZHANGYF,ZHOUZH,LIUJW.DataAugmentation for ImprovingHeatingLoad Prediction ofHeatingSubstationBasedon TimeGAN[J].Energy,2022,260:1-12.
[11]王渝紅,何其多,鄭宗生,等.基于條件生成對抗網絡與遷移學習的暫態電壓穩定超前判別[J].電力自動化設備,2025,45(2):159-166.
[12]周琳茹,彭鵬菲.基于注意力-生成對抗網絡的任務分析方法研究[J].計算機科學,2024,51(3):63-71.
[13]HARFORD S,KARIMF,DARABIH.Generating AdversarialSamplesonMultivariateTimeSeriesusingVariational Autoencoders[J].IEEE/CAA JournalofAutomatica Sinica, 2021,8(9):1523-1538.
[14]譚建所,吳興華,徐文光,等.基于tSNE-LSTM算法的工業預測模型[J].現代電子技術,2024,47(12):81-85.
作者簡介:余鳳琴(1999—),女,漢族,安徽安慶人,碩士研究生在讀,研究方向:軌交智能控制與監測。