摘要:建立完善的交通事件檢測系統,已經成為我國智能交通系統的重要組成部分。文章從數據和算法2個方面深入分析了交通事件檢測場景特征,設計了一種基于深度學習的交通事件檢測系統。文章提出了一種混合架構的聯合學習網絡,通過綜合利用ViT和Swin Transformer的優勢解決了圖像多標簽分類問題的挑戰;設計了一系列數據增強方法,應對數據不平衡性對深度學習模型的影響,并有效緩解了模型過擬合問題。實驗結果表明,該系統在交通事件檢測中具有更好的準確性和泛化能力,已應用到多個實際項目并取得了良好的應用效果。
關鍵詞:交通事件檢測;深度學習;對抗生成網絡;Transformer
中圖分類號:TP312" 文獻標志碼:A
0 引言
高速公路是一個國家運輸體系現代化的重要標志。隨著交通網絡不斷擴大和機動車保有量的逐年增長,由交通事件所導致的交通事故頻發,嚴重影響了人們的日常生活和國家經濟的正常運轉。交通事件主要包括交通事故、車輛故障、貨物灑落等,交通事件發生的時間地點沒有規律性,常為偶發性事件。建立完善的公路交通事件檢測系統,有效地檢測交通事件并及時處置,成為智能交通系統的重要組成部分。因此,研究交通事件檢測及其應用具有重要現實意義。
1 現狀與挑戰
交通事件檢測系統是通過識別不同交通狀態下參數的變化,判別當前是正常運行狀態還是異常運行狀態。早期的交通事件檢測系統主要使用傳統的間接檢測方法,包括加利福尼亞算法、標準偏差算法等。這些算法各具優缺點,在應用過程中都暴露出很多缺陷,例如突發交通變化適應能力較弱等。
近年來,人工智能(AI)技術飛速發展,人們開始將AI技術應用到交通管理系統,主要包括基于機器學習的方法和基于深度學習的方法。在交通事件檢測中使用的機器學習方法主要包括支持向量機(SVM)、Bagging和隨機森林算法等,其中基于SVM的方法使用較為廣泛。傳統基于機器學習的方法存在泛化能力差等問題,使用者將其和其他算法相結合,可以在一定程度上提升檢測精度。但對于復雜多變的交通環境,傳統機器學習算法性能有限且泛化能力較差,大多數方法只是針對特定數據集和特定應用場景。
隨著數據增多、算力增強和應用場景日益豐富,深度學習技術在工業界廣泛應用成功。用于交通事件檢測的神經網絡模型主要有多層前饋神經網絡(MLFNN)、基本概率神經網絡(BPNN)和建設性概率神經網絡(CPNN)3種。其中,MLFNN檢測性能表現最好但訓練時間較長,CPNN模型小而靈活且適應性較好。近年來,卷積神經網絡(CNN)在圖像識別領域中表現優異并逐步成為主流技術。基于深度學習的方法網絡層次越深,數據越量多質高,學習到的特征越多,識別能力就越強。因而,圖像數據的數量和質量成為影響神經網絡模型性能的關鍵要素。基于深度學習的交通事件檢測方法需要大量交通數據進行訓練,且對數據的真實性和有效性要求很高。
然而,在實際場景中,交通事件數據遠遠少于正常狀態數據,而且已標記數據很少。從數據層面看,交通數據普遍存在類別不均衡,交通事件檢測本質上是一個不平衡分類問題。同時,大多數情況下一個交通樣本數據中可能涉及多種交通事件,從算法層面看,交通事件檢測屬于多標簽分類問題。現有交通事件檢測系統大多是一個算法只檢測某一種交通事件,這種串行方式效率較低,而且現有深度學習算法大多是針對均衡數據設計的,在交通事件檢測這種典型的不平衡數據樣本上可能導致模型訓練的偏向性。
綜上所述,基于深度學習的方法在交通事件檢測中具有較好表現,但仍存在著不平衡數據處理和多標簽分類算法設計2個關鍵挑戰。
2 系統設計
本文以交通事件檢測為研究目標,以采集到的高速公路視頻序列為研究對象,通過深度學習的方法對交通事件進行檢測,如高速公路上行人、異常停車等。特別關注數據不平衡性對深度神經網絡的影響,通過在數據層和算法層2個層面進行優化,提升檢測的精度和效果。核心技術路線是通過對樣本數據進行增強緩解數據不均衡,然后訓練網絡模型實現多目標精準識別。在檢測階段使用網絡模型對實時視頻數據流進行分析,區分識別工作人員、工作車輛、工作標識物與行人闖入、異常停車、拋灑物等異常事件,自動報警并提供詳細信息。
針對上述交通事件檢測中的不平衡數據處理和多標簽分類算法設計2個關鍵挑戰,分別從數據增強方法和算法精度及泛化能力2個方面進行優化設計,并重點考慮數據不平衡性對神經網絡模型的影響,提升系統的檢測精度和效率。
2.1 數據增強
當前的機器學習算法主要是針對樣本均衡數據設計的,而在交通流數據集樣本中,經常面臨著樣本總數不足、樣本集多樣性不足以及正類樣本過少等挑戰。因此,解決數據不均衡問題成為交通事件檢測系統首要解決的難題。
數據增強的目標就是要解決交通事件檢測中數據集標簽分布不均衡的問題,常見的處理方法有樣本重采樣、合成少數過采樣技術(SMOTE)和生成對抗網絡(GAN)等。樣本重采樣方法主要是通過上采樣或下采樣來減輕數據集的非均衡程度,進而提升少數類的分類性能。SMOTE是基于隨機過采樣算法的一種改進方案,SMOTE算法對少數類樣本進行分析,根據少數類樣本人工合成新樣本添加到數據集中,解決了傳統方法通過簡單復制樣本以增加少數類樣本易導致模型過擬合的問題。GAN是根據已知模型從真實數據中選擇一些位于不同類別分界面周圍的點,通過對少數類樣本進行擴充的方式以達到使不同類別樣本數目均衡化的目的。與傳統方法相比,GAN可以取得更好的效果。但GAN生成的圖像是隨機的,難以控制生成圖像屬于哪種類別,這在某些特定場景下存在問題。
為了應對這些問題,本文采用條件生成對抗網絡(CGAN)進行數據增強,CGAN通過給原始GAN的生成器和判別器(簡記為D)添加額外的條件信息y,實現條件生成模型。采用類別標簽one-hot向量作為額外的條件信息y,根據已知模型從真實數據中選擇一些位于不同類別分界面周圍的點,通過CGAN按照數據集的不平衡比例合成一個新的數據集。例如原始查詢數據不平衡比例為10∶1∶2,則通過CGAN將數據集比例變成10∶10∶10,并對該合成數據集進行標注。接著利用新標注的數據對模型進行訓練,并重復上述合成方法生成新的待標注數據。本方法不局限于標注每個樣本屬于哪個類別,可以取得更好的效果。
2.2 算法改進
通過分析交通事件場景特性發現,交通事件檢測屬于多標簽分類問題,一個樣本數據中可能出現多種交通事件。傳統機器學習算法是將多標簽問題拆解成一個個單標簽問題,其性能和泛化能力難以滿足需求。基于深度學習的多標簽分類算法能充分挖掘標簽之間的內在聯系,性能和泛化能力更佳。隨著大模型和AIGC的蓬勃發展,研究者將Transforme架構與視覺組件相結合應用于基于圖像的下游任務。以Vision Transformer(ViT)和Swin Transformer為代表的模型在圖像處理領域取得了良好表現[1-2]。
針對交通事件的場景特點,本文設計了一種混合架構的聯合學習架構網絡,通過綜合利用ViT-Base網絡的全局語義信息提取能力與Swin Transformer-Base網絡的多尺度語義信息提取能力,協同提取高質量特征。聯合學習架構網絡通過將二者提取的特征進行融合后,使用2個非共享權重的多層感知機組成的分類頭,分別進行交通事件是否發生的二分類任務與細粒度事件分類的多分類任務的預測。通過聯合學習的方式,一方面能夠降低直接學習細粒度分類特征的難度;另一方面也可以學習更為通用性的特征,提升網絡的分類精度。
本文在訓練聯合學習架構網絡時,設計并對比驗證了一系列數據增強方法。首先是真實樣本中的異常數據樣本擴充,通過水平翻轉、圖像亮度對比度變化、圖像中加入隨機高斯噪聲和模糊等方法,先將異常事件數據進行規模擴充。隨著訓練的深入,逐步引入CGAN合成樣本,進一步緩解數據不平衡問題。最后,為了避免網絡過擬合,受Mosaic數據增廣思想的啟發[3],采用比例抽樣法,根據異常事件的數據比例分別計算抽樣概率,其抽樣概率與該類別訓練數據所占比例成反比。經過以上抽樣每次得到4張相同或不同類別的圖像樣本,將其合并成一張大圖,將這些樣本的分類標簽也進行合并。通過這一方法,生成的樣本不僅在圖像多樣性上有了顯著提升,同時進一步緩解了類別標簽的不均衡。
為了驗證聯合學習架構網絡在交通事件檢測中的有效性,從真實場景收集并構建數據集,其中包括道路正常、道路擁堵、行人闖入、應急車道占用、事故、拋灑物6種不同交通事件,按照8∶1∶1劃分了訓練集、驗證集和測試集。在該數據集上,分別評估了神經網絡模型AlexNet、卷積神經網絡模型ResNet50、Swin-Transformer模型和本文提出的聯合學習架構網絡模型。得出實驗結果為:AlexNet、ResNet50、Swin Transformer的Top-1準確率分別為78.2%、85.7%和91.5%,聯合學習架構網絡模型Top-1準確率為95.3%。可見,聯合學習架構網絡在處理交通事件分類任務時具有顯著的優勢,相較于AlexNet、ResNet50、Swin Transformer模型,聯合學習架構網絡模型的Top-1準確率分別提升了約21%、11%和4%。
筆者還對本文所提出的數據增強方法進行了分析驗證,得出不同數據增強方法對聯合學習架構網絡模型Top-1準確率的影響。實驗結果為:在不使用數據增強方法情況下Top-1準確率為95.3%;使用訓練集數據增廣方法Top-1準確率為96.7%;使用生成數據增廣方法Top-1準確率為92.2%;使用訓練集數據增廣+生成數據增廣,Top-1準確率為97.1%;使用訓練集數據增廣+生成數據增廣+漸進訓練,則Top-1準確率提高到了98.2%。可見,本文提出的訓練集增廣和生成數據增廣等數據增強方法與漸進訓練策略,能夠有效提升交通事件檢測任務的準確率。
3 結語
本文設計的交通事件檢測系統已在山西太古隧道、湖北保神高速等推廣使用,得到湖北日報撰文《有“眼”有“嘴”還有“手”保神高速監測系統盡顯智能》報道。展望未來,多模態大模型展現出了強大的未見類別處理能力和知識涌現能力,為構建更智能、精準的交通管理系統提供了全新的可能性。
參考文獻
[1]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words:Transformers for image recognition at scale[EB/OL].(2021-06-03)[2024-01-29]. https://arxiv.org/abs/2010.11929v1.
[2]LIU Z, LIN Y, CAO Y, et al. Swin Transformer:Hierarchical vision transformer using shifted windows[EB/OL].(2021-08-17)[2024-01-29]. https://arxiv.org/abs/2103.14030 .
[3]BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020-04-23)[2024-01-29]. https://arxiv.org/abs/2004.10934.
Design of traffic event detection system based on deep learning
Abstract: "The establishment of comprehensive traffic incident detection systems have become an important component of China’s intelligent transportation system. This paper analyzes the characteristics of traffic event detection scenes in depth from both data and algorithms, and proposes a traffic event detection system based on deep learning. A hybrid architecture joint learning network is introduced, addressing the challenges of multi-label classification in image data by comprehensively leveraging the advantages of ViT and Swin Transformer. A series of data augmentation methods have been designed to cope with the impact of data imbalance on deep learning models, and effectively alleviating the problem of model overfitting.The experimental results demonstrate that the system has better accuracy and generalization ability in traffic event detection. The system has been applied to multiple practical projects, and has achieved favorable application outcomes.
Key words: traffic event detection; deep learning; generative adversarial networks; Transformer