面向復雜交通場景的目標檢測模型YOLO-T

2024-01-01 00:00:00劉宇高尚兵張秦濤張瑩瑩

山東科學 2024年6期

摘要：針對復雜交通場景下，特別是擁堵道路中，經常出現的交通目標密集、互相遮擋，小尺度目標檢測精度低的問題，提出了一種面向復雜交通場景的目標檢測模型YOLO-T（You Only Look Once-Transformer）。首先提出CTNet主干網絡，相較于CSPDarknet53，該主干擁有更深的網絡結構和多尺度特征提取模塊，不僅能夠更好地學習密集目標的多級特征，還可以提高模型對復雜交通場景的應對能力，進而引導模型更加關注小目標的特征信息，提升小目標的檢測性能；其次引入Vit-Block，采用卷積和Transformer并行的方式融合更多的特征，兼顧局部和上下文信息的關聯性，從而提升檢測精度；最后在頸部網絡Neck后增加Reasonable模塊，引入注意力機制，進一步提高目標檢測算法對復雜場景和遮擋目標的魯棒性。實驗結果表明，相比基準算法，YOLO-T在KITTI數據集和BDD100K數據集的檢測精度分別提高了1.92%和12.78%，能有效提升復雜交通場景下的檢測性能，更好地輔助駕駛員對其他車輛行駛行為的判斷，減少交通事故的發生。

關鍵詞：智能交通；深度學習；目標檢測；YOLO；復雜交通場景

中圖分類號：TP391文獻標志碼：A文章編號：1002-4026（2024）06-0104-12

目標檢測是計算機視覺領域中的一項基礎任務，廣泛應用于各個領域。特別是在自動駕駛技術中，環境感知模塊是自動駕駛系統中不可或缺的一部分，而目標檢測則是環境感知模塊中最為關鍵的部分之一[1]。自動駕駛需要實時地、快速地感知周圍的行人、車輛、交通標志等信息，并根據這些信息，輔助駕駛員對復雜路況以及其他車輛行駛行為做出相應的決策和行動。道路擁擠是交通場景中一個非常重要的問題，對交通管理、交通安全和交通效率都具有重要影響。例如道路擁擠會增加交通事故的風險，車輛密度增加，車輛之間的距離縮小，容易發生追尾和碰撞事故[2]。因此，及時為駕駛員提供較為準確的道路信息，可以有助于提前采取交通安全措施，減少交通事故的發生。

目前，目標檢測在道路擁擠中面臨的挑戰主要包括以下幾個方面：

（1）在道路擁擠中，車輛、行人和其他目標之間可能存在相互遮擋的情況。這會導致目標的一部分或全部被其他物體遮擋，從而使目標檢測更加困難。

（2）道路上的目標可能具有不同的尺度，例如遠處的車輛比近處的車輛更小。這種尺度變化給目標檢測帶來了挑戰，因為算法需要能夠適應不同尺度的目標。

（3）在擁擠的道路場景中，目標之間的距離非常接近，可能出現重疊和相互交叉的情況。這會增加目標檢測算法的困難度，因為需要準確地分割和識別目標。

近年來，計算機視覺領域相關技術取得了突破性創新，目標檢測算法也不斷地得到改進和優化，基于深度學習的目標檢測算法在準確性和實時性上都有了很大的提升[3]。深度學習檢測方法可分為兩階段檢測算法和一階段檢測算法。兩階段檢測算法如R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]等包括兩個關鍵步驟：生成候選區域的過程和對候選區域進行分類的過程。盡管這類算法識別準確度高，漏識別率也相對較低，但識別速度較慢，無法滿足實時場景檢測的需求。一階段檢測算法如YOLO[7]、SSD[8]、Retina-Net[9]等則直接生成目標的類別概率和坐標，通過一次檢測就能直接得到最終的檢測結果。這種方式避免了兩階段檢測算法中候選區域生成的額外計算開銷，從而提高了檢測速度。

除此之外，Transformer作為文本領域的研究方法在目標檢測中也逐漸嶄露頭角。Transformer作為一種基于注意力機制的神經網絡結構，具有獲取全局信息、靈活的輸入形式和可并行化處理等優勢，在目標檢測領域也得到了廣泛的應用。DOSOVITSKIY等[10]提出了Vision Transformer（ViT）模型，首次將Transformer應用到圖像識別任務中，并取得了意想不到的優異表現。

但無論是YOLO模型還是ViT模型，在面對復雜交通場景時都各自存在一些弊端，YOLO對目標的檢測是通過將圖像劃分為網格并預測每個網格中目標的邊界框來實現的。在復雜交通場景中，目標的邊界可能模糊或相互遮擋，這可能導致YOLO的邊界框預測不夠精確，無法準確地覆蓋目標的真實邊界。同時，面對較小的目標檢測可能效果不佳。而ViT對目標的檢測是基于全局特征的，更加注重圖像塊之間的關系，往往會忽視局部細節特征，這可能導致ViT在復雜場景下檢測目標的表現不佳。因此，將兩者有效結合，構建YOLO-T模型，以此克服復雜交通場景下檢測性能低的困難。

1研究方法

目前越來越多的學者將卷積與Transformer相結合以提升道路目標的檢測精度。李麗芬等[11]提出引入Transformer的道路小目標檢測方法，在原YOLOv4算法基礎上，設計ICvT模塊捕獲特征內部的相關性，獲得上下文信息，提取更加全面豐富的特征，增加特征圖的感受野。龐玉東等[12]提出基于改進實時檢測Transformer的塔機上俯視場景小目標檢測模型，以DETR為基準算法，設計FastNet-Block中的卷積模塊，替換原始BackBone之中的BasicBlock提升檢測模型性能。羅漫等[13]提出基于CNN技術和DETR的智能汽車自動駕駛道路智能識別的研究，在DETR加入了Swin Transformer模塊，提高了道路目標檢測性能，同時采用基于多頭自注意力機制，實現了道路多目標的高精度識別，達到了模型優化的目的。

YOLOv5模型分為Backbone、Neck、Head三大部分，模型規模由小到大有YOLOv5s、YOLOv5m、YOLOv5l多個版本。YOLOv5所使用的主干特征提取網絡為CSPDarknet53，由Focus、Conv、C3、空間金字塔池化結構（spatial pyramid pooling，SPP）等模塊組成。Neck的主要結構為特征金字塔（feature pyramid networks，FPN）[14]和路徑聚合網絡（path aggregation networks，PAN）[15]結構，能對高層級特征圖中豐富的語義信息以及低層級特征圖中豐富的位置信息進行有效融合。Head為YOLOv5的檢測結構，將3種不同大小的特征輸入Detect模塊，分別針對大、中、小體型的目標識別，克服頂端特征的局限性。

2YOLO-T網絡

本文基于YOLOv5提出了改進網絡YOLO-T，使用CTNet作為主干網絡，增加網絡深度，擴大FPN結構，采用Vit-Block模塊來提升網絡的特征提取能力，進一步加強網絡道路擁擠時，對復雜情況的處理能力以及小目標的識別能力，引入深度可分離卷積，降低模型的復雜度，最后在Neck與Head之間增加Reasonable模塊，更好地關聯上下文語義信息。YOLO-T算法框架如圖1所示。

2.1CTNet主干網絡

CTNet是YOLO-T的主干網絡，其由Focus模塊、CBS模塊以及改進的Vit-Block模塊構成。Focus模塊將輸入的圖像進行分塊切片，然后對切片后的結果拼接，從而增加特征通道并減小特征尺寸。CBS模塊是由一個3×3和一個1×1卷積組成，用于提取圖像特征，并擴充通道數。Vit-Block模塊則是多尺度特征提取模塊，整體思路是將卷積與Transformer[16]相結合提高網絡特征提取能力，主干網絡結構如表1所示。

本文使用了5個不同尺度特征層，以此獲取更加細膩的低層語義信息，從而提升模型對小目標的關注度，改善在車輛擁擠時，駕駛員視線受阻的情況。基準算法的主干CSPDarknet53僅用4層特征提取模塊，最高下采樣到20×20，但是在實際道路圖像中，小尺度汽車或行人目標尺度往往會小于20×20像素，因此在此基礎上再增加一個下采樣至10×10的特征層，有效地解決了小尺度特征提取不充分的問題，如圖2所示是改進后主干結構圖。

2.2ViT-Block模塊

在道路擁擠中，車輛、行人和其他目標之間經常存在相互遮擋的情況。目標可能被其他車輛或物體部分或完全遮擋，導致目標的檢測困難。Vit-Block作為CTNet主干網絡中最主要的特征提取模塊，其任務是獲取盡可能多的特征信息，它是由卷積模塊G-CSP和Transformer模塊SA-Transformer并聯組成。利用卷積關注更多局交通目標的局部信息，而Transformer則善于捕獲目標的整體特征。

因此，本文構造的Vit-Block模塊是將G-CSP（Ghost-CSPlaye）與SA-Transformer（Self Attention-Transformer）并行融合，達到同時關注局部與全局特征的目的，并且用超參數R對其分配到的通道數進行控制，考慮到Vit-Block-1至Vit-Block-5特征尺度的不斷減小，充分發揮兩者的優點，R的初始值依次是0.8、0.6、0.5、0.4、0.2。淺層檢測層Vit-Block-1包含了各種尺度的目標特征信息，利用SA-Transformer能夠更好地獲取全局特征，而深層檢測層Vit-Block-5更多地利用G-CSP可以提取小尺度目標的特征，Vit-Block結構如圖3所示。

2.2.1G-CSP模塊

G-CSP（Ghost-CSPlayer）是一種用于卷積特征提取的模塊，它的設計旨在通過局部特征提取來獲取更多有效的特征，并在保持高精度的同時兼顧檢測速度。這種模塊能夠很好地彌補Transformer運算量大的缺陷，使得整個模型在處理圖像數據時更加高效。G-CSP模塊主干由一個3×3卷積、Bottleneck結構和1×1卷積構成，而分支構建含有深度可分離卷積的GSBlock，G-CSP結構如圖4所示。

GSBlock引入了深度可分離卷積。相較于簡單地、大量地堆疊常規卷積來提高模型性能，深度可分離卷積（depthwise separable convolution，DW）的設計可以有效地緩解大參數量模型所帶來的高計算成本問題，提高檢測速度。然而DW也有自身的缺陷，若整個網絡模型只使用深度可分離卷積進行提取特征，可能會導致網絡無法在訓練中學習到有效特征。因此，為了使DW的輸出盡可能接近常規卷積，引入新結構GSBlock，將常規卷積與DW結合在一起，僅用通道Shuffle將兩者生成的信息相互滲透，從而盡可能地減少DW缺陷對模型的消極影響，并有效利用DW的優勢，GSBlock結構如圖5所示。

2.2.2SA-Transformer模塊

SA-Transformer（Self Attention-Transformer）作為Transformer提取特征的分支，它的主體結構是多頭自注意力模塊（Multi-head Self-attention）。SA-Transformer模塊具有全局感受野的顯著特點，能夠獲取圖像中的上下文信息，從而提高模型的檢測精度。在檢測擁擠路況的車輛目標時，SA-Transformer模塊能夠發揮重要作用，對車輛的各種特征進行識別，例如車輛的大小、形狀、顏色等。這些特征都需要通過全局感受野來獲取，因此SA-Transformer模塊的多頭自注意力結構非常適合這種應用場景。SA-Transformer的結構如圖6所示。

自注意力是基于Query、Key、Value獲取信息，Q是查詢向量、K是鍵向量、V是值向量。Query在序列中的單個網格單元格會搜索潛在的關系，并試圖通過Key將單元格與序列中其他單元格進行相關聯。通過Query點積Key獲得序列每個部分的重要程度，再將其結果與Value點積運算，將序列每個部分的重要程度重新施加到序列的值上去，最后用一個Softmax函數得到每一個Value的權重，這樣就可以獲取到全局的重要特征信息。X為輸入序列，WQ、WK、WV分別為Query、Key、Value隨機初始化的權重矩陣，dk是Value向量的維度，使用縮放的點積注意力機制進行計算，公式如下：

多頭自注意力機制則是單頭自注意力機制的進化版，把每次縮放點積運算分組（head）進行，能夠從多個維度提煉特征信息。每個head都有一個獨立的Query、Key、Value矩陣，并隨機初始化，然后使用權重矩陣WO對注意力進行連接和變換，具體表示如下：

hi=Attention（QWQi，KWKi，VWVi），（3）

MultiHead（Q，K，V）=Concat（h1，…，hn）WO。（4）

2.3Reasonable模塊

考慮到在擁擠的道路場景中，目標之間的距離非常接近，可能出現重疊和相互交叉的情況。本文提出的Reasonable模塊是一種基于多頭注意力（Muti-Head Attention）結構的模塊，通過將多頭注意力整合到Neck與Head之間，使模型能夠自動關注密集的車輛區域。該模塊的結構包括5個部分，包括展平（Flatten）、多頭注意力（Muti-Head Attention）、全局平均池化（Global Average Pooling，GAP）、歸一化（Normalization）以及維度轉換（Reshape）。

在Reasonable模塊中，首先進行展平操作，將輸入的目標特征圖展平成一個序列，以便多頭注意力層可以接收序列作為輸入。接著，進行多頭注意力操作，該操作利用Query、Key以及Value向量進行特征搜尋，并能夠獲取不同圖像區域之間的語義信息。與SA-Transformer模塊類似，多頭注意力具有全局感受野，能夠獲取圖像中的上下文信息，從而使得模型更加關注車輛區域。在多頭注意力之后，進行全局平均池化操作。相較于全連接層，全局平均池化可以更加直觀地匯總空間信息，避免了過擬合的問題，并且能夠使多頭注意力機制所獲取特征的聯系更加直觀。同時，全局平均池化也能夠使輸入圖像對空間轉變更加魯棒，從而提高模型的穩定性。接下來，進行歸一化操作，使用LayerNorm方法對特征進行處理，保留更多的上下文語義特征，同時還能夠避免梯度消失的問題。最后，進行維度轉換操作，將展平的序列轉換回原來特征的尺寸，從而能夠關聯更多全局信息。Reasonable結構如圖7所示。

3實驗結果與分析

3.1實驗環境及實驗訓練

實驗過程在pytorch框架下進行，訓練及測試的計算機硬件配置GPU為NVIDIA Quadro RTX 4000，操作系統為Windows 10專業版，python版本為3.8。

本文選擇隨機梯度下降法來更新模型網絡參數，初始學習率為0.01，SGD優化器動量系數為0.9，訓練迭代（epoch）次數為300，批量處理大小（batch size）為16。

3.2實驗數據集

本文選用了KITTI[17]和BDD100K[18]數據集作為實驗數據集，涵蓋眾多交通擁堵、目標密集的情景。KITTI數據集包括了城市、鄉村、高速等交通場景，包含了8個類別。BDD100K包括了Bus、Light、Sign、Person等10個交通場景較為常見的類別，并涉及了晴天、多云、陰天、下雨等6種天氣狀況。

從KITTI數據集的8個類別選擇試驗所需要的6個類，共7 500張圖片作為實驗數據，其中6 000張作為訓練集，750張作為驗證集，750張作為測試集。

從BDD100K數據集的10個類別選擇試驗所需要的8個類別，共10 000張圖片作為實驗數據，其中8 100張作為訓練集，900張作為驗證集，1 000張作為測試集。部分數據樣例圖如圖8所示。

3.3評價標準

平均精確率均值（mean average precision， PmA）作為目標檢測中衡量檢測精度的指標。精確率P表達了所檢查出的目標中檢測準確的機率，它表示所有檢測出的目標中被正確檢測的概率。P的定義如下：

召回率R，表示所有正樣本識別正確的概率，R的定義可表示為：

其中，PT、PF、FN分別表示真正例、假正例和真反例。

以R為橫坐標，以P為縱坐標繪制曲線，就可以得到平均精確率（average precision， PA）表示曲線與坐標軸之間面積，平均精確率均值PmA則代表各項PA的平均數。PA的概念可以表達為如下：

因此，平均精確率均值PmA公式為：

其中k為類別數。

本文使用PA、PmA@0.5（IoU=0.5）以及FPS（每秒傳輸幀數），這3個評價指標來衡量模型性能。

3.4對比實驗及分析

為了進一步證明改進的YOLO-T算法的優越性能，將目前性能較好的SSD、Centernet[19]、YOLOv5s、YOLOv7[20]等4種算法與改進的算法分別在KITTI數據集和BDD100K數據集上進行對比實驗，以檢測精度、速度以及模型大小（size）作為評價指標，5次實驗取平均值作為結果，對比實驗結果如表2～4所示。

由表2～4可知，本文方法通過CTNet結合Vit-Block，以及融入Reasonable模塊，提高了模型的車輛目標檢測精度，在KITTI數據集和BDD100K數據集上的PmA分別達到93.34%和64.18%，基本優于表中檢測模型。SSD模型檢測效果較差，特別是BDD 100K中motor類和traffic light類以及KITTI中cyclist類，主要原因是主干網絡VGG16的低級特征卷積層數少，特征提取不充分，并未對不同尺度特征進行融合，并且motor類標簽較少，traffic light類和cyclist類目標較小。Centernet模型的主干網絡為Resnet50，雖然具備良好的特征提取能力，但其簡單的殘差結構無法充分發揮網絡的潛力，整體檢測效果也不盡如人意。YOLOv5s通過使用CSPDarknet53作為主干網絡，其加深了網絡層數，提取的特征信息豐富，并在Neck中將不同尺度的特征加以融合。最新的YOLOv7則使用E-ELAN作為主干，多分支堆疊可以獲取大量有效特征信息，各類別檢測精度都稍高于YOLOv5s。

在檢測速度方面，SSD模型的VGG16主干，由于其參數量過多，模型大小為100.28 MB，其檢測速度在兩個數據集上分別為62.05幀/s和35.77幀/s。Centernet主干則使用Resnet50，檢測速度分別為62.05幀/s和35.77幀/s。YOLOv5s對主干網絡進行深度和寬度壓縮，并使用focus結構處理特征，極大降低了網絡參數量，模型僅有27.24 MB，檢測速度分別達到了79.20幀/s和49.45幀/s。而最新的模型YOLOv7使用E-ELEN作為主干，并且使用重參數化的方法，在訓練時使用卷積多分支堆疊的方法提取特征，因此參數量巨大，模型大小為142.38 MB，檢測速度分別是41.50幀/s和31.91幀/s。本文方法在YOLOv5s的基礎上添加了網絡結構層數，并且融入了Transformer注意力機制，導致參數量有所增加，檢測速度降低，分別為70.05幀/s和40.18幀/s，但仍能達到實時檢測的要求。

綜上所述，本文方法不僅在檢測精度方面表現優異，而且在檢測速度上也達到了實時檢測的標準。采用了卷積與Transformer注意力機制相融合的方法，充分利用了卷積與多頭注意力機制的優勢，使得模型具有更好的局部特征提取能力和上下文感受野，從而大幅提升了復雜路況下，特別是在道路擁堵時的交通目標檢測精度。

3.5消融實驗及分析

為了驗證CTNet主干網絡結構、Vit-Block以及Reasonable模塊在復雜交通場景下各目標檢測的有效性，在兩個數據集上進行消融實驗，以YOLOv5為基準算法， PmA為評價指標，實驗結果如表5、表6所示。

消融實驗結果表明，本文提出的3種方法在車輛目標檢測任務中均能有效提高檢測精度。具體來說，將CTNet主干網絡擴展至FPN結構中，雖然對于KITTI數據集的精確率PmA提升較小，僅為0.3%，但對于車輛數目較多、復雜交通場景下的BDD100K數據集，精確率提升了1.8%，說明加深網絡可以在一定程度上改善小尺度特征提取的能力，但僅使用卷積提升不大。在CSPDarknet53使用Vit-Block作為主要特征提取模塊時，KITTI數據集的PmA提升0.91%，BDD100K提升了5.8%，證明使用卷積和Transformer融合構建的方法可以更多地獲取各層有效特征信息，在合理分配兩者特征通道數后，較大限度的發揮卷積在局部細節特征的提取，同時也可以提高transformer對于特征塊之間的信息，對于小目標以及密集目標的識別有很大提升。

將Vit-Block特征提取模塊融入主干網絡中，KITTI數據集的精確度提升了1.63%，BDD100K數據集更是提升了9.95%。這一結果表明，CTNet結合了Vit-Block能夠有效抑制復雜背景圖片中的無關信息干擾，增強關鍵特征信息的表征能力，特別是在復雜場景的BDD100K數據集中，檢測精度有較大提升，在面對小目標的檢測以及密集分布時，獲取到的更細粒度的局部信息與圖像塊之間的全局特征，由此說明更深的網絡結構搭配Vit-Block能夠更好地適應真實交通場景下的復雜狀況。

在基準算法上加入Reasonable模塊，KITTI數據集的精確度提升了0.73%，BDD100K數據集提升了4%，說明Reasonable模塊對于圖像的整體語義分析，即使是被遮擋的目標也可以通過學習交通目標的重要性和上下文信息，可以在道路擁擠中更好地區分和定位目標。

相對于基準算法，同時采用本文提出的3種方法，KITTI數據集的精確度提升了1.92%，BDD100K數據集精確度提升了12.78%。這一結果表明，將以上方法相結合，可以大大提高基準算法的檢測能力，尤其是在處理密集遮擋、小目標較多等復雜交通場景下的檢測任務方面具有顯著的優勢。

如圖9可知，從YOLOv5s的效果圖來看，面對復雜多變的交通場景，特別是道路擁擠時，雖也可以將大部分的車輛或行人目標做出定位識別，但是出現了較多漏檢誤檢的情況，為駕駛員輔助駕駛時埋下了安全隱患。與此對比的YOLO-T算法，可以在YOLOv5s的檢測效果上更進一步，同樣地從效果圖上可以看出，不僅對各類目標的檢測精度有所提升，還可以對遮擋目標、小目標以及密集目標進行較好地識別，由此可以看出，YOLO-T在復雜交通場景下對于駕駛員的輔助幫助是至關重要的，能夠更好地提醒駕駛員注意潛在的道路狀況。

4結束語

針對現有的自動駕駛目標檢測算法，應用在復雜交通場景下時，對于密集目標遮擋和小目標存在檢測精度低，易出現漏檢誤檢的問題，提出了一種基于YOLO-T的復雜交通場景下目標檢測算法。以YOLOv5算法為基礎框架，提出CTNet作為主干網絡，增加網絡深度，引入Vit-Block，進一步加強網絡對復雜情況的處理能力以及小目標的檢測能力。其次，在Neck與Head之間提出Reasonable模塊，使得模型在特征融合之后能夠進一步提升全局邏輯性，更好地關聯上下文全局語義信息。實驗表明，相較于現有算法，本文方法能夠很好的應對復雜場景的目標檢測。在未來的工作中可以考慮如何在將Transformer融入到卷積的同時，減小模型參數量，對模型實現進一步的輕量化改進，便于進行移動端的部署。

參考文獻：

［1］HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas， NV， USA： IEEE， 2016： 770-778. DOI： 10.1109/CVPR.2016.90.

[2]張新鈺，高洪波，趙建輝，等. 基于深度學習的自動駕駛技術綜述[J]. 清華大學學報（自然科學版）， 2018， 58（4）： 438-444. DOI： 10.16511/j.cnki.qhdxxb.2018.21.010.

[3]邵將，顏克彤，姚君，等. 頭戴式AR界面目標符號的視覺搜索實驗研究[J]. 東南大學學報（自然科學版）， 2020， 50（1）： 20-25. DOI： 10.3969/j.issn.1001-0505.2020.01.003.

[4]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus， USA： IEEE， 2014： 580-587. DOI： 10.1109/CVPR.2014.81.

[5]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision （ICCV）. Santiago， Chile： IEEE， 2015： 1440-1448. DOI： 10.1109/ICCV.2015.169.

[6]REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017，39（6）： 1137-1149. DOI： 10.1109/TPAMI.2016.2577031.

[7]REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas， NV， USA： IEEE， 2016： 779-788. DOI： 10.1109/CVPR.2016.91.

[8]LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot MultiBox detector[C]//European Conference on Computer Vision. Cham： Springer， 2016： 21-37.10.1007/978-3-319-46448-0_2.

[9]LIN T Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（2）： 318-327. DOI： 10.1109/TPAMI.2018.2858826.

[10]DOSOVTSKIY A， BEYER L， KOLESNKOV A， et al. An image is worth 16×16 words： transformers for image recognition at scale [EB/OL]. [2024-03-26]. https：//doi.org/10.48550/arXiv.2010.11929.

[11]李麗芬，黃如. 引入Transformer的道路小目標檢測[J]. 計算機工程與設計， 2024， 45（1）： 95-101. DOI： 10.16208/j.issn1000-7024.2024.01.013.

[12]龐玉東，李志星，劉偉杰，等.基于改進實時檢測Transformer的塔機上俯視場景小目標檢測模型[J/OL].計算機應用，2024：1-10[2024-03-26]. https：//link.cnki.net/urlid/51.1307.TP.20240402.2133.013.

[13]羅漫，李軍. 基于CNN技術和DETR的智能汽車自動駕駛道路智能識別的研究[J]. 長江信息通信， 2023（11）： 32-34.

[14]LIN T Y， DOLLR P， GIRSHICK R， et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu， HI， USA： IEEE， 2017： 936-944. DOI： 10.1109/CVPR.2017.106.

[15]LIU S， QI L， QIN H F， et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City， UT， USA： IEEE， 2018： 8759-8768. DOI： 10.1109/CVPR.2018.00913.

[16]VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach，California， USA： ACM， 2017： 6000-6010. DOI： 10.5555/3295222.3295349.

[17]GEIGER A， LENZ P， URTASUN R. Are we ready for autonomous driving？ The KITTI vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence， RI， USA： IEEE， 2012： 3354-3361. DOI： 10.1109/CVPR.2012.6248074.

[18]SEITA D. BDD100k： a large-scale diverse driving video database[EB/OL]. [2024-03-26]. http：//bdd-data.berkeley.edu.

[19]ZHOU X Y， WANG D Q， KRAHENBUHL P. Objects as points［EB/OL］. ［2024-03-26］. https：//doi.org/10.48550/arXiv.1904.07850.

[20]WANG C Y， BOCHKOVSKIY A， LIAO H Y M. YOLOv7： Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [EB/OL]. [2024-03-26]. http：//arxiv.org/abs/2207.02696.