劉振旅 牛芳琳



摘要:針對傳統籃球場景分割方法魯棒性弱和分割精度不高的問題,以籃球場景分割和運動員精確定位目的,提出了一種基于DeepLabv3+改進的籃球場景語義分割模型。該模型在DeepLabv3+網絡的基礎上設計了一個相對復雜的解碼器,使用多次特征融合的方式來更好的還原圖像的語義信息,引入了卷積塊注意力機制,優化了通道權重和位置信息,降低了模型的計算復雜度,提升了邊緣敏感度。實驗結果表明,本文的模型要比FCN的全卷積模型提高21.8%,比DeepLabv3+提高1.9%。在分割速度上,可以達到每秒處理6張圖片。提高了對于籃球場景的語義分割精度。
關鍵詞:籃球場景;語義分割;DeepLabv3+;注意力機制;解碼器
Abstract: Aiming at the problems of weak robustness and low segmentation accuracy of traditional basketball scene segmentation methods, for the purpose of basketball scene segmentation and accurate positioning of players, a semantic segmentation model of basketball scene based on DeepLabv3+ is proposed. The model designs a relatively complex decoder based on the DeepLabv3+ network, uses multiple feature fusion methods to better restore the semantic information of the image, introduces the convolution block attention mechanism, and optimizes the channel weight and position information , Which reduces the computational complexity of the model and improves the edge sensitivity. The experimental results show that the model in this paper is 21.8% higher than the FCN full convolution model, and 1.9% higher than DeepLabv3+. In terms of segmentation speed, it can process 6 pictures per second. Improved the accuracy of semantic segmentation for basketball scenes.
Keywords: basketball scene; semantic segmentation; DeepLabv3+; attention mechanism; decoder
近年來,籃球運動在國內外風靡,職業聯賽中,運動員的對抗非常激烈,比賽中難免出現漏判和誤判的現象。公平的判罰對于籃球比賽是至關重要的,裁判的判罰往往左右著比賽的走勢。那么如何改善這一情況成為一大難題,CBA中有前場裁判和后場裁判以及攝像回放,雖然攝像回放很清楚,但是如果每個鏡頭都通過回放來判斷,那么比賽會變得無比的復雜和費時,不具備時效性。所以對于運動員的行為判別研究非常有必要的。當前運動員屬性的識別方法還是對于屬性的存在性進行研究,而沒有獲取人和球屬性的位置信息。需要獲取運動? ?和球的位置也就是精確定位,這是屬性判斷的前提,那么對于籃球場景的語義分割是非常有意義的。
深度學習因其對圖像特征的提取能力和對復雜問題的擬合能力,廣泛應用于各個領域,而語義分割是深度學習的關鍵任務之一。Long等人將全連接層替換成全卷積層,提出了FCN[1],第一次實現了端到端、像素到像素的圖像分割,從此打開了語義分割的大門。同年Chen等人提出了Deeplabv1[3],將90年代的空洞卷積引入語義分割領域,在不增加參數的情況下增大了感受野。受到目標檢測算法R-CNN中的SPP[4]成功的影響Zhao等人提出了結合空間金字塔的模型PSPNet[5], Chen等人也提出了Deeplabv2[6],將SPP和空洞卷積相結合,形成不同空洞率的空間金塔結構,實現了多尺度特征的提取。不久,Chen[4]等人又提出了Deeplabv3[7], v3采用了Xception作為特征提取網絡,大大的減少了參數計算量,同時去掉了的條件隨機場后處理,實現了真正意義上的深度學習語義分割模型。Chen等人受到了SegNet[2]編碼解碼結構的思想,提出了含有解碼器的模型Deeplabv3+[8]。該模型在多個數據集上取得了驚人的成績,展現了極強的泛化能力。
對于傳統方法的研究,視頻鏡頭分割存在復雜程度高,耗資多,變化大,難以自動提取等特點,本文則是將深度學習語義分割引入籃球場景,結合卷積塊注意力機制,提出了一種基于DeepLabv3+改進的籃球場景語義分割模型,對于運動員進行實時分割和精確定位。
1傳統的Deeplabv3+模型
Deeplabv3+的原始模型如圖1所示。模型主要由編碼器和解碼器兩大結構組成。其中編碼器分為DCNNS提取網絡和ASPP空間金字塔結構兩部分。解碼器包括一次特征融合和兩次上采樣。模型訓練時,初始圖像首先進入到編碼模塊中,經過DCNNS提取網絡將圖片的分辨率減少到原來的1/16。再把提取到的特征張量導入到ASPP結構中,該結構是結合了不同空洞率的空間金字塔結構。然后通過1×1卷積實現通道壓縮,防止預測結果向底層特征傾斜。在解碼器中,采用和四倍雙線性插值還原和特征提取網絡的圖片進行一個拼接特征融合,再通過一個四倍雙線性插值來實現圖片輸出。構建不同空洞率的空間金字塔結構改善了多尺度特征的提取,實現了感受野和分辨率的平衡。