999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種抗背景干擾的多尺度人群計數算法

2022-05-14 03:28:40郭愛心夏殷鋒王大為
計算機工程 2022年5期
關鍵詞:特征

郭愛心,夏殷鋒,王大為,蘆 賓

(1.山西師范大學 物理與信息工程學院,太原 030006;2.中國科學技術大學 自動化系,合肥 230026)

0 概述

隨著城市化進程的不斷推進和城鎮人口規模的日益增大,大型集會中人群聚集擁擠現象帶來的隱患已成為公共安全的重要課題。人群計數技術以估計人群圖片或視頻中的人數為目標,可以有效預防人群踩踏事故的發生,廣泛應用于安防預警、城市規劃及大型集會管理等領域。然而,由于人群尺度變化、背景干擾、人群分布不均、遮擋和透視效應等,單幅圖片的人群計數仍是一項非常具有挑戰性的任務。

根據人群特征提取的方式不同,現有的人群計數算法可分為基于傳統手工特征的方法和基于卷積神經網絡的算法[1]?;诰矸e神經網絡的人群計數算法能夠自動提取特征,避免手工設計特征的局限性和復雜性,已成為人群計數的主流算法。文獻[2]提出用多列卷積神經網絡進行人群計數,不同的列使用不同大小的卷積核,分別處理大、中、小3 種不同尺度的人,此后多列網絡結構常用來解決尺度問題[3-5]。然而,多列結構使得網絡臃腫并加重了計算資源的消耗,更多的研究者通過加深網絡結構或者融合不同層次的特征來改進計數網絡的性能。文獻[6]選擇利用去除全連接層的VGG 網絡作為前端網絡,并引入空洞卷積來擴大感受野,生成高質量的人群密度圖,提高了計數精度。文獻[7]受目標檢測領域特征金字塔網絡[8]的啟發,提出基于特征金字塔的全卷積網絡,實現了不同層次特征圖的融合,但在公開數據集上的實驗結果有待提升。文獻[9]設計一種編碼解碼結構人群計數網絡,由編碼器中的尺度聚合模塊提取多尺度特征,再經過解碼器生成高分辨率的人群密度圖。文獻[10]從復雜背景干擾的角度出發,將視覺注意機制應用于人群計數,通過生成注意力圖指導網絡進行密度圖估計,但該模型的雙列子網絡的參數量冗余,并且不是端到端的可訓練網絡。此外,研究者還從多任務學習[11-12]、非監督學習[13-14]等角度進行了人群計數研究,但尺度問題和背景干擾仍是影響人群計數的關鍵因素。

針對上述問題,本文提出一種抗背景干擾的多尺度人群計數算法(Multi-Scale Crowd Counting algorithm with Removing Background Interference,MSCC-RBI)。該算法構建多尺度特征融合骨干網絡來解決人群計數中的尺度問題,并通過設計Double-Head-CC(Double-Head for Crowd Counting)結構來抑制背景干擾,額外定義的多重損失函數可進一步提高預測密度圖的質量,提升網絡性能。最終在ShanghaiTech[2]、UCF-QNRF[15]和JHU-CRΟWD++[16]數據集上進行實驗來驗證算法的性能以及各個模塊的有效性。

1 MSCC-RBI 算法

MSCC-RBI 算法設計由多尺度特征融合骨干網絡、Double-Head-CC 結構和多重損失函數三部分組成。

1.1 真實密度圖的生成

目前公開的人群計數相關數據集基本上只是標記了圖片中人頭的位置,并不是人群密度圖,因此需要先將人頭位置轉化為真實密度圖。真實密度圖可以用2D 高斯核濾波器與人頭位置函數進行卷積得到。設圖片中人頭的坐標為xi,對應的位置函數為δ(x-xi),若圖片中共標記了N1個人頭,則該圖片對應的人群密度圖F(x)如式(1)所示:

其中:Gσ(x)為2D 高斯核濾波器。本文將該方法生成的人群密度圖作為真實密度圖,即網絡訓練的標簽。

1.2 多尺度特征融合骨干網絡

鑒于VGG16[17]優異的性能以及規范的網絡結構,本文選擇VGG16 作為基礎網絡,引入額外的特征金字塔結構以解決人群計數任務中行人尺度變化問題。在此基礎上,構建多尺度特征融合骨干網絡,其網絡結構如圖1 所示。其中:MP 表示最大池化操作,本文使用2×2 的最大池化,池化后特征圖尺寸是池化前的1/2;UP 表示上采樣操作,本文上采樣操作使得特征圖尺寸變為原來的2 倍;C3、C4、C5、P3、P4、P5 為特征圖;⊕符號表示逐像素相加。VGG16基礎網絡由5 個卷積模塊和4 個最大池化層構成,待計數圖片輸入到基礎網絡后,經過一系列卷積和池化,會產生不同分辨率的特征圖。低層的特征圖分辨率大,包含邊緣、輪廓等豐富的細節信息,高層特征圖分辨率小,包含更高級的語義特征。不同等級特征中存在語義和細節信息的不平衡,使得單一層次的特征難以解決行人尺度劇烈變化問題,故本文提取了VGG16 基礎網絡第三、四、五卷積塊輸出的特征圖C3、C4、C5,對這3 個層次的特征圖進行特征融合來豐富不同尺度人群的特征表達,在多個尺度上構建具有豐富語義信息的特征。本文采用特征金字塔結構[8],通過自頂向下的上采樣和橫向連接對不同層次的特征進行融合。首先對基礎網絡產生的不同層次的特征圖進行3×3 的卷積操作,統一特征圖的通道數,然后對當前層次的特征圖進行上采樣,使其大小變為原來的2 倍,將上采樣后和上一層次卷積后的特征圖進行逐像素相加,后續再進行3×3的卷積來降低特征上采樣導致的混疊效應,最終得到融合后的特征圖。

圖1 多尺度特征融合骨干網絡Fig.1 Multi-scale feature fusion backbone network

特征圖P3 是金字塔結構最終輸出的特征圖,其中豐富的多尺度行人特征表示可以有效提高中小尺度行人計數精度。多尺度特征融合骨干網絡的輸出特征圖P3 將作為Double-Head-CC 結構的輸入。

1.3 Double-Head-CC 結構

根據文獻[18],對提取的特征進行與任務相關的預測的網絡部分稱為頭部(head)網絡。文獻[19]受CΟCΟ2018 目標檢測冠軍團隊算法啟發提出了Double-Head 結構,它將目標檢測中檢測框的分類和回歸任務分別在全連接和卷積這兩種不同的head 上實現,取得了比單一head 更好的結果。而現有人群計數算法通常基于單一head 且更加關注特征提取過程,常采用簡單的卷積層來回歸密度圖,這種簡單的head 設計容易受背景噪聲因素的干擾,從而導致預測密度圖的背景區域出現亮像素,影響計數精度。為此,本文引入前景和背景的分類任務,將人群計數問題轉化為多任務學習問題,并設計2 個head 構成適用于人群計數的Double-Head-CC 結構,進行掩膜的生成和密度圖的回歸。如圖2 所示,Double-Head-CC 結構由DRH(Density Regression Head)和MCH(Mask Classification Head)兩部分組成,MCH 為DRH 提供了與前景背景區域相關的掩膜,可以有效抑制背景噪聲的干擾。DRH 由3 個卷積層和2 個ReLU 層組成,輸入為多尺度特征融合骨干網絡的輸出特征圖P3,輸出為2 個通道的特征圖,分別代表前景和背景對應的初始密度圖。MCH 由2 個卷積層、1 個ReLU 層和1 個Softmax 層組成,輸出為前景和背景的掩膜,MCH 對應的任務實質上是對某一像素點是前景還是背景進行分類,對DRH 輸出的特征圖和MCH 輸出的掩膜進行逐像素相乘,則可以得到前景密度圖和背景密度圖,然后兩者相加則可以得到預測密度圖。

圖2 Double-Head-CC 結構Fig.2 Double-Head-CC structure

從圖2 可以看出,Double-Head-CC 結構中DRH對應的任務為密度圖回歸,MCH 對應的任務為前景背景分類,這兩個任務都是有監督學習。密度圖回歸任務的標簽為真實密度圖F(x),而前景背景分類任務目前缺乏精確的標簽,考慮到分類任務是作為密度圖回歸任務的輔助,對背景和人群的粗略像素進行分類即可,故本文基于真實密度圖的閾值生成前景背景分類的標簽S(x),其規則如式(2)所示,真實密度圖中不為0 的區域標記為前景,為0 的區域標記為背景,由此得到S(x)。

1.4 多重損失函數

由1.3 節已知網絡的輸出和標簽,還需設計適當的損失函數,才能有效地進行網絡訓練。為此,本文提出了多重損失函數,并引入了交叉熵損失函數。多重損失函數用來優化密度圖回歸任務,交叉熵損失函數用來優化前景背景分類任務,多重損失函數和交叉熵損失函數構成多任務聯合損失函數。

對于密度圖回歸任務,多數人群計數算法都是采用歐幾里得損失函數進行優化的,歐幾里得損失函數L(Θ)定義如式(3)所示:

其中:Θ為待優化的網絡參數;N為訓練樣本的數量;Xi為第i個訓練樣本;M(Xi;Θ)、Fi(Xi)分別為第i個訓練樣本的網絡預測密度圖和真實密度圖。由式(3)可知,歐幾里得損失函數是逐像素進行計算的,即認為預測密度圖和真實密度圖中的每個像素是獨立的,這種損失函數的計算忽略了密度圖的局部相關性,無法反映預測密度圖和真實密度圖之間的結構性差別,進而影響預測密度圖的生成質量和人群計數精度。針對歐幾里得損失函數的局限性,本文提出了多重損失函數。考慮到池化層是基于局部相關性思想提出的,故本文通過2×2 的平均池化操作對密度圖局部區域的像素值求平均,池化后的密度圖實際上已包含局部相關性信息,考慮到不同空間尺度上預測密度圖和真實密度圖應盡量一致,多次進行平均池化(AP)操作,構成密度圖金字塔,然后在每個層次求其歐幾里得損失,構成多重損失函數,在多個尺度上進行優化。如圖3 所示,本文將Double-Head-CC 結構生成的預測密度圖進行3 次2×2 的平均池化操作,得到1/2 密度圖、1/4 密度圖和1/8 密度圖,真實密度圖也同步進行池化作為標簽。

圖3 多重損失函數示意圖Fig.3 Schematic diagram of multiple loss function

對于每一階段的密度圖,其損失函數按照歐幾里得損失進行計算,其定義如式(4)所示:

其中:Lj(Θ) 為第j次平均池化后的損失函數;Mj(Xi;Θ)、Fij(Xi)分別為第j次平均池化后第i個訓練樣本的網絡預測密度圖和真實密度圖。得到每一階段密度圖的損失函數后,多重損失函數Lml(Θ)的定義如式(5)所示:

由多重損失函數的定義可知,它考慮了密度圖像素點之間的局部相關性,使得密度圖回歸任務損失函數的設計更為合理。

對于前景背景分類任務,本文采取交叉熵損失函數進行優化。交叉熵損失函數Lce(Θ)的定義如式(6)所示:

其中:Cseg(Xi;Θ)表示前景背景預測為真實類別的概率;yi表示真實類別。

在密度圖回歸任務和前景背景分類任務的損失函數基礎上,本文定義了多任務聯合損失函數Lmtjl(Θ)作為最終網絡訓練的損失函數,其定義如式(7)所示:

其中:γ為密度圖回歸任務和前景背景分類任務之間的平衡系數,本文選取γ=1。

2 網絡優化與評價標準

多尺度特征融合骨干網絡和Double-Head-CC結構組成了MSCC-RBI 網絡模型,多任務聯合損失函數作為目標函數進行網絡優化。

2.1 數據增強

人群圖片中通常包含大量的人群,數據標注困難且成本較高,故目前標注的人群數據集中樣本數量有限,為了得到更多的訓練樣本和更好的訓練結果,本文進行了數據增強。對每張圖片隨機截取大小為原圖1/4 的9 張圖片,并將得到的圖片進行水平翻轉。根據文獻[20],考慮到光照變化,以0.3 的概率采用參數為[0.5,1.5]的伽馬變換對數據集中的圖片進行處理,以0.1 的概率隨機地將包含灰度圖的數據集中的彩色圖片轉換為灰度圖。本文進一步以0.25 的概率對數據集中彩色圖片的RGB 通道進行隨機交換,以0.25 的概率對數據集中的圖片增加平均值為0、標準差為5 的高斯噪聲。通過裁減、水平翻轉、伽馬變換、通道變換、高斯噪聲等方法得到了增強后的訓練數據。

2.2 網絡訓練

本文是基于PyTorch 深度學習框架進行網絡設計和訓練的。在進行網絡參數初始化時,使用預訓練的VGG16 和均值為0、標準差為0.01 的高斯分布進行初始化。網絡優化算法選取Adam 算法,初始學習率設置為10-5,學習率衰減參數設置為0.995。

2.3 評價標準

平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Squared Error,MSE)是人群計數中常用的算法評價標準,其定義如式(8)和式(9)所示:

其中:Nt為測試圖片的數量為網絡模型預測的第i張圖片中的人數為第i張圖片中的實際人數。平均絕對誤差(MAE)評價的是算法的準確性,而均方誤差(MSE)評價的是算法的魯棒性。

3 實驗結果與分析

本文在ShanghaiTech[2]、UCF-QNRF[15]和JHUCRΟWD++[16]數據集上訓練并評測了MSCC-RBI 算法,并通過消融實驗驗證了MSCC-RBI 算法設計的合理性和有效性。

3.1 ShanghaiTech 數據集實驗

ShanghaiTech 數據集共標記了1 198 張圖片共計330 165 個人頭位置,分為Part_A 與Part_B 兩個部分。Part_A 中的圖片來源于互聯網,人群分布較為密集,圖片分辨率差異大,訓練集包含300 張圖片,測試集包含182 張圖片;Part_B 中的圖片在上海街頭拍攝獲得,人群分布密度較低、人群尺度變化大且場景多樣,訓練集包含400 張圖片,測試集包含316 張圖片。

表1 為本文所提MSCC-RBI 算法與7 種當前主流的具有代表性的人群計數算法在ShanghaiTech 數據集上的比較結果,其中粗體為結果最優。由表1 可知,相比于其他7 種算法,MSCC-RBI 算法在Part_A 部分的MAE 最優,使得MAE 下降了1.7%;在Part_B 部分,MSCC-RBI算法的MAE和MSE均為最優,MAE和MSE分別下降了8.3%和15.6%,體現了MSCC-RBI 算法的優越性。

表1 ShanghaiTech數據集上的不同算法性能比較結果Table 1 Performance comparison of different algorithms on the ShanghaiTech dataset

圖4 為MSCC-RBI 算法在ShanghaiTech 數據集上的結果示例,示例圖片包含背景干擾和多尺度行人。由圖4 可知,預測密度圖和真實密度圖的分布高度相似,預測人數接近真實人數。

圖4 ShanghaiTech 數據集上真值和預測結果對比示例Fig.4 Comparison examples of true and predicted results on ShanghaiTech dataset

3.2 UCF-QNRF 數據集實驗

UCF-QNRF 數據集 由IDREES 等[15]收集并 公開,共標記了1 535 張圖片共計1 251 642 個人頭位置,其中1 201 張為訓練樣本,334 張為測試樣本。UCF-QNRF 數據集中圖片場景和拍攝角度多樣,且分辨率都較高,在進行網絡訓練時,為節約內存,本文將圖片較長的一邊統一為1 024 像素。

表2 為本文所提MSCC-RBI 算法與7 種當前主流的具有代表性的人群計數算法在UCF-QNRF 數據集上的比較結果,其中粗體為結果最優。由表2 可知,MSCC-RBI 算法的MAE 最優且下降了2.5%,人群計數準確性最高,說明本文所提MSCC-RBI 算法具有較高的準確性和魯棒性。

表2 UCF-QNRF 數據集上的不同算法性能比較Table 2 Performance comparison of different algorithms on UCF-QNRF dataset

MSCC-RBI 算法在UCF-QNRF 數據集的結果示例如圖5 所示。雖然示例圖片1 中的背景燈光點和示例圖片2 中的樹葉在形態和尺度上與人群高度相似,但預測結果與真值仍非常接近。

圖5 UCF-QNRF 數據集上真值和預測結果對比示例Fig.5 Comparison examples of true and predicted results on UCF-QNRF dataset

3.3 JHU-CROWD ++數據集實驗

JHU-CRΟWD++數據集是由約翰霍普金斯大學視覺和圖像理解實驗室于2020 年公布的大規模人群計數數據集,該數據集包含了不同密度、不同光照條件以及惡劣天氣(雨、雪、霧等)下的4 372 張人群圖片,共計1 515 005 個人頭標注,其中訓練樣本2 272 個,驗證樣本500 個,測試樣本1 600 個。

表3 為本文所提MSCC-RBI 算法與7 種當前主流的具有代表性的人群計數算法在JHU-CRΟWD++驗證集上的比較結果,表4 為測試集上的比較結果,其中粗體為結果最優。

表3 JHU-CROWD++驗證集上的不同算法性能比較Table 3 Performance comparison of different algorithms on JHU-CROWD++validation set

表4 JHU-CROWD++測試集上的不同算法性能比較Table 4 Performance comparison of different algorithms on JHU-CROWD++test set

由表3、表4 可知,MSCC-RBI 算法在驗證集和測試集上都取得了最優的結果。本文在JHU-CRΟWD++數據集上選取了霧天和雨天兩張惡劣天氣下的圖片進行示例,由圖6 可知,MSCC-RBI 算法對惡劣天氣造成的前景背景對比模糊的場景也有很高的適用性。

圖6 JHU-CROWD++數據集上真值和預測結果對比示例Fig.6 Comparison examples of true and predicted results on JHU-CROWD++dataset

3.4 消融實驗

為驗證和分析MSCC-RBI算法設計的合理性和有效性,本文在ShanghaiTech 數據集的Part_A 部分進行了消融實驗。本文在多尺度特征融合骨干網絡的基礎上增加密度圖回歸模塊DRH 組成基線,分別增加Double-Head-CC 結構模塊(不重復增加DRH 模塊)和多重損失函數模塊進行實驗,消融實驗的結果對比如圖7 所示。

圖7 消融實驗結果對比Fig.7 Comparison of ablation experiment results

由圖7 可知,在基線上增加Double-Head-CC 結構可使MAE 下降12.6%,MSE 下降3.2%,表明Double-Head-CC 結構對人群計數的精度和算法的魯棒性有很大的提升作用。在基線上增加多重損失函數模塊可使MAE 下降6.3%,MSE 下降3.7%。MSCC-RBI算法在基線的基礎上,同時增加了Double-Head-CC 結構模塊和多重損失函數模塊,使得MAE 下降了16.2%,MSE 下降了6.2%,表明Double-Head-CC 結構和多重損失函數對模型的改進是同向的。

上述消融實驗的結果驗證了本文所提Double-Head-CC 結構模塊、多重損失函數模塊和MSCCRBI 算法設計的合理性和有效性。

3.5 模型參數與計數實時性

為進一步分析算法模型的參數規模和人群計數實時性,本文將輸入圖片的大小設置為1 024×768像素,在GeForce RTX 2080 GPU上進行了測試,結果如表5所示。以基線為參照,MSCC-RBI算法模型的參數量相對于基線僅增加了0.3 MB,每秒浮點運算次數(Floating-point Οperations Per Second,FLΟPS)增加了14.62G,其中Double-Head-CC 結構的參數量為0.921 MB,FLΟPS為45.274G,由此可知,Double-Head-CC 結構的設計不會引入過多的參數量和FLΟPS,整體網絡模型參數規模較小。而在計數實時性方面,MSCC-RBI算法模型的推理時間為49.94 ms,每秒幀數(Frames Per Second,FPS)為20.02,與基線相差不大,能夠實現快速人群計數。

表5 模型參數與推理效能Table 5 Model parameter and inference efficiency

4 結束語

本文提出一種抗背景干擾的多尺度人群計數算法MSCC-RBI。通過構建多尺度特征融合骨干網絡融合不同層次的特征,設計Double-Head-CC 結構抑制背景干擾并生成密度圖,并定義了多重損失函數和多任務聯合損失函數進行網絡優化。在ShanghaiTech、UCFQNRF 和JHU-CRΟWD++數據集上的實驗結果表明,MSCC-RBI 算法具有較高的準確性、較強的魯棒性和良好的泛化能力。下一步將從提高密度圖質量和引入難分負樣本等角度出發,增強算法對背景信息的魯棒性。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 午夜人性色福利无码视频在线观看 | 91视频青青草| 色婷婷综合在线| 国产亚洲欧美另类一区二区| 欧美成人手机在线视频| 一区二区三区成人| 国产大片喷水在线在线视频| 国模粉嫩小泬视频在线观看| 高清久久精品亚洲日韩Av| 丝袜高跟美脚国产1区| 全裸无码专区| 黑色丝袜高跟国产在线91| 91热爆在线| 成人福利免费在线观看| 激情无码视频在线看| 97国内精品久久久久不卡| 中文字幕亚洲另类天堂| 91免费片| 91国内在线视频| 色亚洲成人| 伊人激情综合网| 亚洲婷婷六月| 成人一区在线| 亚洲av日韩av制服丝袜| 高清无码手机在线观看| 麻豆国产在线不卡一区二区| 欧美日韩午夜| 午夜福利网址| 国产综合日韩另类一区二区| 视频二区欧美| 99精品高清在线播放| 亚洲人成影院在线观看| 五月婷婷精品| 不卡视频国产| 欧美精品另类| 伊人久久婷婷| 国产资源站| 国产a网站| 亚洲国产精品日韩av专区| 人妻无码中文字幕第一区| 免费人成在线观看视频色| 中文字幕首页系列人妻| 国产18在线| 亚洲欧美日韩色图| 99热线精品大全在线观看| 欧美视频在线观看第一页| 亚洲无线视频| 一级成人欧美一区在线观看| 午夜激情福利视频| 九九热视频精品在线| 玖玖精品在线| 日本伊人色综合网| 中文字幕波多野不卡一区| 日本欧美精品| 九九香蕉视频| 亚洲熟女偷拍| 中文字幕va| 99视频全部免费| 久久国产精品麻豆系列| 国产99在线| 欧美 亚洲 日韩 国产| 国产对白刺激真实精品91| 99激情网| 欧美天堂在线| 欧美精品在线看| 九九久久精品免费观看| 久久99国产综合精品1| 国产91导航| 亚洲av片在线免费观看| 国产成人综合日韩精品无码不卡| 亚洲系列无码专区偷窥无码| 婷婷99视频精品全部在线观看 | 国产视频一二三区| 毛片三级在线观看| 精品国产免费观看一区| 国产成人精品一区二区三区| 亚洲中文在线看视频一区| 国产你懂得| 91蝌蚪视频在线观看| 日日碰狠狠添天天爽| 中文字幕一区二区视频| 97se亚洲综合在线天天|