999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度增強網絡的人群計數方法

2021-06-24 09:39:56段儀濃杜佳浩劉才華
電子與信息學報 2021年6期
關鍵詞:嵌入式結構模型

徐 濤 段儀濃 杜佳浩 劉才華

(中國民航大學計算機科學與技術學院 天津 300300)

(中國民航大學中國民航信息技術科研基地 天津 300300)

1 引言

人群計數旨在計算圖像或視頻場景中所包含的人數,是計算機視覺和智能監控領域的重要研究內容。隨著城市人口的急劇增長,廣場、火車站、機場航站樓等公共場所時常出現人群高度聚集的現象,存在著巨大的安全隱患。因此,準確預測場景中的人數可以有效地進行人流管控[1]和安防部署,對于社會公共安全具有重要的意義。此外,人群計數方法也可應用于細胞計數[2]、車輛計數[3]和動物遷徙觀察[4]等領域,具有廣泛的應用價值。由于人群規模和尺度在不同場景中存在著巨大的變化,因此人群計數仍是一項極具挑戰性的研究。

早期人群計數研究方法大致可分為基于檢測和基于回歸兩類。基于檢測的方法采用目標檢測器[5,6]對圖像中的行人進行逐一檢測,統計檢測結果以獲取最終人數。這類方法在稀疏的人群場景下效果良好,但是在包含遮擋現象的擁擠場景中難以發揮作用。基于回歸的方法則通過學習圖像特征與相應人數之間的映射關系來實現。此類方法首先提取圖像的低級特征(例如前景特征、邊緣特征和紋理特征等),之后利用不同的回歸分析技術來建模特征到人數的映射關系。基于回歸的方法避免直接通過目標檢測進行計數,相對緩解了遮擋現象造成的影響。但是,這類方法的性能在很大程度上受限于低級特征提取的效果,難以在高度擁擠的人群場景較好地發揮作用,因此存在著一定的缺陷。

近年來,隨著深度學習的發展,基于卷積神經網絡(Convolutional Neural Network, CNN)的方法被廣泛應用于人群計數研究。區別于直接預測人數,此類方法大多通過卷積神經網絡預測一種人群密度圖像,該圖像的像素值反映原圖中此位置的人群密度,對密度圖像進行像素值累加即可獲得原圖對應的人數。Zhang等人[7]提出一種跨場景計數模型,由兩個相關的學習目標(人群密度和人群數量)交替訓練,并使用相似于目標場景的樣本進行模型微調。該模型在訓練和測試時還需用到一種人工制作的透視圖像,因此在實際場景中可用性不高。為了解決多尺度問題,Zhang等人[8]提出多列卷積神經網絡(Multi-column Convolutional Neural Network, MCNN)模型,構建具有不同卷積核大小的3分支網絡以并行提取多尺度特征。但是,該模型僅能在幾種特定尺度的場景下發揮作用,且各分支易學到相同模式的特征,造成參數冗余。受MCNN啟發,Sam等人[9]提出Switch-CNN,利用所設計的分類網絡將人群圖像按照不同的密度分類,并根據密度等級為圖像選擇特定的回歸網絡。然而,該模型的表現很大程度上受限于分類網絡的性能。Shen等人[10]提出對抗跨尺度一致性追求網絡(Adversarial Cross-Scale Consistency Pursuit,ACSCP),通過損失函數來約束局部圖像塊計數之和與整體圖像計數相等,以此來模型增強跨尺度的一致性。此外,研究人員也嘗試利用不同類型的卷積來提升模型性能。Li等人[11]提出擁擠場景識別網絡(Congested Scene Recognition Network, CSRNet),利用擴張卷積在避免過度下采樣的前提下增加網絡的感知范圍,從而更好地聚合多尺度信息。Cao等人[12]提出尺度聚合網絡(Scale Aggregation Network, SANet),利用反卷積來恢復下采樣后圖像的分辨率,從而生成高質量的密度圖像。

目前,基于CNN的方法主要存在兩個問題:(1)圖像中的人群尺度呈現出區域性相似的特點,而人群計數研究普遍使用的是像素級歐幾里得損失,其假設圖像像素相互獨立,難以捕捉人群尺度的局部相關性,因此影響了模型計數的準確性。(2)人群尺度在圖像內與圖像間都存在巨大的變化,而目前多數方法對于這種連續變化的多尺度信息處理能力有限,難以覆蓋各種不同的尺度,因此所提取的特征無法準確描述人群信息,導致模型性能不佳。

針對以上問題,本文提出一種基于多尺度增強網絡的人群計數模型(Multi-Scale Enhanced Network, MSEN)。首先,基于生成對抗網絡(Generative Adversarial Networks, GAN)的思想設計了嵌入式GAN模塊,其中生成網絡由視覺幾何組(Visual Geometry Group-16, VGG-16)[13]模型部分結構與多分支擴張卷積結構組合而成;引入塊對抗生成網絡(Patch-Generative Adversarial Networks, PatchGAN)[14]作為判別網絡,利用其區域性判別機制引導生成網絡,提升其所產生圖像的局部相關性。其次,基于金字塔池化結構[15]設計了尺度增強模塊,將該模塊作用在嵌入式GAN模塊所生成的圖像上,進一步從不同區域提取不同尺度的局部特征,并生成最終的人群密度分布圖像。所設計的GAN模塊嵌入在整體模型中,其中的判別網絡僅監督中間結果的生成模型,不參與最終人群密度分布圖像的生成過程。在3個廣泛使用的人群計數數據集上進行了實驗,結果表明所述模型的性能優于其他對比方法。

2 多尺度增強網絡

本文提出了基于多尺度增強網絡的人群計數模型(MSEN),該模型可視為一種嵌入式的GAN結構,其中嵌入式GAN模塊學習人群特征并優化圖像的局部相關性,尺度增強模塊進一步提取局部多尺度特征并生成最終的人群密度圖像。MSEN模型結構如圖1所示,其包含3個部分:生成網絡、判別網絡以及尺度增強模塊。生成網絡與判別網絡嵌入在整體模型中,構成嵌入式GAN模塊。其中,生成網絡由VGG-16模型部分結構與多分支擴張卷積結構組合而成學習人群不同尺度下的特征,判別網絡僅監督中間結果的生成。此外,模型采用了跳躍連接設置,以保留輸入圖像的結構和上下文信息。

2.1 生成網絡

圖1 MSEN模型結構示意圖

受文獻[11]啟發,本文基于VGG-16模型構建生成網絡的前端,該模型具有強大的特征提取能力與遷移學習能力,有利于復雜人群特征的提取。由于原VGG-16模型包含13個卷積層和5個池化層,因此其網絡深層的特征圖尺寸非常小,不利于小尺度目標的建模。為了避免過度采樣造成的小尺度目標信息丟失問題,本文首先刪除了原VGG-16模型的全連接層,之后利用其前10個卷積層和3個池化層來構建生成網絡前端。為了聚合更豐富的多尺度信息,本文設計了多分支結構以構建生成網絡的后端。多分支結構基于擴張卷積所設計,可在不增加參數量的前提下擴大網絡的感知范圍,有利于應對圖像間人群規模和尺度的變化。后端網絡由3個分支組成,每個分支包含具有不同擴張因子的擴張卷積,擴張因子依次為1, 2, 4。擴張因子為1的分支用于捕獲小尺度目標的特征,其余分支則擴大感知范圍以捕獲大尺度目標的特征。如第1節所述,彼此獨立的分支難以學習到不同模式的特征,易導致參數冗余。因此,本文將各分支網絡的特征圖在每層進行拼接,并使用1×1卷積進行跨通道特征聚合,加強各分支間的信息交互,從而充分利用各分支提取特征的互補性,使輸出的特征圖更具表達能力和尺度多樣性。生成網絡的具體結構如圖2所示,圖2中方框內的參數表示為“卷積層-卷積核大小-通道數量-擴張因子”。

2.2 判別網絡

區域性判別網絡最早應用于圖像轉換任務,受其啟發,本文采用PatchGAN[14]來構建嵌入式GAN模塊中的判別網絡,其具體結構表示如下:

C(4, 64, 2)-C(4, 128, 2)-C(4, 256, 2)-C(4, 512, 1)-C(4, 1, 1),其中C表示卷積層,括號內的參數依次為卷積核大小、通道數量以及卷積步長。除最后一層外,每個卷積層之后添加了批量標準化層(Batch Normalization, BN)與LeakyReLU激活函數。區別于常規判別網絡,本文所采用的網絡為全卷積網絡,其輸出為一個N×N矩陣,而非標量值。矩陣中的每一個元素映射于原圖的一個局部圖像塊,反映該圖像塊的真實性。針對此矩陣計算誤差,可使網絡更加關注于圖像的局部區域,有利于引導生成網絡得到局部相關性更高的人群密度圖像。

圖2 生成網絡結構示意圖

2.3 尺度增強模塊

上文所述的嵌入式GAN模塊學習人群特征并優化了密度圖像的局部相關性。在此基礎上,本文設計了尺度增強模塊,以進一步從不同區域提取不同尺度的局部特征,從而增強模型的泛化能力。

尺度增強模塊由兩個具有相同結構的子模塊串聯構成,子模塊則基于金字塔池化結構所設計。如圖3所示,對于上一層網絡的輸入,子模塊首先通過兩個大小為3×3的前端卷積層進行特征提取,之后將前端卷積層的輸出按4個級別進行平均池化。由于人群圖像中的場景為包含眾多目標的復雜場景,且人群規模和尺度呈現連續變化的特點,而傳統金字塔池化結構中的全局平均池化不足以反映不同目標各自的尺度特征,因此本文將4個級別的池化尺寸依次設置為2×2, 3×3, 6×6, 8×8。上述操作將特征圖按比例劃分為多個大小不同的子區域,并對每個子區域進行平均池化,由此來反映每個子區域的局部特征。之后,將各自比例的池化結果通過大小為1×1的卷積層進行降維,并使用雙線性插值操作上采樣到原始特征圖的尺寸,隨后與原始特征圖拼接。最后,本文使用一個大小為3×3的后端卷積層對拼接后的特征圖進行跨通道聚合,從而產生子模塊的最終輸出。

圖3 尺度增強子模塊結構示意圖

本文將原始圖像經跳躍連接后輸入第1個子模塊,將第1個子模塊的輸出與嵌入式GAN模塊的輸出拼接后輸入第2個子模塊。通過上述操作,尺度增強模塊可進一步從不同區域提取不同尺度的局部特征,以應對圖像內人群尺度連續變化的特點,實現整體模型泛化能力的增強。

2.4 損失函數

人群計數研究普遍使用的歐幾里得損失假設像素相互獨立,忽略了圖像的局部相關性。因此本文使用3項損失函數聯合優化所述模型,分別為L1損失、對抗性損失與歐幾里得損失。L1損失與對抗性損失約束嵌入式GAN模塊產生的初步預測圖像并優化其局部相關性,得出歐幾里得損失約束模型的最終預測圖像。L1損失定義如式(1)

其中,n為訓練樣本的數量,xi為輸入圖像,yi為對應的標簽圖像,G為生成網絡,G(xi)為生成網絡根據輸入圖像產生的模型中間預測結果。對抗性損失定義如式(2)

其中,x為輸入圖像,y為對應的標簽圖像,G為生成網絡,D為判別網絡,G(x)為生成網絡根據輸入圖像產生的模型中間預測結果。歐幾里得損失定義如式(3)

其中,n為訓練樣本的數量,mi為模型最終預測的密度圖像,yi為對應的標簽圖像。3項損失函數經加權組合形成模型最終的目標函數,定義如式(4)

其中,α與β為平衡3項損失的權重,二者的取值依據將于后續對比實驗部分說明。

2.5 訓練步驟

由于本文設計的多尺度增強網絡為一種嵌入式的GAN結構,因此整體模型無法遵循傳統GAN模型的訓練步驟。受文獻[14]啟發,本文采用一種新的交替訓練步驟來優化所述模型,在該訓練步驟中,生成網絡將進行兩次參數更新,具體步驟如下:

步驟 1 加載訓練數據集,進行數據預處理;

步驟 2 初始化模型訓練參數,輸入訓練數據;

步驟 3 提升式(2)的梯度,以更新判別網絡的參數;

步驟 4 降低式(1)與式(2)之和的梯度,以更新生成網絡的參數;

步驟 5 降低式(3)的梯度,以分別更新生成網絡與尺度增強模塊的參數;

步驟 6 重復步驟3~5,直至訓練結束。

3 實驗與分析

3.1 實驗數據集

為了驗證所述模型的有效性,本文采用人群計數研究常用的3個數據集進行實驗,分別為ShanghaiTech[8], UCF_CC_50[16], UCF-QNRF[17]。ShanghaiTech數據集包含1198張人群圖像,其中共標注了330165個目標行人。該數據集分為Part_A和Part_B兩個部分。Part_A部分共包含482張搜集于互聯網的人群圖像,具體分為300張訓練圖像和182張測試圖像。Part_B部分共包含716張拍攝于上海某步行街的人群圖像,具體分為400張訓練圖像和316張測試圖像,相對而言,Part_B部分圖像場景中的人群較為稀疏。UCF_CC_50數據集共包含50張搜集于互聯網的人群圖像,其中共標注了63075個目標行人。其中圖像包含人數平均為1280人,單張圖像包含人數94~4543不等。該數據集所含數據量較少,因此本文遵循文獻[15]所提出的5折交叉驗證方法來進行實驗。UCF-QNRF數據集共包含1535張人群圖像,其中共標注了1.25×106個目標行人。該數據集具體分為1201張訓練圖像和334張測試圖像,單幅圖像包含人數49~12865不等。上述3個數據集的基本信息如表1所示。

3.2 評價指標

本文采用人群計數研究普遍使用的兩個評價指標來評估模型的性能,分別為平均絕對誤差(Mean Absolute Error, MAE)和均方誤差(Mean Square Error, MSE)。MAE反映模型預測準確性,MSE反映模型預測魯棒性,二者數值越低,表明模型性能越好。

3.3 實驗設置

本文所采用的實驗環境為:Intel Xeon(R)Sliver 4110 2.10 GHz CPU, Quadro P5000 GP(16G顯存)。使用的操作系統為Ubuntu 16.04,采用的深度學習框架為Pytorch框架。本文采用在ImageNet數據集上預訓練的VGG-16模型參數來初始化生成網絡的前端,其余各網絡的參數使用均值為0,標準差為0.01的高斯分布隨機初始化。模型通過Adam算法進行優化,學習率固定為0.0000001,總迭代次數為30000次。

對于ShanghaiTech Part_A, UCF_CC_50和UCF-QNRF數據集,本文采用幾何自適應高斯核為其制作標簽密度圖像;而對于ShanghaiTech Part_B數據集,因其圖像中的人群較為稀疏,本文采用固定高斯核為其制作標簽密度圖像。此外,對于ShanghaiTech與UCF_CC_50數據集,本文以原始圖像尺寸進行訓練,設置批處理大小為1,并通過隨機水平翻轉來進行數據增強。由于UCFQNRF數據集中均為高分辨率圖像(例如9000×6000),本文遵循文獻[18]提出的訓練方法,將原始圖像裁剪為16張不重疊的且尺寸為224×224的子圖像,并設置批處理大小為16進行訓練。

表1 數據集基本信息對比

3.4 實驗結果分析

ShanghaiTech數據集的實驗結果如表2所示,本文將所述模型與7種近年人群計數研究的主流方法進行了比較。對于Part_A部分,所述模型獲得了最低的MAE值,相比方法TEDnet降低了1.1%,所述模型的MSE值也接近于該指標表現最好的方法ACSCP。對于Part_B部分,所述模型分別獲得了最低的MAE值與MSE值,其中MAE指標與方法TEDnet持平,MSE指標相比TEDnet降低了3.9%。在ShanghaiTech數據集兩個部分的實驗結果表明,所述模型在擁擠和稀疏的人群場景中均可表現出良好的性能。

UCF_CC_50數據集的實驗結果如表3所示,本文同樣將所述模型與7種近年來人群計數研究的主流方法進行了比較。所述模型在MAE指標與MSE指標上均獲得了最低值,其中MAE指標相比方法TEDnet降低了9.1%,MSE指標降低了12.4%。該數據集所含樣本數量較小,僅為50張圖像。實驗結果表明,所述模型對于小樣本數據也可表現出良好的適應性。

表2 ShanghaiTech數據集實驗結果

表3 UCF_CC_50數據集實驗結果

UCF-QNRF數據集是2018年公布的最新數據集之一,目前使用該數據集進行評估的方法相對較少,本文將所述模型與4種主流方法進行了比較,結果如表4所示。所述模型獲得了具有競爭力的MAE值,同時獲得了最低的MSE值。相比方法TEDnet,所述模型的MAE指標降低了15.2%,MSE指標也與之接近。該數據集具有樣本數量多,場景復雜等特點,在此情況下所述模型的預測準確性有待提高。同時,所述模型的預測魯棒性較好,表明其具有良好的泛化能力。

3.5 消融實驗

為了進一步驗證所述模型各部分結構的有效性,本文基于ShanghaiTech Part_A數據集設計了模型結構對比實驗,具體關注模型結構的3個因素:是否采用嵌入式GAN結構、尺度增強子模塊的數量、是否采用跳躍連接設置。為了平衡模型性能與資源開銷,將尺度增強子模塊的最大數量限制為2。具體而言,本文基于排列組合原理構造了10種不同結構的模型,并將各模型的具體描述與對應結果展示于表5,其中尺度增強子模塊記作E,跳躍連接記作S:

表4 UCF-QNRF數據集實驗結果

表5 不同結構的模型及其對應的實驗結果

(1) 僅包含生成網絡,記作G。

(2) 在模型(1)的基礎上增加了判別網絡,構成生成對抗網絡,記作GAN。

(3~6) 模型結構均為非嵌入式GAN結構(分別對應于(7~10)的嵌入式GAN結構),記作GAN*。在此類模型中,本文將原生成網絡與尺度增強模塊組合,將組合后的整體結構作為獨立生成網絡,并使用判別網絡直接監督模型的最終輸出。

(7) 嵌入式GAN結構,之后連接1個尺度增強子模塊。

(8) 在模型(7)的基礎上增加了跳躍連接設置。

(9) 嵌入式GAN結構,之后連接2個尺度增強子模塊。

(10)在模型(9)的基礎上增加了跳躍連接設置,即為本文所提多尺度增強網絡模型(MSEN)。

由表5可知,模型(2)的性能優于模型(1),表明引入區域性判別網絡可優化圖像局部相關性并提升模型計數準確性;模型(4), (8)的性能分別優于模型(3), (7),表明采用跳躍連接設置有助于重建輸入圖像的結構和全局上下文信息;模型(9)的性能優于模型(7),表明采用兩個尺度增強子模塊更有利于據合圖像各區域的多尺度局部特征;在具有相同配置的前提下,采用嵌入式GAN結構的模型的性能均優于對應的非嵌入式GAN結構模型,且模型(5), (6)在所有模型中性能最差,原因或為原生成網絡與尺度增強模塊組合構成的獨立生成網絡的結構較為復雜,參數量過大,導致整體模型在訓練時難以收斂,由此也證明了采用嵌入式GAN結構的有效性。

此外,為了進一步證明在嵌入式GAN模塊之后連接尺度增強模塊的有效性,本文將模型(2)與模型(10)預測圖像的結果對比展示于圖4,二者的結構分別為GAN結構與本文所述的MSEN結構,區別為模型是否包含尺度增強模塊。可以看出,由模型(10),即本文所述MSEN結構預測的圖像可以更好地反映人群分布的熱點情況,且根據預測圖像計算出的人數更加接近標簽圖像實際包含的人數,因此進一步證明了尺度增強模塊的有效性。

3.6 損失函數權重選擇實驗

圖4 獨立GAN結構與MSEN結構的預測圖像與計算人數示例

為了對損失函數中的權重取值依據進行說明,本文對了不同參數權重下模型的性能。從簡化模型訓練流程的角度出發,本文首先對比了各項損失函數回傳梯度的大小,并將權重α設置為3,之后選取6個代表性數值作為權重β的基準數值,通過對比實驗來確定其最終取值。實驗結果如圖5所示,隨著β取值大小的增加,模型的MAE指標持續降低。當β=1時,損失函數中L1與LE的權重相等,同時模型獲得最低的MAE指標。當β取值繼續增加,即L1與LE之間的權重差距逐漸增大時,MAE指標迅速增加,即模型性能開始下降。因此,當β取值為1時,模型性能達到最佳。

4 結論

為了解決人群計數研究忽略圖像局部相關性以及模型對多尺度特征提取能力有限的問題,本文提出了一種基于多尺度增強網絡的人群計數模型(MSEN),將所設計的多分支生成網絡與引入的區域性判別網絡組合構成嵌入式GAN模塊,在其之后連接基于金字塔池化結構所設計的尺度增強模塊,使用3項損失函數對整體模型進行聯合訓練,使所述模型在提升預測圖像局部相關性的同時提升了多尺度特征的提取能力,從而提升模型最終的計數準確性與魯棒性。本文在3個人群計數公共數據集上進行了廣泛的實驗,實驗結果證明了所述模型的有效性。

圖5 不同β取值與對應的模型MAE值

猜你喜歡
嵌入式結構模型
一半模型
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
搭建基于Qt的嵌入式開發平臺
嵌入式軟PLC在電鍍生產流程控制系統中的應用
電鍍與環保(2016年3期)2017-01-20 08:15:32
論《日出》的結構
3D打印中的模型分割與打包
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 夜夜操国产| 99国产精品国产高清一区二区| 午夜激情婷婷| 五月激情综合网| 欧美亚洲国产视频| 啪啪永久免费av| 欧美在线网| 色综合婷婷| 91免费在线看| 欧洲日本亚洲中文字幕| 在线观看无码av五月花| 无码又爽又刺激的高潮视频| 国产精彩视频在线观看| 婷婷综合亚洲| 国产剧情一区二区| 日韩欧美国产中文| 日本不卡免费高清视频| 亚洲av无码牛牛影视在线二区| a级毛片一区二区免费视频| 男女精品视频| 99视频全部免费| 一区二区三区国产精品视频| 伊人精品成人久久综合| 国产99精品久久| 精品视频在线观看你懂的一区| 国产福利拍拍拍| 日韩毛片基地| 欧美日韩一区二区三区四区在线观看| 天天综合网在线| 国产精品性| 波多野结衣在线se| 福利视频99| 91成人精品视频| 中文字幕首页系列人妻| 欧美不卡二区| 欧美日韩国产高清一区二区三区| 无码 在线 在线| 亚洲国产精品成人久久综合影院| 亚亚洲乱码一二三四区| 一区二区三区四区在线| 免费无码在线观看| 国产欧美日本在线观看| 午夜小视频在线| 国产亚洲精品自在久久不卡| 综合天天色| 久久熟女AV| 国产免费好大好硬视频| 国产成人无码综合亚洲日韩不卡| 国产99视频在线| 亚洲欧洲天堂色AV| 色妺妺在线视频喷水| 在线播放真实国产乱子伦| 一区二区三区高清视频国产女人| 国产成人精品一区二区免费看京| 国产精品成人不卡在线观看| 51国产偷自视频区视频手机观看| 午夜日韩久久影院| 永久天堂网Av| 国产XXXX做受性欧美88| 九九九久久国产精品| 成年女人a毛片免费视频| 九九九久久国产精品| 亚洲天堂网视频| 久久综合五月婷婷| 亚洲无码视频喷水| 久久香蕉国产线看观看精品蕉| 伊人激情综合网| 大陆国产精品视频| 亚洲欧洲日韩综合色天使| 制服丝袜无码每日更新| 国产精品尹人在线观看| 国产成人综合久久精品下载| 亚洲av成人无码网站在线观看| 91国内在线观看| 理论片一区| 亚洲国产成人麻豆精品| 91精品啪在线观看国产| 国产99视频在线| 免费人成在线观看成人片| vvvv98国产成人综合青青| 国产黑丝一区| 91在线视频福利|