張凱兵,張 婷,王華珂,景軍鋒
(西安工程大學 電子信息學院,陜西 西安 710048)
隨著城市人口數量的快速增長和車輛的迅猛增加,城市的公共安全和交通管理面臨巨大的挑戰,尤其是公共場所的大型集會和節假日市民的出行面臨嚴重的安全隱患。2015年元旦前夕,上海發生了嚴重的人群踩踏事件,造成多人傷亡。因此,公共場所的人群計數問題受到了人們廣泛的關注。另外,人群計數在城市發展規劃、商場人流監測、車流實時統計等方面應用前景廣闊。尤其受新冠疫情的影響,人群擁擠度已成為疫情防控的一個重要指標。
人群計數問題面臨非常多的挑戰,主要包括人群尺度變化、復雜背景干擾、人群分布不均和缺乏標注樣本等方面[1]。文獻[2-3]針對人群尺度變化、復雜背景干擾和人群分布不均等問題提出了可行的解決方案。為了獲取準確的預測結果,這些方法必須依賴充足的標記樣本訓練計數模型。但標記樣本獲取困難,且長時間乏味的標注數據容易人為地產生標記誤差。因此利用有限的標記樣本訓練可靠的計數模型成為廣大學者普遍關注的問題。
TAN等為了有效利用大量容易獲取的無標記樣本,提出了一種基于半監督彈性網的人群計數方法[4]。該方法利用連續視頻幀之間的時序信息構造判別項,并利用k-means聚類方法選擇具有多樣性的標注樣本,緩解缺乏標注樣本情況下的人群計數問題。LOY等利用無標記樣本之間潛在的流形結構構造半監督回歸計數模型,同時通過主動學習選擇少量代表性樣本作為標記樣本降低標記成本[5]。ZHOU等將樣本選擇任務作為子模塊最大化問題,有效裁減冗余標記樣本,并整合圖拉普拉斯正則化和空間約束項到半監督彈性網回歸模型中,提高預測的準確性[6]。ZHANG等將人群問題轉換為半監督分類問題,同時聯合利用標簽適應性和流形平滑性學習高維特征空間到低維標簽空間的線性映射,在減少標記樣本的同時提升了模型的預測性能[7]。LIU等為了降低標注成本,使用更容易獲取的二值分割標簽作為代理任務訓練特征提取器,再利用少量的人群標注樣本訓練密度圖回歸器[8]。為了利用大量的無標記樣本監督網絡的訓練,SINDAGI等通過基于高斯過程的迭代學習框架生成無標記樣本的偽標簽監督網絡參數的學習[9]。由于標注樣本費時費力,ZHAO等提出一種基于主動學習的半監督人群計數框架,選取多樣性的標記樣本訓練網絡并利用分布分類器對齊標記樣本和無標記樣本[10]。此外,跨場景的人群計數[11]也可以有效地降低標注開銷。WANG等提出通過合成數據集自動生成樣本標簽,采用風格遷移網絡生成真實場景的樣本,用于訓練人群計數網絡[12]。由于不同數據集存在明顯的域差,導致模型的預測效果顯著下降。盡管人群計數領域已經開源了多個大規模的數據集[13-15],但是利用這些數據集訓練的模型泛化能力仍然有限,還不能有效地應用于真實場景中。此外,文獻[16]通過數據增廣的方法緩解了缺乏訓練數據導致的模型過擬合問題。
針對上述問題,并受視覺任務中圖像自動標注方法[17-18]的啟示,本文提出了一種新的人群計數樣本標注方法。考慮到含有相同或相近人數的視頻圖像在特征空間中距離相近的特性[19],提出了一種基于最近鄰聚類的人群計數樣本標注方法,以實現視頻圖像中人群數量的自動標注。該方法在特征空間中對全部無標記樣本進行聚類,通過主動采樣學習,從每一類樣本中選取具有多樣性和代表性的少量樣本進行人群數量的標注,最后將標注樣本的人數標簽傳播給該類別中剩余的無標記樣本,該方法可高效地進行樣本標注,并獲得較高的準確性,顯著降低了數據集的標注成本。通過該標注方法標記的樣本也可以用于訓練其他計數模型,降低訓練樣本的標注成本。
對于包含人群的視頻數據集,標注其中部分樣本的人數進而訓練計數模型,然后利用計數模型預測剩余樣本的人數。通常,上述方法需要大量的標記樣本訓練模型,不利于實際應用。本文關注的重點是在如何降低標注成本的同時并保證模型的預測精度。
鑒于包含相同或者相近人數的視頻圖像在特征空間中距離相近的特性,表明在同一個視頻場景中,一個視頻幀與它的相鄰幀可能包含相同或相近的人數。因此,利用相鄰幀之間的結構關系可幫助視頻數據集的標注。最近鄰聚類的樣本標注方法的總體框架如圖1所示。

圖 1 最近鄰聚類的樣本標注方法總體框架
從圖1可以看出,該方法利用最近鄰聚類構建結構關系,通過主動采樣學習,從每類中選取少量具有代表性和多樣性的樣本進行標注,最后將標注的人數標簽傳播給其他未標記樣本。
假設數據集X含有n個無標記視頻樣本,首先構造一個無向連通圖G={V,E},其中V為特征空間中全部樣本節點,E為歐式距離的鄰接矩陣,E為矩陣E的對應集合,即
(1)
式中:Ei,j表示特征空間中第i個樣本xi和第j個樣本xj之間的距離。如果Ei,j在樣本i的全部距離矩陣Ei中最小,則樣本j為樣本i的最近鄰,即
(2)
根據最近鄰樣本定義確定全部樣本最近鄰關系,得到全部樣本對應的鄰接矩陣。根據樣本間的最近鄰關系,將全部樣本劃分為C組。最近鄰聚類規則定義:如果樣本i為樣本j的最近鄰,或樣本j為樣本i的最近鄰,再或者樣本i和樣本j的最近鄰為同一個樣本,則它們屬于同一類,即
(3)
式中:1表示2個樣本屬于同一類,0表示2個樣本歸屬于不同類別。
全部樣本根據最近鄰關系可以劃分到相應的類別中,近似地認為每一類中的樣本含有相同或相近的人數。因此,僅標注每個類中少量代表性的樣本,將人數標簽傳播給該類別中剩余的未標注的樣本,樣本的標注成本則顯著降低。
將全部樣本劃分為不同類后, 從每一類樣本中選取代表性樣本是樣本標注方法的關鍵。本文通過主動采樣學習[20]從每一類樣本中選取代表性樣本進行人數標注。主動采樣學習不僅可以消除大量無標記樣本中的冗余信息,還能克服異常值帶來的負面影響。選取的樣本應該盡可能表征每一類樣本,使其具有代表性和多樣性。根據文獻[20],樣本的代表性定義為
(4)

(5)
式中:M為中值濾波算子。此外,樣本的多樣性定義為
(6)
為了充分考慮樣本的多樣性和代表性,它們被給予相同的權重:
(7)
選取代表性樣本進行人數標注并將它們的標簽傳播給該類樣本中剩余的未標記樣本,該方法根據多個代表性樣本標注人數的均值作為該類樣本的標簽。因此選取少量代表性樣本進行標注,可以減少標注代價。
本文提出的標注方法的算法步驟:根據式(3)對輸入的大量無標記樣本集X進行聚類,共聚為C類;再根據式(7)從每一類樣本中選取代表性樣本進行標注;最后將標記樣本的人數標簽傳播給剩余未標記樣本,則可以輸出數據集X的標簽集F。
文獻[7]對比了其他紋理特征,證明Gist特征[19]對場景中的人群分布有較好的表征能力,因此本文采用Gist特征表征人群圖像。在提出的樣本標注方法中,所需標記樣本的數量取決于聚類的數量和每一類樣本中的采樣個數。增加標記樣本的數量,雖然提高了標注精度,但也增加了標注成本;反之,則會降低標注成本和標注精度。因此設置最佳的聚類數量和采樣個數至關重要。本文分別從聚類數量和采樣個數進行設置,選取最佳的聚類數量和采樣個數。然后對比樣本的標注精度和其他計數模型的預測結果。最后,將本文提出的樣本標注方法所獲得的標注樣本構成訓練集用于其他人群計數模型的學習。
為了驗證本文提出方法的有效性,分別在5個不同場景的視頻數據集上進行驗證。5個數據集中代表性樣本如圖2所示。

(a) UCSD (b) Fudan (c) Bus (d) Canteen (e) Classroom
圖2中UCSD數據集[2]采集背景為校園人行道,包含2 000幀視頻圖像,人數在11~46之間變化。Fudan數據集[4]采集于教學樓入口,包含3個視頻序列,共1 500幀視頻圖像,人數從0~15不等。Bus數據集[21]和Canteen數據集、Classroom數據集[22]分別拍攝于公交車和餐廳、教室等真實場景。5個數據集的細節信息見表1。

表 1 5個數據集的細節信息
使用平均絕對誤差(mean absolute error,MAE)和均方誤差(mean squared error,MSE)指標評價提出方法的預測效果。MAE和MSE在公式中分別定義為
(8)
(9)
式中:m表示數據集中樣本的數量,Pi表示第i個樣本的預測人數;Li表示第i個樣本的真值人數。EMA用于評估計數模型的精確性,EMS反映人群計數模型的魯棒性。
此外,本文提出一種新的精確性度量評價人群計數的預測精度。分類任務中通常使用精確性作為評價指標,但精確性直接用于評價人群計數不合適。事實上預測偏差小于一定閾值時,預測結果對實際應用并無太大影響。本文閾值設置為3,新的精確性度量指標定義為
(10)
式中:N表示測試樣本的數量;‖·‖表示樣本集中預測值P和真值L小于閾值的數量。
聚類數量和采樣個數是影響標注樣本數量和標注精度的重要因素。盡管增加聚類數量和采樣個數可提升樣本的標注精度,但也會增加標注代價。
以UCSD和Fudan數據集為例,分別對聚類數量和采樣數量進行對比,結果見表2。

表 2 不同采樣數量的實驗對比
從表2可以看出,UCSD和Fudan數據集中采樣個數從2增加到4,但數據的標注精度并沒有明顯提升,表明主動學習充分考慮了每一組聚類中樣本的多樣性和代表性,因此在5個數據集中將采樣個數均設置為2。值得強調的是,當多個采樣樣本的人數標簽不相等時,采用其平均值作為采樣標簽進行標簽傳播。不同聚類數量的實驗對比如圖3所示。

(a) UCSD數據集
從圖3可以看出,在UCSD數據集中聚類數量達到100后,標注精度沒有顯著提升,UCSD數據集的最佳聚類數量為100; Fudan數據集的最佳聚類數量為120。因此最佳聚類數量與場景中人群變化復雜度有關,當場景中人群變化劇烈時,最佳聚類數量較大,反之則較小。
為了驗證本文提出方法的標注成本遠小于其他計數模型,對比在5個數據集中本文所需要的標記樣本數量和其他監督學習模型所需的標記樣本數量見表3。
從表3可以看出,本文提出的方法所需要的標記樣本數量遠小于監督學習方法訓練集所需的數量。UCSD數據集所需的標記樣本數量是監督學習方法的1/4,Fudan數據集所需的標記樣本數量約為監督學習方法的1/2,在其他3個大規模數據集上所需標注代價也遠小于監督學習方法所需要的標注代價。上述結果表明,本文提出的樣本標注方法在標注成本上遠小于監督學習方法。
利用聚類算法可以將標簽相同或相近的樣本劃分為同一類,然后從每一組類別中選取代表性的樣本進行標注,該樣本標注的標簽可以傳播給該類中剩余的樣本。為了驗證本文采用的聚類方法和采樣方法的有效性,選取k-means聚類和隨機采樣進行對比實驗。不同聚類方法和采樣方法的對比實驗結果見表4。

表 4 不同聚類方法和采樣方法對比
從表4對比結果可以看出,利用本文提出的最近鄰聚類方法與2種采樣方法進行組合,在UCSD和Fudan 2個數據集上均取得較好的預測性能。主動采樣與2種聚類方法進行組合后,在2個數據集上的標注結果也優于隨機采樣與2種聚類方法的組合,表明主動采樣能夠從每一組類別中選取更有代表性的樣本。最近鄰聚類與主動采樣進行組合,在4種組合實驗中獲得了最好的標注結果,證明了最近鄰聚類和主動采樣進行組合的方法的有效性。
標注精度是衡量樣本標注方法的重要指標。本文對比了6種代表性人群計數方法:GPR[2]利用高斯過程回歸從面積、周長等低級特征回歸人群數量;SRRP[23]將人群計數問題轉換為分類問題,并借助稀疏表示解決該分類問題;WANG等采用卷積神經網絡的方法回歸人群場景中的人數[24]。CSRNet設計了一種新的編碼解碼網絡結構預測人群密度圖[25]。LING等利用標簽分布學習建模人群的標簽模糊性,離散高斯分布初始化標簽分布[21]。此外,VGG網絡[26]是一種經典的神經網絡,在其他計算機視覺任務上展示了良好的性能。本文利用預訓練的VGG16網絡來回歸人群數量,其中將VGG16網絡的3層全連接層替換為全局池化層,以減小參數量。為了進一步驗證本文標注方法的有效性,在5個人群數據集上進行標注精度對比實驗,具體結果見表5。

表 5 不同計數方法在5個數據集上的對比
從表5可以看出,本文提出的標注方法在5個數據集10個評價指標上有6項優于其他計數方法。本文提出的方法在UCSD、Fudan和Canteen數據集上MAE指標略大于SRRP,但MSE小于SRRP;在Bus和Classroom數據集上,MAE和MSE均優于SRRP。Bus數據集拍攝于公交車場景,圖像質量較低;Classroom拍攝于教室場景,有復雜的背景干擾。對比SRRP,本文提出的方法表現出更好的泛化能力和魯棒性。與深度學習的方法相比,本文提出的方法整體上優于VGG和CSRNet,僅在Classroom數據集上MSE略差于VGG。
綜合上述結果可以看出,本文提出的標注方法不僅在標注成本上遠低于采用監督學習方式的計數方法,而且提出的方法預測結果更好。為了更好地證實本文所提出方法的標注精度,圖4展示了在5個數據集上標注結果與真值的對比。

(a) UCSD數據集 (b) Fudan數據集 (c) Bus數據集
從圖4可以看出,該方法在UCSD和Fudan數據集上取得了較為精確的標注結果,但在Canteen和Classroom數據集上存在一些偏差較大的標注值。總體來說,在4個數據集上標注效果較好,但在Bus數據集上的標注效果較差,因為Bus數據集記錄了公交車場景中的人群變化,其中復雜的背景干擾和擁擠的人群分布導致了標注效果較差。
為了進一步評估本文人群數量標注方法的有效性,利用標注結果訓練其他人群計數模型,通過評估預測結果與真實值之間的差異,驗證本文人群數量標注方法的有效性。為此,分別采用訓練集真值和通過本文標注方法獲取的標注值訓練3種計數模型,測試集則使用真值進行評估。由于Gist特征比低級特征對人群場景有更好的表征能力,因此本文在訓練GPR計數模型時使用Gist特征作為特征描述符。3種計數方法在5個數據集上的對比結果見表6。

表 6 真值和標注值訓練的計數模型結果對比
從表6可以看出,使用標注值訓練的計數模型和使用真值訓練的計數模型預測精度幾乎一致。這是由于在真值的標注過程中,可能存在人為標注誤差,當標注誤差與真值相差較小時,并不影響模型的訓練結果。因此本文提出的標注方法可以為其他計數模型提供訓練集所需的標記樣本。
由上述結果可知,本文提出的方法在UCSD和Fudan數據集上取得了精確的標注效果,在Canteen和Classroom數據集上獲取了較為精確的標注效果,在Bus數據集上標注效果較差。該標注方法在為其他計數模型提供樣本標簽時受訓練集的標簽精度影響較小。
為了進一步評價標注方法的有效性,本文分別利用真值和標注值訓練同一計數模型并對比預測結果,預測結果一致表明本文提出的標注方法可用于訓練其他計數模型。5個數據集上的真值和標注值訓練VGG計數模型對比如圖5所示。

(a) 真值在UCSD數據集上訓練的的計數模型 (b) 標注值在UCSD數據集上訓練的計數模型
圖5左側表示真值訓練的計數模型,右側表示標注值訓練的計數模型。對比結果可知,利用真值和標注值為監督信息訓練的計數模型在預測性能上沒有明顯差別,表明本文提出的標注方法可以為其他計數模型提供訓練樣本的標簽。
1) 提出一種基于最近鄰聚類和主動采樣學習的樣本標注方法。該方法利用含有相同或相近人數的視頻圖像在特征空間中距離相近的特性,實現人群數量的自動標注。
2) 采用最近鄰聚類在特征空間中對樣本進行聚類,通過主動采樣學習,從每一類樣本中選取少量具有代表性和多樣性的重要樣本進行人數標注。
3) 本文提出的樣本標注方法具有較低的標注偏差,利用標注樣本訓練的計數模型和利用真值訓練的計數模型預測結果具有較好的一致性。