曹 誠, 卿粼波, 韓龍玫, 何小海
1(四川大學 電子信息學院,成都 610065)
2(成都市規劃設計研究院,成都610081)
在中國城鎮化路徑轉型和信息通信技術高速發展的背景下,人本尺度的城市量化研究日益受到規劃界的重視,獲取多源而維度豐富的行人信息至關重要[1].記錄城市公共空間行人信息的天網系統視頻大數據是城市規劃領域潛在的數據來源,具有信息完整、維度豐富和粒度可調三大優點,可以對城市公共空間中高度動態化的人類活動場景進行精細化描述,具有巨大的研究前景[2,3].
目前城市量化研究中需要的行人數據包括經過人數、滯留時間、移動方向、年齡結構、性別、情緒、活躍程度等. 其中年齡結構、性別、情緒、活躍程度等學術界研究成果相對不成熟,而人數、滯留時間、方向等則可以通過對個體進行檢測、跟蹤來實現,相對較準確且成熟. 目前對于群體量化分析主要采用基于密度檢測算法來實現大致的群體人數估計[4],卻無法分析行人個體信息. 本文選取了與目前的研究熱點“城市街道活力評估”、“空間品質評價”等最相關的3種數據——人流量、滯留時間以及移動方向,通過以個人為本來進行城市量化研究[5,6].
為了充分利用視頻數據所蘊含的行人信息,本文結合基于深度學習的目標檢測技術及基于核相關函數的目標跟蹤技術,實現了監控區域中人流量、滯留時間、移動方向等多種參數的分析,為城市定量化研究提供準確有效的數據支撐.
為了獲取量化分析的行人數據,需要首先檢測視頻中的行人,然后為確保行人的唯一性,需要對行人進行跟蹤操作. 本文設計的系統如圖1所示.

圖1 系統方案示意圖
指定攝像頭采集視頻中的監測區域,檢測指定區域內的行人目標,為了能更好的達到記錄行人目標的信息的效果,本系統添加對檢測的行人目標進行跟蹤操作,同時記錄對應的量化數據信息,最終將記錄的信息進行分析.
由于只研究視頻中感興趣區域的行人信息,因此本文需要指定監測區域(即感興趣區域),類似于圖2中多邊形所示.
傳統方法在行人檢測方面精度雖然高,但面對真實視頻的實時性、背景復雜多樣、場景光照強弱變化、行人衣著和姿態多樣化以及拍攝角度多樣化等因素時,傳統方法存在明顯不足.

圖2 指定監測區域
基于前向傳輸卷積神經網絡的Single Shot Multi-Box Detector網絡(簡稱SSD網絡)[7]在VOC2007測試圖像中,輸入300×300大小圖像時,SSD網絡達到72.1% mAP的準確率,58 fps,符合實時高精度的要求.故本文采用SSD網絡來進行行人檢測.
通過預設不同長寬比的濾波器,預測邊界框中的對象的類別與偏移,并將濾波器應用于網絡后期的多個特征圖中,用于實現多尺度檢測. 通過以上操作,即使對于低分辨率的圖像,SSD網絡也能實現高精度與快速檢測. 對于本文視頻中不同尺度的行人目標有很好的檢測適用性.
為了能夠準確的判斷SSD網絡檢測的行人是否在指定的監測區域,本文采用射線法[8]進行判斷.
射線法從被判斷點向無窮遠處作平行于水平橫軸的射線,計算該射線與多邊形各邊的交點個數. 若交點個數為奇數則該點位于其多邊形內部,若沒有交點或者交點個數為偶數則該點位于其多邊形外部.
當判斷檢測的行人目標是在指定的監測區域內部時,為獲取所需的信息,接下來需對檢測的行人目標進行跟蹤操作.
為了滿足系統的需求,結合跟蹤算法在跟蹤速度和跟蹤性能上要求,本文采用基于核函數的相關濾波器跟蹤算法(Tracking Algorithm with Kernel Correlation Filter,簡稱KCF跟蹤算法)[9].
KCF算法總體思想為通過提取目標周圍區域的圖像,巧妙使用循環矩陣方式構造大量正負樣本用于訓練分類器,利用循環矩陣在傅里葉空間可對角化的性質將矩陣的運算轉化為向量的哈達瑪積(HadamardProduct)來對候選區域進行評估,其中響應最大的候選區域即為目標所處的新位置,最后對分類器參數重新訓練以及更新.
KCF跟蹤算法跟蹤速度快,跟蹤效果好. 然而KCF跟蹤算法主要針對于單目標跟蹤,而本文需要進行多目標跟蹤,本文通過將SSD網絡檢測到的多行人目標分離,對每一個行人目標進行KCF算法的跟蹤,實現了將KCF跟蹤算法用于該場景下的多行人目標跟蹤[10,11].
鑒于實際城市街道場景中背景相對比較復雜,結合所采集的視頻,應用原始KCF跟蹤算法,當行人目標相互遮擋嚴重時,會出現KCF跟蹤算法跟蹤目標的丟失情況. 因此需要一種有效的方式來評估KCF跟蹤算法對于目標跟蹤的準確性. 本文引入峰值旁瓣比(Peak to Sidelobe Ratio,PSR)用于評估目標KCF跟蹤算法跟蹤準確性[12]. KCF中循環樣本找到的最優濾波器與候選區域的檢測響應輸出分布模型如圖3所示,其中響應最大值即為峰值gmax.

圖3 PSR模型
PSR值計算原理:將響應峰值gmax中心11×11矩形區域之外的其余區域稱為旁瓣區域,同時計算出旁瓣區域的均值 μ 和方差 σ . 利用式(2)即可計算出PSR值.

設置PSRthreshold 閾值,當PSR≥PSRthreshold時,表示該跟蹤目標是可靠的,繼續跟蹤該目標; 反之則認為該跟蹤目標發生嚴重遮擋,判定該跟蹤目標丟失.
SSD網絡檢測到的多行人目標如何與KCF跟蹤算法正確結合實現是本文的重點工作.
首先指定監測區域,接下來進行SSD檢測多行人目標,同時初始化KCF跟蹤對象. 在接下來讀入的幀中,先進行SSD檢測行人目標,然后獲取當前幀KCF跟蹤的多行人目標,判斷行人目標是否還在指定的檢測區域內,同時結合PSR判斷目標是否丟失,放棄跟蹤丟失的行人目標. 下一步判斷SSD檢測的多行人目標是否均與KCF跟蹤的多行人目標相同,將不同的目標進行KCF對象初始化,依次執行. 具體流程可參考圖4多目標檢測與跟蹤的實現流程圖.

圖4 多目標檢測與跟蹤的實現流程圖
每次指定監測區域后,檢測從視頻中讀取的第一幀圖片,將檢測到的所有行人目標坐標信息用于初始化KCF算法對象的分類器模型.
在讀取視頻下一幀后,首先記錄檢測當前指定區域內行人坐標信息; 接下來更新KCF算法對象對當前幀的跟蹤,同時判斷目標是否仍在指定的監測區域里,計算目標在指定的監測區域里水平方向上累計的移動距離τn.
(1)累計移動距離計算公式如式(2)(3):

其中 Δ τn表示第n個行人目標當前幀與前一幀重心X軸距離差,用于實時的顯示行人目標的移動方向.τn2為行人目標當前幀指定監測區域的重心X軸位置,τn1為行人目標前一幀指定監測區域的重心X軸位置.τn為行人目標在指定監測區域內重心X軸位置累計改變值,用于記錄行人目標在指定監測區域內總體的移動方向.
每一秒鐘記錄當前幀中指定監測區域里總目標數量、目標的移動方向、目標在該監測區域所滯留時間和目標在該監測區域移動速度以及當前視頻幀的真實世界的時間.
(2)滯留時間計算公式如式(4):

其中 Δ Tn表示第n個行人指定監測區域的滯留時間.Tn1表示該行人進入指定監測區域的時間,Tn2表示該行人離開指定監測區域的時間.
(3)速度計算公式如式(5):

Vn表示第n個離開指定監測區域的行人目標經過該指定監測區域得速度值. D表示該指定監測區域的長度.
接下來依次讀取下一幀直至視頻結束或者重新指定監測區域.
為了能夠更好的為城市定量化研究提供準確有效的數據支撐,本文于成都市某街道拍攝480小時的視頻,對其中某一天24小時視頻進行處理. 其中視頻分辨率1280×720,幀率20,視頻畫面左上角對應拍攝的世界時間信息. 測試平臺:惠普Z820工作站、Intel Xeon E5處理器、32 G內存; Nvidia Titan X顯卡、12 G顯存.
本文結合街道場景,設置以下的指定監測區域,得出如圖5所示的實際效果圖.
其中圖5(a)中很好的檢測到指定監測區域內11個行人目標,并對其進行標號1-11. 從圖5(b)中能看出目標都成功跟蹤,其中9號已被完全遮擋,但實現跟蹤. 圖5中(c)(d)子圖為驗證不同街道場景下本文方法檢測與跟蹤效果,可以看出,圖中指定監測區域內行人目標已成功檢測與跟蹤.

圖5 行人檢測與跟蹤
經過測試,平均處理一幀的時間為49 ms,平均幀率20.4 fps,達到實時處理效果.
本文通過檢測跟蹤指定監測區域內的行人目標,分析其在指定監測區域內的運動信息,得出如圖6、圖7、圖8所示的信息圖.

圖6 24小時行人的總數量和移動方向

圖7 行人逗留時間分布

圖8 行人速度分布
圖6中可以清楚看到24小時內通過該指定監測區域內行人的總數量以及移動方向,可以獲知何時通過該指定監測區域的行人數量最多,行人移動哪個方向上數量最多. 該信息可用于城市街道活力分析中的定量分析,以及提供了活力研究的定向數據,為進一步深入的研究街道活力提供了較為具體的數據.
結合圖7,得出行人通過該指定監測區域的平均時間為16.02 s. 結合監控視頻和行人通過指定監測區域時間得出:1)通過時間為10 s以下的行人基本上是從花壇邊橫穿過或者騎車,其中通過時間為4 s的基本上都是騎車快速通過; 2)通過時間為10 s至22 s之間的行人采用正常速度; 3)通過時間為23 s以上的行人多數為散步或者一群人. 其中通過時間為60 s和140 s的為環衛工人.
結合圖7得出圖8所示的行人通過該指定監測區域的速度圖以及實際的距離,平均速度為1.25 m/s.
根據實時記錄行人移動軌跡方向和視頻信息,得出如表1所示數據.

表1 行人總數和移動方向
通過對視頻的分析,發現在視頻右上角的位置上有個公交車站(站牌被遮擋),以及右側有小區入口. 因此行人朝右的數量明顯比朝左的數量要多.
本文采用深度學習,同時結合多目標跟蹤的方式,實現對監控系統視頻中城市街道中的行人信息定量和定向的分析,為城市研究者開展城市量化研究工作提供一定意義上的參考. 然而本系統存在當出現行人遮擋時,會出現漏檢情況的問題,有待于進一步的研究.同時結合城市規劃需求,對數據做出進一步的分析.
1 龍瀛. 街道城市主義新數據環境下城市研究與規劃設計的新思路. 時代建筑,2016,(2):128-132.
2 唐婧嫻,龍瀛,翟煒,等. 街道空間品質的測度、變化評價與影響因素識別——基于大規模多時相街景圖片的分析.新建筑,2016,(5):110-115.
3 Khan SD,Vizzari G,Bandini S,et al. Detecting dominant motion flows and people counting in high density crowds.Journal of WSCG,2014,22(1):21-30.
4 樂勇. 基于監控視頻動態信息分析的人流密度檢測算法的研究[碩士學位論文]. 南京:南京郵電大學,2015.
5 姜蕾. 城市街道活力的定量評估與塑造策略[碩士學位論文]. 大連:大連理工大學,2013.
6 郝新華,龍瀛. 街道綠化:一個新的可步行性評價指標. 上海城市規劃,2017,(1):32-36,49.
7 Liu W,Anguelov D,Erhan D,et al. SSD:Single shot MultiBox detector. Proceedings of the 14th European Conference on Computer Vision-ECCV. Amsterdam,The Netherlands. 2016. 21-37.
8 苗春葆. 點與多邊形關系的射線法. 電腦編程技巧與維護,2008,(3):56-58.
9 Henriques JF,Caseiro R,Martins P,et al. High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596. [doi:10.1109/TPAMI.2014.2345390]
10 Ess A,Leibe B,Schindler K,et al. A mobile vision system for robust multi-person tracking. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA. 2008. 1-8.
11 Wu HL,Li WH. Robust online multi-object tracking based on KCF trackers and reassignment. Proceedings of the 2016 IEEE Global Conference on Signal and Information Processing (GlobalSIP). Washington,DC,USA. 2016.124-128.
12 Bolme DS,Beveridge JR,Draper BA,et al. Visual object tracking using adaptive correlation filters. Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco,CA,USA. 2010.2544-2550.