□ 文/周井泉
隨著科技的進步,視頻監(jiān)控領域的技術也在不停進步,已經(jīng)從傳統(tǒng)的預覽、回放發(fā)展到在視頻中智能提取有效目標信息,也就是視頻結構化技術。
視頻結構化技術已成為安防行業(yè)非常流行的技術。所謂的視頻結構化技術,簡單理解就是通過智能分析算法,從原始視頻文件中自動檢測場景中的運動目標,包括人員目標和車輛目標,并分析提取該目標的屬性信息,如人員性別、是否背包、是否戴帽子等,以及車輛顏色、車牌號碼、車輛品牌等。
視頻結構化技術融合了機器視覺、圖像處理、模式識別、機器學習等最前沿的人工智能技術,隨著深度學習技術的發(fā)展和硬件設備性能的提升,基于GPU架構的深度學習應用方案已經(jīng)相對比較成熟。視頻結構化分析的過程可以簡單理解成三個模塊:目標檢測、目標跟蹤和目標屬性提取。
目標檢測過程是從視頻中提取出前景目標,然后識別出前景目標是有效目標(如:人員、車輛、人臉等)還是無效目標(如:樹葉、陰影、光線等)。在目標檢測過程主要應用到運動目標檢測、人臉檢測和車輛檢測等技術。
目標跟蹤過程是實現(xiàn)特定目標在場景中的持續(xù)跟蹤,并從整個跟蹤過程中獲取一張高質(zhì)量圖片作為該目標的抓拍圖片。在目標跟蹤過程中主要應用到多目標跟蹤、目標融合以及目標評分技術。
目標屬性提取過程是對已經(jīng)檢測到的目標圖片中目標屬性的識別,判斷該目標具有哪些可視化的特征屬性,例如人員目標的性別、年齡、著裝,車輛目標的車型、顏色等屬性。目標屬性提取過程主要應用基于深度學習網(wǎng)絡結構的特征提取和分類技術。
目標檢出率在視頻結構化產(chǎn)品的應用中意義非常重大,被關注的目標在某個場景內(nèi)出現(xiàn)而未被檢測到,直接導致整個視頻結構化分析結果無效,并且誤導用戶以為目標確實沒有出現(xiàn)過,而目標是否出現(xiàn)又是事先未知的,需要回到原始的辦法——人工看視頻查找。導致目標漏檢的原因很多,包括目標過小、光照不足、運動模糊、目標出現(xiàn)時間過短等因素。
想要通過屬性檢索快速鎖定所關注的目標,就必須要求屬性判斷準確率高。然而,對于那些成像質(zhì)量不好或者尺寸過小的目標,往往很難準確的判斷其屬性(即使肉眼也很難分辨)。屬性判斷有誤導致檢索應用中沒有把關注的目標檢索出來,同樣會導致檢索工作無效。
由于治安場景情況非常復雜,這就需要算法在各個場景下都能適用。在不同的場景具有良好的魯棒性,不至于在某些場景效果較好,但是在另外的場景效果很差。
在以往的案件偵破過程中,刑偵人員為了通過視頻獲取到嫌疑犯可能出現(xiàn)的地點,需要夜以繼日地通過人工查看相關的視頻內(nèi)容,從中找到嫌疑人在哪些地點出現(xiàn)過。視頻查看工作是案件偵查過程中必不可少的,也是效率最低、最費時的工作。
2015年,周克華案件偵破過程中,為了找到周克華的活動線索,民警花了兩個月時間,查看了近30萬GB的視頻,才最終發(fā)現(xiàn)了周克華的線索,30萬GB的視頻,相當于80萬部高清視頻,其工作量可想而知。
然而,利用視頻結構化技術,提前對治安監(jiān)控的視頻進行目標以及對應屬性的提取。一旦案件發(fā)生,民警只需根據(jù)嫌疑犯的特征,就可以從結構化圖片庫中檢索出所有與嫌疑犯特征相符的目標圖片,然后再從這些檢索結果中去查找嫌疑人的照片,定位嫌疑人的活動軌跡。在一般的案件偵破過程,刑偵人員需要從在幾十上百個點位的24個小時的錄像中查找嫌疑犯目標,但是利用視頻結構化技術只需要從幾百上千張的結構化圖片中去查找嫌疑犯,極大的降低了刑偵破案的人力資源和時間資源,大大提高了辦案效率。
在以往的視頻監(jiān)控應用中,需要把所有前端相機的錄像進行儲存。對于公安部門而言,一般需要存儲1-3個月的視頻,一個普通二線城市的視頻點位就有上萬個,對后端的存儲空間提出了很高的要求。雖然視頻編解碼技術的發(fā)展,有效緩解了視頻存儲的壓力,但是沒有從根本上解決視頻存儲問題。
視頻結構化技術,通過提取視頻中有效信息圖片進行保存,剔除無效信息,可以極大地提高設備存儲的利用率。舉個簡單的例子:對于一個偏僻的道路卡口場景,夜間8個小時有700輛汽車通過,8個小時的錄像相當于約70萬張圖片(按1秒25幀計算)視頻結構化的分析的結果,而理論上有700張有效的車輛圖片即可,兩者相差1000倍的數(shù)據(jù)量。因此,視頻結構化技術讓存儲設備的利用率提高了1000倍。

在安防行業(yè),所謂的大數(shù)據(jù)通常是指視頻大數(shù)據(jù)。然而,傳統(tǒng)的視頻大數(shù)據(jù)的數(shù)據(jù)量非常大,而且存在大量的無效信息和冗余信息。如何有效地提取視頻大數(shù)據(jù)中真正對客戶有價值的信息,就是視頻結構化技術所能體現(xiàn)的價值。從大數(shù)據(jù)和視頻結構化兩者關系來看,視頻結構化技術屬于大數(shù)據(jù)的應用,視頻結構化技術從視頻大數(shù)據(jù)中提取出所有的目標信息,并把這些目標信息以圖片的方式進行存儲,將視頻大數(shù)據(jù)轉換成圖片大數(shù)據(jù)。
在安防行業(yè),視頻結構化技術同樣屬于智能分析技術,可以理解為對原有智能分析技術的補充。原有的智能分析技術是通過事先定義異常事件規(guī)則,然后對視頻中目標運動行為進行智能分析來判斷是否屬于異常事件。它更多的是關注于事件本身,例如是否有人員目標進入到某個區(qū)域,是否有車輛目標出現(xiàn)違法停車或者非法變道等。智能分析的主要應用是異常事件實時布控,確保異常事件發(fā)生后第一時間能告知用戶。而視頻結構化技術是將視頻場景中的運動目標檢測出來并提取該目標的可視化特征。它更多的是關注于目標本身,例如車輛目標的顏色和類型,人員目標的性別、年齡、著裝等。視頻結構化技術的主要應用是目標的追蹤,搜索出目標可能出現(xiàn)的所有位置,生成目標的活動軌跡。當然,視頻結構化技術也可以和原有的智能分析技術結合應用。例如通過實現(xiàn)錄入,可以對人員和車輛的圖片進行實時目標布控,當布控人員或車輛出現(xiàn)在監(jiān)控畫面中時可以第一時間告知用戶,人臉卡口的實時報警系統(tǒng)就是其中最為典型的一個例子。
隨著視頻結構化技術在安防領域的興起,越來越多的公司開始在視頻結構化技術領域投入研發(fā)資源。其中,??低曉谝曨l結構化實戰(zhàn)應用中走在隊伍的前列,??低曇呀?jīng)推出了自己的視頻結構化產(chǎn)品——獵鷹,該產(chǎn)品基于高密度的GPU硬件方案,并采用國際領先的深度學習網(wǎng)絡框架的人工智能學習算法,單臺設備支持40路實時視頻結構化分析或40倍歷史錄像結構化分析。獵鷹所采用的先進算法在復雜的治安場景下仍具有良好的適用性,精確捕獲各類場景中出現(xiàn)的目標和目標屬性。設備支持多目標按屬性進行檢索,篩選出用戶所關心的目標,提高用戶的查詢效率。
現(xiàn)階段,視頻結構化技術的應用場景除了人臉卡口場景和車輛卡口場景,最多的應用場景還是治安場景。由于人臉卡口和車輛卡口對于前端相機參數(shù)和相機的安裝規(guī)范和場景的選擇都有非常高的要求,因此在實際應用中可以最大程度的避免外界干擾對算法性能的影響。然而,對于治安場景而言,相機安裝沒有統(tǒng)一規(guī)范,應用場景復雜多樣,前端相機性能參差不齊。因此,視頻結構化技術在治安場景下的實際應用中還面臨著許許多多的問題。主要包括:
治安場景覆蓋范圍大,場景目標尺寸過小。特別是大場景下遠處的目標,即便是肉眼也很難辨認,目前的算法對于這類目標的檢測效果比較差,更別說提出該目標的屬性信息;
場景中遮擋問題。視頻結構化技術完全依賴于視頻圖像,一旦目標被遮擋,那算法也無能為力。在治安場景下,往往存在樹葉、樹木、建筑物的遮擋,或者是大目標遮擋小目標等情況;
低照度問題。對于卡口場景,夜間會有相機的補光措施。但是,對于普通的監(jiān)控相機一般是不具備補光功能,因此在夜間或者照度很低的情況下,往往容易出現(xiàn)目標檢測不到或者目標屬性無法提取的情況;
運動模糊問題。在某些情況下,場景的光照不是特別充足,由于相機的曝光時間設置較長或者目標運動速度較快,會導致目標出現(xiàn)非常嚴重的運動模糊。針對這類模糊的目標,檢測效果往往比較差;
人員過于擁擠的場景。對于某些場景,如火車站廣場,人員非常擁擠,人員之間的遮擋非常嚴重。對于這類場景對于算法的效果影響也非常大。