吳冬
智能視頻分析技術應用研究
吳冬
智能視頻分析包含的范圍很廣,很多智能視頻分析技術已經在各個行業發揮了重要的作用。本文討論智能視頻分析技術結構、內容、難點、應用與發展趨勢,重點討論智能視頻分析在視頻監控行業中的應用,期望能為智能視頻分析技術的應用、研究與發展提供借鑒。

計算機視覺技術在圖像及圖像描述之間建立映射關系,從而使計算機能夠通過數字圖像處理和分析來理解視頻畫面中的內容。視頻智能分析(IVS,Intelligent Video Surveillance)主要指計算機“自動的抽取和分析視頻源中的關鍵信息”,按照一定的規則進行判斷并決定是否給出報警。如果把攝像機看作人的眼睛,而智能分析系統可以看作人的大腦。
隨著近年來視頻監控系統的大力建設,各個行業的攝像機越建越多。僅僅在平安城市的建設中,至2010年,根據北京市公安局的統計數據,公安建設的各類監控有270多萬個,共享社會資源300多萬個。在傳統的視頻監控模式下,通過有限的電視墻人工監控來監看實時事件;通過人工根據時間段和大致地點來查找已發生的事件。如此多的攝像頭,極少量的電視墻,人工實時監視根本無法顧及。統計信息顯示,人工不能有效監控多個電視屏幕,操作人員盯著屏幕電視監控超過10分鐘后將漏掉90%的視頻信息,來自其他事件將會干擾監控的效果(例如電話、聊天等)。在發生事件后,通過人工來檢索事件變得比較困難而低效,大部分事件稍一疏忽就會遺漏過去。倫敦七七爆炸案中,有100多位安保人員花費了70多個工時才在大量磁帶中找到了需要的信息。
另外,成千上萬的攝像頭給管理部門的維護也帶來麻煩,如何確定每一路視頻是否在正常工作也成為一個難題;有一些視頻會因為大風或震動出現抖動;也有一些視頻因為大霧而變得不清晰等等。
而智能視頻分析技術的出現正是為解決上述問題,它能協助進行視頻質量的診斷,幫助確定哪些攝像機可能存在問題;它能對實時視頻進行24小時不間斷的分析,而不會感覺疲勞或被打擾;它可以幫助我們智能搜索感興趣的內容而不是一幀一幀的查找視頻。但是,它并不能代替我們工作,要明確智能視頻分析所起到的作用是輔助的,它可以通過科技力量提高工作的效率,做出最終判斷還是人工。
基于現有的視頻監控系統架構,智能視頻分析系統有不同的系統結構。
針對傳統的模擬視頻監控系統,通常增加外置DSP處理主機(集成軟件License)或工控機+視頻采集卡+軟件License。
針對傳統的IP視頻監控系統,通常增加外置嵌入式主機+軟件License或服務器+軟件License。
基于視頻質量的分析主要由兩個方面,視頻質量診斷主要用于設備運營管理,在中、大型視頻監控系統中的作用非常明顯;視頻圖像增強用于改善的視覺效果,用于某些特定的場合。
視頻質量診斷
功能:視頻信號缺失、遮擋、清晰度異常、亮度異常、噪聲、雪花、偏色、畫面凍結、PTZ運動失控等。
通過基于視頻圖像比對的方法、機器自動學習的方法、模擬運動指令圖像分析等方法對視頻質量的異常進行分析,并對異常的攝像機提出報警,由人工進行檢查修正。機器自動學習的方法在實際視頻監控系統中應提取大量的視頻片斷,包括正常視頻以及存在各種故障的視頻,形成訓練樣本,并模擬人類視覺特性,針對不同故障類型提取了大量視頻圖像特征參數,用以訓練檢測系統。
在實際運行場景中,視頻質量診斷系統應當通過自動學習適應攝像機在室外環境下的光線變化、場景變化、季節變化、各種不同的安裝視角、球機或云臺的運動適應,特別需要加強自動學習能力方面的設計,與人眼的識別不同,機器是通過各種參數來識別,場景變化對機器來說更加敏感,所以自動學習適應能力對視頻質量診斷系統來說尤為重要,通過對新樣本的訓練來提高系統的性能是可行的。
視頻圖像增強
功能:抖動穩定、去霧、降噪、增強清晰度、雨天增強、昏暗環境增強、沙塵天氣增強等。
視頻圖像增強是加強圖像中感興趣的信息,它可以是一個失真的過程,其目的是要改善圖像的視覺效果,針對給定圖像的應用場合,有目的地強調圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強調某些感興趣的特征,擴大圖像中不同物體特征之間的差別,抑制不感興趣的特征,使之改善圖像質量、豐富信息量,加強圖像識別效果,滿足某些特殊分析的需要。
圖像增強技術根據增強處理過程所在的空間不同可分成兩大類:空間域法和頻率域法。
空間域法是對圖像中的像素點進行操作,用公式描述如下:

其中是f(X,y)原圖像;h(X,y)為空間轉換函數;g(X,y)表示進行處理后的圖像。
頻率域法是間接的處理方法,是先在圖像的頻域中對圖像的變換值進行操作,然后變回空間域。例如,先對圖像進行傅里葉變化到頻域,再對圖像的頻譜進行某種濾波修正,最后將修正后的圖像進行傅里葉反變化到空域,以此增強圖像。
在實際的應用場景中,專業的圖像增強系統應用比較少,很多IP攝像機集成了視頻圖像增強功能,只要在參數中選擇設置即可。視頻圖像增強技術雖然取得了一定的進步,例如模糊映射理論、交互式圖像增強技術的應用,在特定的專業領域有比較好的應用,在通信領域中應用的效果有待改進。
基于視頻內容的分析主要集中在對目標的識別(人、物體、圖標等)以及目標是否違反了設定規則的判斷,另外還有對環境變化的分析。
對人的分析無疑是智能視頻內容分析的重點中的重點,絕大部分智能視頻分析的規則都涉及到人。單個攝像機成像是二維的,而實際場景中的人是在三維的立體空間中活動,對于智能視頻分析系統而言,精確的識別出人以及跟蹤人的運動狀態非常重要,這將作為基礎數據來進行下一步的分析。為適應各種不同的安裝角度、視場大小的攝像機,基于采集的二維圖像建立三維的立體模型是一個有效的方法,利用三維的立體模型設置相關的檢測參數,再將三維的模型映射到二維的場景中是一個可行的方法。在更加高級的智能分析中,針對變焦攝像機的場景變化自動適應而無需額外的設置,但這種技術尚不成熟。
對于物體、圖標等的識別原理與人的識別類似,應用三維模型、機器自動學習、模式識別庫等技術能夠有效的區分物體。對于不同的物體還可以增加該物體的特征以獲得更好的識別結果,例如對于車輛的識別,可以增加車燈、車窗、車體、車型方面的特征,對于圖標的識別可以增加圖案、紋理等方面的特征。根據具體的應用領域進行特定的優化有助于更好的識別目標。

規則就是由用戶預先設定的一些參數條件,智能視頻分析最常見的就是對目標違反預設規則提供的報警:
最常見的規則是入侵檢測:虛擬警戒線、警戒區、區域進入及離開、區域出現及消失、區域逗留、虛擬圍欄等。入侵檢測的重點是對目標類型的準確判斷,對于入侵行為的檢測的精細度,以及極少的誤報率。
針對人的分析常見的類型:尾隨、徘徊、反向移動、人員計數、人群密度、人群聚集、劇烈運動、異常動作、值崗檢測等。針對人的分析重點是對人的精確識別,對于規則建立機器自動學習的模式庫,加強對真實樣本的訓練,對特定應用領域安裝條件、補光條件的限制。
其它規則:非法停車、遺留物、目標移動、靜態跟蹤、PTZ自動跟蹤、PTZ接力自動跟蹤、車輛事故、車輛排隊等。
特征識別是智能視頻分析系統根據動態分析的結果連續或抓拍單張圖片對某些特征進行識別。
常見的特征包括:車牌號碼、車牌顏色、車輛類型、車身顏色、車輛廠商標志、人臉識別、人的性別、人的身高、人的年齡、特定圖標識別、細胞類型識別等。
特征的識別對于安裝環境條件的要求比較高,一般會有特定的攝像機類型、安裝位置限制、補光條件等,以獲得穩定可靠的高質量圖片,取得比較好的識別效果。特征識別往往會采用模式識別的方法,綜合利用機器自動學習技術、模式庫技術、樣本訓練提高識別的準確率,在實際環境中的不斷應用改進能極大提高識別準確率。
環境變化指對視頻中用戶特別關注的某些特定變化進行報警。
常見的類型:煙霧、火災、大雪、冰雹、暴雨等。此類為特定應用,較少使用。
復雜的視頻源
視頻來源復雜,特別是在平安城市的項目中,往往有來自多個廠商的不同型號、規格的攝像機,這些攝像機成像效果差別較大,包括:視頻亮度、顏色、清晰度等等。對于智能視頻分析系統來說,必須克服這種差別,提供一致的結果。
攝像機安裝條件不同與補光條件不同
攝像機安裝條件各不相同,包括安裝高度、角度、參數設置等,可能針對的場景也不相同:廣場、通道、室內、十字路口、道路斷面、街道、廠房等等。這些地方有的有路燈,有的完全沒有補光,有的安裝了專用的補光燈,最終成像也千差萬別。如此多的安裝條件導致建立二維到三維的映射模型變得相當困難,補光條件的差異會導致成像效果的巨大差別,給智能視頻分析帶來更多的難度。
不受控制的攝像機參數
增加智能視頻分析系統往往只是從已建視頻監控系統中獲取數據,并不能控制攝像機的參數,這對于視頻分析來說非常不利。例如,要對高速運動的物體成像清晰需要比較高的快門,但對于夜間比較弱的補光要使動態監控圖像清晰則需要相對較低的快門。不受控制的攝像機參數對于智能視頻分析應用也是一個限制。
變化的場景
球機或云臺槍機一般都可以變化場景與聚焦,對于智能視頻分析來說,要比較精確的識別就要對場景進行建模并進行用戶預先的設定,而動態變化的球機或云臺槍機則難以進行標定。適應變化的場景對智能視頻分析系統來說是一個艱巨的挑戰,目前并沒有技術能很好的解決這一問題。
大場景、小目標與多種類的復雜事件
對于固定總像素的攝像機,場景越大,針對的目標像素就相對越小,用戶總是希望能再同一臺產品實現所有的功能。對于目標檢測,小于一定的像素值時誤差將會呈指數形式的增長,過大的場景中會發生過多過復雜的事件,以目前設備及算法的性能難以負擔,這也是在應用中遇到的挑戰。
場景環境變化
基本上所有的攝像機都會遇到場景環境的變化,白天、黑夜、黃昏、陰天等等,特別是對于室外使用的攝像機,風、雪、雨、霧以及季節性氣候變化都會給環境場景帶來變化。智能視頻分析系統必須適應或排除這些變化才能取得比較好的應用效果。
平安城市之高清卡口
平安城市之高清卡口的應用中,通過單一的攝像機規格型號、一致的安裝條件要求、特殊的補光系統設計、可以控制的攝像機參數、固定的攝像機場景,使室外斷面的成像在白天、黑夜以及各種環境變化情況下保持很好的一致性,使系統能夠捕獲高清晰的運動目標的圖片并進行特征的識別。
監獄、看守所及戒毒所
監獄、看守所及戒毒所的應用中,主要應用于室內,室內環境相對單一而且環境變化比較穩定,通過對各種智能視頻分析功能在此環境中實際應用的分析,將一些重要并且檢測準確率高的應用提煉出來,例如:視頻質量診斷、警戒線、起身、區域看防、劇烈運動、值崗等,以達到比較高的檢測準確率(99%),較低的誤報率(小于1個/天.路),達到比較好的輔助管理效果。
銀行ATM自動取款機
銀行ATM自動取款機一般范圍比較小,環境相對單一,而且補光條件一般都比較好,這對于智能視頻分析來說是非常好的條件。而且銀行ATM自動取款機涉及敏感的金錢,對安保的需求比較高,特定的智能視頻分析功能應用比較成功,例如:人臉識別、尾隨、劇烈運動、異常動作等。
工業檢測
工業檢測領域已經廣泛應用了智能視頻分析技術,利用智能工業攝像機分辨率可以達到1/10mm,超過人工的視覺,特殊的攝像機可以達到更高的精度。在飲料行業,智能視頻分析可以輔助判斷安裝飲料的高度、瓶蓋安裝是否正確、廠商標志是否清晰等,工業檢測一般都在室內,可以固定攝像機安裝條件、充足的補光、相對單一的檢測功能使智能視頻分析相對可以得到更成功的應用。包括在汽車制造業、輪胎制造業、物流業、機械制造業、印刷質量檢測、視頻加工業、鋼鐵鑄造業、農業等各個領域獲得比較成功的應用。
醫學成像分析
在醫學中,視頻智能分析也獲得了比較成功的應用,利用現代化的科技儀器,可以在顯微鏡下拍攝清晰的圖片,利用物理的方法進行分析是醫學上最可靠的方法。一種典型的應用是尿液分析儀器,雖然可以用試紙等化學的方法進行分析,但由于進行了化學上的變化可能導致原有的細胞發生變化,利用物理的方法進行攪拌沉淀后,采用高清攝像機進行拍攝,可以得到穩定清晰的圖片,再利用視頻智能分析的方法對各個不同種類的細胞進行統計,這能保持最真實的結果,在高端或疑難病因檢測時往往采用此方法。
平安城市之監控視頻分析
平安城市之監控視頻分析的應用中,監控視頻來源復雜,場景大小多,安裝條件復雜,補光條件也各不相同,而平臺城市的視頻監控中客戶要求實現的功能也比較多,因此大多數項目都是雷聲大雨點小,最后不了了之。需要引導的是,目前并非所有的攝像機都適合進行智能視頻分析,具備一定的外部條件才可以,并非所有的功能都能在一路視頻上實現,需要根據應用的環境選擇合適的應用功能。
機場安防
機場是重點的安防場所,安防投入也比較多,但智能視頻分析在機場沒有取得比較成功的應用。在機場的周界中,除了防范地面的破壞還要防范地下的破壞,智能視頻分析只能防范地面上的入侵。另外,與其他大場景的視頻監控一下,不同安裝條件、不同型號的攝像機,不同的補光條件對智能視頻分析的準確性和誤報率造成比較大的影響。在機場室內安防中,主要關注人和物的安全問題,人臉識別獲得一定的應用,而其它的智能視頻分析功能則有待進一步開拓。
平安校園
校園是一個特殊的場合,特別是近年來針對校園的暴力事件發生后,國家對校園的安防投入增加了許多,但同樣的問題是視場、安裝條件、補光環境等方面的差異比較大,另外,針對有干擾的圍墻入侵檢測更容易發生誤報而導致系統實用性能不佳。
軌道交通安防
軌道交通同樣是一個對安防有比較高的需求的行業,但目前沒有比較好的應用。與其它探索中的應用不同,軌道交通中的地鐵市內監控環境相對比較好,如找到比較合適的應用切入點,其功能相對會比較穩定。
其它行業及領域
在其它行業及領域,智能視頻分析也有探索與應用,包括平安社區。與大部分探索中的應用一樣,克服安裝條件的限制、補光條件的限制是智能視頻分析需要持續改進的,現階段,對于安裝場景的大小必須具有一定的約束,適應變化的場景是一個長期的任務。
開發在特定領域的優化應用將是智能視頻分析進入實用的重要階段,例如在高清卡口領域,限定安裝環境、補光環境、可控制的參數與一致的攝像機,從而在室外環境中獲得高度可用的視頻源信息。在其它的領域,可以針對核心的應用需求制定特定的解決方案,使用專用的產品提高性能,從而達到比較高的可靠性與比較低的誤報率。

智能視頻分析技術對視頻源進行分析,由于數據量巨大,算法復雜,因而非常消耗CPU資源。采用集中處理將增加大量額外的處理器,使整個系統變得復雜,增加系統故障節點。隨著智能攝像機技術的發展,攝像機集成CPU處理運算能力的提高,攝像機集成智能視頻分析技術將是未來的趨勢。實際上,目前已經有相關的產品,但產品的類型、功能上尚存在不足,價格相對比較高,未能進入主流的應用。
相同的品牌、型號的攝像機安裝在不同場景中成像效果都會發生一定偏差,不同品牌、型號的攝像機之間這種偏差就更大。智能視頻分析針對同一目標在不同攝像機間進行分析時,需要獲得相同的結果,這就需要加強在不同場景中同一目標相同特征的提取與識別技術,否則跨攝像機的目標搜索將會是一個災難。
視頻監控發展到現在的階段,各種優化技術層出不窮,最新的IP監控系統中利用H.264編碼能極大的減少監控存儲的碼流。但在平安城市的建設中,數萬個攝像機中,大部分攝像機在絕大部分存儲的無效的視頻信息。通過智能視頻分析,除了重點監控目標外,大部分攝像機可以只存儲感興趣的碼流(例如有動態目標),另外,可以進行智能的標記,方便進行檢索,從而實現智能存儲,極大的減少無用的信息存儲。
變化的球機或云臺對智能視頻分析一直是一個困擾,動態場景的自適應建模與分析將是智能視頻分析系統前進道路上必須克服的一座大山。
在平安城市建設中的公安應用中,智能視頻內容檢索一直是公安客戶非常關注和有用的一個功能,甚至,只要準確率能達到30-50%也非常有用,這非常罕見,大部分的功能都要求準確率達到90%以上。但這確實是一個艱難的任務,在復雜的視頻源中,不同安裝條件下,不同的場景中,不同的攝像機中,尋找同一個目標非常困難。客戶的強烈需求會推動技術的持續進步,而技術持續研發就是為客戶解決問題,相信不久的將來會有新的技術、新的方法來解決這一問題,從而推動安防監控行業不斷前行。
作者單位:深圳市博康系統工程有限公司