郭佳驁 劉在田 閏子龍 苗喬偉
近年來,人們對社會公共安全問題的關注度不斷提高。視頻監控系統的普及成為創建“平安城市”,提高人民社會安全感的有效保障。當下,解決從監控圖像與視頻中尋找已知人物的行人重識別( Personre-identification)問題被迅速提上日程,在人工智能領域,神經網絡與深度學習算法的應用成為解決此復雜問題的重要途經。
在深度學習領域,神經網絡訓練需要大量被標注的數據集樣本,而在大數據快速發展的今天,在短時間內進行大量的數據標注工作來實現監督學習是不現實的。無監督遷移學習是指將數據標注這種龐大而復雜的工程,通過程序交由計算機處理,處理方式可以通過遷移已有模型進行訓練。因此,提高無監督學習的成效成為當下亟待解決的關鍵問題。
目前在無監督研究領域,多數研究成果是基于遷移學習模塊,小部分研究涉及最新的注意力模塊的應用,而在多源域方面,目前的研究鮮有涉及。本文通過結合“多源域”與“遷移學習”,研究行人重識別問題,通過對注意力模塊的進一步研究,將模塊進行結合并論述多源域無監督算法的可行性與應用情況。
研究背景
當下,社會公共安全問題逐漸被人們重視,視頻監控系統大量普及,實時監控著人們在公共場所的行為,并作為安防安保建設工程的核心內容。傳統監控體系下的人工排查方式會耗費大量人力物力,在大型監控網絡中存在明顯的劣勢。因此結合計算機視覺技術進行智能視頻監控、跟蹤和檢索成為刑事偵查中亟待解決的重要課題。
行人重識別是利用計算機視覺技術判斷圖像,或者視頻序列中是否存在特定行人的技術,屬于在復雜視頻環境下的圖像處理和分析范疇。由于不同設備之間的差異,會造成圖像分辨率的差異與視覺模糊的效果,且行人會在監控視頻中兼具剛性和柔性兩重特性,外觀易受穿著、姿態和光照等環境因素影響,使行人重識別成為計算機視覺領域中兼具研究價值與挑戰性的熱門課題。
傳統的機器學習技術是建立在來自同一分布樣本集假設前提下的訓練數據集和測試數據集。如果其測試數據集數據分布發生改變,那么預測分類器就必須重新訓練學習,從而適應這種變化?!斑w移學習”方法的提出,旨在通過利用已有數據集的可遷移性,輔助目標領域預測分類模型的建立,從而減少對目標領域帶標記數據的需求。但是,目前遷移學習很依賴源領域與目標領域之間的可遷移性關系,而多源遷移學習方法則是從多個源領域數據集中選擇合適的數據集進行知識遷移以減少負遷移,從而避免單一領域數據集可能帶來的風險。
隨著深度學習的不斷發展,面對現實問題時數據集越來越多,問題也變得越來越復雜。當有大規模數據集為測試數據集時,人工標記后的訓練數據集礙于效率與成本的問題,難以滿足當下對神經網絡訓練速度提升的要求。因此,無監督遷移學習的研究對行人重識別重難題的解決有著關鍵作用。
研究方向與成果
無監督領域:無監督神經網絡提出后,網絡訓練的效率大大提升,數據集的規模也越來越大。有學者提出了使用聚類無監督算法,該方法在無監督領域是嶄新的方向,它根據數據的聚類情況讓計算機學習到特征,大大減輕了數據標注的壓力。但由于是簡單的聚類算法,很多特征計算機無法學習成功。因此,該方法雖然減輕了數據標注壓力,但實際效果并不理想。
遷移學習模塊:遷移學習是深度學習發展的里程碑,提出了將針對某一問題已有的訓練模型,微調遷移后應用到另一問題上的新思路。這對無監督學習的發展是一大突破,成功運用遷移學習方法實現的算法往往并不復雜。
注意力模型:注意力模型方法的提出使得解決行人重識別問題有了新方向,這是最新提出的圖像處理模塊,意在將指定圖像進行判定,并根據特征選擇圖片中的一部分為注意力模塊進行辨別。行人重識別算法涉及到實際應用時,也會遇到更多不確定情況,目前在行人重識別問題中,針對解決無監督多源域遷移學習的問題還沒有成熟的算法。前人為了綜合各個注意力模塊,提出了使用遷移學習進行多源域數據集統一的方法,但該方法面臨數據樣本特征會在優化過程中弱化,數據源域在訓練中逐漸出現邊界消失,最后無法達到多源域訓練目的等問題。
核心技術與算法可行性
對多源域數據集的統一處理:當前的無監督遷移學習方法大部分都是單源域數據集訓練,注意力模型的應用也不廣,于是我們大膽提出假設,將遷移學習中的注意力模塊試用于多源域數據集范疇,并規范數據表示格式,使規范后的數據可以同時遷移多個模型進行訓練,以解決單源域數據訓練使用效果不佳的問題。通過大量訓練,讓網絡學習到各個注意力模型信息,提高網絡在不同影響條件下對行人重識別問題的健壯性,提高網絡的普適性,令網絡的判別效果達到新高度。
通過科研階段普遍認可的三大數據集Market-1501,DukeMTMC-REID,CUHK03進行評估。另外,還可以申請從有關部門獲取相關視頻圖像資源,進行實際的適配性檢測,以證明所提出模型的準確性、高效性與魯棒性。
基于深度學習的圖片特征提取:隨著深度學習神經網絡的發展,時至今日有許多已成形的特征提取網絡。網絡的選取在研究中極為重要,通過多次不同實驗,比較其效果得出各網絡的特點與優越性,綜合已有數據分析后,本文認為使用殘差網絡效果更加。因為CNN網絡對圖像特征的提取,會隨網絡層數的增多提取到不同級別的特征,網絡越深提取到的特征越多,表達能力越強,深層的網絡提取到的特征會很抽象,并且存在語義信息。對于早期的特征提取網絡,不斷地增加深度,會出現梯度彌散或梯度爆炸的問題,導致網絡訓練效果不增反減,也使得深度網絡不能很好地優化。而殘差網絡的優點是更容易優化,且具有抗干擾性,能夠通過增加深度來不斷提高準確率。
各樣本映射空間與全新的優化方案:對多源域數據集樣本的映射處理,需要創新思維定義各數據樣本的映射結果,將樣本對應的映射空間反映在全新的參量中,使多源域樣本映射結構兼具數據多樣性與數據源域的獨立性,同時通過不斷優化與目標數據域的距離,使方法效果更佳。
關鍵問題解決方案
多源域數據集的樣本的分辨率、樣本數的統一問題
針對此問題,可以對所有樣本進行特定的格式化計算,消除數據集內樣本屬性不同的問題,且保證數據集樣本多樣性與數據源域的獨立性,以提高多源域數據集的訓練效果。
神經網絡特征提取效果低下的問題
對此問題,需要進行不同網絡的嵌入對比實驗,并對結果進行分析討論,確定對解決行人重識別問題適配性,更好地特征提取網絡模型,并嵌入算法中。
新定義樣本映射空間模塊與制定損失優化方案的問題
可通過定義權值參量的計算方法來反映數據集樣本的貢獻度與每個數據集和目標域之間的關聯度,通過控制變量比較其結果,找出最合適的計算方法。結合貢獻度與關聯度這2個權值對應模塊,可以使樣本的映射空間得到全新定義,更好地解決行人重識別問題。
由于行人重識別問題存在巨大的研究價值,很多專家學者都在提出自己的網絡算法與優化觀點,目前無監督遷移學習作為較難的問題,其研究方向潛力巨大,當前已有國際學者提出較為成熟的網絡體系。國內也有學者在不斷改進與探索,本文提出的網絡模型屬于理論研究階段,但可行性與準確率情況,在數據的分析與以往的研究中,均證明改進效果明顯,所以有理由相信,我們提出的理論網絡模型在行人重識別問題上有更好的效果。
越來越多的研究證明,所提方向是正確可靠的,所以,可以將理論研究成果的算法逐步優化并與實際結合,也能夠達到更加方便生活的目的,故存在很強的研究與應用價值。