羅心怡 鄒清淼 李文卓 余 楨
(江西財經大學,江西 南昌330000)
1.1.1 智能安防。在破案的過程中,監控視頻是現代科技有了很大進步后用于破案的關鍵證據,然而監控視頻數量大,時間跨度長,單純依靠人力查找信息難免效率低下,而且還很容易出現疏漏。行人重識別技術可以快速從海量的視頻數據中篩選出與目標人物相似度極高的軌跡片段,將在一定程度上減輕警察人員的工作量,提高破案的效率,促進智能安防的快速發展。
1.1.2 智能尋人系統。當公共場所發生人員失蹤情況時,尋人系統可以借助行人重識別技術,通過導入提供的失蹤人員照片信息,在已存儲的監控視頻數據下尋找與照片上的人相似度較高的人,再將這些人像信息與實際失蹤人員的圖片一一比較,從而快速發現該失蹤人員的足跡。
1.1.3 智能超市。可以通過行人重識別技術捕捉不同顧客在超市的足跡,再對顧客的足跡進行數據化分析后生成顧客的個人喜好信息,從而幫助超市的管理人員優化顧客在超市的體驗。
1.2.1 從目標圖像數據中抽取特征圖像為檢索圖。
1.2.2 將視頻數據中獲取到的所有圖片均抽取相應特征為底庫圖。
1.2.3 基于檢索圖,用行人重識別技術計算檢索圖與底庫圖的特征距離。
1.2.4 按照特征距離升序排列底庫圖,排在越前面的相似度越高。
1.3.1 歐氏距離:歐氏距離也稱為L2 距離,表示兩個向量在歐氏空間中的距離。它的公式如下。

1.3.2 馬氏距離:又稱為數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與標準化歐氏距離不同的是它考慮到各種特性之間的聯系。它的公式如下:

由歐氏距離和馬氏距離公式對比可知,若協方差矩陣是單位矩陣,則馬氏距離可被簡化為歐氏距離;若協方差矩陣是對角陣,它也可以被看做正規化的馬氏距離。
1.3.3 余弦距離:余弦距離衡量的是空間向量的夾角,更加體現在方向上的差異,而不是位置。公式表示為:

1.4.1 監控視頻下捕捉到的行人圖像大多分辨率低,不能像人臉識別技術那樣處理清晰的人臉信息,只能通過捕捉行人的外形、動作等特征進行分析,而這些信息往往容易出現相似的情況。
1.4.2 行人重識別因為涉及到需要跨不同的攝像頭捕捉信息,而不同的攝像頭可能會出現同一個人卻外形有較大出入,而不同的人外形卻十分相似的情況。這就意味著極有可能兩個實際上截然不同的人因為在不同攝像頭下被鋪捉到,而被誤以為是同一個人。
1.4.3 攝像頭捕捉的是場景下的信息,所以容易受到周圍環境的影響,例如光線、人流量大、行人被遮擋等問題。
注意力機制其實就是通過深度網絡學習一種權重分布,再拿權重分布施加到原來的特征之上。權重的操作包括對圖像數據(部分分量和所有分量)進行加權操作、根據某種策略篩選出部分特征圖像、對圖像進行裁剪操作等,目的都是為了將圖像的特征凸顯出來。
計算機視覺所運用的注意力機制其實類似于人類視覺的注意力機制,本質都是迅速從大量信息中過濾無關信息而關注重要信息。例如,在網絡上瀏覽信息時,如果沒有注意力機制,神經網絡在處理該任務時,將對所有內容進行等價處理,也就是所謂的“一視同仁”,這就意味著需要仔細閱讀每一篇博客,對所有的信息都進行特征標記。而如果運用注意力機制,神經網絡則著重關注具有某一關鍵詞的內容,弱化其他不想關的內容,也就意味著可以有目的性地過濾掉無關的內容,只需閱讀自己需要的內容,這樣就大大提高了我們捕捉以及匹配特征的效率。
2.3.1 注意力機制的具體應用過程
早期的注意力機制研究是基于大腦成像機制的角度進行分析,采用winner-take-all 的機制來研究如何對注意力進行建模。隨著深度學習取得一定的發展后,深度學習與視覺注意力機制結合成為一種新的趨勢。研究學者普遍采用的是生成掩碼來表示注意力機制,這種方式即為學習一層新的權重后將圖像信息中的特征體現出來。這種思想發展成兩種不同類型的注意力機制:軟注意力和強注意力。軟注意力更加關注空間區域或者通道,而且是可以被微分的,也就意味著可以通過神經網絡學習進行求導來獲得權重。強注意力更加關注圖像上的每一個點,是一個隨機過程,認為每個點都可能延伸出注意力。強注意力不可被微分,需要通過增強學習來實現。
2.3.2 基于注意力機制研究的優點
a.傳統的行人重識別多直接提取全局特征,由于缺少了行人的細節特征,最終造成難以準確區分行人的問題。而基于注意力機制的行人重識別技術能夠對若干提取到的特征進行相似度權重估計,將權重賦給網絡提取的全局特征,進而提高識別的準確率。
b.環境因素的影響是不可控的,而應用注意力機制有利于弱化環境因素對圖像造成的影響,突出那些能夠幫助識別的部分圖像信息,從而解決環境因素如不同的攝像頭、背景復雜、被遮擋等的影響。
2.3.3 基于注意力機制研究的缺點
a. 基于單一的注意力機制極有可能造成對相似之處給予過多關注的現象,例如行人穿著的衣服十分相似,所占權重非常大,而忽略了衣服顏色并不相同這一能夠直接判斷的要素,最終造成顯而易見的錯誤。
b.運用注意力機制能夠過濾掉大部分的背景信息,使得識別的重點集中于行人區域上,而在一些特殊情況下,我們仍然需要一定的背景信息來進行輔助判斷,被過濾掉的背景信息可能會降低識別的準確率。
該數據集采集自戶外的攝像頭a 和攝像頭b,包括632 個行人的1264 張圖像,每張圖像的分辨率都調整為128*48。該數據集的特點是視角、光照、分辨率和姿態多樣化,所以能夠很好地模擬真實場景下攝像頭鋪捉到的圖像。同時,因其多樣性大處理難度也隨之增加,許多研究學者把該數據集作為行人重識別領域的基準測試集。
該數據集采集自移動的攝像機,原始樣本中圖像的分辨率均為64*32,實際應用中一般會根據實驗需求進行調整。該數據集包含三個視頻序列圖像:序列1 包含83 個行人的4857 張圖像;序列2 包含35 個行人的1936 張圖像;序列3 包含28 個行人的1762 張圖像。
該數據集是由清華大學研究團隊采集并構建,采集自5 個高清攝像頭和1 個低清攝像頭,包含1501 個行人和32668 個檢測到的行人矩形框。該數據集的規模遠大于其他常用數據集,能夠確保每個行人至少被兩個攝像頭鋪捉到,并且在一個攝像頭下具有多張圖像。
累計匹配特性曲線(Cumulative Matching Characteristics,簡稱為CMC)是模式識別系統如人臉、虹膜、指紋等的重要評測指標,主要用于閉集測試。該曲線的橫坐標為rank,縱坐標為識別率百分比。rank n 表示識別結果相似性降序排列中前n 個結果包含目標。識別率是rank n 的數目#(rank n)占總的query樣本數的比例。圖1是CMC曲線的一個實例。

圖1

圖2
平均精度均值(mean Average Precision,簡稱為mAP)是目標檢測領域常用的評測指標,首先在一個類別內求平均精度,再對所有類別的平均精度求平均。當底庫中存在多個與檢索圖相匹配的圖像時,mAP 能夠將所有的匹配圖返回,因此相比于CMC,mAP 的召回能力要高一些,鑒別的效率也更高。圖2 是P-R 曲線的一個實例,曲線圍成的面積就是AP 的值。
基于注意力機制能夠使識別過程更加關注行人有用的特征,此外還可以結合屬性識別,對行人的性別、衣服、褲子、鞋子等屬性進行分類,并對這些屬性所提供的信息進行整合,結合注意力機制將能夠進一步提高行人重識別的效率。還可以運用如今趨于成熟的生成對抗網絡來輔助訓練,利用生成對抗網絡捕捉到更多不同視角下行人動作的變化,從而實現更加細致地對行人姿態、動作進行比對,進一步提高行人重識別的準確率。