黃葉玨


摘 要: 人臉識別由于采集便利、設備成本低廉以及準確率高等優點,在各行各業得到了越來越廣泛的應用。在人臉數據大量累積的基礎上,提出進一步對數據應用挖掘的需求。文章提出一種時效相關的在線人臉聚類方法,通過對后臺大量人臉數據進行聚類,并根據時效相關的原則對人臉數據進行篩選,實現對可疑人員人臉數據挖掘。
關鍵詞: 人臉識別; 深度卷積網絡; 人臉聚類; 應用挖掘
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2018)11-76-02
Abstract: Face recognition is widely used in all fields in our life due to its convenient acquisition, low cost and high accuracy. On the basis of accumulating a large number of face data, the needs for further data application mining are proposed. In this paper, an online face clustering method is proposed, which realizes the face data mining of suspicious people by clustering a large number of background face data and screening the face data according to the temporal principle.
Key words: face recognition; deep convolution network; face clustering; application mining
0 引言
隨著人臉識別技術的不斷進步,人臉識別在各個行業的應用也越來越廣泛,同時人臉識別的相關技術也通過不斷與行業具體業務進行緊密的結合,并產生了新的應用方式。在許多行業應用中,需要對一些異常的行為或者事件進行進一步的分析,比如對銀行ATM機前未成功取款的人臉進行分析;比如對醫院、診所或藥店中非本人刷卡的人臉進行分析等。通過對特定業務場景中出現的人臉進行聚類分析,挖掘出多次出現且具有共性的人臉,可以檢測是否需要重點關注的可疑人員,以便采取進一步措施。同時,上述可疑人員檢測應用與時效性非常相關,在具體的某一時間段的檢測結果才有實際意義。
自2012年深度卷積網絡在ImageNet競賽中取得巨大成功之后[1],深度學習技術受到了廣泛的關注。Facebook的科學家[2]首次把深度學習技術引入到人臉識別領域,隨后香港中文大學提出了DeepID等系列[3]基于深度卷積網絡的人臉識別論文。Google科學家提出了一種簡單有效的基于深度卷積網絡的人臉識別訓練方法[4],這是一種高效的純粹的深度卷積網絡的人臉識別方法,從此深度學習成為人臉識別領域的主流技術。最近人臉聚類[5-7]成為研究的熱點問題。
本文根據可疑人員的出現具有時序性的特點,提出一種在線人臉聚類的方法實現快速挖掘多次出現在某個特定業務場景中并且具有共性的人臉。通過深度卷積網絡提取人臉特征值,把深度特征值之間的人臉相似度作為人臉聚類的度量,利用時效性相關的在線人臉聚類,對新增人臉和過期人臉的快速增加和刪除,當相似人臉數目達到一定的閾值時,就認為是可疑人員,給應用系統報警。
1 基于深度卷積網絡的人臉特征提取
基于深度學習技術的人臉識別是目前人臉識別主流方法,而人臉特征值的提取是整個人臉識別相關應用的關鍵部分。在以深度學習技術為基礎的人臉識別相關應用中,不管是1:1的人臉證還是1:N的人臉搜索采用的基本方式是提取人臉特征和進行人臉相似度度量。在目前主流的方式中,一般提取人臉特征的深度卷積網絡結構很深,所以有一定的計算量;而人臉相似度度量一般采用對兩個人臉特征向量進行計算歐氏距離或者COS距離,計算量非常小,并且針對大規模的人臉識別應用還可以并行計算,所以速度非常快。正是由于當前基于深度卷積網絡技術的人臉特征向量計算完成之后,計算人臉相似非常快的特點,才使得在線人臉聚類方法可以真正落地應用。
人臉特征提取網絡由兩部分組成,如圖1中虛線框所示,第一部分是一個STN網絡,它根據人臉檢測器所得到的人臉位置,根據訓練所得的參數把人臉歸一化成128×128的矩陣。第二部分是一個深度卷積網絡,這里采用64層的RESNET網絡結構,其中最后一層為全連接層,輸出512維的人臉特征向量。
為了保證相同人的人臉特征向量歐氏距離小,而不同人之間的特征向量歐氏距離大,我們這里引入三元組損失函數作為度量學習的約束條件:
其中表示向量的模運算符,分別表示當前人臉特征向量,與當前人臉相同的人臉特征向量,與當前人臉不同的人臉特征向量。
假定兩張人臉的通過上述人臉特征值提取網絡提取的特征向量分別為和,那么評價兩張人臉的相似度可以用COS距離表示:
2 時效相關的人臉聚類
由于人臉特征向量可以使用COS距離來表示兩個人臉之間的相似度,而且COS距離計算對于現在的主流計算機來說計算量不大,可以非常快速地完成計算。在人臉聚類過程中,為每一個類維護一個聚類中心點,即:
判斷一個新的人臉特征向量f(xk)是否屬于該類別時,可以使用式⑵計算下式是否成立,如果成立則說明該人臉屬于該類別;否則不屬于該類別
其中T表示兩個人臉的相似度閾值,此處取0.8,表示兩個人臉的相似度為80%及以上為同一人。當式⑷成立時,該人臉特征向量屬于該類別,那么需要對該類別的聚類中心點進行更新。為了使得人臉聚類具有時效相關性,在更新過程中加入遺忘系數,從而使新的中心點以一定的速率遺忘舊類別數據的影響,增加新加入數據的影響力
其中ρ為遺忘系數,此處為0.9。
對于每個人臉類別中,還引入了一個活躍系數,用于記錄每一個類別的活動生命周期。每當一天的新數據需要在線聚類時,所有類別的活躍系數都會作減1操作。當該某個類別有數據更新時,它的活躍系數就會作增1操作。當時,則刪除該類別;當時,則向系統提醒該類別。
3 醫保監管藥販子人臉挖掘系統
目前各地藥店醫保卡違規購藥以及民營醫院診所冒名就診發生的情況比較多,時常有媒體時行報道。人臉識別技術引入到購藥和就診環節可以比較好的解決上述問題,同時在已有的人臉識別系統上引入藥販子人臉挖掘技術可以進一步加強監管力度。在藥店購藥或者民營醫院診所就醫過程中,人臉識別醫保監控會對所有病人進行抓拍,并與后臺的人臉庫進行比對,識別是否為本人或者授權家屬購藥或者就診。
對于有些交易是非本人刷卡買藥的情況,通過對非本人刷卡的人臉照片進行在線人臉聚類,再對一段時間內同一類照片出現的次數進行檢測,就可以判斷出某些人是否在非本人刷卡的交易中經常出現,從而鎖定為藥販子嫌疑人,在后臺系統中對這些結果進行展示,提醒監管部門進一步處理。
4 結論
基于深度卷積網絡提取人臉特征值作為人臉相似度在線人臉聚類方法,采用鏈隊列方式實現一定有效期內的人臉快速增加和刪除的在線人臉聚類方式,通過統計鏈表隊列節點數目實現可疑人員檢測,并應用于醫保卡實名購藥系統中,取得了比較好的效果。
對于大規模醫保卡實名監管系統來說,每一個月累積的人臉數目可達千萬級別的量級,如何采用并行化的方法對人臉進行時效相關的聚類是值得進一步研究的問題。
參考文獻(References):
[1] Krizhevsky A, Sutskever I, Hinton G.E., ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 NIPS,2012.
[2] Yaniv T, Ming Y, Marc A.R, Lior W.,DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014.
[3] Sun Y, Wang X, Tang X. Deep Learning Face Representa-tion by Joint Identification-Verification. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015.
[4] Florian S, Dmitry K, James P.,FaceNet: A Unified Embedding for Face Recognition and Clustering.n Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015.
[5] Shi Y, Otto C, Jain A K. Face Clustering: Representation and Pairwise Constraints. IEEE Transactions on Information Forensics and Security,2018.13(7):68-74
[6] Shi X, Guo Z, Xing F, Cai J, Yang L. Self-learning for face clustering. Pattern Recognition,2018.79:279-289
[7] Otto C, Wang D, Jain A K.Clustering Millions of Faces by Identity. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018.40(2):289-303