999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的人臉識別方法綜述

2021-08-08 01:20:06余璀璨李慧斌
工程數學學報 2021年4期
關鍵詞:人臉識別深度特征

余璀璨, 李慧斌

(西安交通大學數學與統計學院 大數據算法與分析技術國家工程實驗室,西安 7 10049)

1 引言

人臉識別[1]是一種依據人臉圖像進行身份識別的生物特征識別技術.人臉識別的研究始于20世紀60年代,與虹膜識別、指紋識別、步態識別等生物特征識別技術相比,人臉識別因其便捷、高效、易普及的優點成為最受關注的研究問題之一.通常,其難點在于人臉結構相似性導致不同個體之間差異不顯著,而同一個體在不同表情、姿態、年齡、光照、遮擋、妝飾等干擾因素下變化顯著.因而人臉識別技術需要在類內變化干擾的情況下盡可能增大類間差距以區分不同個體,其關鍵在于從人臉圖像中提取有利于識別的特征.早期基于人臉幾何特征的識別方法[2–4]使用眼睛、鼻子、嘴巴等關鍵部位之間的關系(如角度、距離)構建人臉描述子,此類方法忽略了人臉紋理、外觀包含的有用信息,因此,識別效果一般.基于子空間學習的識別方法如Eigenfaces[5]、Fisherfaces[6],將原始數據整體映射到低維人臉子空間,這類方法很大程度上推動了人臉識別技術的發展.基于局部特征分析的識別方法使用合適的濾波器提取人臉局部特征,Gabor[7]、LBP[8]、HOG[9]等常用于此類方法.在光照、姿態和表情變化較小時這類人臉識別方法的效果一定程度上比較穩定.2014年以來,深度卷積神經網絡為人臉識別技術帶來了巨大突破.無需人工設計特征,深度卷積神經網絡能夠針對訓練數據學習如何提取特征.在特定數據集上,這類方法的識別能力已超過人類識別水平[10].

深度學習是一類使用多層線性及非線性處理單元通過組合底層特征而形成更加抽象的高層特征表示的機器學習算法,基于深度學習的人臉識別方法使用端到端的方式學習提取特征的能力,并使用提取到的特征進行分類,在損失函數的指導下利用一些優化方法如隨機梯度下降、自適應學習率算法優化神經網絡中的參數.

近年來,基于深度學習的人臉識別方法受到了廣泛研究.據了解,現有綜述文獻[4,11–14]主要針對傳統識別方法,基于此,本文綜述了2014年以來基于深度學習的二維人臉識別方法.特別地,本文將從人臉預處理、深度特征學習、特征比對、人臉數據集和評價標準五個方面進行介紹.最后對人臉識別的未來發展進行展望.

2 基于深度學習的人臉識別方法

人臉識別技術通過采集人臉圖片或視頻等數據進行身份識別和認證.身份識別指給出一張人臉圖像和已注冊的人臉數據庫,判斷該圖像在數據庫中的身份,本質是1:N的多分類問題,常見的應用場景有門禁系統和會場簽到系統等.身份認證指判斷兩幅人臉圖像是否屬于同一身份,并不需要知道圖像的身份所屬,是1:1的二分類問題,通常應用于人證比對和身份核驗等場景.

如圖1所示,基于深度學習的人臉識別流程主要包括人臉預處理(檢測、對齊、標準化、數據增強等)、特征學習、特征比對等步驟,其中特征學習是人臉識別的關鍵,如何提取強判別性、強魯棒性的特征是人臉識別的研究重點.本節首先對人臉預處理的各個環節進行簡要介紹,然后重點介紹基于深度卷積神經網絡的人臉特征學習方法.

圖1 基于深度學習的人臉識別模型訓練流程圖

2.1 人臉預處理

如圖2所示,基于深度學習的人臉識別方法預處理流程通常包括人臉檢測、關鍵點定位、人臉姿態及灰度標準化、人臉數據裁剪及增強.

圖2 基于深度學習的人臉識別方法預處理流程

1) 人臉檢測

人臉檢測指檢測出人臉圖像中人臉的具體位置,通常用矩形框框出人臉.人臉檢測技術是人臉識別不可或缺的重要環節,隨著深度學習的發展該技術也不斷得到提升.基于深度學習的人臉檢測方法主要分為Fast R-CNN系列[15]、級聯CNN系列[16,17]以及SSD系列[18].其中,Fast R-CNN系列方法用于人臉檢測時通常能夠獲得較低的誤檢率,但檢測速度難以達到實時.級聯CNN系列方法如MTCNN[16]速度非常快,即便基于CPU也能對單張人臉進行實時檢測.SSD系列方法不僅能達到Fast R-CNN系列方法的誤檢率,而且能保證檢測速度,代表性方法FaceBoxes[19]可以在CPU上實現實時檢測.人臉檢測方面的綜述有[20],除了檢測性能和速度之外,目前比較受關注的問題還有低質量圖像中的人臉檢測[21].

2) 人臉對齊

檢測出人臉在圖像中的位置后需要進行人臉對齊操作,人臉對齊指檢測人臉特征點,如眉眼、鼻子、嘴角以及其它輪廓點.人臉對齊方法可分為判別式方法和生成式方法:生成式方法根據形狀和外觀構建人臉生成模型,以AAM(Active Appereance Model)[22]和ASM(Active Shape Model)[23]為代表;判別式方法通常學習獨立的局部檢測器或回歸器來定位每個面部關鍵點,具體實現方法包括CLMs[24]、級聯形狀回歸[25]以及深度學習方法[26,27].特別地,Deep Face[28]為了使卷積神經網絡發揮最大作用,得到二維對齊圖像后,進行了三維人臉對齊.隨著網絡性能不斷提升以及數據集的種類和數量不斷擴大,大多數人臉識別方法[29–31]只需進行二維人臉對齊甚至弱對齊[32]就能達到很高的識別精度.人臉對齊的難點在于人臉尺度、光照、遮擋、姿態、復雜表情等帶來的影響,人臉對齊的更多內容可參考綜述[33,34].

3) 人臉標準化

為了算法的穩定性,一般會對圖像進行一些數值標準化的處理,對不同光強、不同光源方向下得到的人臉圖像進行補償,以減弱由于光照變化造成的圖像信號變化.例如人臉識別方法SphereFace[30]將所有像素值減去127.5再除以128,使圖片像素值范圍從[0,255]變成[?1,1],VGGFace[35]則是將圖片中所有圖像減去平均臉,而文獻[36,37]對圖像進行了灰度處理.

4) 人臉數據增強

數據增強是基于深度學習的人臉識別方法常用的預處理步驟,目的是為了增加數據量.需要說明的是,基于深度學習的人臉識別模型在訓練階段使用數據增強,而測試階段則不使用.數據增強的方式多種多樣,常見的方法是隨機裁剪和鏡像翻轉[38,39].隨機裁剪將圖片隨機裁剪成不同的圖像塊,鏡像翻轉指水平鏡像翻轉圖片,全部翻轉或以一定的概率翻轉.在使用深度卷積神經網絡的人臉識別方法中,數據增強被大量使用[38,40–42].

2.2 人臉圖像深度特征學習

深度卷積神經網絡的網絡結構和損失函數是影響人臉深度特征學習及識別性能的兩個關鍵因素.2012年,Hinton和其學生Krizhevsky首次將深度卷積神經網絡成功應用于解決計算機視覺領域的關鍵問題[38].之后,VGGNet[43],GoogLeNet[44]以及ResNet[45]這三類網絡相繼被提出并成功被應用于物體識別和人臉識別.在經典的多分類損失函數Softmax loss基礎上,損失函數的設計問題受到廣泛關注,通過引入分類間隔及度量學習等機制使得人臉深度特征學習具有強的判別性[29–31,46–48],人臉識別的性能不斷得到提高.下面主要從人臉識別常用的網絡結構和損失函數兩方面展開討論.

2.2.1 人臉識別網絡結構

使用深度學習進行人臉識別的早期,研究人員傾向于使用多個深度卷積神經網絡提取人臉特征,再將特征融合.在文獻[28,49]中,作者提出首先將多個深度卷積神經網絡提取的特征拼接并使用PCA降維得到更有效的特征.文獻[50]中使用60個深度卷積神經網絡(DCNN)從不同的面部圖像塊提取出19,200維融合特征,然后通過PCA將特征壓縮至150維.多達60個DCNN使DeepID在Labeled Faces in the Wild(LFW)數據集[10,51]上取得97.45%的人臉認證準確率.類似的,文獻[42,48,52]均使用了25個DCNN用于提取人臉深度特征并融合.而基于深度學習的人臉識別方法的趨勢是使用單個網絡,多網絡融合特征逐漸被VGGNet[43]、GoogLeNet[44]和ResNet[45]這三種深度人臉識別的代表性網絡架構所取代.

1)VGGNet

牛津大學視覺幾何組在2014年提出的VGGNet系列深度卷積神經網絡一共有5種結構,層數在11層至19層之間,其中應用最廣的是VGG16和VGG19.VGGNet的突出表現在于使用多個3×3的卷積核替代AlexNet中7×7的卷積核,小的卷積核一方面可以減少參數,另一方面增加了非線性映射,有助于提升網絡的擬合能力.并且,VGGNet增加了網絡的深度,使用多種結構驗證了增加網絡深度可以提升分類準確性.以VGG16為例,該網絡由13個卷積層和3個全連接層組成,每個卷積層后連接一個ReLU激活函數層,池化方式與AlexNet相同,前兩個全連接層都有4096個通道,最后一個全連接層的通道數與分類的類別數一致.文獻[35]使用VGGNet在LFW數據集上獲得了99.13%的人臉認證準確率.VGGNet系列網絡結構的參數量仍然很龐大,五種結構的參數量均在1.3億以上.

2)GoogLeNet

同是2014年,由谷歌團隊提出的網絡結構GoogLeNet通過增加網絡結構的稀疏性來解決網絡參數過多的問題.不同于VGGNet和AlexNet,GoogLeNet使用Inception模塊構建模塊化結構,在模塊中使用不同大小的卷積核實現多尺度特征的融合.圖3是一個Inception模塊,為了方便對齊選用了1×1、3×3和5×5的卷積核.由于較大的卷積核會帶來巨大計算量,分別在3×3和5×5的卷積層之前增加了一層1×1的卷積層用于降維,并且在模塊中加入池化層.最后,將四個通道的輸出合并.FaceNet[32]使用Inception模塊實現了輕量級的深度人臉識別模型,可以在手機上實時運行.

圖3 Inception模塊[44]

3) ResNet

網絡加深理應有利于提升網絡的性能,但深度增加也給訓練帶來難度.He等人針對這類問題提出了ResNet[45],允許網絡結構盡可能加深.ResNet的核心策略是增加跨層連接,直接學習層與層之間的殘差.圖4是一個殘差模塊,該模塊的輸入為x,輸出是F(x)+x,F(x)即殘差,中間的參數層只需要學習殘差部分,可以有效減小訓練誤差,并且這個恒等映射的跨層連接避免了反向傳播過程中的梯度消失,有利于訓練更深的網絡.ResNet收斂速度快,目前最新的基于深度學習的二維人臉識別方法[30,31,37,47]大部分都采用殘差模塊.

圖4 殘差模塊[45]

2.2.2 人臉識別損失函數

除了網絡結構之外,用于衡量模型識別能力的損失函數同樣對基于深度學習的人臉識別方法有重要作用.損失函數可以指導神經網絡將人臉圖像映射到不同的特征空間,選擇合適的損失函數有利于在特征空間將不同類別的人臉圖像區分開,提升人臉識別的精度.

1) Softmax loss

Softmax loss是一種常用于人臉圖像多分類問題的損失函數.Softmax激活函數

的作用是將模型預測結果進行歸一化操作,使輸出結果為[0,1]區間內的概率值.而交叉熵損失函數用于計算模型判別的分類結果與人臉圖像真實標簽之間的誤差.將Softmax函數取負對數得到交叉熵損失

2) Large Margin Softmax(L-Softmax)[46]

使原約束條件變得更加嚴格從而保證不同類別人臉圖像特征之間有分類間隔.于是改進的損失函數L-Softmax形式如下

其中Wi為權向量,C表示總類別數,θj,i為Wj和xi之間的夾角,m用于控制類間距離,ψ(·)是為便于梯度反向傳播而設計的單調遞減函數

3) Angular Softmax(A-Softmax)[30]

A-Softmax[30]是對L-Softmax的進一步改進,將權向量進行L2歸一化,只利用角度進行分類,并用余弦角度間隔代替歐幾里得距離間隔,具體形式如下

使用A-Softmax loss進行人臉識別的SphereFace[30]雖然有效,但是優化目標與測試方式不一致.針對SphereFace存在的問題,NormFace[29]中的損失函數將權向量和特征向量都進行了歸一化,彌補了A-Aoftmax的不足,使其更具解釋性.

4) Additive Margin Softmax[48]及CosFace[31]

Additive Margin Softmax(AM-Softmax)[48]與CosFace[31]將(4)中形式復雜的ψ(·)替換成形式更簡單的ψ(θ)=cosθ?m,增加余弦距離間隔.并且與NormFace[29]一致,將權向量和特征向量都進行了L2歸一化得到如下形式

其中cosθj,i表示歸一化后的權向量Wj和特征向量xi夾角的余弦值,C表示總類別數.m表示余弦距離間隔,用于控制不同類別人臉圖像之間的距離.s為尺度參數,用于控制人臉圖像特征所在超球面的半徑大小.

5) ArcFace[47]

ArcFace使用了與式(5)不同的間隔控制方式,將控制人臉圖像類間距離的超參數m放置于余弦函數內,得到如下損失函數

6) Ring loss[53]

大量研究工作[30,31,46]表明人臉圖像深度特征向量歸一化有利于提升基于深度學習的人臉識別方法性能.Ring loss提供了一種軟歸一化方式,從數據中學習歸一化尺度而不是直接將人臉圖像的深度特征歸一化至人工設定的尺度,具體形式如下

其中LS代表主損失函數,例如Softmax loss、L-Softmax loss等.Lr代表Ring loss.xi代表第i個樣本的深度特征,r代表歸一化尺度.圖5為幾種不同損失函數對應的深度特征可視化.

圖5 使用不同損失函數訓練深度卷積神經網絡得到的特征可視化

7) Center loss[54]

Center loss[54]的主要思想是通過增加懲罰讓同類人臉圖像特征向類中心靠攏.實驗驗證了單獨使用Center loss不如與Softmax loss結合效果好,因此在實際應用中將Center loss與Softmax loss結合,并使用超參數λ平衡這兩種損失函數的作用,即

其中LS表示Softmax loss,Lc表示center loss,cyi是人臉圖像特征xi對應類別yi的中心,m表示人臉圖像樣本數.

8) Contrastive loss[36,49,55,56]

Contrastive loss原本由Yann LeCun[55]提出用于數據降維,其目標是讓原本相似(不相似)的樣本在低維特征空間仍然相似(不相似),形式如下

9) Triplet loss

FaceNet[32]中使用的Triplet loss是度量學習[36,57,58]的方法之一,使用Contrastive loss訓練人臉識別模型時每次比較兩個人臉圖像特征之間的距離,Triplet loss則需要比較三個特征向量之間的距離,包括兩個同類人臉圖像特征和一個與之不同類的人臉圖像特征,也被稱為三元組.如圖6,通過訓練使得在特征空間中,同一個人的不同人臉圖像的特征距離較小,而不同人的人臉圖像特征距離較大.損失函數的具體形式為

圖6 Triplet loss作用示意圖[32]

從另一個角度考慮,如果使用海量數據,如FaceNet使用800萬人的2億張圖片訓練網絡,若選Softmax loss為損失函數則輸出層的節點多達800萬,而使用Triplet loss可避免該問題.Triplet loss的原理符合認知規律,在應用中也取得了不錯的表現,但其難點在于采樣,如果采樣選擇得當則損失函數很快收斂,否則會需要很長時間用于訓練模型.因此VGGFace[35]為了加速損失函數的收斂速度,用Softmax loss訓練好模型再使用Triplet loss對特征提取層進行微調.

10) Multi-classN-pair loss(N-pair-mc loss)[59]

Contrastive loss與Triplet loss每次更新只選一個負樣本,而N-pair-mc loss的不同之處在于每次更新時與更多不同人的人臉圖像進行交互,并且控制特征比對次數,有效地減少了計算量.為了分析N-pair-mc loss的作用,將其與(N+1)-tuple loss進行了比較,(N+1)-tuple loss是將Triplet loss中用于比較的負樣本數量由1提升到N?1,N=2時與Triplet等價

對于N次采樣,使用Triplet loss需要進行3N次特征提取,(N+1)-tuple loss需要進行(N+1)N次特征提取,而N-pair-mc loss只需要進行2N次特征提取.文獻[59]實驗驗證了使用N-pair loss能達到比使用Triplet loss更快的收斂速度和人臉識別精度.

2.3 特征比對

基于深度學習的人臉識別方法的基本思路:訓練階段,在損失函數的指導下利用海量有標記的人臉圖像樣本對網絡參數進行有監督訓練.測試階段,將待測試的人臉圖像輸入訓練好的神經網絡提取人臉深度特征,使用最近鄰分類器通過比較深度特征之間的距離進行身份識別或認證.通常使用歐幾里得距離或余弦相似度作為特征距離的度量,假設人臉圖像xi和xj的特征分別為f(xi)和f(xj),當特征之間的距離在預先設定的閾值τ范圍內時,即

則認為這兩幅圖像來自同一個人.

2.4 人臉數據集

作為數據驅動的方法,基于深度學習的人臉識別方法需要大量訓練數據,數據集的發展也反映了人臉識別技術的發展.與早期實驗室環境下采集獲得的人臉數據不同,2007年公開的LFW數據集開啟了無約束場景下人臉識別研究的新階段,有力地推動了無約束人臉識別的發展.隨后不斷有更大、更多樣化的人臉數據集被發布,例如CASIA WebFace、MS-Celeb-1M、MegaFace為訓練人臉識別算法提供了海量樣本數據.IARPA Janus Benchmark-A(IJB-A)、IARPA Janus Benchmark-B(IJBB)、IARPA Janus Benchmark-C(IJB-C)在不斷擴充人臉圖片數據量的同時,增加了被拍攝者姿態、拍攝環境的變化.VGGFace2則側重跨年齡條件下的人臉識別場景.YouTube Faces(YTF)的任務是基于人臉視頻進行動態人臉識別.目前常用的二維人臉數據集見表1,表中列出了數據集名稱、所含身份個數,人臉圖像總數以及發布時間.各數據集的詳細介紹如下.

表1 常用于二維人臉識別的公開數據集

1) LFW[10,51]

由美國馬薩諸塞大學阿姆斯特朗分校計算機視覺實驗室發布的LFW數據集包含5,749人的13,233幅人臉圖片,圖片來自于雅虎網,屬于無約束場景.由于LFW數據集中有4,069人僅有一張人臉圖片,通常該數據庫不用于訓練深度神經網絡,而是作為測試集使用,常用的任務是分別判斷LFW提供的6,000對人臉圖片是否屬于同一人.

2) YTF[60]

除了靜態圖片,也可用視頻圖像進行人臉識別[68–70].YTF數據集[60]包含1,595人的3,425段視頻,每個人平均有2.15段視頻,視頻長度介于48至6070幀之間,平均長度為181.3幀,視頻均來自視頻網站YouTube.該數據集的任務是判斷每兩段視頻中的人是否屬于同一身份,對于一段視頻,一般通過離散采樣轉換成多幀圖片,再基于圖片進行特征提取及比對.

3)CASIA WebFace[36]

該數據集包含10,575人的494,414幅人臉圖片,圖像來自于IMDb網站,已被廣泛用于訓練基于深度卷積神經網絡的人臉識別模型[29–31].CASIA WebFace的作者指出使用CASIA WebFace數據集訓練,在LFW進行測試是一個較好的評價人臉識別模型性能的方案.

4) IJB-A[61]

該數據集包含來自500人的5,712幅圖片和2,085段視頻數據.與LFW和YTF相比,IJB-A的特點是圖片和視頻取自完全無約束環境,光照條件與被拍攝者面部姿態的變化比較大,且具有不同的分辨率,除了靜態圖片,還包含被拍攝者的動態視頻,該數據集非常符合實際應用場景.而IJB-B[65]和IJB-C[67]數據集是該研究院隨后發布的更大的數據集,IJB-B包含1,845個對象的11,754幅圖片和7,011段視頻,內容囊括了IJB-A數據集.而IJB-C囊括了IJB-A與IJB-B的內容,包含138,000幅人臉圖像,11,000段視頻.

5) MegaFace[62]

由華盛頓大學舉辦的MegaFace挑戰賽有兩種挑戰,其一是將訓練好的模型在一百萬干擾項條件下進行識別和驗證測試,其二是使用MegaFace提供的67萬人的470萬張人臉圖片訓練模型,在百萬規模的測試集上進行測試.MegaFace的目的是挑戰從百萬人的干擾選項中尋找同一個人的不同圖片之間的匹配.在此之前,用于測試的身份一般在一萬左右,MegeFace超大規模的測試對于評估和提升人臉識別算法很有意義.

6) VGGFace2[66]

該數據集包含9,131人的大約3百萬人臉圖片,平均每人有362.6幅圖片,該數據集中的數據來源于谷歌.數據集分為訓練集和測試集,其中訓練集包含8,631人的圖片,測試集包含500人的圖片.圖片涵蓋了不同的年齡、姿勢、光照、種族和職業,除了身份信息之外,數據集中還提供每幅人臉圖像的人臉框、5個關鍵點、以及估計的年齡和姿態.

7) MS-Celeb-1M[71]

該數據集包含1百萬名人的1千萬幅圖片.這些圖像均來自于互聯網,其中測試集包含1,000人.經過微軟標注,每人大約有20幅人臉圖片,并且用于測試的圖片并未公開,以保證公平性.

8) UMDFaces[63,64]

該數據集包含8,277人的367,888幅靜態圖片和3,100人的22,075段視頻.數據集提供的人臉信息包括人臉框、姿勢估計、21個關鍵點以及性別,并且該數據集提供了容易、中等、困難三個等級的人臉驗證測試,每個等級的測試集包含100,000對人臉圖像.

9) Face Recognition Vendor Test(FRVT)

由美國國家標準技術局NIST(National Institute of Standards and Technology)設定的人臉識別測試集FRVT的測試權威性是全球工業界黃金標準,使用來自美國國土安全局的百萬量級真實業務場景圖片進行評估,并且為了保障公平性,FRVT不公開用于測試的數據.與學術上常用的LFW、YTF甚至MegaFace相比,FRVT更貼近真實場景,也更公平.

目前已有近30種人臉識別方法在LFW數據集達到了99%以上的識別精度,最高達到99.83%.類似于YTF的人臉視頻數據集增大了識別難度,由于視頻中的人臉是動態的,比靜態圖片多了一些姿態的變化,在靜態圖片上效果好的算法在處理視頻時未必仍然能保持很好的效果,因此YTF數據集對于評測人臉識別方法的性能很有意義.IJBA、IJB-B以及IJB-C也是人臉識別方法常用的測試數據集,與LFW、YTF的圖像相比,IJB的系列數據集中的圖像更貼近實際應用場景.以上的測試數據集包含的對象在幾千人至一萬人,而MegaFace開啟了超大規模的人臉識別任務,使用大規模的人臉識別測試有助于發現人臉識別方法的優點和缺陷.CASIA WebFace人臉數據集常用于訓練深度卷積神經網絡,在很多機構不公開數據庫的情況下,CASIA WebFace人臉數據集為推動基于深度學習的人臉識別技術的發展起到了很大的作用.而VGGFace2人臉數據集的優點在于覆蓋了很大范圍的姿態、年齡以及種族,除了進行身份識別外,還可以進行姿態、年齡識別等.MS-Celeb-1M人臉數據集中每個對象有多個屬性,并且數據量非常大,但缺點在于這個數據集有很大噪聲,即存在大量標注錯誤的圖片,因此,在使用前需要針對標注問題對數據集進行清洗處理.

2.5 評價標準

1) 身份認證

一般使用ROC曲線作為人臉識別方法的評價指標,ROC曲線由兩項指標確定,分別是接受率(Ture Alarm Rate,TAR),誤識率(False Alarm Rate,FAR).將所有正樣本(i,j)、負樣本(i,j)的集合分別記為Psame和Pdiff,用D(xi,xj)表示特征之間的距離,距離根據測試數據集要求選擇歐氏距離、余弦距離等.由此可計算接受率TAR和誤識率FAR,如

易知兩個比率都在0到1之間.通過改變閾值τ可以調節接受率和誤識率的值,分別以接受率和誤識率為橫縱坐標軸繪制ROC曲線.ROC曲線與誤識率軸之間的面積被定義為AUC(Area Under Curve),AUC始終不會超過1.ROC曲線下方的面積越大說明該方法的準確度越高.有時也會直接用認證精度作為評價人臉識別方法的指標.隨著深度學習技術的發展,大家對FAR很低的條件下TAR值的關注程度越來越高,即對安全度的要求越來越高.例如IJB-A要求在FAR=10?3時評估TAR;而Megaface關注FAR=10?6時對應的TAR;在MS-Celeb-1M挑戰中,需要考量FAR=10?9時對應的TAR.

2) 身份識別

一般使用身份識別精度作為識別方法的評價指標,計算方式簡單明了,與認證準確度類似,計算識別正確的比例即可.比較特別的是,在大規模分類問題中常使用K次命中率作為評價的標準,即真實標簽出現在預測結果前K名之內,則認為預測正確.早期的論文經常使用5次命中率進行比較,但是隨著身份識別準確度不斷提升,現在一般使用首位命中率,即模型以最高概率將樣本分類到真實標簽的比例.

3) 基于深度學習人臉識別方法比較

表2從訓練樣本數量、使用網絡個數以及在LFW和YTF數據集的表現等方面比較了一些具有代表性的基于深度學習的人臉識別方法.從表中可知,早期研究人員傾向于使用多個深度卷積神經網絡學習人臉圖像的多尺度融合特征,如Deep Face[28]和DeepID系列[42,50,52].隨著深度卷積神經網絡的發展,目前人臉識別方法一般只使用單個網絡,并且采用的網絡結構以ResNet為主,例如DeepVisage[37]、SphereFace[30]、CosFace[31]等.研究熱點也從網絡結構設計轉移至損失函數的設計,例如L-Softmax[46]、NormFace[29]、ArcFace[47]等方法將度量學習的思想引入Softmax loss并提升了人臉識別模型的性能.

表2 人臉識別方法在LFW、YTF數據集驗證精度的比較

3 總結與展望

本文首先介紹了人臉識別的發展脈絡,然后著重從人臉預處理、特征學習、特征比對、人臉數據集、評價標準五個方面綜述了近幾年基于深度學習的二維人臉識別方法.本文從網絡結構和損失函數兩部分總結了特征學習方法:對于網絡結構,深度學習方法從早期使用多個網絡發展為使用單個網絡,并且多采用VGGNet、GoogLeNet以及ResNet這三類常用網絡結構;對于損失函數,本文總結了基于歐式距離的損失函數如Contrastive loss、Triplet loss、N-pair loss以及Softmax loss及其變種,度量學習的引入使得深度人臉識別模型更易區分同類和不同類人臉圖像的特征.對于人臉數據集,本文總結和歸納了常用于深度人臉識別的大規模人臉圖像數據集,包括常用的訓練數據集以及測試集.本文還介紹了人臉預處理流程、特征比對方式以及兩種人臉識別任務分別對應的評價標準.總體而言,隨著深度學習技術的不斷發展以及真實環境下大尺度人臉數據庫的不斷公開,人臉識別技術受到了廣泛研究,獲得了長足進步.近年來,隨著人臉識別方法精度的不斷提升,人臉識別已廣泛應用于手機解鎖、安防、金融、教育、交通等各個方面,出現了“刷臉”吃飯、“刷臉”購物,甚至“刷臉”登機等現象.可以說,人臉識別技術從學術研究和產業化應用均取得了豐碩成果,但在以下方面仍然面臨嚴峻挑戰.

1) 低質量圖像人臉識別

通常,人臉圖像質量受采集環境、采集設備和采集距離等因素影響.人臉圖像的分辨率、模糊程度、姿態變化、光照變化、遮擋物等是影響人臉圖像質量的關鍵因素.基于深度學習的人臉識別方法,特別是動態視頻監控下人臉識別方法受人臉質量影響較大.如何提升低質量人臉圖像識別精度是一個值得關注的問題.大姿態人臉識別的解決方案通常利用三維人臉模型將人臉姿態矯正之后再進行識別.對于光照變化,三維人臉識別技術和近紅外人臉識別技術為解決該問題提供了一定的可能性.對于非配合場景下因佩戴墨鏡、口罩等造成采集到的人臉圖像嚴重遮擋問題,目前沒有較為有效的解決方法.

2) 跨年齡人臉識別

隨著年齡增長,人的相貌會發生顯著變化,特別是少年、成年到老年各個階段的相貌會有明顯差異,這使得跨年齡人臉識別成為一大難點.跨年齡人臉識別的實際應用場景包括人證比對、失蹤人群追蹤等.目前主要的解決方案是使用生成模型生成目標年齡段的人臉圖像輔助跨年齡人臉識別.

3) 跨模態及多模態識別

跨模態及多模態人臉識別能夠利用多重傳感器的優勢,通常能夠克服單一模態人臉識別的諸多問題,因此也是一個重要的研究問題.目前,人臉主要模態包括素描、圖像、紅外圖像、三維人臉等四種.跨模態人臉識別的難點在于如何挖掘異構信息中共同的、本質的身份判別信息.多模態人臉識別的難點在于如何有效融合多模態之間的互補信息.

4) 人臉防偽

隨著人臉識別技術逐漸被應用到日常生活中,人臉識別防偽技術也迫切需要被重視.常見的欺騙手段包括使用合法用戶的人臉照片、視頻或者三維人臉面具等攻擊人臉識別系統.人臉防偽方面的研究目前集中在活體檢測、基于圖像紋理區分以及基于三維人臉重建防偽等.

5) 隱私保護

隨著人臉識別技術的普及,該技術也可能會被不法分子利用,造成隱私安全隱患.門禁系統采集的人臉數據的保護、第三方通過移動終端惡意收集人臉數據等問題亟需解決.對此,部分學者提出了保護生物特征隱私的方式以及反人臉識別技術.

我們相信,隨著基于深度學習的人臉識別技術的不斷發展,數據樣本的不斷積累以及國家相關法律法規的不斷完善,上述問題均能夠得到較好的解決.人臉識別技術也能夠被合理利用,服務大眾生活.

猜你喜歡
人臉識別深度特征
人臉識別 等
作文中學版(2022年1期)2022-04-14 08:00:34
深度理解一元一次方程
揭開人臉識別的神秘面紗
學生天地(2020年31期)2020-06-01 02:32:06
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
基于類獨立核稀疏表示的魯棒人臉識別
計算機工程(2015年8期)2015-07-03 12:19:07
主站蜘蛛池模板: 人妻丰满熟妇AV无码区| 欧美精品三级在线| 欧美中文字幕在线播放| 一区二区三区精品视频在线观看| 久久婷婷五月综合97色| 国产毛片片精品天天看视频| 国产呦精品一区二区三区下载| 在线色综合| 91精品啪在线观看国产60岁| 很黄的网站在线观看| 尤物在线观看乱码| 国产视频久久久久| 99视频精品全国免费品| 99久久精品久久久久久婷婷| 亚欧成人无码AV在线播放| 亚洲成人高清在线观看| 亚洲毛片网站| 伊人91视频| 日韩欧美中文字幕一本| 久久国产精品电影| 国产精品亚洲一区二区在线观看| 亚洲国产精品久久久久秋霞影院| 天堂va亚洲va欧美va国产| 麻豆精品久久久久久久99蜜桃| 亚洲最大看欧美片网站地址| 一级毛片免费高清视频| 精品夜恋影院亚洲欧洲| 人妻丰满熟妇αv无码| 欧美在线导航| 99re热精品视频中文字幕不卡| 亚洲欧美日韩久久精品| 2020国产精品视频| 久久人体视频| 性色一区| 97色伦色在线综合视频| 国产精品久久久久无码网站| 亚洲人精品亚洲人成在线| 精品伊人久久久香线蕉 | 国产第一页免费浮力影院| 精品欧美一区二区三区在线| 美女无遮挡被啪啪到高潮免费| 亚洲中文字幕久久无码精品A| 97狠狠操| 中文字幕自拍偷拍| 高清视频一区| 欧美一区二区三区不卡免费| 真实国产精品vr专区| 亚洲福利视频一区二区| 午夜无码一区二区三区在线app| 伊人中文网| 国产一区二区色淫影院| 欧美福利在线| 国产尤物jk自慰制服喷水| 在线观看亚洲国产| 国产无遮挡猛进猛出免费软件| 国产最新无码专区在线| 在线亚洲精品自拍| 免费一级毛片在线播放傲雪网| 在线视频亚洲色图| 中文字幕 91| 亚洲欧美天堂网| 91麻豆久久久| 久久久久亚洲av成人网人人软件| 亚洲人成人无码www| 97视频免费在线观看| 亚洲欧美另类日本| 欧美视频二区| 日本不卡在线视频| 国产裸舞福利在线视频合集| 在线免费看片a| 中字无码av在线电影| 成人午夜视频免费看欧美| 亚洲国产亚洲综合在线尤物| 亚洲免费黄色网| 97狠狠操| 97se亚洲综合在线韩国专区福利| h网站在线播放| 亚洲天堂精品视频| 国产精品思思热在线| 亚洲无限乱码一二三四区| 国模粉嫩小泬视频在线观看| 欧美不卡在线视频|