吳曉婷 馮曉毅 黃安 張雪毅 董晶 劉麗
人臉親子關系驗證(Facial kinship verifica- tion),是指應用計算機視覺和機器學習方法,分析來自不同人的兩幅人臉圖像的面部特征相似性來自動判斷其是否具有某種親子關系,如父子、父女、母子、母女關系等.人臉親子關系驗證是在生物遺傳學理論基礎上,受心理認知學啟發[1?5]衍生出來的一個計算機視覺中的重要研究方向,因為心理學研究表明人們可以通過面部推斷親子關系.人臉親子關系驗證技術在諸多領域具有廣泛的應用價值.在人類學、基因學領域,有助于分析社會關系中近源親屬的遺傳特性;在社會公共安全領域,可以應用于丟失兒童尋找、國家邊境控制、刑事偵查等,如可以快速驗證家庭重聚簽證申請人的身份信息以及服務快速偵察兒童乞討、拐賣兒童等違法行為;在社交媒體領域,可以用于家庭信息分析、家庭相簿整理、自動圖像標注等;在生活娛樂方面,可以用于子女人臉圖像合成、年老人臉合成等;此外,親子關系驗證在智能家居、物聯網等領域也有潛在應用價值,如親子行為理解、家庭信息互聯等.該問題由Fang等[6]于2010 年提出,至今僅有十余年的研究歷史,是一個近幾年新興的、具有挑戰的一個研究方向,鑒于人臉親子關系驗證研究潛在的學術價值和應用價值,近期國內外研究者對該問題的關注呈上升趨勢.
國際上,開展人臉親子關系驗證研究的主要有美國康奈爾大學、東北大學和西弗吉尼亞大學、荷蘭阿姆斯特丹大學、芬蘭奧盧大學等;國內開展該方面研究的主要有清華大學、北京郵電大學、西北工業大學等.近年來,國際上多次舉辦了人臉親子關系驗證比賽和專題研討會.第1 屆國際親子關系驗證比賽(Kinship Verification in the Wild,KVW)于2014 年在國際生物特征識別會議(International Joint Conference on Biometrics,IJCB)上舉辦[7];第2 屆KVW 比賽舉辦于2015 年國際人臉與手勢自動識別會議(IEEE Conference on Automatic Face and Gesture Recognition,FG)[8];KVW 系列比賽均為單任務,基于人臉親子關系驗證展開.隨后,美國東北大學SMILE 實驗室[9?10]自2017 年起每年舉辦家庭識別競賽(Recognizing Families in the Wild,RFIW),該競賽于2017 年在ACM 國際多媒體會議(ACM International Conference on Multimedia,ACM MM)[10]1https://web.northeastern.edu/smilelab/RFIW2017/上舉辦,之后每年在FG 會議上[9]舉辦,2019 年 在Kaggle 平臺上舉辦了RFIW競賽2Kaggle 是一個數據建模和數據分析競賽平臺,信息來自維基百科.,3https://www.kaggle.com/c/Recognizing-Faces-in-the-Wild.與以往不同,RFIW 系列比賽基于大規模親子數據庫[11]展開的多任務人臉親子識別比賽,包括人臉親子關系驗證、三人組人臉親子關系驗證以及家庭識別、家庭檢索.
綜上所述,人臉親子關系驗證的研究獲得計算機視覺和模式識別領域研究者的廣泛關注,研究者提出很多方法來解決該問題[6, 12?20].近期,國外已經有一些學者對人臉親子關系驗證問題進行了綜述,表1 對比了這些綜述論文,具體代表性工作總結如下.2014 年,Dandekar等[21]對早期人臉親子關系驗證方法進行了總結,包括研究目標、應用價值、方法框架和早期代表性方法.2016 年,Wu等[22]對早期人臉親子關系驗證方法進行了歸類總結,將已有方法分為4 類: 基于特征的方法、基于度量學習的方法、基于深度學習的方法和其他方法.Almuashi等[23]在2017 年的綜述則側重于闡述人臉親子關系驗證問題的衍生、定義、研究意義以及難點與挑戰,但較少討論解決方法.Georgopoulos等[24]在2018 年將人臉親子關系驗證任務和人臉衰老問題結合,分析了其之間的相互關系,介紹了年齡因素對于親子關系驗證問題的影響,以及祖輩人臉圖像在人臉衰老變化中的引導作用.2020 年,Qin等[25]對人臉親子關系驗證方法進行歸類總結,將其分為基于親子特征的方法和基于數學度量分析的方法,但是較少涉及近期基于深度學習的人臉親子關系驗證方法.2020 年,Robinson等[26]側重于總結RFIW 系列比賽,包括比賽任務介紹、現階段性能對比及今后可能的研究方向,但忽略了其他人臉親子驗證方法的匯總.目前,國內尚沒有關于人臉親子關系驗證方法的綜述.

表1 現有人臉親子關系驗證綜述論文總結Table 1 The summary of the existing facial kinship verification survey papers
總而言之,已有的綜述對現有人臉親子關系驗證問題的研究方法總結還很不全面,尤其缺乏對近期基于深度學習的人臉親子關系驗證方法的總結以及近幾年以來出現的重要數據集的總結.為吸引更多的研究學者參與到該領域的研究,促進其發展,本文嘗試首次對人臉親子關系驗證的相關研究成果進行全面綜述.首先從人臉親子關系驗證問題的基本定義出發,對該問題研究中存在的困難與挑戰進行了深入剖析;接下來,本文對人臉親子關系驗證領域的主流數據庫的發展脈絡進行了梳理與總結;隨后系統地對親子關系驗證的方法進行了梳理、歸納、評述和總結;最后對人臉親子關系驗證未來的研究方向進行了探討.
心理學研究表明,人們具有僅通過面部圖像推斷其是否具有親子關系的能力[1?5].進一步,相關研究學者探究了影響人們親子推斷的可能因素,包括面部旋轉性[27]、面部表情[28]、人臉的對稱性[2]、性別和年齡因素[3],以及不同面部區域對親子驗證的貢獻分布[1, 5].其中,面部的旋轉并不會降低親子識別的準確率[27];而對比于無表情人臉圖像,無約束的面部表情會對親子驗證產生負面影響,從而降低識別準確率[28];面部左右臉部分對親子驗證的貢獻相當,僅稍次于整個面部;DeBruine等[3]指出性別和年齡因素會大大降低親子驗證的準確率;就面部區域影響上,上半臉包含的親子信息量最大,而嘴部區域由于形態多樣,容易對親子識別產生噪聲影響,Alvergne等[5]指出親子線索取決于有效面部區域,而非整個面部區域.心理學領域中的研究成果,對基于計算機視覺和機器學習方法的自動人臉親子關系驗證問題具有借鑒價值.
圖1 中展示了部分親子圖像對和非親子圖像對,親子的推斷主要從親子間的相似性與非親子間的不相似性得出.然而,人眼通過感官知覺上判斷圖像的相似程度,很難對來自不同人的兩幅圖像進行相似度量化,如眼睛間距離、五官形狀與大小等.此外,人眼對顏色的區分感知能力較低,因此在進行親子關系驗證時,人腦處于模糊判斷,從而造成識別準確率低下.不同于人眼對親子關系驗證的判斷,計算機視覺能夠在形狀和顏色等方面,準確捕捉親子間的遺傳相似度,以及判斷非親子圖像間的不相似程度,在數字化基礎上有據可依,通過優化特征表示和分類器,使得機器學習方法能夠更加準確的推斷兩幅人臉圖像是否具有親子關系.

圖1 正樣本對(具有親子關系)和負樣本對(不具有親子關系)示意圖 (? (2018) IEEE[29] 授權修改版)Fig.1 The illustration of positive pairs (with kin relations) and negative pairs (without kin relations) (? (2018) IEEE.Modified,with permission,from [29])
自動人臉親子關系驗證,旨在通過圖像特征提取和機器學習方法,分析兩幅不同的人臉圖像的面部特征相似性來判斷其是否具有某種親子關系,如父子、父女、母子、母女關系等.這是一個極具挑戰的問題,因為有的時候具有親子關系的兩幅人臉圖像僅存在細微的相似性.正式地,給定輸入的兩幅人臉圖像(或兩段視頻),用Ip和Ic表示,分別對圖像(或視頻)提取特征表示,記為?(Ip)與?(Ic),兩輸入之間的距離用d(?(Ip),?(Ic)) 表示,通過閾值θ判斷輸入間是否具有親子關系,則Ip與Ic

人臉親子關系驗證系統的關鍵環節在于兩個方面,一是親子特征的有效表示;二是人臉圖像間距離的準確度量.人臉驗證與人臉親子關系驗證問題兩者具有相似性,卻又有很大不同.兩者都需要基于兩幅人臉圖像的面部特征相似性來進行判斷,前者旨在判斷兩幅人臉圖像是否屬于同一個人,后者旨在判斷其是否具有某種親子關系.兩個問題的正負樣本空間是不同的,前者正樣本對相似度高,負樣本對存在明顯差異性;而后者的正樣本對相似程度較低,容易與負樣本對混淆,鑒于部分情況下具有親子關系的兩幅人臉圖像僅在細微之處存在相似性,增加了問題的難度系數,人臉親子關系驗證是一個極具挑戰的問題.
除了目前研究最熱的人臉親子關系驗證問題,研究學者也指出由于孩子的遺傳基因來源于父母雙方,因此引出了另一個親子研究問題,即三人組親子關系驗證(Tri-subject kinship verification),輸入包括父母二人的人臉圖像,以及子女人臉圖像,分別用If和Im表示父親、母親的人臉圖像,用Ic表示孩子人臉圖像,來判斷其是否具有親子關系.父母、孩子的特征表示為?(If)、?(Im)和?(Ic).孩子與父母間的距離表示為d(〈?(If),?(Im)〉,?(Ic)),與人臉親子關系驗證問題類似,通過閾值對距離進行分類.三人組親子關系驗證與人臉親子關系驗證均為二分類問題(Binary classification).
在人臉親子關系驗證基礎上,研究也延伸到家庭分析上,包括家庭分類[30]、家庭成員搜索和檢索[11].家庭分類問題是一個多類別的分類問題(Multi-class classification),即分類任務中包含多個類別,每個類別為一個家庭,給定一幅待定人臉圖像判斷其屬于哪個家庭.用χ={X1,X2,···,Xk}表示包含k個家庭的集合,對應的多分類標簽為{y1,y2,···,yk},訓練一個分類器,對輸入的人臉圖像xi輸出其家庭標簽.家庭分類問題與人臉親子關系驗證的區別在于,人臉親子關系驗證的任務是分析兩輸入間的相似性,而家庭分類需要分析一個輸入與多個家庭集間的相似與不相似性,從而增加了問題的難度.同其他圖像分類問題類似,隨著家庭數目的增加,家庭分類的難度也相應增大,因此分類性能也會跟著下降.例如目前最大的親子數據集FIW,家庭分類任務中包含564 個家庭,分類準確率僅有16.18%.家庭成員檢索問題旨在對輸入的人臉圖像匹配家庭成員,其中搜索集由所有的家庭成員組成,輸入的人臉圖像為待查詢樣本,輸出給出最為匹配的前K個家庭成員.家庭識別和家庭成員檢索問題的區別在于,家庭識別側重于家庭分類模型的訓練,而家庭成員檢索則通過相似性度量學習,檢索出與待查詢圖像較相似的人臉圖像,從而找到輸入的父母及其他親屬成員.
圖2 總結了4 種親子關系相關的任務示意圖.由于人臉親子關系分析仍處于研究初級階段,且人臉親子關系驗證方法是親子關系研究中的關鍵和核心,因此受關注度最高的是人臉親子關系驗證問題,表2 對現有的代表性人臉親子關系驗證算法進行了分類匯總,分析了其所針對的問題,對比了不同方法的優勢與不足,本文第3 節與第4 節對具體的算法進行了詳細的分析.

表2 人臉親子關系驗證方法的優缺點總結Table 2 The summary of advantages and disadvantages of the facial kinship verification methods

圖2 親子關系任務示意圖Fig.2 The illustration of kinship related tasks
人臉親子關系驗證是一個具有挑戰的問題,其主要的挑戰和難點總結為以下幾個方面.
1) 同一人不同形態差異(Inner-person variations)的影響.這一點繼承了人臉驗證(Face verification)問題存在的挑戰.一方面,由于成像環境導致的各種變化,受到多種因素帶來的干擾,如光照變化、成像距離、成像角度、相機參數等;另一方面,由于主體自身的各種變化,例如姿態變化、表情變化、年齡變化、眼鏡等配飾引起的遮擋等.這些因素,會導致同一個人的人臉圖像表觀特征產生很大差異,影響圖像特征的提取.
2) 親子長相的差異性(Inter-person variations).待判定是否具有親子關系的兩幅不同人臉圖像可能存在很大的年齡差異,也可能來自不同性別,或者僅存在細微的相似性,這些都增加了人臉親子關系驗證的難度.然而性別、年齡等差異性,會導致具有親子關系的人臉圖像差異性增大.可以看出相比于年輕時父母的人臉圖像,子女與年老父母圖像差異更大.而性別的差異性,間接性地影響了判斷是否具有親子關系的準確性.此外,隔輩人臉親子關系(如爺爺?孫子、爺爺?孫女等)驗證問題,由于年齡跨度大、共同遺傳信息減少使得判斷難度更大.
3)親子/非親子分類邊界模糊.具有親子關系的兩個不同人可能看起來有很大差異,僅存在細微的相似性,這種情況被稱為困難正樣本(Hard positive sample).相反,不具有親子關系的不同人或許在長相上具有一定的相似性,稱為困難負樣本(Hard negative sample).親子人臉圖像對相似度低、非親子人臉圖像相似度高,就造成距離度量往往難以分類,分類邊界難以界定.
4) 圖像高維特征提取與數據樣本量少之間的矛盾.可見人臉親子關系驗證問題是一個難度很高的研究課題,人臉親子特征的準確表示就是技術需攻破的關鍵壁壘之一.隨著深度學習在計算機視覺領域的不斷滲透和發展,在學習提取高維可判別的圖像特征中,對訓練數據的要求非常高,然而現有的親子數據集往往存在數據量小、數據質量低下等問題,給深度模型的訓練帶來巨大的挑戰.
5) 大規模親子數據庫的建立.現有的親子數據庫往往存在數據量少、數據質量低、涉及情景少等缺點.大規模全面數據庫對機器學習算法的研究推進起著重要的作用,然而親子數據庫的建立依賴于已知人物間的親子關系,由于親子關系屬于個人的家庭信息,有時候很難直接獲得該方面信息,這就對大規模的親子數據庫的建立產生了巨大的困難.
數據集在人臉親子關系驗證研究中發揮著重要的作用.在如今的大數據時代,大量數據的收集顯得越來越重要.一方面,公開的標準數據集為研究者提供了實驗數據和統一的評價標準,另一方面,數據集的構建與發展也進一步促進研究的問題趨于完善.在親子關系驗證研究出現以前,沒有相關的親子人臉數據集,因此,康奈爾大學的Fang等[6]于2010 年建立了第一個親子關系數據集Cornell Kin-Face,該數據集由300 幅人臉圖像(即150 個親子對)組成,包含了父親?兒子,父親?女兒,母親?兒子,母親?女兒4 種主要的親子關系.此后十年間,許多學者建立了多種親子數據集.相較于最初的數據集,新的數據集在數據集大小、結構、親子關系類型以及數據的模態上各有豐富和發展.
目前常用的公共人臉親子關系數據集有12 個,分別為: Cornell KinFace[6],UB KinFace[52?53],Kin-FaceW[15],Family 101[30],UVA-NEMO Smile[66?67],TSKinFace[68],FIW[11],WVU[69],KFVW[70],FFVW[71],KIVI[72]和TALKIN[73]數據集.表3 對現有親子數據集參數進行了總結和對比.下面我們將對這些數據集展開介紹其特性.

表3 親子關系數據庫屬性總結Table 3 Characteristics of kinship databases
1) Cornell KinFace 數據集4http://chenlab.ece.cornell.edu/projects/KinshipVerification/.Cornell KinFace[6]是第一個公共人臉親子數據集,其由康奈爾大學搜集.其包含150 對名人以及名人的父母或者子女的人臉圖像,每幅圖像的大小是100×100 像素,這些圖像均來源于網絡,圖像采集環境為自然條件,即對光照、姿態、背景、表情、遮擋等因素上沒有要求.該數據集的提出具有開創性意義,為之后的數據集構建提供了借鑒.Cornell KinFace 數據集沒有對父母?子女親子關系進一步細分,根據名人的身份信息推斷親子關系類型發現,親子關系類型分布數量不均衡,其中母親?兒子這一親子關系類型數量最少,父親?兒子關系對最多.
2) UB KinFace 數據集5http://www1.ece.neu.edu/yunfu/research/Kinface/Kinface.htm.由美國東北大學的Shao 等采集的UB KinFace[52?53],是第一個包括有子女、年輕父母和年老父母的人臉圖像數據集.與其他的親子關系數據集不同,它收集了父母年輕時期的照片,這是由于研究人員發現年輕父母與其子女的人臉圖像之間具有更高的相似性.它包括400個人的600 幅圖像,圖像的分辨率為89×96 像素.這600 幅圖像分為200 組,每一組中包括了子女、年輕時父母及年老時父母的人臉圖像各一幅.UB Kin-Face 涉及到的人種分為兩部分: 亞洲人和非亞洲人,各有 100 組.該數據集對具體的親子關系類型進行了區分,分為4 種親子關系,其中父親?兒子,父親?女兒,母親?兒子,母親?女兒分別有91 組,79 組,21 組以及 15 組.
3) KinFaceW 數據集6http://www.kinfacew.com/.KinFaceW 數據集由兩個子數據集組成: KinFaceW-I 和 KinFaceW-II,數據是從網絡上收集的自然環境下的人臉圖像,由Lu 等提出[15],所有圖像的大小為64×64 像素.兩個子數據集的數據結構相同,不同之處在于,Kin-FaceW-I 中的人臉圖像來自從不同的照片,而Kin-FaceW-II 中的人臉圖像對是從同一幅圖像中分割得到的.KinFaceW-I 中,父親?兒子,父親?女兒,母親?兒子,母親?女兒分別有 134 對,156 對,127對和116 對;KinFaceW-II 中,每一種親子關系分別有250 對,由于其數據規模適中,數據分布合理,便于進行訓練,絕大多數基于人臉親子關系驗證研究中都用到了該數據集,但隨著深度學習算法在人臉親子關系驗證中的運用,該數據集也暴露出其在數據量上的短板.
4) Family 101 數據集7http://chenlab.ece.cornell.edu/projects/KinshipClassification/index.html.Family 101[30]數據集是第一個包含有家庭樹結構的數據集,該數據集是由康奈爾大學先進多媒體處理(Advanced multimedia processing,AMP)實驗室建立.Family 101數據集包含了206 個核心家庭,涉及607 個人,共計14816 幅人臉圖像.每一棵家庭樹有1~ 7 個核心家庭,而每一個核心家庭包括3~ 9 個家庭成員.數據集中的圖像大部分是灰度圖,圖像的分辨率各有不同,并沒有進行統一.Family 101 數據集中包含了白種人、亞洲人和非裔美國人等多個人種.Family 101 數據集中有多種親子關系類型,父親?兒子,父親?女兒,母親?兒子,母親?女兒分別有213 對,147 對,184 對和148 對.Family 101 數據集以家庭樹結構組織數據,高效地表示了不同樣本間的親子關系.此外,Family101 中的多數人具有多幅人臉圖像,部分圖像拍攝于不同的年齡時期.
5) UVA-NEMO Smile 數據集8http://www.uva-nemo.org/.UVA-NEMO Smile 數據集由Dibeklioglu等[66?67]提出,最初建立該數據集的目的是為了檢測參與者是在 “真笑” 還是 “假笑”,由于該數據集的參與者是以家庭為單位的,其也被視為第一個由人臉視頻組成的親子數據集.UVA-NEMO Smile 數據集包括有1240 段微笑視頻(其中597 段 “真笑”視頻,643 段 “假笑”視頻),所有視頻的拍攝背景均為黑色,光照條件固定.參與者的年齡在8~ 76 歲之間,視頻幀大小為1920×1080 像素.該數據集包含了父母?子女的4 種主要親子關系類型以及兄弟姐妹3 種親子關系類型(根據性別的不同分成的姐妹關系,兄弟關系,姐弟/兄妹關系).該數據集的親子關系對數較少,僅有95 對,且視頻中包含的人種相對單一,絕大多數為白種人.
6) TSKinFace 數據集9http://parnec.nuaa.edu.cn/xtan/data/TSKinFace.html.TSKinFace 數據集是由淮陰師范大學的Qin等[68]提出的人臉圖像數據集,與之前的數據集不同,它主要用于研究三人組親子關系驗證問題.TSKinFace 包含兩種組合親子關系類型: 父親?母親?兒子和父親?母親?女兒,分別有 513 組和 502 組,人臉圖像來自于網絡并且對拍攝環境沒有約束,每幅人臉圖像大小歸一化為64×64 像素,數據集中涉及了多個人種.
7) FIW 數據集10https://web.northeastern.edu/smilelab/fiw/.FIW (Families in the Wild)[11]數據集是目前規模最大,綜合性最強的親子圖像數據集,由Robinson 等建立.FIW 數據集以家庭結構組織數據,包含1000 個家庭的超過13000 幅人臉圖像,每幅人臉圖像大小為224×224 像素.FIW涉及了家庭成員在不同時間的多張照片.在親子關系類型上,不僅包含了在UVA-NEMO Smile 中涉及的7 種親子關系類型,而且還涉及了四種跨代親子關系類型(祖父?孫子,祖父?孫女,祖母?孫子,祖母?孫女).FIW 不僅在數據集的規模上遠遠超過了Family 101,而且在家庭結構方面也比Family 101 更為復雜.它的數據量也遠超其他的數據集.
8) WVU 數據集11https://sites.google.com/a/mix.wvu.edu/namankohli/resources.WVU 數據集由西弗吉尼亞大學(West Virginia University,WVU)的Kohli等[69]建立,數據集包括113 對親子關系對,包含了UVA-NEMO Smile 中涉及的7 種親子關系類型,其中22 對兄弟,9 對姐弟/兄妹,13 對姐妹,14 對父女,34 對父子,13 對母女和8 對母子.為了增加人臉圖像多樣性,數據集每個參與者包含4 幅人臉圖像.缺點是數據集規模小,親子對數量有限.
9) KFVW 數據集12https://www.kinfacew.com/datasets.html.Yan等[70]提出了KFVW(Kinship Face Videos in the Wild)這一人臉視頻親子關系數據集,與UVA-NEMO Smile 的固定背景不同,它采集于自然環境.視頻在光照、姿勢、遮擋情況、背景、表情、化妝情況、年齡等方面沒有約束.KFVW數據集包含了418 對人臉視頻,每段視頻包含100~ 500 幀圖像,視頻幀的大小為900×500 像素.這些視頻數據均來源于網絡電視節目.KFVW 包含了4 種主要的親子關系類型,該數據集在親子關系類型的分布上比較均衡,數據量較UVA-NEMO Smile 也有了很大的提升,而不足的是KFVW 數據集沒有以家庭結構組織數據,每個個體沒有多段視頻.
10) FFVW 數據集.FFVW 數據集是由Sun等[71]建立的一個人臉視頻親子關系數據集,與TSKin-Face 數據集相似,該數據集主要用于基于人臉視頻的三人組親子關系驗證.FFVW 包含了100 組對象的300 段視頻,數據來源自互聯網,視頻中的環境均為自然環境.與TSKinFace 不同,FFVW 將父母?子女關系統一作為研究對象,沒有對子女性別進行細分.
11) KIVI 數據集13http://iab-rubric.org/resources/KIVI.html.KIVI 數據集由Kohli等[72]建立,數據以家庭為結構進行組織.包含了503 個個體的人臉視頻,這503 個個體來自于211 個家庭,共計組成了355 對親子對.該數據集從互聯網中收集,視頻的平均時長為18.78 s,平均幀頻率為26.79 幀/s,靜態總幀數超過了25 萬.與先前提出的視頻親子關系數據集不同,KIVI 數據集包括了加上兄弟姐妹關系在內的7 種親屬關系,在光照、姿勢、遮擋情況、種族和表情方面沒有約束,且數據集中包括了多個人種.
12) TALKIN 數據集.TALKIN[73]數據集是第一個多模態的親子關系數據集,由人臉視頻和語音兩個模態的數據組成.TALKIN 數據集包含了從互聯網中收集的800 段視頻,包括了4 種親子關系,父親?兒子、父親?女兒、母親?兒子和母親?女兒.每種關系有一百對視頻.視頻均為說話者視頻,包含人臉視頻和聲音信號.視頻中人物為名人或者來源于家庭綜藝中的普通人.TALKIN 數據集包含了來自9 個國家的人種,其中白種人占有很大的比例.視頻在背景環境、人臉姿態、有無遮擋以及說話的文本內容等均無限制.
實驗中數據分為正樣本對和負樣本對,正樣本對是由數據集當中所有具有親子關系的樣本組成,負樣本對為隨機產生的不具有親子關系的樣本.通常正負樣本對數量相同,但也有研究工作為了生成更多的學習樣本,負樣本會多于正樣本.由于親子關系數據量往往比較小,為了避免過擬合,實驗中采取五折驗證方法.其中,四折作為訓練集,剩下的一折作為測試集,通過五輪交替后求平均得出最終的結果.需要特別注意的是,每一折數據的正負樣本對均在本折中產生,不可以產生不同折之間的數據交叉.
識別準確率是親子關系驗證常用的評價指標,準確率可以描述一個分類器在測試數據集上的分類能力[74],分類器的分類結果可以分為兩部分: 正確分類部分和不正確分類部分.正確分類部分包括正確分類的正樣本(True positive,TP)與正確分類的負樣本(True negative,TN);錯誤分類部分包括錯誤分類的正樣本(False positive,FP)和錯誤分類的負樣本(False negative,FN).準確率A的計算方式為

短短十年的研究歷史,涌現了不少人臉親子關系驗證的研究工作,經歷了傳統手工設計工程和以深度學習為代表的學習訓練時代.為方便總結,我們將人臉親子關系驗證方法分為兩個階段進行總結: 傳統的手工設計方法(本節)和基于深度學習的方法(第4 節).在本節,我們先介紹了傳統人臉親子關系驗證的一般過程,之后對傳統方法分為兩個大類介紹,分別為傳統人臉親子特征提取方法和親子度量學習方法.
親子關系驗證的一般流程如圖3 所示,主要由4 個關鍵環節組成: 人臉檢測、矯正和分割、親子特征提取、距離計算和分類得出結果.

圖3 親子關系驗證的一般流程Fig.3 The general framework of kinship verification
1) 人臉檢測、矯正和分割.這一步驟是對輸入的包含人臉的原始圖像進行人臉檢測,對人臉部位進行定位后,通常以眼睛位置作為關鍵比對點,對人臉進行對齊和矯正.對齊和矯正的目的是減少由于尺度、人臉角度的影響,常用的人臉分割和對齊方法有MTCNN (Multi-task convolutional neural network)[75]和ERT (Ensemble of regression trees)[76].本文將不再對此進行詳細介紹,讀者可參閱相關文獻.
2) 親子特征提取.對給定的兩幅輸入人臉圖像I1,I2分別進行特征提取,將每幅人臉圖像表示成一個緊致的特征矢量,即?(I1) 和?(I2),用于后續的距離度量和分類.這一環節屬于親子關系驗證的一個核心研究內容,也是決定其性能的關鍵所在.在深度學習出現以前的傳統特征工程時代,常用的特征描述子有局部二值模式(Local binary pattern,LBP)、二進制統計圖像特征(Binarized statistical image feature,BSIF)、尺度不變特征變換(Scale-Invariant feature transform,SIFT)、方向梯度直方圖(Histogram of oriented gradient,HOG)以及局部相位量化(Local phase quantization,LPQ)等.深度學習出現以后,傳統的特征描述子已經逐漸被深度特征表達方法取代.本文在第3.2 節和第4 節中按照傳統特征工程方法和深度學習方法兩類對代表性的人臉親子特征表達方法進行詳細的歸類、分析和總結.
3)距離度量.經過親子特征提取,兩幅人臉圖像分別表示成兩個固定維度的特征向量,接下來需要采用合適的距離度量來計算兩個特征矢量在特征空間中的距離,來評估兩幅人臉圖像之間的相似性.常用的距離度量方法有歐氏距離、馬氏距離、余弦相似度等,在基本距離度量上,研究者嘗試引入度量學習(Metric learning) 算法,度量學習由Xing等[77],在NIPS 2002 (Conference and Workshop on Neural Information Processing Systems 2002)第一次提出,度量學習旨在學習能使具有親子關系樣本對(即正樣本對)間的距離變小,而非親子關系樣本對(即負樣本對)間的距離變大的變換矩陣,將提取的特征向量通過學習到的變換矩陣嵌入到新的特征空間,以提高人臉親子關系驗證的性能[15,46,78].這部分將在第3.3 節中進行詳細介紹.
4)分類.經過上述步驟,已經得到人臉圖像樣本對之間的距離,接下來就是學習一個二元分類器對輸入人臉圖像樣本對間的距離進行分類.常用的分類器有K近鄰,支持向量機和閾值判別法.
在人臉親子關系驗證問題中,親子特征提取和距離度量起著更為重要的作用,也是研究關注的焦點,為此也是本文討論的重點.
解決人臉親子關系驗證問題首先要對人臉圖像中的關鍵部位進行有效的特征表示,特征提取方法研究的目的是在面部圖像中提取包含親子遺傳屬性的特征表示,依據算法側重不同及其擬解決的問題,可以分為描述特征、面部顯著特征、手工特征、基于顏色的特征變換和特征選擇方法等.首先,描述特征由Fang等[6]學者提出,他們著手于面部底層特征,從不同維度表示面部特征,包括面部顏色屬性:眼睛顏色、膚色、發色;五官間距離: 用歐氏距離測量不同部位間的距離以及其梯度特性;臉型: 五官器官的大小.之后Xia等[79?80]對面部更多的信息進行描述,包括圖像人的年齡、性別、人種等,這些屬性用二值化的特征表示,即 ? 1 和+1.最后將20 種屬性特征級聯作為特征向量.然而,描述特征大多需要人為介入進行標注,來定義特征描述的屬性,特征向量維度低,信息表示片面,不能夠全面挖掘圖像中的親子特性.隨著人臉親子關系驗證逐漸獲得更高的關注度,研究員們提出了性能佳、效率高的自動特征提取方法,接下來將對這些方法進行分類和匯總.
3.2.1 基于顯著特征的親子關系驗證
這類方法旨在通過對面部的顯著部位,如眼睛、鼻子、嘴巴比較親子間的相似度[31?33, 81],因此首先需要對人臉進行關鍵點定位.給定一幅人臉圖像,對其提取顯著性部位,Guo等[31]提出使用眼睛、嘴巴和鼻子作為面部顯著性區域,如圖4 所示,再用DAISY 描述子[82]對每個區域提取相似性特征,而后計算一對圖像的相似性.Kohli等[81]提出使用角點檢測(Differences of Gaussians,DoG)方法定位面部關鍵區域,之后Wang等[32]在2014 年將廣泛應用的68 個人臉特征點檢測方法應用到親子關系驗證中來[34],并提出使用基于Grassmann 流形的幾何度量方法,計算兩幅人臉圖像的相似性.除了對人臉的關鍵點、關鍵部位檢測和提取,Goyal等[33]提出基于邊緣(Edge) 檢測的親子特征提取方法,作者首先用Canny 邊緣檢測算子對兩幅人臉圖像提取邊緣特征.Canny 算子具有低錯誤率的邊緣檢測,最優的邊緣定位以及對任意邊緣僅標記一次的優良特性[35],在獲得圖像邊緣信息后,分析邊緣條紋包裹的閉環面部區域作為最終獲得的顯著性區域.

圖4 基于顯著性區域的親子關系驗證算法框架圖Fig.4 The architecture of saliency based kinship verification
3.2.2 手工特征方法
前面介紹的面部幾何形狀特征是在圖像的像素級上檢測和提取的,受檢測準確度、面部表情形變、噪聲以及傾斜角度影響較大,從而導致識別準確率低,在復雜條件下對噪聲容忍度低.針對這類問題,研究學者提出使用手工特征提取方法[14,36?39,83].其中局部二值模式(LBP)是應用最為廣泛的手工特征表示提取方法,LBP 是一種用來描述圖像局部紋理特征的算子,它具有旋轉不變性和灰度不變性等顯著的優點,最早由Ojala等[84?85]在1996 年提出,LBP采用圓形鄰域編碼方法,如圖5 所示.在3×3大小的窗口內,以中心像素作為閾值,分別與鄰域的8 個像素進行比較,生成8 個二值碼.若周圍像素大于閾值,則標記為1,否則標記為0.

圖5 LBP 算法Fig.5 The algorithm of LBP
由以上方法得到的8 位無符號數即為該窗口的LBP 編碼,這個編碼可以反映區域的紋理特征.LBP 編碼可以通過改變鄰域半徑和取值點,得到不同維度下的特征表示.設窗口半徑為R,取P個鄰域相似點,則 (xc,yc) 點的LBP 值計算式可以表示為

其中,gc為中心像素點,gp為鄰域像素點.s(x) 為符號函數.經過LBP 算子后,特征采用10 進制方式表達該點的二值模式,共有 2P種,在實際應用中可以對P和R值進行改變獲得多尺度下的LBP 表達[38].通常,在LBP 特征提取前會將圖像進行分塊,計算每個子塊中每個像素的LBP 值,對子塊進行直方圖統計得到該子圖像塊的LBP 值,利用子圖像塊的LBP 值即可以描述該圖像的紋理特征.圖6給出了一個灰度圖及其對應的LBP 圖譜,LBP 圖譜中的每個像素值代表了該點的LBP 值.

圖6 LBP 可視化特征Fig.6 The visualization of LBP feature
在基礎的手工特征基礎上,現有的方法也對其進行了不同程度的發展研究.金字塔多尺度協方差描述子(Pyramid multi-level covariance descriptor,PML-COV)[38]建立了金字塔手工特征,將不同分辨率下的HOG 和LBP 兩種特征與協方差描述子結合,取得了傳統特征提取方法中最好的識別率,在KinFaceW-I與KinFaceW-II 數據集上的識別率均達到88.2%.
3.2.3 基于顏色的特征變換方法
傳統手工特征往往在灰度圖像上提取,僅從光照強弱(Luminance)程度層面分析圖像的特征表示,而忽略了圖像的色度信息(Chrominance).面部中的顏色包含了親子間的遺傳信息,如: 眼睛顏色、膚色和發色等,為了能夠充分提取面部圖像顏色信息,Wu等[12]提出顏色紋理特征提取方法.顏色紋理特征結合了圖像中顏色和紋理兩個方面信息,使得表征具有更高的可判別性.常用的顏色空間包括RGB,HSV,YCbCr 等,該方法首先將輸入圖像轉換為目標顏色空間,在目標顏色空間中對每個通道上的圖像分別提取紋理特征,再將各個通道的特征進行級聯得到最終的顏色紋理特征,如圖7 所示.實驗表明HSV 顏色空間相較于其他顏色空間可以提供更為豐富的親子信息,并在TSKinFace 數據集上取得了較好的識別準確率,親子平均識別率為81.2%.并且之后的相關研究均表明了顏色紋理特征在親子關系驗證問題上的有效性[29, 40].

圖7 彩色紋理特征提取方法Fig.7 The method of color-texture feature extraction
除了在已知的顏色空間提取特征表示,Liu等[13, 41]提出遺傳顏色空間(Inheritable color space,InCS),將親子距離度量作為目標函數,從而學習一個映射矩陣W,映射矩陣可以將原圖像所在的顏色空間映射到新的顏色空間.假設原圖像對可以用兩個矩陣表示,mp和mc ∈R3×n(n=h×w),在新顏色空間下的圖像為x,y ∈R3×n.InCS 通過一個變換矩陣W將原圖像變換得到新的顏色空間

其中,W矩陣在目標函數下訓練得到.InCS 顏色空間的各個顏色通道信息不相關,減小了信息冗余度.研究表明InCS 對光照變化,(包括光強變化和光照顏色的變化)魯棒,在多個數據集上的實驗結果也表明了InCS 相較于常用顏色空間的優越性.
3.2.4 特征選擇方法及其他方法
與單一特征提取方法相比,特征選擇(Feature selection) 方法旨在研究多個特征間的融合和選擇方法,從而可以豐富特征表示,并去除冗余信息[42?45].特征選擇方法往往輸入為多個特征,在目標函數或者識別準確率的約束下,從多個特征中選擇出其中有效的表示方法.Alirezazadeh等[42]在2015 年首先提出融合局部特征與全局特征,并從其中選取有效特征的方法.Bottinok等[43]提取圖像的多個特征,包括頻域局部相位量化(Local phase quantization,LPQ)、韋伯局部描述符(Weber's local descriptor,WLD)和LBP.在進行特征分類之前,為了提高識別準確率,用最大相關和最小冗余算法 (Max-relevance and min-redundancy,mRMR) 從特征候選集選出一個最優子集作為最終的分類器輸入.
除此之外,研究者也有用分類器做導向來進行特征選擇.Cui等[44]提出自適應的特征選擇方法,用W對不同特征進行選取,對于特征fj,j=1,···,N訓練一個弱分類器hj,對N個弱分類器的選擇和優化通過以下目標函數實現:

其中,Wi為正則化參數,ξi是每個特征的松弛變量,ωj,bj是第i個支持向量機(Support vector machine,SVM) 的超參數,C是SVM 的懲罰參數,xij為i樣本對的第j特征表示,Φ (xij) 是輸入空間的特征圖,有效的弱分類器組成一個強分類器.與文獻[44]類似,Chen等[45]采用典型相關分析(Canonical correlation analysis,CCA)方法,來尋找一個多特征映射選擇矩陣,從而增大親子關系對的特征相關性.
除了上述提到的特征提取方法,還有一些學者從其他角度解決特征提取的問題.Fang等[30]選取多個不同人臉部分組成一個字典,當輸入新的面部圖像時,在對應器官圖像字典中尋找其編碼方式作為該圖像的特征向量.Duan等[86]提出特征消減法去除特征中的噪聲信息,保留有效信息.Bessaoudi等[87]提取了特征的高階表示,而Laiadi等[88]提出張量交叉視圖二次判別分析(Tensor cross-view quadratic discriminant analysis,TXQDA)方法,通過特征映射方法,學習低維張量,來減小由年齡、性別等多種因素帶來的影響.
本小節對基于特征表示的人臉親子關系驗證方法進行了全面的總結,從多個分類角度分析了方法的切入點和創新點.特征提取的好壞直接影響到最終識別性能的高低,傳統的特征提取方法有計算復雜度低、特征提取速度快的優點,然而,由于特征固化于特定的提取規則,往往有不適用于復雜情況、抗干擾能力差等缺點.
在特征提取方法基礎上,我們期望找到一個最佳的度量方法去計算圖像對間的距離,使得具有親子關系的圖像對(正樣本對)距離小,而不具有親子關系的圖像對(負樣本對)距離大.這就引入了本小節將要介紹的研究內容,基于度量學習的人臉親子關系驗證算法.度量學習(Metric learning)旨在根據不同的任務自動學習出一個距離度量函數,將距離度量空間映射到一個新的度量空間中.這是由于在常用的度量空間中,同一類樣本往往不能夠很好地聚類,度量學習就是為了解決該類問題、更好地描述樣本間的相似問題,這也是人臉親子關系驗證研究的核心問題之一.
度量學習通常在距離度量/相似性度量的基礎上增加一個映射矩陣,依據任務不同構造損失函數,通過迭代優化或最優解的方法得到映射矩陣,從而達到映射度量空間的目的.其中涉及到的距離度量包括歐氏距離[46]、馬氏距離[15,54,78,89?92]、雙線性相似度[47?49,93?95]、圖構造[50?51]、余弦相似度[55?56]、CCA[96]及其他度量模型[97?101],本小節將對這些方法進行總結概述.
3.3.1 鄰域駁斥度量學習算法
Lu等[15]2014 年提出鄰域駁斥度量學習(Neighborhood repulsed metric learning,NRML)算法,這是度量學習在人臉親子關系驗證中的第一次嘗試,為度量學習在人臉親子關系驗證研究中的研究奠定了理論和實踐基礎.NRML 算法的思想是,正樣本相鄰的負樣本會對分類器產生干擾,因此方法對正樣本k個鄰域中的負樣本進行排斥,同時使正樣本互相吸引,從而分離正負樣本,算法示意圖如圖8 所示.

圖8 NRML 算法框架圖Fig.8 The architecture of NRML algorithm
我們用S={(xi,yi)|i=1,2,···,N}表示訓練集,其中,包含了N對具有親子關系的圖像對,xi,yi為第i對親子圖像的特征表示,用m維的列向量表示.xi和yj之間的距離用馬氏距離(Mahalanobis distance)表示為

其中,A是一個m×m的對稱正定矩陣,通過找到一個合適的A,使得當i=j時,距離盡可能小;而ij時,距離盡可能大.對A構造目標函數如下:

其中,yit1表示yi的k鄰域中第t1個負樣本,而xit2表示xi的k鄰域中第t2個負樣本.式(7)中的前兩項目的是為了駁斥xi和yi鄰域中的負樣本,J1(A)以xi為基準,最大化其與k個鄰域負樣本的距離;反過來,J2(A)以yi為基準,最大化其與k個鄰域負樣本的距離,而第3 項J3(A) 則使正樣本對xi和yi距離盡可能小.這樣就實現了正負樣本對的分離,文獻[15]中用迭代優化的方法對A進行求解,本文將不再贅述,感興趣的讀者可以參閱相關文獻.
NRML 算法在當時研究水平上取得了最好的識別率,分別在KinFaceW-I 和KinFaceW-II 數據集上的平均識別率為73.8%與69.9%.因此,NRML的鄰域駁斥思想也被多個研究學者應用于其他度量方法上,Yan等[46]提出將特征向量映射到SVM 超平面(Hyperplane)上,再通過構造鄰域駁斥思想優化系數矩陣.Xu等[47]用多特征級聯作為圖像的特征向量,提出用雙線性相似度結合NRML 算法的度量學習方法.之后,Yan等[55]和Lei等[96]分別將度量方法用余弦相似度和CCA 代替,也證明了NRML算法的有效性.
除了上文提到的NRML 算法,研究學者在馬氏距離的基礎上也提出了其他度量學習算法,從不同角度切入優化距離度量方式.Yan等[78]引入概率模型,最大化親子關系距離小于非親子關系距離的概率,即P(d(xi,yi) 圖9 大裕量多維度量學習算法示意圖Fig.9 The illustration of LM3L LM3L 在單一特征(第k特征)下的損失函數可以表示為 其中,wk是權值參數,為了避免平凡解,對權值取p次方.第1 項對不同特征空間學習權重函數;第2項為了減少不同特征空間的差異性,由此最終可以得到多特征的度量學習模型.作者采用交替優化方法優化式(9),具體細節可參見文獻[78]. 3.3.2 基于雙線性相似度的度量學習方法 除了研究較多的馬氏距離度量方法,還有一種度量方式是雙線性相似度(式(10)),M是參數矩陣,xi,xj表示兩個特征向量,當M為單位陣(Identity matrix)時,雙線性相似度可以視為沒有歸一化的余弦相似度.雙線性相似度在圖像檢索上展現了較好的度量性能[102?103],并且對于稀疏特征向量,其可以有效計算特征間相似度,即 Zhou等[48?49]提出四輸入的相似度學習算法(Ensemble similarity learning,ESL),輸入為xi,yi,xj,yl,其距離關系目標函數可以表示為 其中,xi和yi表示一對正樣本對,而yl和xj分別為對應負樣本.為了滿足上述的約束條件,Zhou等[48?49]提出如下損失函數: 其中,1 是一個邊緣閾值常量用于分離正負樣本對.作者提出使用梯度下降的迭代方法優化參數.ESL算法在計算效率方面具有一定的優勢,因此其在實際應用中可以適應于高維特征表示.其次,ESL 通過四輸入的數據組,滿足每對圖像相似度模型上的類內類間約束.實驗結果表明,ESL 在計算效率上優于現有的方法,識別準確率在KinFaceW-I 和KinFaceW-II 上分別取得74.1%和74.3%,在當時獲得最佳識別性能.Qin等[94]提出多任務的雙線性相似性學習方法,將多種親子關系任務結合,用多任務(Multi-task)的思想進一步提高算法的魯棒性.Fang等[95]引入線性回歸模型,建立正樣本的后驗概率模型,平滑目標函數,進一步幫助最優解求解. 3.3.3 遷移子空間學習 基于遷移子空間學習的人臉親子關系驗證方法將子女圖像與父母圖像分別看作源域(Source domain)與目標域(Target domain),旨在通過學習一個矩陣映射,縮小兩個域之間的差異,同時保留特征的可判別性[52?53].Xia等[52?53]提出子女長相更相像于年輕時父母,為了保證源域到目標域的有效遷移,將年輕父母的人臉圖像作為源域到目標域的橋梁,稱為中間域(Intermediate domain).Zhang等[54]將該思想與NRML 算法結合,提出鄰域駁斥遷移度量學習(Neighborhood repulsed transfer metric learning,NRTML)算法,同時縮小子女與年輕父母之間的距離、子女與年老父母之間的距離以及年輕與年老父母之間的距離.這類方法的缺點是同時需要年輕與年老時的父母人臉圖像,對數據搜集要求高,難度大. 3.3.4 其他度量學習方法 除了上述應用中較為廣泛的度量學習方法,研究學者也從其他角度對親子度量方法進行了研究.Zhang等[97]提出三人組的親子關系度量方法,在高維特征空間中,距離由子/女點到父母點連線的垂直距離表示.Liu等[98?99]通過向量的對角向量表示距離關系,Wu等[100]引入低秩的度量學習,通過自適應的隱含子空間學習方法挖掘更具有可判別的特征表示.Zhao等[101]提出多核的距離度量方法,包括線性和非線性度量方法,在不同核函數下計算距離后加權融合.圖學習方法也在親子關系度量中展現了其優越性和有效性,Liang等[51]依據數據節點間的距離關系,將NRML 思想和圖理論結合,通過構造本質圖(Intrinsic graph) 和懲罰圖(Penalty graph),同時描述類內緊湊性和類間分離性,在公開數據集上取得了較好的識別效果,在TSKinFace數據集上的親子平均識別率為90.5%,在Kin-FaceW-I 和KinFaceW-II 數據集上的平均識別率分別為78.7%和82.8%. 度量學習可以看作是對特征向量的聚類操作,通過不斷優化學習,拉近具有親子關系的圖像對,而不具有親子關系的圖像對互斥.本小節對現有的親子度量學習算法進行了歸納總結,傳統的度量學習方法是在特征表示基礎上提出的,與特征提取方法是兩個獨立的模塊.深度度量學習將特征提取和距離度量結合,用樣本間的距離度量引導網絡學習表征能力強的特征提取方法.通常深度網絡抽象特征向量,相似性度量作為損失函數,通過優化損失函數,不斷更新網絡參數,最后可以得到判別力強的特征向量. 傳統手工特征的描述能力有限,很難適應復雜場景下的大規模數據任務.基于卷積神經網絡 (Convolutional neural network,CNN)的深度學習方法具有很好的特征描述能力,通過對大規模的數據進行訓練分析,自適應地從原始數據中提取有效特征向量,避免了手工特征單一、特定的特征提取規則. 隨著深度學習在計算機視覺領域的不斷滲透和大規模親子數據集的提出,2016 年以后研究人員的研究重心逐漸向深度學習方法遷移.相較于傳統方法,深度學習方法通過設計神經網絡,自適應地挖掘圖像的高層次特征,一般通過端到端(End-toend)的訓練方法獲得任務的訓練模型(Model).深度學習方法在復雜情況下表現出了優越的性能,對光照、遮擋等因素魯棒性高.人臉親子關系驗證算法中涉及到多個先進深度學習框架,包括基本卷積神經網絡、深度度量學習、基于自編碼器的框架和注意力機制神經網絡框架.下面將對這些算法進行匯總和介紹. 近年來,隨著深度學習方法在計算機視覺和語音處理領域得到成功應用,其在人臉親子關系驗證問題中也取得了不少進展[16?20,57?63,65,72?73,104?109].深度學習網絡包含了許多隱含層及通過損失函數的反向傳播,使得其具有相對于傳統手工特征的強大的表達能力,以及對特定問題的學習能力.2015 年,Wang等[16]首次提出用深度網絡解決親子關系驗證問題,該方法分為兩個階段,特征提取與深度度量學習.其中,面部的非線性特征通過自編碼器(AutoEncoder)提取,而后,基于優化馬氏距離的深度度量學習,可以更好地分離正負樣本.然而,該方法的輸入為LBP 特征,丟失了原始圖像的細節特征.Zhang等[57]開啟了基于端到端(End-to-end)深度學習的人臉親子關系驗證方法,框架圖如圖10 所示,是一個基本的卷積神經網絡(CNN).網絡的輸入為兩幅人臉圖像,經過多層的網絡卷積最終輸出判斷結果.該網絡架構簡潔明了,僅用單一卷積網絡對兩輸入分析其之間的關系情況.盡管網絡結構比較單一,CNN 在公開數據集上同樣表現出了很好的識別性能,在KinFaceW-I 和KinFaceW-II 數據集上的平均識別率分別為77.5%和88.4%,該項工作奠定了深度學習在人臉親子關系驗證研究中的研究基礎. 圖10 基于基本CNN 的親子關系驗證框架圖Fig.10 The architecture of the basic CNN based kinship verification 在卷積神經網絡的基礎上,為了優化學習輸入的親子圖像間的距離,研究學者引入距離度量參與網絡訓練,即深度度量學習(Deep metric learning)方法[17, 58?62].典型的網絡結構為孿生網絡(Siamese network),如圖11 所示.不同于基于表征學習的深度網絡,度量學習旨在通過優化損失函數,尋找到一個最優的特征空間,使得具有親子關系的圖像對(Positive pair)距離縮小,不具有親子關系的圖像對(Negative pair)距離變大,而該特征空間即為我們訓練所得到的網絡. 圖11 基于孿生網絡的親子關系驗證框架Fig.11 The Siamese network based kinship verification Li等[17]提出基于相似度量的卷積神經網絡(Similarity metric based convolutional neural networks,SMCNN),輸入為兩幅人臉圖像X1和X2.G(·)表示網絡的全連接層特征輸出,兩幅圖像經過參數共享的網絡得到特征的嵌入表示,特征間的距離用L1范數表示,如式(13)所示. 訓練過程中,為了區分正負樣本對,增加一個閾值參數τ,使得正樣本對間距離大于τ,而負樣本對間距離小于τ.正負樣本的標簽分別用y=1與y=?1表示,此時,可以得到網絡的損失函數 其中,f(·) 表示歸一化的邏輯回歸.通過不斷地優化最小化損失函數,可以得到最終的網絡參數用于問題的求解.此外,常用的孿生網絡損失函數還包括對比損失函數(Contrastive loss)和三元損失函數(Triplet loss)[17?18, 73],這兩個損失函數均基于距離度量,如歐氏距離和余弦相似度,用d=D(X1,X2)表示.同樣,y表示輸入圖像對的標簽.對比損失函數可以表示為 其中,(x)+=max(x,0),參數y的0 或1 取值就使得損失函數在正負樣本情況下保留特定項式.當y=1 時(正樣本),優化d使其逐漸縮小,從而使得親子關系對間距離變小.反之,當y=0 時(負樣本),負樣本對會逐漸分離,距離大于預設定的α閾值.不同于對比損失函數,三元損失函數的輸入為三元組〈a,p,n〉,其包括3 個樣本,分別為,固定圖像(Anchor)a、正樣本圖像(Positive)p和負樣本圖像(Negative)n,正負樣本均參照輸入的固定圖像而言.三元組損失函數表示為 三元損失函數以固定樣本作為參考,在拉近正樣本的同時遠離負樣本.在兩個條件作用下,達到聚類正樣本對的目的,實現正負樣本對的分離,如圖12 所示.然而,對于深度度量學習而言,網絡的訓練樣本對直接決定網絡訓練的效率和網絡性能,因此研究者提出一系列難樣本挖掘(Hard negative samples mining)方法[110].通常難樣本挖掘方法致力于在訓練批(Batch)中尋找距離較遠的正樣本對以及距離相近的負樣本對,這些樣本會產生較大的誤差回傳,從而有效訓練網絡.由于深度度量學習在人臉親子關系驗證中的研究尚處于較初級階段,且人臉親子關系驗證由于環境等因素,問題難度大,至今難樣本挖掘方法的研究在人臉親子關系領域中仍處于空白. 圖12 三元損失函數示意圖Fig.12 The illustration of triplet loss 另一個解決親子關系驗證問題的框架基于自編碼器(Auto-encoder,AE)[16, 19, 72, 104, 106, 111?114],早期自編碼器在人臉親子關系驗證領域的應用主要針對特征的無監督訓練,如圖13 所示.自編碼器包含兩個部分: 編碼器和解碼器,輸入為特征向量,經過多層隱含層(Stacked autoencoders)后得到輸出特征向量,此時的輸出近似于輸入.其中編碼特征(Encoded feature)可以作為輸入的表征用于任務.自編碼器通過無監督的學習方式,對輸入特征進行降維和去噪. 圖13 自編碼器框架圖Fig.13 The architecture of auto-encoder 由于自編碼器輸入與輸出相似的特點,如圖14所示,Dibeklioglu等[18]將親子對作為自編碼器的輸入,自編碼器的輸出不僅與原圖像相似,又使其和自己的親子相似,從而得到具有親子表示的特征向量.用x1,x2表示兩幅輸入圖像,經過自編碼器后的輸出分別為和.則親子損失函數可以表示為 圖14 基于自編碼器的親子驗證/圖像合成框架圖Fig.14 The architecture of auto-encoder based kinship verification/kin face synthesis 其中,C(·,·) 表示兩幅圖像的余弦相似度,通常面部圖像會用大數據預訓練的深度網絡提取特征向量,如VGG (Visual geometry group)網絡.親子損失函數描述了親子對間的相互轉化,保留了親子間的有效特征表示.而非親子損失函數是建立在親子圖像與其非親子圖像間的,對于父母和子女的負樣本圖像表示為n1和n2,則非親子損失函數為 結合親子損失函數和非親子損失函數,可以得到 其中,λ是一個權重參數,用來控制親子損失函數和非親子損失函數間的貢獻程度.通過對自編碼器的訓練,可以得到編碼特征f(x1,x2),描述輸入圖像間的關系.此外,也有部分研究者利用其圖像生成特性,研究親子圖像合成技術[19, 63, 64].生成對抗網絡(Generative adversarial networks,GAN)是一個無監督的學習模型,對子女圖像的生成可以實現數據域之間的轉換.GAN 包括兩個部分,分別為生成器(Generator,G)和判別器(Discriminato,D),生成器接受父母的圖像而合成子女的圖像,縮小與真實子女圖像間的距離.同時判別器用對抗學習的方法,判斷生成的圖像是否是真實圖像.因此在訓練過程中,生成器的目標是合成逼真的子女圖像去欺詐判別器,而判別器在盡力區分真實圖像與合成圖像.通過這樣的一個博弈過程,GAN 就可以完成對子女圖像的合成. Yan等[65]就親子遺傳線索往往存在于特定的局部面部區域,而非整個人臉的問題,提出基于注意力機制的親子關系驗證方法.通過注意力機制,學習面部局部特征表示方法,對面部不同區域進行加權操作,對比與傳統的卷積神經網絡,該方法可以學習到局部區域的高維特征,從而去除噪聲和無效信息的干擾,提高方法的性能,算法如圖15 所示. 圖15 注意力機制示意圖Fig.15 The illustration of attention mechanism Yan等[65]采用殘差注意力機制方法,對原特征圖進行加權.首先輸入特征圖(Feature map),經過一個池化和卷積,為了使得權值和原特征圖大小相同,用上采樣操作得到一個二維的特征圖.特征點通過Sigmoid 函數,將特征圖上的每個點都歸一化到0 到1 之間.用C(X) 表示輸入,即待加權的特征圖,F(X) 代表得到的注意力圖,得到的經過注意力操作的特征圖為 其中,?表示點乘.但是,由于提出的注意力權值通用于特征圖所有通道,而權值在0 到1 之間,會造成丟棄深層特征值,因此網絡增加殘差(Residual)結構,可以得到最終的特征圖表示為 當F(X) 的值接近于0 時,( 1+F(X)) 的值接近于1,不會對原特征圖造成特征消失的影響,保留了網絡的高維信息.進一步,為了更加準確地定位親子特征部位,指導網絡對局部區域的學習作用,作者對不同面部區域遮擋再學習注意力權值,例如,眼睛、鼻子、嘴巴部位.包括全臉和部分遮擋的面部圖像在內,網絡輸入6 幅面部圖像,可以得到一個合成的網絡,全面地描述面部信息.注意力機制網絡在KinFaceW-I 和KinFaceW-II 數據集上的平均識別率為82.6%和92.0%,是目前算法中性能比較好的. 注意力機制網絡借鑒了人類觀察時選擇性的注意力特點,可以根據任務的不同,學習注意力方法.在親子關系驗證的問題上尤為適用,生物學家和心理學家發現對于長相遺傳,眼睛部位會存在大量的遺傳信息.相比于眼睛,嘴巴部位由于狀態多樣化,并不能夠提供充足的遺傳線索,尤其對于靜態圖像而言.基于注意力的親子關系驗證研究尚處于一個初級階段,而今后如何將度量結合注意力學習是研究的關鍵點之一. 除了上述提到的幾種典型的深度學習框架,研究者們也在包括外觀模型和幾何模型分離、多模態融合、基于圖網絡的框架和數據擴充問題上提出了相關解決辦法. Zhang等[107]提出分離外觀模型與幾何模型的方法,結合全局面部外貌和臉型形狀兩個方面因素分析親子特征.外觀特征基于人的身份信息得到,臉型信息通過面部關鍵點得到.然而臉型信息的獲取受到角度和姿態的影響,因此提出仿射不變性的形狀特征提取方法,詳細的方法細節參見文獻[108].實驗表明,兩個維度特征的融合使得識別準確率在單特征基礎上提高了10%. Wu等[73]就子女不僅長相與父母相似,在說話聲音上也具有一定的相似性特點,提出融合語音特征和面部特征來解決親子關系驗證問題,為親子特征提供更加全面的信息.網絡結構分為兩個部分:聲音網絡和視覺網絡,分別在大規模的說話者數據集和人臉數據集上預訓練后進行微調.融合模塊采用對比損失方法,學習融合機制,首先將語音和視覺特征級聯,經過全連接層輸出融合后的特征表示.實驗結果表明,多模態融合相較于單一模態可以進一步提高識別準確率. Li等[109]發現對比親子關系時,往往通過比對對應的面部屬性,而CNN 的輸出特征的每一維可以看作是一種基因特征.基于此,作者提出一種基于圖的關系推理方法.兩個輸入圖像的特征向量g(xi) 和g(yj) 的每一維級聯后得到圖的N個特征節點,hd=[gd(xi)||gd(yj)].為了融合不同維度上的關系,在所有節點中選出一個節點作為超級節點,剩余節點均和該節點連接,由此建立了親子關系推理網絡.通過多層圖卷積后,將二值交叉熵損失函數作為目標方程來訓練整個圖網絡. 數據量不足是影響親子關系驗證研究在深度學習領域發展的一個重要因素,Song等[110]提出KINMIX 的親子數據擴充方法.該方法在特征級而不是原始圖像上進行擴充.作者提出兩個親子圖像特征向量間的線性變化后的特征向量,仍與原向量具有親子關系,通過改變線性變化的權值,可以擴充出大量的特征用于訓練.實驗表明,擴充后相較于原始數據會對方法性能有一定的提升. 深度學習算法具有較好的學習能力,在人臉親子關系驗證中具有很大的發展潛力,也是未來的主要研究方向之一.為了更加清楚直觀地對比現有基于深度學習的人臉親子關系驗證算法,本文在表4中對其在多個維度上進行了匯總比較,并分析了算法所針對的問題. 表4 基于深度學習的親子關系驗證方法總結Table 4 The summary of deep learning based kinship verification 本節將對現有的人臉親子關系驗證算法進行性能比較,由于人臉親子關系驗證的方法很多,我們無法對所有的方法窮舉.因此,本文選取了3 個研究方向中具有代表性的研究工作,以及發表在頂級會議和頂級期刊上性能好、具有里程碑意義的方法.表5 總結了10 余種最具代表性的親子關系驗證算法在常用基準測試數據集上的性能,分別從特征提取、度量學習和深度學習3 個方面選取幾種最具代表性的方法.常用基準測試數據集包括親子靜態人臉數據集KinFaceW-I、KinFaceW-II、TSKinFace、FIW 和Cornell KinFace 等,視頻數據集包括Smile、TALKIN 和KIVI.為了方便比較,我們選取了應用較多的幾種親子關系,包括: 父親?兒子(FS)、父親?女兒(FD),母親?兒子(MS),母親?女兒(MD). 傳統人臉親子關系包括兩個方面,分別為基于特征提取的方法和基于度量學習的方法.人臉親子關系驗證研究初期以傳統特征提取方法為主,識別率相對較低.以第一個人臉親子關系驗證方法 “計算模型”為例,平均識別準確率僅有65.7%.隨著人臉特征表示研究的不斷進步,基于特征提取的方法取得了比較大的性能提升.顏色特征方法[12]在TSKin-Face 數據集上的平均識別準確率為81.2%,PMLCOV[38]方法在KinFaceW-I 和KinFaceW-II 數據集上的平均識別率均可以達到88.2%.在特征提取的基礎上,度量學習方法從距離度量的角度著手,進一步優化親子和非親子圖像對的距離度量方式,提高正負樣本的識別準確率.MNRML 算法作為度量學習在人臉親子關系驗證研究中的里程碑工作,取得了當時最好的識別準確率,分別在KinFaceWI 和KinFaceW-II 數據集上的平均識別準確率為73.8%和69.9%.WGEML 方法引入圖結構,得到了更高的識別準確率.傳統方法為人工設計的特定規則,在復雜情景下魯棒性低,從表3 中可以看出傳統方法均針對于小規模數據集,涉及的情景單一、數據收集環境也比較理想.深度學習方法進一步實現了算法性能的提升,其中SCCAE 算法在Smile數據集上取得了93.3%的平均識別準確率,Attention 算法在KinFaceW-I 和KinFaceW-II 數據集上擊敗了傳統方法,識別準確率分別為82.6% 和92.0%.隨著小數據集上識別準確率趨近于飽和,研究學者提出大規模的人臉親子關系驗證,目前,FIW 是最大的人臉親子數據集,數據采集于無約束條件下,問題復雜度高,現有的識別準確率僅有68.5%,大規模自然環境下的人臉親子關系驗證問題難度大,仍需進一步研究. 人臉親子關系驗證也受到多方面因素的影響,從數據采集條件角度分析,包括錄制環境以及人臉圖像來源等因素;從人臉特性而言,影響人臉親子關系驗證的因素包括面部表情、年齡和性別;此外,親子數據集規模也是影響親子驗證識別準確率的因素之一,下面我們將依據對應實驗結果對這些因素進行分析. 1)數據采集.數據集采集的條件包括兩種,一種是在自然環境下無約束的數據采集,一種是約束條件下錄制.約束條件下,數據采集的各個參數均保持一致,包括背景、光照、受驗者面部角度、面部表情、面部是否遮擋以及采集數據的設備和拍攝位置.以Smile 親子數據集為例,由于Smile 數據集是在約束條件下拍攝的,受到來源于外部因素的干擾可以降到最低,因此識別準確率處于較高的水平,SCCAE[18]方法取得了93.3%的平均識別準確率.KinFaceW 數據集研究了親子人臉圖像來源于同一張照片和不同照片的差異性,從表3 的實驗結果可以看出,KinFaceW-I 數據集中親子圖像來自于不同照片,其平均識別率相對低于親子圖像來自同一照片的KinFaceW-II 數據集,這是由于圖像背景、光照等因素的相似性為親子驗證提供了參考,從而簡化了問題復雜度.文獻[115]對此進行了詳細的分析,感興趣讀者可以參閱相關文獻. 2)面部表情.心理學研究表明親子關系驗證準確率受到面部表情[27]變化的影響,相比于不同面部表情,待驗證的兩幅人臉圖像在無面部表情時識別率較高.表5 中,文獻[18]采用微笑的人臉親子數據進行測試,實驗結果表明了具有親子關系的兩個人不僅在長相上相似,也具有相似的微笑表情. 3)年齡和性別.人臉面部隨著年齡的變化存在結構和紋理上的差異[116],而這些差異對人臉親子關系類內距離產生影響,從而降低識別性能.UBKin-Face 數據集包含子女、年輕父母以及年老父母的人臉圖像,在表5 的DMML[78]算法實驗結果可以看到,年輕和年老父母在親子關系驗證上性能相差4.5%.在親子關系性別上的差異表現于父親?女兒和母親?兒子這兩種親子關系,性別不同在人臉屬性上會產生一定的差異[117],從表3 中統計的實驗結果分析,FS、MD 關系的識別性能相對優于FD、MS 關系. 4)數據集規模.自人臉親子關系驗證研究以來,親子數據集的建立經歷了由小規模到大規模的發展過程.目前大規模親子數據庫為FIW,其余數據庫大都屬于小規模數據庫.小規模的親子數據庫涉及情景單一,數據搜集條件比較理想,受到來自遮擋、視角等因素的干擾少,人臉圖像提供了豐富的面部視覺信息.小數據庫中樣本量少更容易學習類內的聚斂性和類間的分離性,從表5 的實驗結果可以看出,在小數據庫上,算法識別性能已接近飽和.而當數據量劇增時,以FIW 數據庫為例,每個個體具有多幅不相同的人臉圖像,人臉形態在年齡維度、裝束、拍攝條件發生變化時具有多樣化,干擾類內距離的度量,問題復雜度增加,傳統方法已無法滿足解決問題的需要.AdvKin[62]深度學習方法也僅取得了68.5%的平均識別準確率.基于大規模數據集的人臉親子關系驗證研究更貼合于實際應用,同時也伴隨著更大的挑戰性,值得今后投入更多研究. 表5 人臉親子關系驗證方法識別準確率對比 (%)Table 5 The comparison of accuracies or kinship verification methods (%) 5)多模態信號.現有的親子數據集大多數僅包含人臉視覺信息,人臉親子關系驗證算法基于視覺單模態實現.文獻[73]通過將語音信號和視覺信號結合,在視覺模態上通過語音模態提供互補信息,性能得到了進一步提升.通過文獻[73]的實驗結果可以看到單一語音模態和視覺模態分別取得65.8%和71.9%的平均識別準確率,融合兩模態后可以達到74.1%的平均識別準確率,因此所涉及的模態也是影響識別性能的因素之一. 整體而言,人臉親子關系驗證的識別率總體仍比較低,特別是在復雜情況下受多種因素干擾時性能魯棒性較差,距離實際應用尚存在很大差距,仍需要進一步的研究. 近年來人臉親子關系驗證領域出現大量新的研究工作,在包括方法研究、數據集構建和應用拓展等方面均取得一定的研究進展,這是對其應用價值的肯定.未來會有更多的工作嘗試進一步提高人臉親子關系驗證的準確率和易用性,并逐漸將人臉親子關系驗證方法應用到現實問題中.本文在回顧了人臉親子關系驗證問題的發展歷程、分析其研究現狀、歸類和評述了現有主流方法的基礎上,下面總結現有人臉親子關系驗證研究的一些問題和未來可能的研究方向. 1) 大規模人臉親子關系數據集構建問題.深度學習在親子關系驗證中得到了成功應用,為了訓練性能更佳、使用性更為廣泛的深度模型,需要建立一個大的親子數據庫用于算法的訓練.目前最大的親子數據庫FIW 的數據量為1000 個家庭,距離百萬級的數據庫還有很大的距離.并且目前的親子數據庫所涉及的場景也不夠豐富,例如通常親子圖像來源于同一幅相片[115].現有的親子數據庫所涉及的參與者信息不夠全面,大部分僅涉及到了參與者的視覺靜態的面部長相,而忽略了參與者時間?空間的面部視頻、聲音以及步態等信息.除此之外,親子數據庫的搜集是建立在已知的親子關系基礎上,多個親屬參與的數據搜集工作,需要家庭中兩人以上作為單位進行數據搜集.然而,親子關系屬于相對隱私的家庭關系,隨著人們對個人隱私保護意識的不斷提高,無疑對親子數據庫的構建形成了一個阻礙.構建大規模且信息源豐富的親子數據集是推動親子關系驗證研究發展的一項重要工作. 2)有效親子特征表示的研究.現有親子關系驗證方法中涉及到的面部特征提取大多基于整個面部的紋理特征、幾何特征以及深度特征,上述特征大多為人臉的一般特征表示,包含了與親子遺傳信息無關的特征.而親子特征的有效表示直接影響了算法的識別準確率,因此有效的親子特征表示方法研究是今后的一個重要研究方向.對親子特征提取的研究包括,面部親子區域定位、親子特征表示方法等.在Dal Martello等[1, 5,27]的心理學研究中就表明了不同面部區域對親子驗證的貢獻程度不同,從實驗結果看出嘴巴部分由于形態的多樣性,易對親子關系驗證產生負面的噪聲影響,而上半部臉包含了豐富的親子特征線索,今后一個值得關注的可能解決辦法包括,注意力機制網絡在親子關系驗證問題的深入探究.在區域定位基礎上,如何應用深度卷積網絡從大數據中學習親子特征表示也是今后值得研究的關鍵之一. 3) 如何降低年齡和性別因素對人臉親子關系驗證的影響.人臉親子關系驗證本質上是對比兩個輸入間的相似程度,DeBruine等[3]通過研究表明性別和年齡會大大影響親子驗證系統的準確性,而如何降低這兩個因素帶來的影響是今后研究值得關注的一點.其中一個思路是通過GAN 網絡在原輸入圖像的基礎上修改圖像的某種特性,如性別、年齡,并生成新的人臉圖像.另一個思路是,將年齡、性別標簽作為約束條件,通過將年齡、性別特征與親子特征解耦,從而學習年齡和性別不變性的人臉特征表示. 4) 非限定環境下人臉親子關系驗證的魯棒性問題.本文在第1 節中提到人臉親子關系驗證所面臨的挑戰包括人臉姿態變化、成像條件、圖像分辨率、面部表情變化等,目前為了解決自然條件下的人臉姿態差異性問題,在實驗過程中通過眼睛位置對人臉進行歸一化對齊操作.然而目前很少對光照、表情等因素進行考慮,依舊是尚待解決的問題.如我們考慮引入表情估計模型,利用表情估計模型估計出人臉的表情,再進行局部特征匹配,從而解決表情不統一的問題[118].再者對于光照不均勻和光線弱的情況,是否可以引入近紅外成像光電器件解決光線弱的問題,引入本征圖分解方法提取與周圍環境光無關的本征反射圖,從而消除由光照不均勻和陰影帶來的影響[119]. 5) 視聽親子關系驗證(Audio-visual kinship verification).現有研究工作大多從靜止人臉圖像判斷二者是否具有親子關系,而基因學[120]、心理學[121]和聲學[122?125]等研究均表明聲音也具有遺傳性,子女具有與父母相似的說話聲音.Sataloff[120]從基因學的角度研究人類發聲規律,他指出人說話音色取決于發聲器官,而發生器官往往由基因決定,包括喉部軟骨大小、聲帶的長度以及聲門形狀.聲學相關學者也通過語音特征: 基頻F0[122?124]、基頻擾動(Jitter)、振幅擾動(shimmer)以及諧噪比(Harmonics-to-noise ratio,HNR)[125]證明了親屬間語音是具有相似性的.此外,心理學研究表明人們具有依據說話聲音判斷是否具有親屬關系的能力[121],而計算機是否也可以通過語音來進行親子關系驗證是未來值得探究的一個研究方向.聲音模態可以為人臉視覺模態提供補充信息,提高系統的識別準確率.目前在親子關系驗證研究中,視覺語音雙模態融合研究還非常少,處于起步階段,而如何利用模態間的互補性、提高系統魯棒性是未來的研究熱點之一. 6) 親子圖像生成相關研究.生成對抗網絡(GAN)[126]是現階段深度學習的一個重要發展分支,在多個研究領域展現了其卓越的性能.在親子關系驗證研究上,其中一個難點就是親子人臉數據的難獲得性和親子數據量不足、缺乏數據多樣性,GAN模型就可以通過親子圖像生成、數據擴充方法幫助解決這個問題.此外,就丟失兒童問題而言,其中的一個重要解決思想就是通過父母的人臉圖像生成其子女圖像,從而更好的匹配和尋找丟失的兒童,基于GAN 的子女人臉圖像的生成研究也可以應用于手機終端娛樂.基于GAN 的親子圖像間的轉換和分析研究是一個今后值得關注的研究方向. 7)基于模型遷移學習的親子關系驗證研究.我們在前面提到現有的親子數據集規模大都較小,訓練樣本不足,除了對數據集進行數據擴充,另一個思路就是用知識遷移(Knowledge transfer)[127]方法,是否可以借鑒人臉相關訓練模型所學習到的知識,如在大規模人臉識別數據庫上預訓練的深度模型,從而更有效的解決親子關系驗證問題.除此之外,現有的人臉親子關系驗證研究將每種親子關系看作獨立的任務,以 “父親?兒子(FS)”關系為例,其余人臉親子數據,如: 母親?兒子,是否有助于訓練單任務模型,比如將模型通過其他類型關系訓練網絡的初始化參數,再就特定的親子類型學習或微調網絡.如何充分應用親屬數據也將是解決數據量不足的一個思路. 8)小樣本親子關系驗證.深度學習網路往往需要大量的標注數據訓練模型,然而就人臉親子關系驗證問題而言,場景不同、問題背景不同時訓練樣本不足,這種情境下就需要解決樣本少時的親子關系驗證問題.我們是否可以引入小樣本學習(Fewshot learning,FSL)[128],FSL 是深度學習的一個重要分支,在沒有大量標注數據情況下,能夠快速泛化學習內容,訓練模型.小樣本親子關系驗證的一個解決思路是,通過元學習(Meta-learning)使得模型學會學習.具體為將有限的人臉親子訓練數據構造一系列訓練任務,讓系統學會學習,從而達到快速學習目的,同時避免過擬合(Overfitting)問題.小樣本親子關系驗證問題研究目前處于空白,具有很大的研究價值和意義. 9)家庭檢索和家庭分類.家庭檢索和家庭分類任務的訓練數據集為所有家庭成員,測試輸入為丟失兒童圖像,輸出其所屬的家庭.家庭檢索和家庭分類對于丟失兒童匹配目標家庭有重要的現實意義.但是,家庭分析研究由于其涉及范圍廣、隔輩差異性大等原因,問題復雜度高、難度大,因此目前的相關研究很少,仍處于基準方法水平,算法的性能具有非常大的提升空間.比如,應用數學模型,對家庭構建圖結構或樹結構,更好的優化家庭聚類.家庭檢索和家庭分類是今后極具潛力的一個研究方向. 人臉親子關系驗證是計算機視覺領域一個新興的研究方向,具有重要的理論意義和實際應用價值,同時也存在諸多難點與挑戰.本文對人臉親子關系驗證問題的起源與發展做了詳細的回顧,對該領域主流數據集進行了總結,對已有人臉親子關系驗證方法進行了詳細地梳理、歸類和評述,對主流方法的優缺點進行了分析、性能進行了對比;在此基礎上,對未來人臉親子關系驗證的可能研究方向進行了展望.由于篇幅所限,許多問題未及深究.本文旨在使國內同行對該領域有一個較為全面的了解,以期引起更多研究者對該領域的關注.




4 基于深度學習的人臉親子關系驗證方法

4.1 深度度量學習方法






4.2 基于自編碼器的方法框架





4.3 基于注意力機制的框架



4.4 其他框架

5 現有方法性能比較

6 對人臉親子關系驗證的思考
7 結束語