王兆偉,彭鈺琳,尼瑪頓珠,梁澤森
(1.西藏大學信息科學技術學院,西藏 拉薩 850000;2.鄭州科技學院信息工程學院,河南 鄭州 450000)
如今人臉識別已經漸漸融入了我們日常生活中的各個方面,例如移動支付、安防門禁、打卡考勤、手機解鎖等。在深度學習領域的發展和數據集朝向大規模標注方向發展的促進下,人臉識別的安全性、準確性、高效性得到進一步發展。在深度學習人臉識別中,數據集扮演了重要的角色,深度神經網絡需要通過成規模的數據集的訓練學習才能夠獲得安全準確的判斷(識別)能力。然而,現有的數據集普遍規模較小、也存在不可避免的偏見,例如:常用的規模較大的數據集VGG-Face、CASIA-WebFace等由于它們采用互聯網收集的方式也導致了這些常用的數據集中歐美面孔占比較多。我國是一個統一的多民族國家,各民族因不同的血緣、生活地域和飲食習慣等因素,面容長相略有差距,形成了各自的面部特征[1]。例如藏族:從面容來看,他們一般為高鼻骨、大鼻孔,長期在高原生活也導致他們皮膚較為粗糙,面部多為醬紅色,即為典型的高原紅現象。常用的數據集往往只考慮人種而忽略了人種中的不同民族,例如VGG-Face、CASIA-WebFace等均只涉及到亞洲人種,而忽略了亞種人種中的不同民族,這可能導致如果直接使用這些數據集訓練深度神經網絡,不能夠取得效果較好的深度網絡結構,所得到的識別模型在我國使用時會出現一定偏差。因此,本文旨在通過利用LFW以及自采數據集進一步探索數據集的偏見是否會對人臉識別產生影響。
高質量的數據庫是相關研究的基礎和前提[2],為了進一步探索數據集的偏見是否會對人臉識別產生影響,開展相關研究,我們確定了使用經典人臉識別測試數據集LFW作為對照組,并通過建立我們的藏漢數據集進行測試對照。
為了建立一定規模的數據集來進行測試,我們在拉薩市主要以西藏大學為主開展了數據采集工作,采集了短期居住在西藏的漢族人員和長期居住在西藏的藏族本土通報人員的人臉樣本信息(以20歲左右的青年為主)。為了增加測評的可信度以及數據集的規模,考慮到時間對面容的影響,我們分階段對數據集的原始人員在不同時期拍攝了多姿態(正面、側面、仰面等多角度)的圖片,拍攝環境以人為控制環境為主(白色或者綠色背景、LED燈帶輕微補光),部分人員在自然環境中拍攝(宿舍中沒有背景,白天在自然光線拍攝,晚上在打開白熾燈環境中拍攝),截至目前為止,數據集共有漢族138人,藏族117人,共255人,3000多張數據(RGB圖和Depth圖)。其中,每個人員都被編訂了唯一的編號[3]。
在測評中,使用VGG-Face、兩個數據集作為訓練集,同LFW一樣,這兩個數據集也是通過互聯網收集而成。其中CAISA-WebFace是從IMBb網站上搜集來的,包含了10K個人的500K張圖片,噪聲相對較少,適合作為訓練數據。VGG-Face是從搜索引擎得到的,包含了2622個人的2百萬張圖片,噪聲也比較小,相對來說能訓練出比較好的結果。LFW是通過運用爬蟲技術在互聯網上進行人臉圖像的搜集和爬取了13000 多張人臉圖像,圖像中絕大部分為彩色圖像,但也存在少許黑白人臉圖片,是目前人臉識別的常用測試集。圖1是測評所涉及到的不同數據集的已經對齊的圖像。

圖1 來自不同數據集的已經對齊的圖像。即使在對齊后,由于拍攝時間跨度、性別、文化、背景、姿勢的不同設置,這些數據集中的域差異仍然存在
數據和算法是模式識別的基礎和前提。為了更好地進行測評,在本項目的研究中選擇了經典的Sphereface(CVPR 2017)、CosFace(CVPR2018)、VGGFace(British Machine Vision Conference, 2015)算法進行實驗[4]。綜合各方面的因素,本文的研究選擇使用了官方提供的已經訓練完成的模型,具體情況如表1所示。
我們的測評流程分為數據預處理-提取特征-計算繪圖-分析,具體流程如圖2所示。

圖2 數據集測評差異測試流程
實驗step1:數據預處理——精確地進行人臉檢測、人臉對齊和圖像裁剪,為后續實驗提供可靠的并符合模型需求的人像數據;工作流程——輸入人臉圖像數據,程序準確無誤地檢測出圖像中的人臉位置,對于原始圖像中人臉可能出現的姿態、位置上的差異問題,進行對對齊處理,并裁剪,最終輸出符合模型需求的人像數據[5]。
實驗step2:圖像預處理——將歐美、漢族、藏族三組測試集分別送入MTCNN中,利用MTCNN對測試集實施人臉檢測、人臉對齊和圖像裁剪。鑒于三者對圖像尺寸要求的不同,其中SphereFace、VGGFace要求112X96像素,VGGFace要求112X112像素,讓三個測試集各生成兩組(112X96像素、112X112像素)。
實驗step3:提取特征——嚴格控制變量(分別將三個測試集一一的送入三個測評模型對圖像特征進行提取。其中,sphereface是在Caffe環境下使用Matlab進行的、Cosface是在Tensorflow環境下使用Python進行的、VGGFace是在Caffe環境下使用Python進行的。
實驗step4:計算、繪圖——利用Python的Sklearn庫、Matplotlib庫進行以下操作:計算相余弦似度-繪制ROC曲線-繪制DET曲線-計算AUC。
本文章采用ROC曲線來直觀體現數據集的偏見是否會對人臉識別產生影響。其中,ROC曲線的橫軸FPR負正類率,代表了分類器預測的正類中實際負實例占所有負實例的比例。縱軸TPR真正類率,代表了分類器預測的正類中實際正實例占所有正實例的比例。根據ROC曲線的橫縱坐標軸的含義我們可以知道,如果數據集在模型上測評效果好(預測的正類中實際正實例占所有正實例的比例盡可能高,預測的正類中實際負實例占所有負實例的比例盡可能低),那么它的ROC曲線就越靠近左上角[6]。本文在研究中測評了3個數據集,由圖3可以看出,3個數據集差異性較小,它們的ROC曲線較為集中。因此,我們引入了DET曲線,它由繪制出錯誤拒絕率與錯誤接受率測構成,根據DET曲線定義,我們可以知道,如果數據集在模型上測評效果好,那么它的DET曲線越靠近左下角。

圖3 實驗測評結果ROC-DET圖:第一排為ROC曲線,第二排為DET曲線
結合上文的敘述及圖表我們可觀察出:
(1)三類已訓練好的算法下,均具有大大小小不同差異。由表2可知,測評中,3個測試集在3個算法中的AUC值均在0.9以上,具有較高準確性。其中,‘lfw’>=‘漢族’>‘藏族’。

表2 試驗中各分類器測評AUC值
(2)從ROC曲線和RET曲線來看,測評中‘lfw’人臉數據ROC曲線均最靠近左上角,RET曲線均最靠近左下角,測評效果最佳,‘漢族’次之,‘藏族’最差。
(3)從上述圖標可見,‘lfw’的AUC值及曲線變化十分平緩,‘漢族’的AUC值及曲線變化幅度較大,‘藏族’的AUC值及曲線變化幅度最大。我們認為,由于訓練集采用互聯網爬取方式來進行收集數據,所收集的亞洲人種面容數據絕大多數為名人、明星等面容,而這些數據中絕大多數面容接近中國漢族,進而導致‘漢族’變化幅度小于‘藏族’變化幅度,也證實了數據集的偏見會導致同人種的不同民族之間還是存在一些差異。
(4)從上述可知,三類已訓練好的算法在人臉識別測試中,對歐美面孔最友好,中國漢族藏族次之。鑒于訓練數據集中的偏見(絕大多數是歐美面孔,含有少量亞洲人種面孔),我們認為,數據集的偏見,會降低一些亞洲人種和其中的一些民族的識別率和用戶體驗。
針對分析結果,經多重驗證,排除可能存在的誤差,我們可知,人臉識別數據集由于收集條件的不同和收集者的主觀性,會導致一定的偏見現象,這些現象會導致利用這些數據集所訓練出來的模型會對一些人種中的民族地區人臉識別不太友好(人臉識別率明顯低于算法公開測評數據,相對而言,會降低民族地區人臉識別的識別率和用戶體驗)[7]。從數據集角度出發,我們建議,在建立數據集時,應收集大量多樣的且具有更多相關標簽(例如:民族、性別等)的訓練數據,提高對不同人種以及不同人種中不同民族面容數據的重視程度,進而有效降低人臉識別數據集的偏見現象、提高人臉識別率。
本文通過LFW、自采數據集在經典人臉識別算法SphereFace、CosFace、VGGFace進行了識別測評,研究了人臉識別數據集的偏見,通過這些研究,不但能夠促進人臉識別數據集的健康、發展有效地提高人臉識別率,還能進一步擴展目前人臉檢測和人臉識別領域和提升民族地區人臉識別系統的人臉匹配速度,具有一定地現實意義。
由于時間、能力、知識儲備的限制,本文僅簡單地對基礎問題進行了研究,仍然存在一些不足需要進一步改進,今后我們從以下幾個方面進行改進:①進一步擴大數據集規模,增加不同年齡、性別及群體的數據比重,提升結論可信度。②利用自創數據集訓練模型,與利用傳統數據集訓練的模型得到的結論進行比較,進一步探索數據集的偏見現象。③隨著人臉識別技術正在朝向多模態方向發展,在未來一段時間,開展彩色圖和深度圖結合的測評差異的研究。