999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對人臉識別數據集偏見現象的研究

2021-06-22 03:32:22王兆偉彭鈺琳尼瑪頓珠梁澤森
電子元器件與信息技術 2021年3期
關鍵詞:人臉識別模型

王兆偉,彭鈺琳,尼瑪頓珠,梁澤森

(1.西藏大學信息科學技術學院,西藏 拉薩 850000;2.鄭州科技學院信息工程學院,河南 鄭州 450000)

0 引言

如今人臉識別已經漸漸融入了我們日常生活中的各個方面,例如移動支付、安防門禁、打卡考勤、手機解鎖等。在深度學習領域的發展和數據集朝向大規模標注方向發展的促進下,人臉識別的安全性、準確性、高效性得到進一步發展。在深度學習人臉識別中,數據集扮演了重要的角色,深度神經網絡需要通過成規模的數據集的訓練學習才能夠獲得安全準確的判斷(識別)能力。然而,現有的數據集普遍規模較小、也存在不可避免的偏見,例如:常用的規模較大的數據集VGG-Face、CASIA-WebFace等由于它們采用互聯網收集的方式也導致了這些常用的數據集中歐美面孔占比較多。我國是一個統一的多民族國家,各民族因不同的血緣、生活地域和飲食習慣等因素,面容長相略有差距,形成了各自的面部特征[1]。例如藏族:從面容來看,他們一般為高鼻骨、大鼻孔,長期在高原生活也導致他們皮膚較為粗糙,面部多為醬紅色,即為典型的高原紅現象。常用的數據集往往只考慮人種而忽略了人種中的不同民族,例如VGG-Face、CASIA-WebFace等均只涉及到亞洲人種,而忽略了亞種人種中的不同民族,這可能導致如果直接使用這些數據集訓練深度神經網絡,不能夠取得效果較好的深度網絡結構,所得到的識別模型在我國使用時會出現一定偏差。因此,本文旨在通過利用LFW以及自采數據集進一步探索數據集的偏見是否會對人臉識別產生影響。

1 相關工作

1.1 數據集

高質量的數據庫是相關研究的基礎和前提[2],為了進一步探索數據集的偏見是否會對人臉識別產生影響,開展相關研究,我們確定了使用經典人臉識別測試數據集LFW作為對照組,并通過建立我們的藏漢數據集進行測試對照。

為了建立一定規模的數據集來進行測試,我們在拉薩市主要以西藏大學為主開展了數據采集工作,采集了短期居住在西藏的漢族人員和長期居住在西藏的藏族本土通報人員的人臉樣本信息(以20歲左右的青年為主)。為了增加測評的可信度以及數據集的規模,考慮到時間對面容的影響,我們分階段對數據集的原始人員在不同時期拍攝了多姿態(正面、側面、仰面等多角度)的圖片,拍攝環境以人為控制環境為主(白色或者綠色背景、LED燈帶輕微補光),部分人員在自然環境中拍攝(宿舍中沒有背景,白天在自然光線拍攝,晚上在打開白熾燈環境中拍攝),截至目前為止,數據集共有漢族138人,藏族117人,共255人,3000多張數據(RGB圖和Depth圖)。其中,每個人員都被編訂了唯一的編號[3]。

在測評中,使用VGG-Face、兩個數據集作為訓練集,同LFW一樣,這兩個數據集也是通過互聯網收集而成。其中CAISA-WebFace是從IMBb網站上搜集來的,包含了10K個人的500K張圖片,噪聲相對較少,適合作為訓練數據。VGG-Face是從搜索引擎得到的,包含了2622個人的2百萬張圖片,噪聲也比較小,相對來說能訓練出比較好的結果。LFW是通過運用爬蟲技術在互聯網上進行人臉圖像的搜集和爬取了13000 多張人臉圖像,圖像中絕大部分為彩色圖像,但也存在少許黑白人臉圖片,是目前人臉識別的常用測試集。圖1是測評所涉及到的不同數據集的已經對齊的圖像。

圖1 來自不同數據集的已經對齊的圖像。即使在對齊后,由于拍攝時間跨度、性別、文化、背景、姿勢的不同設置,這些數據集中的域差異仍然存在

1.2 模型

數據和算法是模式識別的基礎和前提。為了更好地進行測評,在本項目的研究中選擇了經典的Sphereface(CVPR 2017)、CosFace(CVPR2018)、VGGFace(British Machine Vision Conference, 2015)算法進行實驗[4]。綜合各方面的因素,本文的研究選擇使用了官方提供的已經訓練完成的模型,具體情況如表1所示。

2 數據集測評差異測試

我們的測評流程分為數據預處理-提取特征-計算繪圖-分析,具體流程如圖2所示。

圖2 數據集測評差異測試流程

2.1 流程概述

實驗step1:數據預處理——精確地進行人臉檢測、人臉對齊和圖像裁剪,為后續實驗提供可靠的并符合模型需求的人像數據;工作流程——輸入人臉圖像數據,程序準確無誤地檢測出圖像中的人臉位置,對于原始圖像中人臉可能出現的姿態、位置上的差異問題,進行對對齊處理,并裁剪,最終輸出符合模型需求的人像數據[5]。

實驗step2:圖像預處理——將歐美、漢族、藏族三組測試集分別送入MTCNN中,利用MTCNN對測試集實施人臉檢測、人臉對齊和圖像裁剪。鑒于三者對圖像尺寸要求的不同,其中SphereFace、VGGFace要求112X96像素,VGGFace要求112X112像素,讓三個測試集各生成兩組(112X96像素、112X112像素)。

實驗step3:提取特征——嚴格控制變量(分別將三個測試集一一的送入三個測評模型對圖像特征進行提取。其中,sphereface是在Caffe環境下使用Matlab進行的、Cosface是在Tensorflow環境下使用Python進行的、VGGFace是在Caffe環境下使用Python進行的。

實驗step4:計算、繪圖——利用Python的Sklearn庫、Matplotlib庫進行以下操作:計算相余弦似度-繪制ROC曲線-繪制DET曲線-計算AUC。

2.2 結果分析

本文章采用ROC曲線來直觀體現數據集的偏見是否會對人臉識別產生影響。其中,ROC曲線的橫軸FPR負正類率,代表了分類器預測的正類中實際負實例占所有負實例的比例。縱軸TPR真正類率,代表了分類器預測的正類中實際正實例占所有正實例的比例。根據ROC曲線的橫縱坐標軸的含義我們可以知道,如果數據集在模型上測評效果好(預測的正類中實際正實例占所有正實例的比例盡可能高,預測的正類中實際負實例占所有負實例的比例盡可能低),那么它的ROC曲線就越靠近左上角[6]。本文在研究中測評了3個數據集,由圖3可以看出,3個數據集差異性較小,它們的ROC曲線較為集中。因此,我們引入了DET曲線,它由繪制出錯誤拒絕率與錯誤接受率測構成,根據DET曲線定義,我們可以知道,如果數據集在模型上測評效果好,那么它的DET曲線越靠近左下角。

圖3 實驗測評結果ROC-DET圖:第一排為ROC曲線,第二排為DET曲線

結合上文的敘述及圖表我們可觀察出:

(1)三類已訓練好的算法下,均具有大大小小不同差異。由表2可知,測評中,3個測試集在3個算法中的AUC值均在0.9以上,具有較高準確性。其中,‘lfw’>=‘漢族’>‘藏族’。

表2 試驗中各分類器測評AUC值

(2)從ROC曲線和RET曲線來看,測評中‘lfw’人臉數據ROC曲線均最靠近左上角,RET曲線均最靠近左下角,測評效果最佳,‘漢族’次之,‘藏族’最差。

(3)從上述圖標可見,‘lfw’的AUC值及曲線變化十分平緩,‘漢族’的AUC值及曲線變化幅度較大,‘藏族’的AUC值及曲線變化幅度最大。我們認為,由于訓練集采用互聯網爬取方式來進行收集數據,所收集的亞洲人種面容數據絕大多數為名人、明星等面容,而這些數據中絕大多數面容接近中國漢族,進而導致‘漢族’變化幅度小于‘藏族’變化幅度,也證實了數據集的偏見會導致同人種的不同民族之間還是存在一些差異。

(4)從上述可知,三類已訓練好的算法在人臉識別測試中,對歐美面孔最友好,中國漢族藏族次之。鑒于訓練數據集中的偏見(絕大多數是歐美面孔,含有少量亞洲人種面孔),我們認為,數據集的偏見,會降低一些亞洲人種和其中的一些民族的識別率和用戶體驗。

針對分析結果,經多重驗證,排除可能存在的誤差,我們可知,人臉識別數據集由于收集條件的不同和收集者的主觀性,會導致一定的偏見現象,這些現象會導致利用這些數據集所訓練出來的模型會對一些人種中的民族地區人臉識別不太友好(人臉識別率明顯低于算法公開測評數據,相對而言,會降低民族地區人臉識別的識別率和用戶體驗)[7]。從數據集角度出發,我們建議,在建立數據集時,應收集大量多樣的且具有更多相關標簽(例如:民族、性別等)的訓練數據,提高對不同人種以及不同人種中不同民族面容數據的重視程度,進而有效降低人臉識別數據集的偏見現象、提高人臉識別率。

3 結語

本文通過LFW、自采數據集在經典人臉識別算法SphereFace、CosFace、VGGFace進行了識別測評,研究了人臉識別數據集的偏見,通過這些研究,不但能夠促進人臉識別數據集的健康、發展有效地提高人臉識別率,還能進一步擴展目前人臉檢測和人臉識別領域和提升民族地區人臉識別系統的人臉匹配速度,具有一定地現實意義。

由于時間、能力、知識儲備的限制,本文僅簡單地對基礎問題進行了研究,仍然存在一些不足需要進一步改進,今后我們從以下幾個方面進行改進:①進一步擴大數據集規模,增加不同年齡、性別及群體的數據比重,提升結論可信度。②利用自創數據集訓練模型,與利用傳統數據集訓練的模型得到的結論進行比較,進一步探索數據集的偏見現象。③隨著人臉識別技術正在朝向多模態方向發展,在未來一段時間,開展彩色圖和深度圖結合的測評差異的研究。

猜你喜歡
人臉識別模型
一半模型
人臉識別 等
作文中學版(2022年1期)2022-04-14 08:00:34
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
揭開人臉識別的神秘面紗
學生天地(2020年31期)2020-06-01 02:32:06
基于(2D)2PCA-LBP 的人臉識別方法的研究
電子制作(2017年17期)2017-12-18 06:40:55
人臉識別在高校安全防范中的應用
電子制作(2017年1期)2017-05-17 03:54:46
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于類獨立核稀疏表示的魯棒人臉識別
計算機工程(2015年8期)2015-07-03 12:19:07
主站蜘蛛池模板: 免费激情网址| 99免费在线观看视频| 国产精品视频第一专区| 成人噜噜噜视频在线观看| 欧美国产在线精品17p| 亚洲视频在线观看免费视频| 成人午夜天| 亚洲成人动漫在线| 日韩欧美国产另类| 在线国产毛片| 谁有在线观看日韩亚洲最新视频| 亚洲欧洲自拍拍偷午夜色| 中国特黄美女一级视频| 欧美国产日本高清不卡| 又大又硬又爽免费视频| 中文字幕色在线| 91网在线| 四虎成人精品在永久免费| 国内精品一区二区在线观看| 亚洲一级无毛片无码在线免费视频| 亚洲成a人片在线观看88| 国产精品第页| 在线欧美日韩国产| 精品无码一区二区三区在线视频| 国产免费高清无需播放器 | 九九香蕉视频| 日韩人妻少妇一区二区| 一区二区日韩国产精久久| 夜夜爽免费视频| 久久亚洲国产最新网站| 青青操国产视频| 亚洲国产天堂在线观看| 麻豆国产原创视频在线播放 | 欧美三级自拍| 欧美日韩国产在线观看一区二区三区| 韩日免费小视频| 成人亚洲视频| 国产无码高清视频不卡| 一级毛片免费观看久| 99热线精品大全在线观看| 三上悠亚精品二区在线观看| 国产精品视频观看裸模| 在线欧美a| 玖玖精品在线| av在线手机播放| 久久综合丝袜长腿丝袜| 欧美精品成人一区二区在线观看| 中文字幕亚洲综久久2021| 国产成人调教在线视频| 97国产精品视频自在拍| 99视频在线免费| 亚洲人成在线免费观看| 国产亚洲精品自在线| 国产小视频在线高清播放| 精品三级在线| 国产偷倩视频| 99久久婷婷国产综合精| 免费va国产在线观看| 国产无码精品在线| 亚洲人成网址| 五月激情综合网| 亚洲综合欧美在线一区在线播放| 日本中文字幕久久网站| 一本一道波多野结衣av黑人在线| 99九九成人免费视频精品| 久久综合九九亚洲一区| 亚洲成人在线免费观看| 国内老司机精品视频在线播出| 亚洲色图在线观看| 朝桐光一区二区| 青青热久麻豆精品视频在线观看| 国产欧美日韩另类精彩视频| 精品国产成人av免费| 无码区日韩专区免费系列 | 国产高清精品在线91| 麻豆AV网站免费进入| 欧美色综合网站| 国产高清自拍视频| 久久国产精品影院| 国产成人精品高清不卡在线 | 欧美日韩综合网| 在线播放精品一区二区啪视频|