郎玥,周霽婷,梁小龍,張文俊
(1.上海大學上海電影學院,上海 200072;2.騰訊公司優圖項目組,上海 200030)
基于人臉識別的影視劇鏡頭自動標注及重剪系統
郎玥1,周霽婷1,梁小龍2,張文俊1
(1.上海大學上海電影學院,上海 200072;2.騰訊公司優圖項目組,上海 200030)
利用基于深度學習的人臉識別技術,建立了一種基于人臉識別的影視劇鏡頭自動標注及重剪系統,用于實現影視劇重編輯過程中對鏡頭片段更好地管理、查找和重剪.先對輸入的影視劇視頻進行鏡頭檢測和分割,獲得并建立分鏡參數.在此基礎上,對鏡頭中出現的所有人臉進行檢測和切割,并采用預先訓練好的包含350多位明星特征的模型庫予以身份識別,聚類后實現鏡頭的演員標注.該系統也可依據指定演員對影視劇進行搜索,并將其中所有包含該演員的片段自動重剪在一起.實驗結果表明,該系統鏡頭分割模塊的平均召回率達到95%以上,對45?以內的人臉識別率達到92.45%,且具有良好的魯棒性.
人臉檢測;人臉識別;鏡頭分割;深度學習
基于內容的圖像檢索一直是數字媒體技術與應用領域的研究熱點之一,特別是基于人臉識別[1]的圖像檢索技術的應用近年來倍受各方關注[2].諸如Facebook的DeepFace[3]、香港中文大學的DeepID[4]、谷歌公司的GoogleNet[5]等前沿的人臉識別研究項目,都將深度學習應用于人臉識別中,使人臉識別的準確率不斷提升.阿里巴巴的人臉支付“Smile to Pay”、谷歌眼鏡的“Name Tag”、微軟的“How-old”等進行了大量的人臉識別技術應用探索與市場開拓.
人臉識別在靜態圖像中的應用技術已日趨完善[3-7],而視頻中的人臉識別技術尚處于起步階段,目前已有的應用也多集中在視頻中的人臉追蹤和定位上[8-10].為了在影視劇重編輯過程中實現智能化管理,以及自動重剪,同時也針對影視劇迷們對特定明星鏡頭的檢索與重剪的應用需求,本工作將基于深度學習的人臉識別技術應用到影視劇的鏡頭檢索當中,建立了基于人臉識別的影視劇鏡頭自動標注及重剪系統,極大地減少了影視劇鏡頭檢索、剪輯的時間和人工成本,開拓了人臉識別技術應用的新方向.同時,本工作在構建鏡頭分割模塊時,對現有的基于視頻邊緣變化率的鏡頭分割技術進行了改善,提出了自適應閾值加滑窗的雙重判別法,以有效提高鏡頭分割的準確率.
本工作建立的基于人臉識別的影視劇鏡頭自動標注及重剪系統主要包含鏡頭分割、人臉庫訓練、人臉檢測、人臉識別、人臉驗證5個模塊,旨在通過人臉信息對影片鏡頭進行查找和重剪,系統流程框圖如圖1所示.本系統預先對大量知名的國內外演員的面部特征進行了訓練,建立并得到一個通用的演員面部特征庫.用戶在輸入要檢索的視頻對象后,可以選擇對全部鏡頭進行出場人物標注,或者輸入要查找的目標人物姓名,對包含特定人物的鏡頭片段進行查找和重剪.

圖1 影視劇鏡頭檢索及自動重剪系統框圖Fig.1 Flow chart of shot retrieval and automatic recut system
1.1 自適應閾值加滑窗的雙重判別鏡頭分割方法
鏡頭分割是對視頻進行處理的基礎步驟.為了對視頻進行結構化處理,需要將經由視頻編輯軟件編輯之后的視頻還原為多個單獨的鏡頭,其主要任務是找出鏡頭邊界的定位.目前已有的鏡頭邊界檢測算法不具有普適性,因此鏡頭分割的方法選擇還需根據實際應用需求來確定.
本工作所處理的視頻對象為影視劇(電影、電視劇).影視劇的鏡頭切割絕大多數為切變或黑場過渡,其鏡頭切換的頻率一般要遠高于廣告、歌曲MV、新聞等其他種類的視頻.由于影視劇中同一場景下的色調往往較為統一,鏡頭切換也常為中景切特寫、全景切中景等,其相鄰兩幀的灰度直方圖變化并不劇烈.因此,綜合此特點與實際需求,本工作選用了基于邊緣變化率(edge change ratio,ECR)的方法對影視劇鏡頭進行邊界檢測.
由于鏡頭變化會引起相鄰幀圖像內容結構上的不連續性,圖像中的邊緣變化也會在鏡頭變化時大幅增加,即上一幀中出現的邊緣并不會在下一幀中出現.所以,圖像邊緣變化率可以作為鏡頭變換的重要指標.該特征對亮度信息有很高的不變性,且與人類的視覺認知最貼近.
邊緣變化率的定義為

為了減少鏡頭運動對邊緣檢測的影響,可以將圖像進行灰化,對兩幀連續圖像之間進行總體的運動補償.隨后用Canny算子對圖像輪廓進行提取,得到圖像的邊緣信息,并對邊緣先腐蝕后膨脹.反色后進行圖像相與運算并統計消失和新增的邊緣像素數目,求解每一幀的ECR值.
對于閾值的選取,由于影視劇畫面運動時快時慢的特點,單一閾值不能滿足通用性的需求,往往會出現漏檢的現象.為此,本工作提出了自適應閾值加滑窗的雙重判別法,來判斷鏡頭變化的幀號.經過對大量影片的測試實驗,將自適應閾值設為aEavg,其中Eavg為視頻序列中所有幀的邊緣變化率平均值,a,b分別為小于1的閾值系數,即當第k幀計算所得的邊緣變化率Ek>aEavg+b時,判斷第k幀為新一個鏡頭的第一幀.
此外,由于每個鏡頭中起始幀的圖像邊緣變化率會遠大于其前后的相鄰幀,利用這一特性,本工作提出了一種簡單的改進式滑窗檢測方法對初步檢測結果進行補充.
(1)首先設定一個步長為2m+1的滑動窗口,使待檢測的第k幀位于窗口正中央位置;
(2)計算窗口中每一幀的邊緣變化率Ek;

為了解決影視劇黑場過渡的檢測問題,設定邊緣像素數為0,即遇到黑幀時,E值為1.記檢測到的切換點幀號為Fck,若Fck+1?Fck=1時,則舍去Fck+1不作記錄.采用此方法可以有效跳過黑場過渡和漸變鏡頭的變化過程,避免重復記錄.
1.2 影視劇的演員標注與檢索
1.2.1 基于深度學習的人臉特征庫建立
基于視頻的人臉識別多基于幾何特征、統計特征和局部模式,也有少部分基于人臉3D模型,其識別效果及效率并不盡如人意[11].
本工作選用騰訊BestImage項目組的Deep_UFACE模型對人臉庫進行訓練,率先將基于深度學習的人臉識別技術應用到視頻人臉識別中.Dee_UFACE模型使用深度卷積神經網絡(deep convolutional neural networks,CNN)進行訓練,在國際權威人臉識別數據庫LFW(Labeled Faces in the Wild)上的識別率已經達到99.65%,且對遮擋和小幅的姿態變化均有較好的魯棒性[12].相較其他模型,Deep UFACE模型僅需輸入一張用于訓練的人臉圖像,即可獲得高達98.5%的識別率,在實際應用中具有明顯優勢.
在本工作所建立的系統中,首先建立一個演員列表,對其中的每個演員使用多張不同角度、光線、造型的照片進行人臉訓練,以獲取每個演員的面部特征值.完成訓練后,這些特征信息會保存在云端服務器,用戶只需輸入待檢測的影視劇,就可以選擇進行全部鏡頭的人物信息標注,或進行單個人物的查找.對指定人物的查找完成后,可選擇自動將包含該人物的所有鏡頭重剪成為新的明星cut片段.
1.2.2 影視劇人臉檢測及面部圖像裁切
當使用Deep UFACE模型進行人臉識別時,對輸入的每幀圖片只能識別出其中最大的一張人臉.為保證鏡頭中所有人臉都能被識別出,本系統預先對輸入的影視劇進行了人臉檢測,并切割出人物面部的圖像.
首先,對輸入的幀序列圖像進行人臉檢測,獲取靜態圖像中每張人臉的坐標定位參數.人臉檢測時所定位到的面部坐標范圍較小,通常不能包含下巴、額發、耳朵等區域.為保證裁切出的面部圖像的完整性,可以將定位到的人臉坐標范圍在上下左右4個方向各擴大15%,并對擴大后的坐標范圍進行邊界約束,使其不超出原始圖像范圍.將裁切得到的人物面部圖像按鏡頭存放,以便后續的識別和驗證使用.
1.2.3 影視劇鏡頭演員信息的標注
在人臉標注模塊中,由于視頻序列具有畫面連續性特征,對于幀率為24幀/s的影視劇影片,采取每隔4幀抽取1幀的方式,以減少計算開銷.由于影視劇的鏡頭剪輯頻率一般不會低于1 s,按照本工作的抽幀模式,每秒至少會抽取到7幀圖像進行人臉檢測,既滿足了減少計算時間的需求,又保證了不會出現漏檢.實現視頻人臉標注模塊的整體框圖如圖2所示.

圖2 人臉標注功能框圖Fig.2 Process schematic of face tagging function
在標注過程中,系統會將裁切出的人物面部圖像與云端服務器儲存的演員特征信息進行比對,并依次返回5名置信度最高的演員候選人.當第一候選人的置信度高于73%時,則判定該面部圖像確為此演員.若無候選人置信度高于73%,則人臉識別失敗.對所有面部圖像的人臉識別完成后,按鏡頭進行人物去重,并對每個鏡頭的演員信息進行標注.
1.2.4 影視劇鏡頭按演員檢索并自動重剪
為滿足影視劇迷們對特定演員鏡頭的檢索及重剪需求,本系統實現了人臉檢索及自動重剪功能,具體框圖如圖3所示,其中虛線部分為可選擇的按演員自動重剪功能.用戶只需輸入要檢索的演員姓名,即可對影視劇中出現的人物進行身份驗證,以實現自動檢索和重剪.

圖3 人臉檢索及自動剪輯功能框圖Fig.3 Process schematic of face verification and automatic editing function
利用本系統進行演員檢索時,順序地取同一鏡頭中的人物面部圖像,與云端儲存的該演員的特征信息進行人臉驗證.當相鄰的4幀中同時出現兩次及以上驗證成功時,則判定該鏡頭中出現了待檢索演員,驗證成功,直接轉入下一鏡頭繼續進行人臉驗證.若當某一鏡頭中所有的面部圖像均驗證完畢,且未驗證成功,則判定該鏡頭中并未出現待檢索演員.所有鏡頭驗證完畢后,輸出所有驗證成功的鏡頭號,并將這些鏡頭自動重剪成為新的影視劇片段.
本工作收集了國內外350多位明星、演員的高清正臉照片,每人3~5張.首先對這些照片進行明星人臉特征庫的訓練,得到每個人的面部特征信息用作后期檢索比較.本工作中的實驗視頻均為720p以上清晰度,實驗環境為經典的Linux系統Ubuntu 10.04.
2.1 鏡頭分割算法的實驗結果
鏡頭分割效果的質量評價指標有3種:召回率V(recall),查準率P(precision)及F1指數.召回率是指檢測到真正鏡頭分割的概率;查準率是檢測到的分割點中屬于真實分割點的概率; F1指數是代表召回率和查準率的綜合指標,只有當V和P都較高時,F1指數才會相對較高.三者的定義分別為

式中,C為正確檢測到的分割點個數,M為未檢測到的分割點個數,F為錯誤檢測到的分割點個數.
實驗選取了8段典型的國內外電影、電視劇片段進行鏡頭分割測試,包括劇情片、動作片、文藝片、動畫片等多種類型,其中文藝片和部分劇情類影片多為小空間對話類場景,鏡頭搖移較為平緩,其E值曲線峰谷值間隔較為稀疏且分界明顯,平均值Eavg較小(見圖4).而動作片及大場景美劇等視頻中畫面背景較為復雜,人物眾多或色調昏暗,常出現大幅度或快速鏡頭搖移,其E值曲線波動較劇烈,平均值Eavg較大,難以一眼判別鏡頭分界位置(見圖5).從實驗結果可見,本工作提出的鏡頭分割檢測方法對兩類視頻均有效.

圖4 《同桌的你》片段邊緣變化率Fig.4 ECR of“My Old Classmate”
由于不同視頻類型的邊緣變
化率有明顯差異,在參數a,b,m的選擇上,根據實驗經驗設置閾值開關.當視頻的平均邊緣變化率Eavg>0.40時,默認參數a=0.45,b=0.45,m= 2;當Eavg6 0.40時,默認參數a=0.30,b=0.77,m=5.用戶也可根據不同視頻的實際情況對參數進行微調.測試結果如表1所示.

圖5 《末日孤艦》片段邊緣變化率Fig.5 ECR of“The Last Ship”

表1 鏡頭分割測試結果Table 1 Test results of shot segmentation
除此之外,為了驗證本工作提出的雙重判定法的有效性,分別用對應參數對各視頻分別進行了單獨自適應閾值和單獨滑窗閾值的分割實驗.從表2可以看出,雙重判定法對于視頻分割的準確率(尤其是召回率和F1值)有顯著提升.

表2 《諜中諜》片段不同閾值方法測試結果Table 2 Test results of“Mission Impossible”by different thresholds methods
實驗結果表明,基于圖像邊緣變化率的自適應閾值加滑窗雙重判別法,對于各種類型的影片都有較好的檢測效果,其平均召回率達到95.92%,且對于大場景的復雜畫面也有良好的適應性.
2.2 影視劇中演員人臉識別的測試實驗結果
本工作對包括2.1節鏡頭分割中測試視頻在內的119個鏡頭進行了人物的人臉識別.對視頻畫面中出現的所有除了純側臉和背影外的人物面部的測試結果進行了統計,以人次為單位(即每個人物在所有鏡頭中出現的次數之和),統計數值如表3所示.識別效果以檢出率P=×100%來檢驗,其中D為檢測成功的人次,H為人工識別出的人次,S為成功識別出演員身份的人次.×100%,識別率R=

表3 演員人臉識別的測試結果Table 3 Test results of actor recognition
實驗結果表明,本方法對于夾角45?以內(包括水平和垂直夾角)的演員面部有較高的識別率,而側臉超過45?甚至接近90?純側臉的演員被識別出的概率相應降低.此外,本系統對于同一場景出現多名演員的情況也具有良好的適應性,即使主演站在虛化的背景中,也有較高的檢出率.如在同時出現多名主演(見圖6)、主演同時出現在前景和模糊背景中(見圖7)的情況下,不同人臉均可被檢測及識別出.

圖6 多名主演同時出現在前景的檢測結果Fig.6 Test result of actors appear in the foreground

圖7 主演同時出現在前后景的檢測結果Fig.7 Test result of actors appear in both foreground and background
本系統對于動畫片中的人物檢索也有一定的適用性,且對角色的劇烈表情動作、小面積遮擋(如眼罩、帽子等)均具有良好的魯棒性.圖8為成功檢測并識別出的一些特殊人臉圖像.
由于Deep_UFACE模型在訓練過程中大量使用了亞洲人的面部圖像,其對亞洲人種的人臉識別準確率極高.因此,在實驗影視劇片段中,僅部分歐美劇如《末日孤艦》中出現了少量誤檢現象.誤檢原因分析為實際演員與誤檢演員長相相近,且該片段中的面部表情與訓練庫中誤檢演員的表情較為相似.誤檢情況如圖9所示,其中(a)為該鏡頭中正確識別出的演員及圖像, (b)為錯誤識別出的其他演員.實驗結果還表明,對指定影視劇進行候選演員列表限制,即僅在參演該影視劇的演員中進行人臉識別,可以有效防止誤檢現象的發生.

圖8 特殊人臉圖像的檢測結果Fig.8 Test results of special face patches

圖9 同一鏡頭中的正確識別和誤檢情況對比Fig.9 Contrast of correct and false identified ID in the same shot
在漏檢和識別失敗的視頻圖像中,就漏檢的原因分析總結為面部背光、色調過暗、同時有水平和垂直方向大于45?的夾角、關鍵部位遮擋、人臉過小且處于虛化位置等.
同時,本系統中的人臉驗證模塊只對指定人臉進行匹配驗證,一旦某鏡頭中確認出現該演員后,就會直接跳入下一鏡頭進行檢索,不用遍歷該鏡頭中的所有幀.在對同一視頻進行實驗時,人臉驗證模塊平均用時僅為人臉識別模塊的1/15左右.人臉驗證模塊的部分結果截圖如圖10所示,其中左側為輸入的要查找的演員ID及訓練圖像,系統會返回包含該演員的所有鏡頭號,并將鏡頭號自動重剪在一起,右側為查找到的鏡頭示例.

圖10 按演員檢索視頻鏡頭結果示例Fig.10 Sample results of retrieve video shot by actor
測試結果表明,本工作所提出的基于人臉識別的影視劇鏡頭自動標注及重剪系統,能夠準確檢測出影視劇鏡頭分割的分界點,并以鏡頭為單位,對出場演員進行標注和查找,以有效降低人工對影視劇進行管理及重編輯的成本.本系統預期的應用方向包括大數據時代的海量影視劇鏡頭管理、基于演員對影視劇進行重編輯、按鏡頭進行演員及語義標注、基于關鍵幀的影視劇海報自動生成等.
針對電影、電視劇按演員進行檢索和重新剪輯的需求,本工作建立了一個基于深度學習人臉識別技術的影視劇鏡頭自動標注及重剪系統.實驗結果表明,所提出的自適應閾值加滑窗的雙重判別法對于鏡頭分割準確率有顯著提升,且本系統對于各種類型的影視劇甚至是人物類型的動畫片均有很高的識別率,且對小面積遮擋和角度變化具有魯棒性.下一步將就面部漏檢、識別失敗等情況進行預處理優化研究,并就視頻的場景語義展開分析研究.
參考文獻:
[1]Zhao W,Chellappa R,Phillips P J,et al.Face recognition:a literature survey[J].ACM Computing Surveys,2003,35(4):399-458.
[2]Bhele S G,Mankar V H.A review paper on face recognition techniques[J].International Journal of Advanced Research in Computer Engineering&Technology,2012,1(8):339-346.
[3]Taigman Y,Yang M,Ranzato M A,et al.Deepface:closing the gap to human-level performance in face verification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2014:1701-1708.
[4]Sun Y,Wang X,Tang X.Deeply learned face representations are sparse,selective,and robust[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015:2892-2900.
[5]Schroff F,Kalenichenko D,Philbin J.Facenet:a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.
[6]Zhou E,Cao Z,Yin Q.Naive-deep face recognition:touching the limit of LFW benchmark or not?[EB/OL].(2015-02-20)[2015-11-23].http://arxiv.org/pdf/1501.04690vl.pdf.
[7]孟一飛,袁雪,魏學業,等.基于樣本擴展和線性子空間特征提取的單樣本人臉識別[J].應用科學學報,2013,31(5):488-494.
[8]嚴嚴,章毓晉.基于視頻的人臉識別研究進展[J].計算機學報,2009,32(5):878-886.
[9]Gorodnichy D O,Granger E,Radtke P,et al.Survey of commercial technologies for face recognition in video[R].Ottawa:Departmant of National Defence(Canada),2014.
[10]Granger E,Radtke P,Gorodnichy D,et al.Survey of academic research and prototypes for face recognition in video[R].Ottawa:Department of National Defence(Canada),2014.
[11]Lei Y,Bennamoun M,Hayat M,et al.An efficient 3D face recognition approach using local geometrical signatures[J].Pattern Recognition,2014,47(2):509-524.
[12]Face Analysisl Tencent Youtu[EB/OL].[2015-10-11].http://bestimage.qq.com/faceanalyze.html.
本文彩色版可登陸本刊網站查詢:http://www.journal.shu.edu.cn
Automatic annotation for film and Television drama shots and recut system based on face identification
LANG Yue1,ZHOU Jiting1,LIANG Xiaolong2,ZHANG Wenjun1
(1.Shanghai Film Academy,Shanghai University,Shanghai 200072,China; 2.Tencent Inc.,Tencent-BestImage,Shanghai 200030,China)
This paper proposes an automatic editing system named Star Cut based on face recognition using deep learning and a video shot detection technique.The purpose is to establish a system for management,retrieval,and automatic recut of film and TV shots.First,the system with over 350 faces of pop stars and actors using a U-face model is trained to learn facial features.The system uses the change rate of edges to detect shot edge.After shot segmentation,the system uses the pre-trained face models to identify faces in the input film or TV drama shot by shot.Users can either choose to recognize all figures in these shots or just choose selected one to recut all the shots containing him/her together automatically.The recall rate of shot segmentation is above 95%,and the recognition rate of faces in an shooting angle of 45?is 92.45%.Test results show that the proposed system has good robustness.
face detection;face identification;shot segmentation;deep learning
TP 391.41
A
1007-2861(2017)03-0353-11
10.12066/j.issn.1007-2861.1713
2015-11-23
國家自然科學基金資助項目(61303093);上海市教委科研創新基金資助項目(14YZ023)
周霽婷(1980—),女,博士,研究方向為數字多媒體通信等.E-mail:zjting@shu.edu.cn