張連誼,張亞娜
(中國傳媒大學信息與通信工程學院,北京 100024)
隨著人工智能的市場規模逐漸擴大,據艾瑞咨詢發布的《2021年中國智能產業研究報告(IV)》顯示,2021年人工智能的核心規模估計達到1998億元,到2026年,將超過6000億元[1]。人工智能技術深刻地改變了人類的生活方式和生產方式,新聞生產與人工智能結合后推動了整體新聞的革新,深刻改寫了技術與新聞的連接、人類的新聞認知和新聞使用行為。機器生產內容(Machine Generated Content,MGC),即利用機器智能生產的新聞,MGC新聞具有成稿件迅速、信息準確、實時監測、技術交叉等特點。多家媒體機構開發了生產MGC新聞的智能產品、智能平臺。2017年,新華社發布了中國第一個媒體人工智能平臺——“媒體大腦”,并生產了第一條MGC視頻新聞——《新華社發布國內首條MGC視頻新聞,媒體大腦來了!》。2020年光明網打造了智能發稿系統,該系統包含稿件收集、內容分類、內容配圖、多媒體編輯等功能。百度智能云推出了基于百度如流企業智能工作平臺的——“智媒平臺”,期望為媒體行業打造更貼合傳媒業務場景的“新一代媒體工作臺”。微博綜合采用了自然語言處理、圖像處理、視頻處理、語音識別等領域的前沿技術,利用“多模態”智能,構建了深度理解媒體內容的技術體系,并在多種應用場景中獲得良好效果。
傳統圖文報道中的新聞配圖通常由攝影記者拍攝,但是攝影記者數量有限,攝影記者拍攝新聞圖片時會受到空間的限制,比如無法以搖臂攝像機的視角進行拍攝,又或者最佳的正面拍攝機位已被攝像機位占據。此外,攝影記者通常也無法進入演播室內工作。由此,在圖文新聞生產中的配圖素材采集環節,運用人工智能技術直接對直播視頻流進行分析,獲得新聞的配圖能夠有效補充攝影記者的短板,擴大新聞配圖的取材范圍。而在新聞配圖中對于中景、近景和人臉特寫等畫面,人臉的狀態十分重要。人臉的狀態判斷包括人臉狀態美感判斷和人臉表情識別。其中,人臉狀態美感判斷任務是根據頭部姿態、面部狀態、面部遮擋三個方面挑選狀態佳的、適合出現在新聞配圖中的“Nice”人臉(如表1所示),盡可能篩除面部狀態差的人臉(如表2所示)。

表1 “Nice”類的判斷標準

表2 “Unsatisfied”類的判斷標準
對于人臉表情識別,目前已有不少的研究成果,Wang[1]等人提出了一種簡單且高效的自愈網絡(Self-Cure Network,SCN),該網絡能夠有效地抑制不確定性,防止深度網絡對不確定的人臉圖像進行擬合。Li等人[3]提出了一種基于Transformer的MVT(Mask Vision Transformer)模型,該模型由兩個模塊組成:1)基于Transformer的掩碼生成網絡能夠生成過濾復雜背景和人臉圖像遮擋的掩碼;2)動態重新標記模塊能夠糾正數據集中不正確的標簽。Abdolrashidi等人[4]提出了一種基于注意力的卷積神經網絡,利用空間變換模塊(Spatial Transformer Network)學習關注對表情識別起到重要作用的面部區域,從而提高模型的性能。Shi等人[5]提出了一種基于分支交叉連接的卷積神經網絡(MBCC-CNN)識別人臉表情。MBCC-CNN包括殘差連接、網絡中的網絡(Network in Network)和樹形結構,網絡增加了一種快捷的交叉連接,使MBCC-CNN網絡間的數據流更加平滑,提高了模型提取特征的能力。
人臉狀態美感判斷是一項新的任務,目前未有學者進行研究,因此本文以人臉顏值預測(Facial Beauty Prediction,FBP)任務為參考對人臉狀態美感判斷任務展開研究。兩種任務具有很多相似的地方,例如都是人臉相關的分類任務,分類時都需要考慮面部的狀態。文獻[6]-[8]通過多人評價的方式,建立人臉顏值預測數據集。近年來,神經網絡被廣泛應用到圖像、語音等領域,越來越多的學者們利用神經網絡技術對人臉顏值預測任務展開研究。神經網絡中如何利用不同的特征十分重要,文獻[9]提出了一種多尺度的神經網絡模型,模型的輸入在紅色、綠色、藍色三個通道的基礎上,引入了亮度通道。甘俊英等人[10]提出了一種將局部二值模式(Local Binary Pattern,LBP)的紋理圖像和原始灰度圖像進行通道融合的模型。模型采用1×1卷積操作進行通道特征圖的線性組合,實現跨通道的信息融合。Zhai等人[11]提出了一種基于局部特征融合和寬度學習系統(Broad Learning System,BLS)的快速訓練方法。Zhai等人[12]提出了一種基于多通道特征融合的遷移學習方法,利用數據增強方法和遷移學習策略來緩解數據不足對CNN性能的影響。此外,許多學者利用多任務學習對人臉顏值預測任務進行研究。文獻[13]提出一種具有不同分支的神經網絡,將ResNet-18[14]最后的softmax層替換為包含兩個分支的全連接層,能夠同時完成分類和回歸任務。文獻[15]以人臉顏值預測為主要任務,性別識別為輔助任務,采用多任務減權自動學習策略來提高FBP的性能。文獻利用隨機森林代替softmax分類器,在SCUT-FBP5500數據集上的皮爾遜相關系數達到0.8996。
通過以上調研發現人臉狀態判斷任務存在以下挑戰:1)對于人臉狀態美感判斷任務,需要明晰對人臉狀態美感的定義并構建相應的判斷標準。目前就人臉狀態美感判斷任務,缺少一個一致、可靠、客觀的數據集,導致無法完成該任務的相關算法和實現方法的研究;2)如何抽象人臉狀態美感判斷和人臉表情識別所需的共識特征,并構建多任務分類網絡模型本文要解決的核心和關鍵所在;3)如何根據不同任務的數據集特點使用合適的多任務訓練方法是應用多任務學習的難點。多任務學習基于共享表示,注重任務之間的相關性,通過并行學習改善單個任務的性能。不同任務數據集的數量參差不齊,如何對多任務學習模型進行訓練是具有挑戰性的問題。
本文針對以上挑戰,做出了如下貢獻:
1)通過制定判斷標準、多人主觀評價、數據清洗和處理的方式首次構建了人臉狀態美感判斷的數據集,數據集包括“Nice”類的圖片4729張,“Unsatisfied”類的圖片4806張,男女比例均衡,人種膚色包括黃種人、白種人、極少量棕種人和極少量黑種人,年齡在10-70歲之間。
2)以ResNet-18為基礎,提出了新的多任務CNN模型(Multi-Task Learning and Attention Net,MA-Net),模型可分為特征共享和特定任務2個部分,其中特征共享的特征提取部分通過1個卷積層和3個殘差塊提取共同特征,特征共享的自注意力機制部分能夠學習利用共同特征中更加重要的特征,特定任務部分通過兩個分支學習不同參數以完成人臉狀態美感判斷和表情識別雙重任務。
3)提出了交替-聯合訓練方法,使得MA-Net能夠在兩種不同的數據集上有效的進行訓練,解決了由于不同任務數據集數據量參差不齊,可能導致模型在一種任務下的準確率較高,在另一種任務下的準確率較低的問題。
對于神經網絡,不同層提取的特征不同,同一層的不同通道的特征也是不同的,有些特征會對判斷的結果影響很大,訓練模型使之學會利用貢獻較大的特征進行分類是十分重要的。和基于單任務學習的模型相比,基于多任務學習的模型的優勢包括:1)多個任務共享特征提取部分的網絡結構和參數,不僅在訓練時的內存占用少,還有效避免了重復計算一種特征,從而提高了模型的訓練效率;2)基于多任務學習的模型通過多種任務的學習,相當于一種數據增強,能學習相關任務的共同特征,從而提高模型預測準確率。基于以上理論,本文在ResNet-18[14]的基礎上,構建了新的模型MA-Net,實現了人臉狀態美感判斷和人臉表情識別雙重任務。如圖1所示,MA-Net采用硬參數共享機制,主要分為特征共享、特定任務兩個部分。兩種任務共享了特征共享部分的特征,特定任務部分包含兩個分支,不同分支學習到不同的參數用于完成不同任務。

圖1 MA-Net模型的結構圖
特征共享部分,通過模型訓練學習可用于人臉狀態美感判斷和人臉表情識別兩種任務的通用特征。特征共享部分包括特征提取、多頭自注意力機制兩個部分。特征提取部分包含1個卷積層C1、1個殘差塊Ra、2個殘差塊Rb,殘差塊源自ResNet18[14]。神經網絡的學習過程,本質上是通過優化權重,得到輸入和輸出的正確映射。神經網絡的性能與網絡深度有關,理論上,CNN的層數越多,提取的特征更加復雜、抽象,越具有語義信息,越有利于提高模型的性能。但是,在實際訓練過程中,當網絡層數的增加到一定數量時,梯度信息在返回時很小,當梯度信息傳遞到前幾層時,梯度值極小,甚至可能為0,從而導致CNN無法根據梯度信息進行訓練,此現象被稱為梯度消失。和淺層CNN相比,深層CNN的性能反而會下降,出現了網絡退化現象。ResNet通過引入殘差映射,在不產生額外參數和不增加計算復雜度的同時,增大了CNN的前幾層的梯度信息,更加容易優化,從而解決了梯度消失的問題。經過進一步優化的ResNet在上千層時仍然具有很好的表現,是一種常用的特征提取網絡。
殘差塊Ra的結構如圖2(a)所示,由兩個相同的子塊串聯而成,每個子塊含有2個卷積層、2個批量歸一化(Batch Normalization,BN)層和1個線性整流函數(Rectified Linear Unit,ReLU)層。如圖2(b)所示,殘差塊Rb在分支上加入了1個卷積層和1個BN層,殘差塊的卷積層采用了3×3大小的卷積核,BN層的作用是改變輸入、輸出特征的通道數,即調整輸出的特征圖的數量。BN層對輸入數據或特征進行歸一化,使得其符合標準正態分布,從而加速神經網絡的收斂速度、防止梯度消失和過擬合。ReLU是神經網絡中最常用的激活函數,只有加、乘和比較操作,計算高效,能夠加快訓練速度、緩和梯度消失。殘差塊不是直接學習理想映射f(x),而是利用圖2(a)虛線框部分學習殘差映射f(x)-x,仍可以使用梯度下降法進行訓練。殘差映射在實際訓練過程中的優化速度更快,輸入數據可在跨層的藍色路線更快的向前傳播。此外,殘差塊能幫助CNN更加關注細微的特征變化,更有效的更新網絡權重,從而提升模型的性能。

圖2 兩種殘差塊的示意圖[14]
如圖3所示,MA-Net通過多頭自注意力機制,對特征提取部分后的不同特征圖賦予不同權重,并融合為新的特征。本文只在特征提取部分后引入多頭自注意力機制,具有如下優點:

圖3 MA-Net的多頭自注意力機制模塊
1)由于特征提取部分輸出的特征圖尺度較小,對其應用多頭自注意力機制能有效降低模型的計算量,提高了模型的計算速度。
2)卷積神經網絡在底層只會學到簡單的特征,隨著層數增加,深層的特征會更加復雜、抽象,這種特征是更高級、對模型更有意義的特征。因此和底層應用多頭自注意力機制相比,在特征提取部分后應用會更加有效。




最后需要將多頭注意力機制得到的多個一維特征轉換為多個二維的特征圖。
使用具有一定相關性的任務訓練模型,硬參數共享機制可達到較好的效果。對于人臉狀態美感判斷任務,判斷的依據主要是眼睛、嘴巴的開合狀態。對于人臉表情識別任務,判斷的依據同樣是眼睛、嘴巴的狀態,這兩種任務具有很強的相關性,適用于硬參數共享機制。特定任務部分包含兩個支路(人臉狀態美感判斷支路和人臉表情識別支路),分別用于人臉狀態美感判斷任務和人臉表情識別任務。如圖1所示,每個支路包含1個殘差塊Rb、1個自適應平均池化層A1、全連接層F1。每個支路都利用了特征共享部分提取的通用特征,然后利用特定任務的模塊學習特定的參數以完成不同的任務,降低小數據集過擬合的風險。人臉狀態美感判斷是2分類任務,F1層包含2個神經元;人臉表情識別是8分類任務,F1層包含8個神經元。
訓練多任務學習的模型時通常采用交替訓練方法或聯合訓練方法[16]。交替訓練方法適用于所有任務的數據集相互獨立的情況,訓練時首先輸入不同任務的樣本,然后交替收斂不同任務的損失。交替訓練方法要求不同任務的訓練樣本數量接近,否則模型會在訓練樣本數量較大的任務上的效果較好,在其他任務上效果較差。聯合訓練方法適用于同一數據具有多個標簽的情況,訓練時將每個任務的損失相加,最后共同優化。本文采用的人臉狀態美感判斷數據集的訓練集包含圖片6674張,人臉表情識別數據集FER2013Plus-Classified的訓練集包含圖片27190張。鑒于兩種任務的數據不同并且數據量相差較大,不適用于以上兩種訓練方法,因此本文提出了交替-聯合訓練方法,利用公式(3)和公式(4)計算兩種任務的損失之和Lossmtl進行優化,在一個批次中分別對不同的任務優化一次,具體的訓練步驟如下:
1)根據每個任務的訓練樣本數量,計算兩個任務的batch-size,保證每個epoch中每個任務的訓練次數是相同,模型針對每個任務進行優化的次數是相同。
2)交替輸入不同任務的樣本。
3)使用交叉熵損失函數分別計算人臉狀態美感判斷任務的損失Loss1和人臉表情識別任務的損失Loss2。交叉熵損失函數如公式(3)所示,m代表樣本的數量,n代表標簽的數量,yij是一個符號函數,當樣本的真實標簽和模型預測的標簽相同時,yij為1,否則為0,pj為模型預測樣本i為類別j的概率。

最后,將 Loss1、Loss2乘以權重系數 w1、w2相加得到聯合損失Lossmtl,其中w1+w2=1。由于兩種任務同樣重要,因此w1和w1都設置為0.5。

本實驗的操作系統為Ubuntu 18.04.6 LTS;CPU:Intel(R)Xeon(R)CPU E5-2620 v4@,主頻2.10GHz;GPU:GTX 1080,顯存為11GB。
本文通過收集互聯網以及各種直播的人臉圖像,再經過多人評價的方式構建了人臉狀態美感判斷數據集。如圖4所示,數據集包含適合出現在配圖中的“Nice”類人臉4729張,不適合出現在配圖中的“Unsatisfied”類人臉4806張,其特點如下:

圖4 人臉狀態美感判斷數據集
1)人臉狀態美感判斷數據集不限制種族、性別和年齡,這樣的數據有利于訓練出適用于不同年齡、性別的模型,數據集訓練出的模型的應用范圍更廣。
2)不同類別的圖片和人的顏值沒有相關性,不會因為年輕、皮膚好而不考慮五官的狀態。不會將顏值高的全部作為“Nice”類,顏值較低的普通人也不會全部作為“Unsatisfied”類。“Nice”和“Unsatisfied”的區別主要在于眼睛睜開的狀態、嘴巴張開的狀態、頭部的姿態和面部遮擋情況。
如圖5所示,本文使用的人臉表情識別數據集FER2013Plus-Classified來源于Kaggle人臉表情識別挑戰賽中的FER2013Plus人臉表情識別數據集。FER2013Plus包含高興、憤怒、悲傷、中性、恐懼、驚訝、厭惡、輕蔑、未知和無人臉等標簽。本文去掉了FER2013Plus中的未知和無人臉的圖片,得到包含高興、憤怒、悲傷、中性、恐懼、驚訝、厭惡、輕蔑8種表情標簽的FER2013Plus-Classified數據集。FER2013Plus-Classified的訓練集包含圖片27190張,測試集包含圖片3414張。

圖5 人臉表情識別數據集FER2013Plus-Classified
如表 3 所示,AlexNet[17]在“Nice”類的精確率達到94.31%,平均準確率達到了96.15%;在經典卷積神經網絡中,ResNet-18對“Nice”類的精確率是最高的,達到了97.51%,并且準確率也是最高的,達到了97.13%,因此本文選擇在ResNet-18的基礎上進行研究;和ResNet-18相比,MA-Net在“Nice”類的精確率提高了1.23%,召回率提高了2.68%,“Unsatisfied”類的精確率提高了2.75%,召回率提高了1.18%,準確率提高了1.961%,表明MA-Net在人臉狀態美感判斷任務的優越性。

表3 經典神經網絡和MA-Net在人臉狀態美感判斷數據集性能
為了驗證交替-聯合訓練方法的有效性,本文將交替訓練方法、交替-聯合訓練方法的MA-Net進行對比。如表4所示,和交替訓練方法的MA-Net相比,使用交替-聯合訓練方法的MA-Net,雖然對于“Unsatisfied”類的精確率和“Nice”類的召回率持平,但是在“Nice”類的精確率和“Unsatisfied”類的召回率分別提高了3.15%和3.26%。在實際應用過程中,希望模型預測的“Nice”類圖片中,真正的“Nice”越多越好,即對“Nice”類的精確率高;對于所有的“Unsatisfied”類圖片,模型挑選出的“Unsatisfied”類圖片越多越好,即對“Unsatisfied”類的召回率高,因此MA-Net具有更高的應用價值。此外,交替-聯合訓練方法的MA-Net的準確率提高了1.608%。因此,本文提出的交替-聯合訓練方法比交替訓練方法更有效。

表4 不同訓練方法的MA-Net在人臉狀態美感判斷數據集的性能
為了驗證MA-Net在人臉表情識別任務的有效性,本文將其和 SCN[1]在FER2013Plus-Classfied數據集上的準確率和精確率進行對比。SCN通過小批量的自注意力機制、正則化和重新標注機制抑制不確定性,防止網絡對某些圖像的過擬合。本文將SCN在FER2013Plus-Classified數據集上重新訓練、測試。兩種算法的性能如表5所示,和SCN相比,MA-Net準確率更高,達到了89.01%,高于SCN模型4.36%。另外,MA-Net在識別憤怒、輕蔑、厭惡、開心、中性、驚訝類具有很明顯的優勢,識別輕蔑表情的精確率達到100%。這得益于多任務學習和自注意力機制的共同作用,因此證明了基于多任務學習的MA-Net的有效性。

表5 人臉表情識別性能對比
利用人工智能相關算法從直播視頻流中智能選擇配圖能夠有效擴展圖文新聞的配圖來源渠道。本文面向中景、近景和人臉特寫等畫面,研究了人臉狀態的美感判斷標準問題,設計了基于自注意力機制的共享特征網絡,通過交替-聯合訓練方法實現了人臉狀態美感判斷任務和人臉表情識別雙重任務。實驗證明,本文所提出的模型在人臉狀態美感判斷數據集上的準確率達到99.091%,在人臉表情識別數據集的準確率達到89.01%。后續研究將對表情識別分類網絡進一步深入分析,尤其對恐懼和悲傷兩種表情的判定進行問題解析,以期提高整體表情識別的準確率。