基于邊緣云框架的高效安全人臉表情識別

2021-05-20 06:51:22張嫻靜褚含冰

計算機工程與設計 2021年5期

張嫻靜，褚含冰，劉鑫

(1.鄭州工業應用技術學院信息工程學院，河南鄭州 451150；2.中南大學商學院，湖南長沙 410083)

0 引言

隨著云計算、邊緣計算、物聯網設備和下一代網絡的成熟發展，情感計算或認知計算也逐步成熟，自動情感識別的重要性顯著增加[1]。物聯網和邊緣計算在移動性、低傳輸成本、高速性和普及性等方面給許多應用帶來了巨大的進步，然而這卻導致數據處理量呈指數級增長[2,3]，大數據的出現雖然可以解決提煉適當數據的問題，但對于任意系統數據識別處理的準確性和用戶隱私保護仍是一個問題[4]。

現有的自動情感識別系統通常基于eNTERFACE’05數據庫、IEMOCAP數據庫、EMOTIW數據庫、RML數據庫和BAUM-1S數據庫實現[5]。文獻[6]提出了一種結合卷積神經網絡和特征選擇過程的多模態表達式識別系統。在IEMOCAP數據庫中，作者發現根據不同的參數，準確度在70.46%到73.78%之間相當低。文獻[7]提出了一種結合多方向回歸(MDR)和深度神經網絡的雙模式情緒分類系統，應用于語音光譜儀和面部圖像，以提取雙模特征，并使用eNTERFACE’05數據庫測試其精度。文獻[8]使用了語音的預訓練2D CNN模型和視覺圖像的預訓練3D CNN模型識別情感，在eNTERFACE’05數據庫中實現了88.74%的準確率，而EML數據庫實現了83.9%的準確率。文獻[9]應用不同的融合策略融合雙峰輸入信號進行情感識別，使用eNTERFACE數據庫報告了71%的最大準確度。上述方法均未使用邊緣云框架，并且沒有積極考慮用戶隱私。

因此針對物聯網環境下數據量激增且自動人臉表情識別精確率較低的情況，提出了一種邊緣云框架下結合雙模特征的高效安全人臉表情識別方法。主要創新點總結如下：

(1)物聯網設備通過多秘密共享技術從用戶獲取面部圖像和語音信號，然后將其分發到不同的邊緣云，保證了用戶的隱私；

(2)利用邊緣云將預處理后的信號傳輸到核心云以提取語音特征和圖像特征，同時結合語譜圖和局部二值模式的方法提取語音特征，以及采用差值中心對稱局部二值模式獲得人臉圖像特征，保證了識別準確性；

(3)基于棧式稀疏去噪自編碼器將語音和圖像特征進行融合，使用秘密共享方案將情感信號分布到不同的邊緣，以實現人臉表情的快速準確識別。

1 基于多秘密共享技術的邊緣云框架

本文提出了一種邊緣云框架上結合雙模特征的高效安全人臉表情識別方法，其邊緣云框架如圖1所示。在該系統中，物聯網通過多秘密共享技術從用戶獲取人臉表情信號，然后將其分發到不同的邊緣云，保證了用戶的隱私。

圖1 邊緣云框架

1.1 邊緣云框架

所提系統中使用的邊緣計算系統結構如圖2所示，其組成為：小型基站、邊緣緩存和移動邊緣計算(mobile edge computing，MEC)服務器。

圖2 邊緣緩存單元的結構

物聯網設備收集來自用戶的圖像信號和語音信號，通過藍牙或局域網將其發送到邊緣緩存單元。小型基站為物聯網設備和邊緣緩存單元之間的通信提供能量[10]。MEC服務器使用秘密共享技術將信號的不同部分共享給不同的云服務器單元，然后將數據發送到主服務器合并，并執行后續處理以獲得關于人臉表情的決策。內容提供商(content provider，CP)以一種高效的方式使用云服務器、MEC服務器和小蜂窩基站，以保證低延遲和數據的無縫傳輸。

1.2 多秘密共享技術

所提方法采用基于超遞增序列的多秘密共享技術，即序列中的每個元素都大于該元素前面所有元素的總和，則該序列稱為超遞增序列[11]。

多秘密共享技術分兩步實施，共享分布和秘密重組。

(1)共享發布

共享分布的步驟如下：

步驟1 定義一個q×1維的秘密矩陣S，其中q為機密數量，且每個Si有l-1個二進制位，則將S定義為一個新的q×(l-1)維矩陣SB如下

(1)

其中，l為劃分參與者的不相交級別數(服務器單元)。

步驟2 隨機生成一個q×(l-1)維的矩陣RB如下

(2)

步驟3 通過在SB和RB之間執行位異或，獲得一個新的矩陣SB′為

(3)

步驟4 生成一個維度(l-1)×1的列矩陣，其中矩陣項XB按遞增順序排列，并從SB′和XB獲取公共矩陣V為

(4)

步驟6 根據Shamir分布將xi的份額分配給i級參與者pi(1≤i≤l-1)，在l級，根據Shamir分布分配相當于RBi的十進制共享(1≤i≤q)[12]。

(2)秘密重組

重建秘密矩陣元素Sr的步驟如下：

步驟1 至少有t個參與者對水平份額xi執行Shamir重建，其中t是Shamir重建的多項式階；

步驟2 創建了一個維數為q×(l-1)的空矩陣SB″。檢驗v′r,i-1,i≥xi是否成立，如果成立則將輸出位分配給‘1’，否則，將其分配給‘0’。將v′r,i,i+1≥xi=v′r,i-1,i-xi發送到下一個級別，然后將輸出位加到矩陣SB″中；

步驟3 在l級，應用Shamir重建將結果轉換為l-1位序列，該序列可表示為RBr= [er,l-1,er,l-2,…,er,1]，在RBr和SB″r間執行異或操作，從而產生SBr；

步驟4 將SBr的二進制表示轉化為十進制表示，獲得秘密Sr。

對于公共實體V、P、l和私人對參與者i:xi，入侵者不能使用公共實體V和P來獲得SBi，矩陣RB和XB只有在所有級別的參與者都參與共享秘密后才可用，只要提供者可信，通信就安全。

2 結合雙特征的人臉表情識別方法

人臉表情識別需要提取語音特征和圖像特征，其中利用語譜圖和LBP的方法從語音信息中提取特征，采用改進的中心對稱局部二值模式獲得人臉圖像信息。并基于棧式稀疏去噪自編碼器將語音特征和圖像特征進行融合，以實現人臉表情的識別。

2.1 語音特征

語音特征提取步驟如圖3所示：首先通過加窗分幀，提取語譜圖，并將其歸一化為灰度圖；然后采用Gabor小波對灰度圖進行處理得到Gabor圖譜；最后計算Gabor圖譜的局部二值模式(local binary pattern，LBP)，并級聯獲取語音特征。

圖3 語音特征提取流程

(1)語譜圖圖譜

語譜圖的靜音段直接納入LBP特征的運算會造成偏差。因此需對語譜圖做預處理[13]。預處理分3步進行：

1)對語音進行分幀、加窗及離散傅里葉變換處理，即

(5)

式中：s(n)是語音信號；X是s(n)的傅里葉系數；N是窗長；ω(n)是漢明窗函數。

2)對語譜圖進行歸一化，即

(6)

式中：L(a,b)為語譜圖；Lmax(a,b)、Lmin(a,b)分別為語譜圖灰度級中的最大值和最小值。

3)采用Gabor小波對灰度圖進行處理，由于其可凸顯相鄰灰度級間的變化。Gabor小波的核函數定義如下[14]

(7)

通過將生成的Gabor小波與灰度圖像進行卷積運算，可得到30張Gabor圖譜。

(2)LBP特征

(8)

式中：T為LBP編碼后的最大灰度值。

由于LBP圖譜中只有少部分的灰度級占主要作用，因此定義了如下的一致模式

(9)

式中：U為數值0/1變換次數。

采用一致模式LBP獲取Gabor圖譜的紋理特征，把Gabor圖譜對應的LBP直方圖進行級聯，獲得特征Q={q1,q2,…,q30}。

2.2 圖像特征

LBP 直方圖描述圖像區域紋理時，直方圖維數和復雜度會隨著鄰域取樣點個數增加而增加。為此，文獻[15]提出了中心對稱局部二值模式(center-symmetric local binary pattern，CS-LBP)，該編碼方式的直方圖維數只有2N/2，與LBP算法相比，維數顯著降低。

考慮到CS-LBP算子沒有考慮中心像素點的灰度值，提出了差值中心對稱局部二值模式(D-value center-symmetric local binary pattern，DCS-LBP)來編碼圖像，即

(10)

式中：N為鄰域像素點個數(N=9)；T為閾值；R為圓形區域半徑(R=1)；xi=pi-pc,xi+(N/2)=pc-pi+(N/2)；‖表示或運算；pc為中心像素點灰度值[16]。

2.3 基于棧式稀疏去噪自編碼器的特征融合

自編碼器是無監督學習神經網絡，包含輸入層、隱藏層和輸出層。傳統自編碼器在不加任何約束的情況下，其特征表達能力較弱，提出去噪自編碼器(denoising auto-encoder，DAE)。

(11)

式中：λ是權重約束項。利用梯度下降法最小化該損失函數，以獲得DAE的最優參數θ。

自編碼器不僅需要實現輸出與輸入基本一致，還需要其隱藏層具備一定程度的稀疏性，因此對輸入數據做相應的壓縮降低維度處理。使用稀疏自編碼器(sparse auto-encoder，SAE)，其代價函數為

(12)

為保證自編碼器具備稀疏性和魯棒性，將SAE與DAE組合以形成稀疏去噪自編碼器(sparse denoising auto-encoder，SDA)。但SDA是淺層神經網絡，難以挖掘數據更深層次的特征，需要利用多個SDA堆疊形成棧式稀疏去噪自編碼器(stack sparse denoising auto-encoder，SSDA)。SSDA在微調階段的損失函數為

(13)

其中，l是SDA堆疊的個數。所提方法中，SDA的堆疊個數為2，將語音特征與圖像特征融合。

3 實驗分析與結果

實驗中使用RML和eNTERFACE這兩個公開的具備圖像和音頻的人臉表情數據庫，數據庫CK+被用于僅使用圖像的情感識別。

RML數據庫包含720個視頻文件，來自8個受試者，其中嵌入了6種基本情緒(高興、悲傷、厭惡、生氣、恐懼和驚訝)，音頻采樣頻率為22.05 kHz，16位分辨率。實施人體檢查，以確定受試者對每一種情緒類別的行為是否正確。共有8名參與者，每個參與者的每段視頻長度在3 s-6 s。

eNTERFACE’05數據庫包含了43名受試者的1290個視頻樣本和6種基本情緒，音頻采樣頻率為48 kHz，16位分辨率。圖4為eNTERFACE’05數據庫中的各種情緒類別的人臉表情樣本。

圖4 eNTERFACE’05數據庫中的情緒類別的人臉表情樣本

CK+數據庫包含來自123名受試者的593個視頻樣本，錄音前沒有對受試者進行預訓練。數據庫中包含6種基本情緒，沒有中性情緒，幀大小為640×490或640×480，幀速率因樣本而異，在每秒10幀-60幀。

3.1 邊緣云框架效率與網絡安全分析

圖像幀在5°～35°范圍內旋轉增強，步長為10°。在不同信噪比(signal-to-noise ratio，SNR)下，利用高斯白噪聲對人臉圖像進行污染，其中，SNR=30 dB、10 dB和0 dB。

所提方法是基于邊緣云框架進行，在邊緣高速緩存單元之后將語音和圖像數據發送到所提系統，其帶寬消耗如圖5所示。從圖中可看出，隨著時間的延長，對邊緣云框架的計算效率不會有很大的影響，并且因預處理是在邊緣計算端完成的，因此帶寬消耗很低。

圖5 邊緣云框架上數據處理的帶寬消耗

此外，針對網絡中常見的網絡威脅，所提方法考慮了在云存儲、云計算、云傳輸等方面對于網絡攻擊的抵抗能力，并模擬標識攻擊后對表情進行了分析實驗。如圖6所示，為所識別表情受到標識攻擊的恢復情況。

圖6 受到攻擊后的表情恢復效果

由圖6可知，當云框架下所需要識別的表情在受到標識攻擊時，所提算法能夠在缺失部分圖像信息的情況下對圖像進行恢復并正確識別。由此可見，所提方法具有較強的網絡攻擊抵御能力。

3.2 所提方法準確率分析

將所提方法分別在RML、eNTERFACE和CK+這3個數據庫進行驗證，實驗結果見表1～表3。

表3 所提的人臉表情識別方法在CK+的混淆矩陣

表1所示為在eNTERFACE’05構建的系統的混淆矩陣。灰框矩陣屬于增強的人臉圖像，而白框矩陣不屬于增強的，系統增強即增加信噪比，系統經增強(SNR=30 dB)，精度達到87.63%，未經增強(SNR=10 dB)，精度達到79.53%，其中悲傷情緒的準確率最高，其次是憤怒情緒。因此，可發現增強顯著地提高了系統性能。

表1 所提的人臉表情識別方法在eNTERFACE的混淆矩陣

表2所示為使用RML數據庫的系統的混淆矩陣。增強后(SNR=30 dB)，系統精度達到82.3%，未經增強(SNR=10 dB)時達到70.96%。對比表1和表2，可發現RML數據庫的準確性低于eNTERFACE’05數據庫，這是由于RML中的受試者沒有受過良好的訓練，每個情感類都與其它情感類有明顯的混淆。

表2 所提的人臉表情識別方法在RML的混淆矩陣

在使用CK+數據庫的實驗中，所提方法作了去除語音信號的處理，系統得到的混淆矩陣見表3。其增強后(SNR=30 dB)，準確率為97.1%，無增強(SNR=10 dB)準確率為82.15%。恐懼情緒在增強時的準確率為100%。

3.3 所提方法性能對比分析

將所提方法與其它相關方法的性能在RML、eNTERFACE’05和CK+數據庫中進行比較分析，結果見表4。從表中可以看出，所提出的系統對所有數據庫的精度都比其它系統高。

表4 不同數據庫中使用不同方法的準確度百分比

從表4可看出，在eNTERFACE’05和RML數據庫中，文獻[5,6]的識別系統準確率較低，由于其僅使用了表情單模態，文獻[7]的識別系統結合語音和圖像雙模特征，但其使用的是卷積神經網絡算法進行特征融合，辨識效果不理想。而所提方法結合語音和圖像雙模特征，并采用SSDA模型，通過稀疏數據中可能存在的冗余信息和噪聲，更好地提取數據中的特征信息，取得了不錯的識別效果。

由于CK+數據庫僅使用圖像的表情識別，不受其它因素的噪音等因素的干擾，其準確率會有所提高。文獻[6]的系統沒有使用相應的圖像特征提取算法，文獻[7,8]中的系統使用了自編碼模型與學習神經網絡，但缺乏稀疏性。而所提方法在SSDA模型的基礎上采用CS-LBP 算法進行圖像特征提取，其辨識人臉表情的準確率更高。

4 結束語

針對物聯網環境下用戶的隱私安全以及人臉表情識別準確度的問題，提出了邊緣云框架下結合雙模特征的高效安全人臉表情識別方法。語音和圖像樣本通過一個多秘密共享方案分發到不同的邊緣云，保護了用戶的隱私。邊緣云中將預處理后的信號傳輸到核心云，并利用語譜圖和局部二值模式的方法以提取語音特征，以及采用差值中心對稱局部二值模式提取圖像特征，解決了物聯網環境下數據量劇增且自動人臉表情識別精確率較低的情況。基于棧式稀疏去噪自編碼器將語音和圖像特征的融合，以實現人臉表情的識別，并在RML和eNTERFACE’05數據庫上進行了實驗論證。結果表明所提方法對兩個數據庫的識別率分別為83.9%和88.74%，明顯高于其它方法的精確度，且抵御網絡攻擊的能力較強。

由于所提方法僅針對人臉表情識別，接下來將針對該系統在其它視聽數據庫和跨數據庫中的性能做進一步的研究，以及嘗試用其它代替雙模特征的深度融合方法。