于 博,陳 浩,胡東輝
(1.合肥工業大學 信息化建設與發展中心;2.合肥工業大學 計算機與信息學院,安徽 合肥 230009)
近年來,在新冠疫情防控背景下,越來越多課程采用線上教學方式。線上教學與傳統課堂教學不同,教師無法在授課過程中與學生面對面進行交流,因此不能及時了解學生的學習效果。目前線上教學效果不盡如人意,其主要原因在于師生之間的情感交互效果差,即使在課上要求學生打開攝像頭,也很難直觀地從畫面中判斷出學生的聽課狀態和對講授內容的情感反應。Chen[1]對線上教學效果進行研究,發現由于缺乏與教師之間的情感交互,僅有48.5%的學生認為目前線上視頻教學效果“很好”或者“好”,有67.0%的學生認為教師應該關注學生在線上課堂中的聽課狀態。此外,如果教師要求學生在線上課堂中打開攝像頭,學生的面部隱私存在泄露風險。因此,亟需提出一種既能加強師生情感交互,又能兼顧學生面容隱私保護的線上視頻教學可行方案。
現有的線上教學情感分析和隱私保護研究工作存在較大局限性。針對線上教學情感分析,Wang 等[2]提出基于大數據的情感挖掘和情感共詞分析算法,根據學生在線上課堂中文字形式的發言與評論分析學生對課堂講授內容的接受程度;Fang[3]提出線上教學討論社區模型,通過學生和教師在討論社區的互動以加強師生的情感交互。然而,這些方法都沒有解決視頻教學實時場景中的師生情感交互問題。因此,在實際的線上教學中,師生情感交互效果仍然難以得到提升。對于線上教學的隱私保護問題,目前的研究僅局限于網絡數據傳輸過程中的風險和互聯網架構本身的缺陷,關注和解決的隱私泄露風險包括ARP緩存中毒、MITM 攻擊、跨站點請求偽造、跨腳本攻擊、SQL注入、會話劫持等問題。這些研究成果雖然能在一定程度上解決由網絡系統結構缺陷造成的線上視頻教學數據泄露問題,但是并沒有關注到線上視頻教學中學生面部信息的隱私保護問題。
YouTube[4]和微軟Azure[5]分別開發了離線自動像素化工具,以保護主播或上傳者無意中拍攝的人的面部隱私。離線自動像素化工具采用檢測跟蹤結構,由隱私敏感目標檢測器和多目標跟蹤器組成,其像素化的性能取決于檢測器與跟蹤器的性能。遺憾的是,由于缺乏訓練樣本和對視頻上下文的理解,檢測器的準確性并不令人滿意。針對離線像素化工具存在的問題,Zhou 等[6]提出一種隱私敏感對象像素化(PsOP)框架,用于自動過濾實時視頻流中的人臉隱私。該框架解決了視頻流識別的準確度、精細度和過像素化問題,但其只能實現在線教育過程中的面部信息隱私保護,無法實現面部情緒分析與反饋。
傳統面部情感識別方法基于面部特征提取,將其作為判別面部情感的依據。面部特征提取是指從輸入的人臉圖像中提取有用信息,主要包括圖像的紋理特征或五官特征。該方法的準確性和有效性很大程度上取決于特征提取方法,其大致分為4 類:①基于紋理信息的特征提取方法,如小波變換、局部二值模式等;②基于邊緣信息的特征提取方法,如線性邊緣圖、梯度方向直方圖等;③基于全局和局部信息的特征提取方法,如主成分分析法、獨立成分分析法等;④基于幾何信息的特征提取方法,如局部曲線波變換等。
傳統面部情感識別方法通過提取人臉顯著特征來判別其面部情感,具有一定的準確率和有效性,但其魯棒性較差。當人臉由于光照、角度等原因出現信息丟失時,傳統面部情感識別方法的識別效能會大幅下降。
近年來,隨著深度學習的發展,許多研究者提出基于神經網絡的面部情感識別模型,極大地提高了面部情感識別的準確率和魯棒性。Simonyan 等[7]提出VGGNet,通過增加卷積網絡的深度來研究卷積網絡對圖像識別精度的影響。在VGGNet 中,首先使用1 個7×7 的卷積核和1 個5×5的卷積核進行網絡結構設計,然后用3個3×3的卷積核和2 個3×3 的卷積核替代原始結構,由此保證了感知域相同,并且提升了神經網絡性能。Krizhevsky 等[8]提出深度卷積神經網絡AlexNet。AlexNet、VGGNet 等結構都是通過增加網絡深度來達到更好的訓練效果,但層數的增加會帶來過擬合、梯度消失和梯度爆炸等負面影響。GoogleNet 是由Szegedy 等[9]在2014 年提出的神經網絡結構,該結構通過優化計算資源,在相同的計算量下提取更多特征,從而提升訓練效果。He 等[10]提出ResNet 神經網絡結構,該結構將殘差表示概念應用于CNN 模型構建,從而創建一個基本的殘差學習塊。實驗結果表明,與一般意義上參數層的輸入輸出映射相比,直接學習殘差收斂速度更快,也可獲得更高的分類精度。
面部表情識別相關研究與應用主要基于下列常用的面部表情識別數據庫:
(1)FER2013。FER2013 由Goodfellow 等[11]使用谷歌圖像搜索API 收集,該數據集包含大約35 887 張不同表情的面部RGB 圖像,大小限制為48×48。此數據集的主要標簽可分為憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性7 種類型。
(2)AffectNet。AffectNet 由Mollahosseini 等[12]創建,該數據庫通過3 大搜索引擎收集了超過100 萬張人臉圖像,是目前最大的面部表情和維度模型數據庫。
(3)RAF-DB。真實情感人臉數據庫(RAF-DB)[13]是一個人臉表情數據集,該數據集包含了29 672 張人臉表情。這些表情經過40 個獨立標簽,被標記為基本表情或復合表情。該數據集的圖像在受試者年齡、性別、種族、頭部姿勢、光照條件、遮擋(眼鏡、面部毛發或自遮擋)、后處理操作(各種濾鏡、特效)等方面有很大的可變性。
(4)JAFFE。JAFFE 數據集包含10 名日本女性的213張面部表情圖像,每人做出7 種表情,包括:憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性,并由60 個注釋者對每個面部表情進行平均語義評分[14]。
(5)CK+。擴展Cohn-Kanade[15](CK+)數據集包含123個不同受試者的593 個視頻序列,受試者來自不同性別、不同年齡的人群。每個視頻以30 幀/s 的速度記錄了受試者表情的轉變,分辨率為640×490 或640×480 像素,其中327 個視頻被標記為憤怒、蔑視、厭惡、恐懼、快樂、悲傷和驚訝7 種表情類型。該數據集是目前使用最廣泛的實驗室控制面部表情分類數據集之一。
針對目前線上教學情感識別研究領域存在的不足,結合不同教學場景下隱私保護的需求,本文基于情感識別神經網絡、圖像編輯、三維動畫模型綁定的理論與技術,提出在視頻教學中對學生面容進行替換與優化的方案,分別是emoji 表情替換方案、融合臉方案和三維動畫模型方案。這3 種方案在隱私保護安全性和情感交互可用性方面的側重點各不相同,適用于不同的線上教學場景。
emoji 表情替換方案整體架構如圖1 所示,利用攝像頭采集學生面部圖像,經過預處理后分析學生面部情感,最后使用emoji 表情符號代替學生的真實臉。該方案的核心模塊是一個預先訓練好的面部情感識別神經網絡,該神經網絡輸出學生面部情感的分析結果。emoji 表情以此為映射依據,代替學生在視頻中的真實臉。emoji 表情表達了學生的情緒狀態,可以幫助教師及時掌握學生在線上課堂中的情緒反應,從而增強師生之間的情感交互。學生屏幕上的真實臉被表情符號覆蓋,因此學生的面部信息也得到了保護。

Fig.1 Overall architecture of emoticon substitution scheme圖1 emoji表情替換方案整體架構
2.1.1 面部情感識別神經網絡
emoji 表情替換方案的核心模塊是一個預先訓練好的面部情感識別神經網絡,該神經網絡結構約有60 000 個參數。具體網絡結構如圖2 所示,包括3 個模塊:第1 個模塊由兩個普通卷積組成,卷積后進行批標準化操作和ReLU激活函數處理;第2 個模塊包含4 個深度可分離卷積,每個卷積之后進行批標準化和ReLU 激活函數處理;第3 個模塊包含一個常規卷積,最后使用全局平均池化和softmax 激活函數生成預測。

Fig.2 Structure of neural network for emotion recognition圖2 情感識別神經網絡結構
使用BatchNorm 是因為在非線性變換之前,深度神經網絡的激活輸入值會隨著網絡深度的加深或在訓練過程中逐漸偏離或改變,而BatchNorm 可以強制神經網絡每一層任意神經元輸入值的分布回到標準正態分布,一方面可以避免梯度消失問題,另一方面,梯度越大,學習收斂速度越快,從而可以加快訓練速度。
2.1.2 深度可分離卷積
本方案采用深度可分離卷積Sep-Conv2D 進行特征提取,相比常規卷積操作,其參數量與運算成本較低,適用于輕量級網絡。具體實現分為兩步:逐通道(Depthwise,DW)卷積與逐點(Pointwise,PW)卷積。
(1)DW 卷積。在DW 卷積中,一個卷積核負責一個通道,一個通道只被一個卷積核卷積。由于DW 卷積完成后的特征圖數量與輸入層的通道數相同,因此在DW 卷積之后,特征圖無法得到擴展。此外,DW 卷積運算是對每個顏色通道進行獨立卷積,無法有效利用相同位置中不同顏色通道上的特征信息。因此在DW 卷積之后,需要PW 卷積將上一步的特征圖進行組合,生成新的特征圖。
(2)PW 卷積。在PW 卷積中,卷積核尺寸為1 × 1 ×M(M為上一層通道數)。該卷積核會將DW 卷積生成的特征圖在深度方向上進行加權組合,生成新的特征圖。
融合臉方案整體架構如圖3 所示。利用攝像頭采集學生的人臉圖像并進行預處理,將學生的真實人臉與styleGAN 神經網絡生成的假臉(生成臉)進行融合,利用泊松融合算法生成融合臉,最后使用融合臉替換視頻中學生的真實人臉。需要說明的是,學生可以自由選擇自己喜歡的生成臉風格與樣式,然后將其與自己的人臉進行融合。與emoji 表情替換方案將學生的面部完全用emoji 表情覆蓋不同,該方案的融合面孔可以保留學生面部的某些特征,同時實現一定程度的面部隱私保護。因此,融合臉替代方案在保證學生面部信息安全與保留面部可識別性之間取得了較好平衡。

Fig.3 Overall architecture of facial blending scheme圖3 融合臉方案整體架構
2.2.1 人臉生成神經網絡
本方案采用的人臉生成神經網絡是Karras 等[16]提出的styleGAN 神經網絡,其結構如圖4所示。

Fig.4 Structure of styleGAN neural network圖4 styleGAN神經網絡結構
該結構中的生成器G_style 由兩個子網絡構成,分別是映射網絡和合成網絡。生成器G_style 的具體結構為:參數驗證、設置子網絡、設置變量、計算映射網絡輸出、更新移動平均值、執行樣式混合正則化、截斷算法、計算合成網絡輸出。映射網絡G_mapping 的具體結構為:輸入參數、連接標簽、歸一化潛碼、映射層、廣播、輸出。合成網絡G_synthesis 的具體結構為:預處理、輸入參數、輸入噪音、層末調制、早期層、剩余層、網絡增長變換、輸出。判別器D_basic 的具體結構為:預處理、構建 block 塊、網絡增長變換、標簽計算、輸出。styleGAN 損失函數定義如式(1)所示:

訓練該網絡時,通過初始化dnnlib 和TensorFlow、載入訓練集、構建網絡、構建計算圖與優化器、設置快照圖像網格、建立運行目錄、訓練、保存最終結果,可以生成高質量的生成臉,然后通過人臉融合算法將生成臉與學生的真實臉進行融合,得到融合臉。
2.2.2 生成臉與真實臉融合
將系統的生成臉與學生的真實臉進行融合,人臉融合主要分為特征點檢測、凸包檢測、多邊形填充、三角剖分、仿射變換、泊松融合幾個步驟。首先對攝像頭捕捉到的人臉進行人臉關鍵點檢測,然后對68 個人臉關鍵點信息進行凸包檢測和多邊形填充,接著使用三角剖分算法完成人臉剖分,最后經過仿射變換和泊松融合算法實現兩張人臉融合。
2.2.3 泊松融合算法
泊松融合[17]基于人眼天生對“突變”敏感,而對連續平滑的變化不敏感這一原理。要實現兩張圖片融合后不顯得突兀,就需要保證圖片邊界平滑過渡。二階偏導數有助于解決圖像融合問題,可使兩張圖片融合為平滑的圖像。這種使用二階偏導數進行圖像融合的方法就是泊松融合算法,即借助泊松方程,使其滿足在所選區域的拉普拉斯條件和Dirichlct 邊界條件下,方程的解唯一。經過泊松處理后合成的人臉非常自然,接近于真實人臉。
泊松方程如式(2)所示。其中,Δ 表示拉普拉斯算子,f和φ是流形上的實數或復數方程。當流形屬于歐幾里得空間時,拉氏算子通常表示為?2,因此泊松方程通常如式(3)所示。在三維直角坐標系中,如式(4)所示,若f(x,y,z)恒等于0,式(4)可以變為齊次方程,即“拉普拉斯方程”。

設圖像域S是R2上的閉子集,Ω 是S的閉子集,S的邊界是?Ω。設f*是定義在S上的已知標量函數,設v是定義在Ω 上的向量域。設f是f*在Ω 上滿足最小化問題的插值函數。當二階偏導數為0 時,梯度有一個極值,如式(5)所示,其中為梯度運算。最小值必須滿足在Ω上的拉格朗日方程,如式(6)所示,其中為拉普拉斯算子。

由于引導向量域是向量域v在式(5)最小化問題上的擴展形式,因此式(5)可以表示為式(7)。式(7)的解是Dirichlet 邊界條件下泊松方程在Ω 上的唯一解,如式(8)所示,其中divv=是v的散度。


因此在Ω 內,添加的修正函數即為邊界?Ω 上源圖像與目標圖像錯誤匹配(f*-g)的一個插值。
三維動畫模型方案整體架構如圖5 所示,利用攝像頭采集學生面部圖像并進行預處理,經過人臉關鍵點標定、三維動畫模型綁定和人臉三維位姿估計后,生成學生面部三維動畫替代視頻中學生的真實臉。綁定的動畫模型可以捕捉并跟隨學生面部和頭部的每一個細微動作,如皺眉、搖頭、抬頭、張嘴等。動畫模型對學生的面部動作有放大效果,可以將學生的面部情緒更直觀地呈現給教師,從而增強師生交互。由于學生的形象被三維動畫模型所替代,因此不存在面部隱私泄露問題。此外,動畫模型生動、形象,有助于活躍課堂學習氣氛。

Fig.5 Overall architecture of 3D animated model scheme圖5 三維動畫模型方案整體架構
2.3.1 三維動畫模型綁定
三維動畫模型綁定是一種使三維動畫模型能夠跟蹤被綁定臉部的每個細微面部動作的方法。三維動畫模型方案采用的三維動畫模型綁定流程如圖6 所示,包括人臉檢測、人臉關鍵點定義、模型綁定和三維姿態估計。使用Python 環境下CV2 庫提供的LBF 算法,通過人臉檢測器檢測學生的真實人臉。為了在真實人臉上捕捉面部運動,需要在三維模型的人臉上定義面部關鍵點。本方案采用的3D 動畫模型是Blender 提供的開源動畫模型Vincent,使用Blender 中的Python 腳本,可以實現三維模型的人臉標記定義和真實人臉的人臉檢測,從而建立三維模型與真實人臉之間的綁定關系。

Fig.6 Workflow of 3D animated model binding圖6 三維動畫模型綁定流程
2.3.2 三維位姿估算
現實場景中臉部的運動和動作是三維的(如搖頭、抬頭等),為了準確捕捉真實人臉動作,需要解決PnP 問題。典型的PnP 問題是借助N 個空間點的實坐標和這些空間點在圖像上的投影計算攝像機在給定坐標系中的位置與姿態,已知量為空間點與圖像坐標的實坐標,未知量(求解量)為攝像機姿態。本文采用LM 優化算法[14]求解PnP 問題,通過迭代算法求出重投影誤差最小的解作為問題的最優解,經過羅德里格斯變換得到旋轉矩陣和平移矩陣,從而解出旋轉向量和平移向量。結合初始的參考坐標系,便可實現人臉的三維位姿估算。該算法可以在攝像機捕捉到的視頻流中實現人臉的運動捕捉,并將其與Blender 三維動畫模型綁定,獲得具有面部運動跟隨的三維動畫人臉。
本文所述實驗工作的計算機環境如下:CPU 為Intel(R)Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHz,Python 3.7,TensorFlow2.0,OpenCV4.1.2。實驗采用的數據集為:FER2013、AffectNet、CK+數據集。
對emoji 表情替換方案的驗證分別在FER2013、CK+和AffectNet 3 個面部情感識別數據集上進行,該方案采用的神經網絡算法為“Sep-Cov2D”。基于FER2013 數據集,Sep-Cov2D算法與VGG19[18]、DL-LSTM[19]和 SESResNet18[20]進行情感識別準確率對比如圖7(a)所示;基于CK+數據集,Sep-Conv2D 算法與AlexNet[21]、CSPL[22]和SE-SResNet18 進行情感識別準確率對比如圖7(b)所示;基于AffectNet數據集,Sep-Conv2D 算法與AlexNet、gACNN[23]和DenseSANet121[24]進行情感識別準確率對比如圖7(c)所示。
圖7(a)表明,在FER2013 數據集上,Sep-Covn2D 的準確率在4 種神經網絡中僅次于SE-SResNet18,達到了71.52%;圖7(b)表明,在CK+數據集上,Sep-Conv2D 的性能表現不佳,僅高于CSPL 神經網絡,準確率為89.93%;圖7(c)表明,在AffectNet 數據集上,Sep-Conv2D 的準確率僅次于DenseSANet12,達到了59.32%。綜合來看,雖然Seo-Conv2D 在面部表情識別準確率上并沒有達到目前情感識別神經網絡的最高水平,但其容錯率處于可接受范圍內,其綜合性能可支持被應用到實際線上教學場景中。此外,雖然SE-SResNet18 在數據集上的測試取得了很好的結果,但因其網絡結構過于龐大(參數過多),并不適合線上教學這種對實時性要求很高的應用場景。而Sep-Conv2D的另一個優勢在于其參數規模很小,其特有的輕量性以及對計算性能要求不高的特點,在實時應用場景中可以降低情感分析延遲,適合投入到實際應用中并被廣泛推廣。Sep-Conv2D 與其他常用的面部情感識別神經網絡參數數量對比如表1所示。
利用OBS 軟件設置運行結果錄屏、安裝虛擬攝像頭插件,并在騰訊會議中將攝像頭選項設置為OBS virtual camera,便可實現將emoji 表情替換方案的運行結果作為學生攝像頭畫面的顯示。實際運行效果如圖8所示。
在實時開啟攝像頭的情況下,emoji 表情替換方案實現了學生的情感識別,并使用emoji 表情替代學生人臉。在學生端,學生面部被對應情緒的emoji 表情替代,因此可確保其面部隱私不被泄露;在教師端,教師可通過觀察學生的emoji 表情直觀地獲知學生的聽課情緒,而不再需要通過視頻圖像判斷學生情緒,從而加強了師生之間的情感交互。此外,當有學生離座時,圖像中顯著的錯誤標志可及時提醒教師,避免因學生視頻圖像過多導致教師無法及時察覺到學生離開課堂的情況,提高教師對課堂紀律的掌控力。

Fig.7 Accuracy of different emotion recognition algorithm圖7 不同算法的情感識別準確率

Table 1 Comparison of parameters amount of different neural network models表1 不同神經網絡模型參數數量對比
與emoji 表情替換方案相同,在騰訊會議中將融合臉方案的運行結果作為學生攝像頭畫面的顯示,實際運行效果如圖9 所示。學生的真實臉與生成臉進行人臉融合之后,雖然保有一部分原來的特征,如臉型、膚色、發型等,但其五官與面部的一些特征有了部分改變,因此保護了學生真實臉的面部特征,從而實現了對學生面部信息的隱私保護。

Fig.8 Performance of 3D animation model scheme圖8 三維動畫模型方案運行情況

Fig.9 Performance of facial blending scheme圖9 融合臉方案運行情況
雖然該方案不能像emoji 表情替換方案實時地將學生面部表情以emoji 表情的形式進行放大,但與emoji 表情替換方案中學生面部完全被emoji 表情遮擋不同,融合臉方案仍保留學生面部的一部分特征,因此該方案適合應用在需要學生面部身份認證的場景中(如線上考試等)。
三維動畫模型方案為了呈現出3D 動畫模型對人臉動作的捕捉效果,測試給出動畫模型實時捕捉人臉動作的部分截圖。實際運行效果如圖10所示。
完成人臉綁定的3D 動畫模型可以捕捉并跟隨學生面部和頭部的每一個細微動作,如搖頭、抬頭、張嘴等。一方面,學生在線上教學視頻中的真實臉被動畫模型替代,從而完成了對學生面部隱私的保護;另一方面,綁定的動畫模型對學生面部動作進行放大,因此教師可以更直觀地觀察出學生的聽課情緒,如驚訝、疑惑等。3D 動畫模型生動、形象,有助于活躍課堂氣氛,適合應用于線上小組討論場景中。

Fig.10 Performance of 3D animated model scheme圖10 3D動畫模型方案運行情況
為了更好地了解學生群體對3 個方案的接受程度以及3 個方案適合應用的場景,以在線問卷調查方式收集部分學生的意見。有針對性地邀請具有線上視頻教學、線上考試、線上答辯3 種經歷的學生參與問卷調查,被調查的學生根據自己的線上學習經歷對本文提出的3 種情感互動方案進行評價。調查問題如下:
方案一:emoji 表情替換方案;方案二:融合臉方案;方案三:三維動畫模型方案。
(1)Q1:您最希望哪一個方案被應用到在線視頻教學中?
(2)Q2:您認為哪一個方案的情感識別效果最好?
(3)Q3:您認為哪一個方案的面部隱私保護效果最好?
(4)Q4:在線上考試場景中(教師要求學生打開攝像頭),您認為哪一個方案最合適?
(5)Q5:在日常線上教學活動中(如講座、日常授課),您認為哪一個方案最合適?
(6)Q6:在線上小組討論場景中,您認為哪一個方案最合適?
調查問卷結果如圖11 所示。62.3%的學生希望方案一能夠被應用于線上視頻教學中;66.5%的學生認為方案一的情感識別效果最好;44.8%的學生認為方案二的隱私保護效果最好。對于線上考試的應用場景(教師要求學生打開攝像頭),54.7%的學生希望使用方案二;對于日常線上教學活動的應用場景(如講座、日常授課),61.8%的學生希望使用方案一;對于線上小組討論場景,58.5%的學生希望使用方案三。
通過進一步分析可以得知,對于線上教學中的面部情感識別與面部隱私保護兩個方面,學生更加重視能夠加強與教師情感交互的面部情感識別,因此方案一的接受度最高。在線上考試場景中,學生更傾向于選擇方案二,該方案可以保留學生的部分原始面部特征,同時保護學生的面部隱私,從而實現身份認證和在線考試中學生的面部信息保護;在在線小組討論場景中,學生更傾向于選擇方案三。方案三使用生動的3D 動畫模型取代學生的真實臉,該模型可以捕捉學生的頭部動作和面部動作,從而活躍課堂討論氛圍,因此適合線上教學中的小組討論場景。

Fig.11 Result of questionnaire圖11 調查問卷結果
表2 總結了3 種方案的情感交互效果、隱私保護程度、面部信息可用性和適用場景。

Table 2 Applicable scenarios of three schemes表2 3種方案的適用場景
在線上視頻教學中,教師很難了解學生的情緒反應,師生情感交互效果差,同時學生面部信息面臨泄露風險。針對以上問題,本文提出在視頻教學中加入情感識別及隱私保護的3 個方案,能夠在一定程度上滿足在線上視頻教學中加強師生情感交互和隱私保護的需求。然而,這些方案也存在一些缺陷。在emoji 表情替換方案中,面部情感識別網絡的準確率不太理想,在實際應用場景中可能會導致學生面部情感識別出現錯誤,影響情感交互效果。產生這一結果的原因可能是神經網絡結構的缺陷,因此未來的研究目標是優化面部情感識別神經網絡結構,同時保持網絡的輕量化,進一步提高師生情感交互效果。融合臉方案中的融合臉相對比較僵硬,影響視頻中學生面容的真實性與美觀性,可能與人臉融合算法的不足有關,因此在未來對人臉融合算法的有效性需要進行更多研究。由于目前開源三維動畫模型數量有限,導致三維動畫模型方案中的學生形象與表情比較單調,因此三維動畫模型方案中三維動畫模型的多樣性還有很大的拓展空間。
受人臉數據隱私安全方面有關政策約束以及真實教學環境中軟硬件設施的限制,本文提出的3 種方案主要基于開放數據集進行研究,或在很小規模的線上會議場景中進行了驗證測試,還沒有在真實、復雜的線上教學環境中進行大規模系統測試。若將方案應用于實際線上教學環境中,軟硬件如何調優?系統的實時性、魯棒性如何保證?這些都是今后可繼續深入研究的方向。本文對于情感交互的研究也僅限于在線教育中學生面部表情的呈現和放大,如何在教師與學生之間實現虛擬空間中相互反饋的情感互動,同時解決面部隱私泄露問題,還有待進一步研究。