楊秋芬,桂衛華,胡豁生,陽若寧
YANG Qiufen1,2,GUI Weihua1,HU Huosheng1,YANG Ruoning2
1.中南大學信息科學與工程學院,長沙410083
2.湖南廣播電視大學理工教學部,長沙410004
1.School of Information Science and Engineering,Central South University,Changsha 410083,China
2.Science&Engineering Department,Hunan Radio&TV University,Changsha 410004,China
網絡教育是一種日益普遍的現代遠程教育。但是,這種教育方式存在著一個極大的缺點,即學習者與教師分處兩地,非直接面對面交流,學習者的學習情緒狀態通常得不到關注[1-2],情感交互缺失。這種教育方式和全日制教育方式不同,缺乏學習氛圍,缺乏老師的監督和提醒,而且學習時間較長,這些因素容易導致網絡學習者出現“學習疲勞”。因此,網絡遠程學習過程中及時檢測學習者是否“學習疲勞”并在網絡教育學習系統中做出相應的警示措施,有著極其重要的現實意義和應用價值。
由于目前對教育領域的疲勞檢測技術研究比較少,關于網絡學習疲勞檢測的檢測方法,成熟的駕駛員疲勞技術對于網絡學習者的學習疲勞進行預警研究有一定的借鑒意義。已有的人臉識別研究表明,網絡學習者在學習疲勞時的眼睛和嘴巴的狀態是反應學習者是否疲勞的重要因素[1-2]。劉瑾奕教授[3]做了智能教室圖像處理和模糊邏輯的睡意檢測的研究及其實現,他首先分析了教室的瞌睡場景和檢測方案的實際需求,然后確定選用模糊邏輯以及數字圖像處理基礎來展開研究,并最終使其在MATLAB仿真平臺下得以實現,但是他所選擇的標準過于單一,即眼睛閉合為瞌睡,眼睛睜開為清醒狀態[3]。文獻[1]提出基于膚色分割和模版匹配相結合的學習疲勞識別算法,并對中性、疲勞和專注三種網絡學習表情檢測相應的人臉區域,對眼睛、嘴巴區域進行特征提取,采用基于規則的表情分類方法,識別出學習者的學習狀態,并作出實時提醒,提高網絡學習者的學習效率。文獻[4]采用VC++實現了學習者疲勞檢測的人臉特征定位,他在YCbCr空間運用膚色高斯模型對圖像進行灰度處理,先對眼部區域、嘴部區域進行粗定位接著進行精確定位,并將眼睛開合狀態、眼睛張開與閉合時間、嘴巴開合狀態以及打哈欠所用時間作為檢測標準,以此判斷網絡學習者的學習狀態。
本文提出一種基于Gabor小波和HMM的學習疲勞眼部狀態識別算法,并嵌套在遠程智能教學系統中。該方法在YCbCr顏色空間用拉普拉斯算子對眼部圖像進行灰度差的處理;接著構造選擇二維Gabor核函數,構造48個最優濾波器,獲取48個特征值,這48個特征值生成48個特征向量,用HMM對觀測序列O進行狀態識別,該序列是由眼部圖像的特征向量構成。
在本文的方法中,使用下列方程式從RGB顏色空間中獲得了YCbCr的顏色空間,其中R,G和B分別是彩色圖像的紅,綠,藍部分。Y,Cr和Cb的標準范圍為[0,255]。

眼部區域與面部前額區對比,具有低強度Y,低紅色度(Cr)和高藍色度(Cb)。通過這一事實,可將該輸入圖像預處理成灰度圖像。鄰近像素之間灰度差異的PDF,可通過廣義的拉普拉斯算子近似模擬。灰度方法如圖1所示。

圖1 邊緣輪廓定義

其中ΔI是灰度差,λ取決于兩個采樣圖像位置之間的距離,β是約等于0.5的參數,ZL是歸一化常數。下文中,假定β=0.5,這意味著ZL=4λ。
圖2顯示了眼睛圖像中灰度差的分布。在不同皮膚尺度上計算出的灰度差如圖2所示。可從圖中看到,眼睛圖像的灰度差分布可通過YCbCr近似模擬出。此外,還能看到分布的寬度k隨著尺度增加。

圖2 眼睛圖像中不同尺度上的灰度差分布
圖2顯示了眼睛圖像中灰度差的分布。在不同Δν尺度上計算出的灰度差,如圖2所示。從圖中看到,眼睛圖像灰度差的分布通過廣義的拉普拉斯算子近似模擬出,定義見等式(2)。此外,還能看到分布的寬度λ隨著尺度增加。造成這種現象的原因是,隨著Δν增加,像素值的相關性變弱。
可以說,自曼海姆《意識形態與烏托邦》一書問世后,科學技術與意識形態的關系討論進入到了白熱化階段,馬克思與阿爾都塞沿著科學技術與意識形態對立的道路前進,而法蘭克福學派卻走向了相反的道路,認為在后資本主義時代,科學技術已經具有了意識形態職能,科學技術即是一種意識形態。因此,意識形態與科學對立論為哈貝馬斯的理論創建提供了寶貴的學理材料,而法蘭克福學派第一代學者的科學技術即意識形態論卻直接為其理論奠定了基礎,正如哈貝馬斯自己所言:“科學技術執行意識形態的職能的發明權并不屬于我,而是屬于霍克海默和馬爾庫塞”。
然后,使用閾值T通過簡單的全局閾值將灰度圖像二進制為“二值圖像”。線性化后,下一個任務就是獲取4連通的組件,貼上標簽,然后找出各組塊的中心。對兩只眼睛,嘴巴,耳朵等貼上了標簽。連通組件的詳細結果見文獻[5-8]。
處理后眼區的圖像如圖3所示。

圖3 眼區圖像處理
二維Gabor小波變換是時頻域進行信號分析和處理的一個重要工具,其變換系數具有良好的視覺特征和生物背景。不同參數的Gabor濾波器能捕捉圖像中的局部特征信息,與不同的空間頻率,空間位置和方向對應。由于Gabor濾波器的特征。它對亮度和面部表情變化并不敏感,因此,Gabor濾波器被廣泛用于圖像編碼,手寫數字辨識,人臉識別和邊緣檢測等[9-10]。
對圖像預處理后的灰度圖像進行二維Gabor小波變換,從而獲得駕駛員臉部區域的疲勞特征。二維Gabor小波核函數是:


kj構成了不同小波(其邊的值不同),本文采用了4個尺寸和6個方向的變化。

其中,g(kj,x)是振幅。因此,Gabor濾波的值是48,這構成了一組代表目標特征的最佳濾波。這些濾波構成了小波子空間,將圖像投射到小波子空間上從而獲得小波系數,提取平均值和方差來表示駕駛員面部表情圖像的統計特征。48個特征點的分布圖如圖4所示。

圖4 48個特征點的分布圖
HMM是一種比較成熟的隨機過程統計匹配模型,該模型是參數來描述的。隱馬爾可夫模型(HMM)包括隱含層和觀測層,其中隱含層是隱含的馬爾可夫鏈,觀測層則是實際的觀測量,也就是要識別的實例。
一個HMM可以記為式(6):

A代表的是狀態轉移概率矩陣,B代表的是觀測值概率矩陣,M代表的是觀測序列的長度,N代表的是隱含狀態數,π代表的是初始狀態概率。
為了優化HMM參數[11-12],根據具體情況有的采用單幅圖像進行訓練,有的采用多幅圖像進行訓練。訓練步驟為:
(1)對分類的眼部狀態圖像進行Gabor濾波值的計算,找到特征值生成觀測序列Oi,并將Oi作為觀測圖像的特征向量。
(2)通用模型λ=(N,M,π,A,B),確定模型允許的高斯混合概率成分的個數、狀態數和狀態轉移。
(3)計算模型的初始參數,注意與Nt(t時刻)個狀態對應,然后將訓練數據均勻分割。狀態轉移矩陣A=(aij),取aij=0,當j<i或j>j-1。初始概率分布π=(π1,π2,…,πN),假設第一個狀態π1=1。如果πi=1(i≠1),B={bj(Oi)}用高斯概率密度函數,B={bj(Oi)}可依據式(7)進行計算:

其中Σj和μj分別為高斯概率密度函數的協方差矩陣和均值。


(4)HMM的最優狀態序列的求出。高斯混合模型的參數采用Viterbi分割[13],結合分段K均值聚類方法。
(5)借助Baum-Welch算法[13]再次估計參數。確定λ=(N,M,π,A,B),并依據模型優化參數,使P(O|λ)的值達到最大,P(O|λ)為眼疲勞狀態中的某個類別。
先對YCbCr顏色空間用拉普拉斯算子對眼部圖像進行灰度差的處理,再用Gabor濾波器對人眼圖像進行處理,借助前向-后向算法分組訓練觀測序列O,該觀測序列由特征向量構成,訓練所用模型為λi(1≤i≤3),依次求取概率P(O|λi)。miax P(O|λi)所對應的模型即為待識別眼部狀態所屬的類別。

本研究試圖從網絡學習的角度來分析網絡學習的基本過程和原理[13-14]。網絡學習者的對象以成人為主,取樣人臉識別數據庫CAS-Peal-R1,網絡學習平臺是校級精品課程《工程力學》,借助認知心理學的研究方法和研究手段,開展相關的網絡疲勞學習的實驗。通過從網絡學習者的學習狀態的分析,提高網絡課程設計的質量,提高遠程教育的服務水平,對網絡學習支持提供支撐,使得網絡學習平臺得到更加積極的利用。
CAS-PEAL-R1是大型中國人臉庫,其中總共包括1 040人,99 450幅人臉圖像,圖片大小為360像素×480像素,包括表情、姿態、光照和飾物4種變化。本文算法在CAS-Peal-R1,取樣數量分別為20 000、10 000和5 000進行實驗。實驗結果見表1。

表1 Gabor+HMM算法和其他+HMM的眼部狀態算法的速度比較s
從表1可以看出,當實驗圖像的數目較大時(20 000和10 000),Gabor+HMM算法在識別速度上比其他+HMM算法(包括PCA+HMM、ICA+HMM、DCT+HMM)更高效,而當數目較小時(5 000),Gabor+HMM算法比其他+HMM算法的速度要慢些,因為使用Gabor+HMM算法在識別面部圖像前進行的面部圖像歸類耗時比較多。因此,可以得出結論,該算法適合大規模的人臉庫,一般大于10 000。
其結果見圖5和圖6中。

圖5 Gabor+HMM算法的識別效果

圖6 其他+HMM算法的識別效果
圖7對本文的Gabor+HMM、PCA+HMM、ICA+HMM和DCT+HMM的識別率進行了對比,得出下列的結論:Gabor+HMM維數越低識別率越低,其中當維數為1時,識別率均不超過75%;識別率隨著維數的增加有明顯地提高(當維數等于48時,達到最大值97.68%,這和前面的Gabor濾波值的設定相一致),對PCA+HMM、ICA+HMM、DCT+HMM三種方法,當對應的特征維數分別達到20、7、22時,對應的識別率分別基本穩定在93.29%、90.89%、92.8%。

圖7 Gabor、PCA、ICA和DCT不同觀察矢量維數下的識別率
本文中N和M的選擇依照實驗結果確定,N的值域為2~8,M的值域為5~21。從圖8中能夠看出,當M=12,N=4時,疑惑與疲勞的識別率均處于最大值。在保持不變高斯概率混合成分個數的前提下,當N<4時,識別率隨著N的增大而提高;N≥4后,識別率反而逐漸下降。觀測值概率分布矩陣B={bj(Oi)}的計算是公式(7),公式(7)中的μj用公式(8)進行計算,Σj表示用公式(9)進行計算。

圖8 高斯概率混合成分個數和狀態數對識別率的影響
三種狀態中,正常學習的識別率比較低,這是由于專注和疲勞比正常學習的表情特征要更加明顯。在遠程智能教育系統中,通過兩種方法提高識別率:第一,要求攝像機拍攝彩色圖像,根據Y分量的變化及時更新Gaussian模型參數;第二,把學習疲勞的分類更加細化,睜眼、合眼狀態界定更加明確,從而提高了識別跟蹤的準確率和穩定性。本文的識別結果作為反饋信息傳送到遠程智能教學系統中,讓教師及時調整教學進度、重新安排教學內容、為改正教學方法提供依據,為網絡學習者提供個別化的學習環境,以彌補網絡學習者情感缺失的問題。
[1] Wang Tingting,Wu Yanwen,Ai Xueyi.Learning fatigue recognition and intervention based on facial expression recognition[J].Computer Engineering and Design,2010,31(8):1764-1767.
[2] Zhang Jiahua.Research on the information processing model of web based learning and its application[D].Chongqing:Southwest University,2010.
[3] 劉瑾奕.智能教室中基于圖像處理和模糊邏輯的睡意檢測研究與實現[D].上海:上海交通大學,2007.
[4] 彭慧玲.網絡學習疲勞檢測中的人臉特征定位研究[D].武漢:華中師范大學,2008.
[5] 楊秋芬,桂衛華,胡豁生,等.基于ICA和HMM的疲勞駕駛眼部狀態識別算法[J].計算機工程與應用,2008,44(27):5-7.
[6] 周書仁,梁昔明,朱燦,等.基于ICA與HMM的表情識別[J].中國圖象圖形學報,2008(12):2321-2327.
[7] 周書仁.人臉表情識別算法分析與研究[D].長沙:中南大學,2009.
[8] 郭克友,儲江偉,王榮本.駕駛員眼部狀態識別方法的研究[J].系統工程與電子技術,2003,25(10):1186-1188.
[9] 曹林,王東峰,鄒謀炎.基于小波變換和隱馬爾可夫模型的人臉識別方法[J].計算機工程與應用,2005,41(7):18-23.
[10] 張偉,黃煒,羅大庸.基于多特征量貝葉斯融合的駕駛疲勞識別[J].計算機工程與應用,2012,48(33):244-248.
[11] Azman A,Qinggang M,Eran A E,et al.Non-intrusive physiological measurement for driver cognitive distraction detection:eye and mouth movements[J].International Journal of Advanced Computer Science,2011,1(3):92-99.
[12] Huang Wei,Zhang Wei.Driver fatigue recognition based on supervised LPP and MKSVM[C]//Zhang Ting.Proceedings of the SPIE,Third International Conference on Digital Image Processing,Chengdu,China,2011.USA:SPIE,2011.
[13] Ma C X,Li Y Z,He R C,et al.Latent ring-like road traffic control system based on compound mechanism particle swarm optimisation algorithm[J].Int J of Modelling,Identification and Control,2013,18(1):47-53.
[14] Zhang L,Zhou W D,Chang P C,et al.Kernel sparse representation-based classifier[J].IEEE Transactions on Signal Processing,2012,60(4):1684-1695.