黃繼風, 白國臣, 熊乃學, 魏建國
(1. 上海師范大學信息與機電學院,上海 200234;2. 天津大學智能與計算學部計算機科學與技術學院,天津 300050)
心率(heart rate,HR)是衡量生理活動的指標,可以表明一個人的健康和情感狀態[1]。體育鍛煉、精神壓力和藥物都會影響心臟活動,因此,HR信息可被廣泛地應用于醫學診斷、健康評估、刑偵檢測[2]等領域。對于 HR的測量,心電圖(electrocardiography,ECG/EKG)[3]是目前為止最為精確的HR檢測方法,自從心電圖在臨床中正式投入應用以來,各種生理參數檢測技術和設備相繼問世。但是心電圖在使用過程中需要連接復雜的電極,適于需要準確的生理參數的場合。而光電容積脈搏波描記法(photo plethysmo graphy,PPG)[4-5]是基于生物醫學傳感技術,通過對實時描記被測部位的光吸收量來獲取外周血管的血液,從而獲得HR相關信息,其容積隨心臟搏動而產生的脈動性變化,即血液體積脈沖(blood volume pulse,BVP),但有關PPG的研究仍停留在接觸式測量階段。
相對于接觸式HR檢測方法,非接觸式檢測方法由于不需要與被檢測者發生接觸,因此具有更為廣泛地應用前景。在過去十年中,研究人員專注于非接觸式(即遠程式)檢測方法,主要基于計算機視覺技術。PAVLIDIS等[6]于2007年首次提出基于面部的非接觸式生理信號的測量方法,其研究發現,面部區域具有較薄的組織層便于檢測。文獻[6-7]通過面部熱成像,可以完成基于生物熱模型檢測HR。文獻[8-9]通過采用專用光源如紅燈或紅外燈等非侵入性光學的PPG技術檢測HR。
2008年,VERKRUYSSE等[10]利用面部視頻在環境光下實現PPG估計測試者HR的可能性,其發現普通攝像頭采集到面部區域的色彩強度存在周期性變化,且與BVP具有相關性。在2010年,POH等[11]提出了從普通相機采集的面部顏色信息中檢測HR的框架,該框架基于攝像頭實現了非接觸式HR檢測(圖 1),從而被廣泛采用,其核心思想是使用盲源分離(blind source separation,BSS)[12],通過恢復面部顏色的時間變化來檢測心跳信號。2013年,文獻[13-14]提出了基于微弱的頭部運動估計HR的方法。文獻[15-16]通過應用發散噪聲降低算法和光學建模方法直接研究了 HR的估計。文獻[17-18]從機器學習的角度出發,使用基于監督學習的方式,將膚色變化的信號與使用 BVP感知器獲得的數據進行訓練學習,從而獲得HR信號。此外,GUPTA等[19]使用多種類型的攝像頭,利用信息融合的方式提高檢測的精度。

圖1 基于攝像頭非接觸式心率檢測示意圖
傳統的研究方法已經較為成功地解決了受控的實驗室環境下非接觸式HR信號的提取,比如需要測試環境光線均勻、環境中噪聲較小、面部姿勢保持自然等要求。因此上述條件在自然環境下(比如移動、物體遮擋、陰影)以及特殊情況下,例如本文使用的數據集中存在著部分受測人員佩戴眼鏡、耳麥的情況,以及面部存在表情動作,如嘴部的張合、眼球的運動、眼皮的跳動等,很難滿足之前實驗方法的要求。另外,有些研究(分區域的)將面部區域分成多個子區域,對采集到的 BVP信號在時域中進行信號處理,但不同子區域的波形信號存在對齊問題(圖2),給信號處理帶來復雜性。

圖2 不同區域采集到的原始BVP信號存在
在相關研究的基礎上,本文提出了一種對噪聲(陰影、遮擋等自然環境導致)更為魯棒的非接觸式HR信號提取模型。該模型基于低秩稀疏矩陣分解的方法,用來解決提取色度信息中含有的噪聲、面部陰影情況下的干擾;盡管不同子區域提取的信號存在對齊問題,但利用時頻轉換可避免上述問題的發生。通過實驗證實了本文模型的有效性與創新性。
本文提出的非接觸式HR信號提取的方法模型以及信號提取的過程,圖3包括4個步驟:①基于面部檢測與面部特征點檢測技術,實現對面部感興趣的區域(region of interest,ROI)定位;②將 ROI區域等分成25(5×5)個子區域,提取ROI每個子區域 的 色 度 信 息ci(i=1,2,···,25), 在 此 基 礎 上 對ci(i=1,2,···,25)帶通濾波,獲得[0.7 Hz,2.0 Hz]內含有噪聲的 BVP信號,并將時域信號轉換到頻域,組合成矩陣C;③應用低秩稀疏矩陣的分解模型,將矩陣C分解為一項表示BVP頻域信號低秩矩陣L和一項表示噪聲的稀疏矩陣S,分離出低秩矩陣L;④從L中選出最大幅值對應的頻率,并估計HR值。

圖3 基于低秩矩陣分解的非接觸心率估計模型框架
在之前關于HR信號提取的方法中,往往采用OpenCV視覺處理庫中提供的Haar-cascade 檢測方法,其結果是獲得一個包含部分背景的矩形區域,從而對結果造成影響。另外,也有一些研究[20]在使用該方法時,通過找到面部區域的中心點,選擇某一固定大小的區域作為目標ROI。
然而上述使用固定區域的方法在人體移動、頭部旋轉或有面部表情時會給測量帶來噪聲。另外,考慮到人在做張嘴活動時,嘴部區域的變化(如牙齒露出)同樣也會對 ROI區域的色度值造成影響。本文采用文獻[21]提出的基于嵌入式回歸樹方法得到面部的68個關鍵特征點,利用其中的5個特征點坐標(圖4綠色點,分別為眼睛下部、嘴唇上方、兩腮處),去除面部區域中對實驗影響較大的眼部與嘴部區域,作為實驗所用的ROI區域,避免由于頭部旋轉晃動導致的誤差。
在HR信號提取過程中,特征的選取對信號提取至關重要,理想情況下選擇的特征對光照、遮擋等引入的噪聲具有較強的抗干擾能力,同時又能夠對皮膚顏色細微的變化提供足夠的區分。現階段,文獻[22]提供了一種非接觸式 HR信號提取中最佳的特征——色度特征C,該特征在RGB色彩空間的基礎上,考慮了皮膚顏色變化的色彩比例。該特征的具體定義為

其中,Rn,Gn和Bn分別為正則化后的R、G與B3通道的強度值;α=σ(X) /σ(Y);σ(*)表示與Y的標準差。
將紅色ROI區域等分成25(5×5)個子區域,對分割的每個子區域計算色度特征值(分別記為ci(i=1,2,···,25)),利用[0.7 Hz,2.0 Hz]的帶通濾波器對ci(i=1,2,···,25)濾波,得到含有噪聲的 BVP 信號。將濾波后的各個 BVP信號利用快速傅里葉變換轉換到頻域空間,將各頻域信號組合成矩陣C。

圖4 ROI區域(左圖為頭部正常姿勢檢測到的ROI區域,右圖為頭部旋轉的情況,利用眼睛下部,嘴唇上方,兩腮處5個特征點(綠色)實現ROI區域(紅色)隨頭部的旋轉;粉色的為面部檢測框;藍色為面部特征點連接而成)
在使用色度特征非接觸式提取HR信號的過程中,存在一個重大的問題,即在面部ROI區域的色度信號構成的矩陣C中除了含有BVP信號外,還受到面部陰影、遮擋或其他噪聲因素的影響。當噪聲矩陣的元素服從獨立同分布的高斯分布時,可用經典的 ICA/PCA方法提取較為理想的信號,但當具有低秩的數據信號中混合大量的稀疏噪聲時,上述方法無法求解。本文為了剔除噪聲因素的干擾,考慮到由頻域BVP信號組合而成的矩陣C具有的低秩性特點,因此本文提出使用低秩稀疏分解的(low-rank and sparse matrix decomposition)[23-25]模型予以解決。
低秩稀疏矩陣分解需考慮如何從含有較大的但稀疏的誤差中分離出本質上低秩的數據矩陣(圖 5)。低秩稀疏矩陣分解從數學上可以描述為:給定觀測矩陣C∈Rm×n,則

其中,C為觀測矩陣;L為具有低秩矩陣;S為存在的稀疏噪聲矩陣;||*||0為零范數。

圖5 低秩稀疏矩陣分解模型(其中觀測矩陣(Observation Matrix)可以被分解為一項低秩矩陣(Low rank Matrix)和一項稀疏矩陣(Sparse Matrix))
而上述模型為NP-hard問題,可以使用最小化分解誤差優化問題模型近似描述

文獻[26]證明了式(3)可以收斂到局部最小值,且式(3)可通過式(4)進行求解

借助對(C-St-1)使用奇異值硬閾值逐步迭代求解Lt,對(C-Lt)使用投影硬閾值迭代計算St,即

由于處在頻域空間的 BVP信號所組成的低秩矩陣中,包含的HR信號具有一致性,即該低秩矩陣L的秩數k為1。在算法中利用雙邊隨機投影 BRP代替 SVD,實現快速計算,利用低秩矩陣分解的方法,分離出低秩性的頻域BVP信號(圖 6)。

圖6 低秩矩陣分解方法
通過低秩稀疏分解得到去除噪聲的頻域 BVP信號,選擇頻幅最大值對應的頻率f,由式(6)可得HR值

其中,f為最大幅值對應的信號頻率;HR單位為bpm。
對于上述方法的實驗驗證是在 HP Elite 8380臺式機、Ubuntu 16.04操作系統、Python 2.7編程語言實現的。實驗數據來源包括 MAHNOB-HCI(https://mahnob-db.eu/hci-tagging/)數據集(該數據集包括12名男性,17名女性,測試者在不同情緒、表情以及動作時,使用心電圖儀獲得的 HR信號)和使用surface Pro4電腦采集的分辨率為640×480像素,15 fps的視頻數據(該數據集測試者的HR值由手環測得)2個數據集。在2個數據集中,既包含平靜理想狀態下的情況,也包括說話、移動、不同膚色等復雜情況下的數據(表1)。

表1 使用的部分MAHNOB_HCI數據集以及說明
為了評價本文方法,特從統計分析與一致性評價2個角度對測試結果進行分析和評價。
選用5個統計指標:誤差均值Me、標準差SDe、根方差RMSE、誤差比均值和皮爾遜相關系數r。實驗中,對上述2部分數據集。
進行分別測試,并對MAHNOB-HCI數據集測試的結果與其他方法進行對比對 MAHNOB-HCI數據集測試結果見表 2,本文采集的數據集測試結果見表 3,可以看出其結果優于其他方法的測量值。
在臨床醫學等領域,會出現2種或更多種檢測或測量方法。其測得的結果往往會有一定的差異,這種差異被稱為偏倚(bias)。偏倚可通過對結果的平均數進行估計,的變異情況則使用差值的標準差SD表示。如果差值的分布服從正態分布,則 95%的差值應該位于- 1 .96SD與+ 1 .96SD之間,并將該區間稱為 95%的一致性界限。為了說明這些方法之間可以相互替代使用,需要對不同方法獲得的測試結果進行一致性評價。Bland-Altman圖[28]可通過分析計算這些方法得到結果的一致性界限,并用圖形的方式直觀地反映一致性界限,從而得出這些測量方法是否具有一致性的結論。

表2 本文方法與其他方法在MAHNOB-HCI數據集上測試結果比較

表3 本文采集的數據集測試統計結果
圖7(a)的線性擬合圖顯示r為0.92 (r2=0.86),具有較高的相關性;圖7(b)顯示的所有的測試者在采用本文方法與其他方法的 Bland-Altman分析圖,并對本次實驗進行整體的一致性評價。圖7(b)中實線表示均值=- 0 .67bpm,均值上下2條虛線分別為+ 1 .96SD(即 7.2 bpm)和- 1 .96SD(即-8.5 bpm),可以看到本文方法獲得的 HR值均在置信度為 95%的一致性界限區間之中。

圖7 本文方法與其他測量方式獲得的心率值試驗結果對比圖
圖7(c)和(d)2幅圖為使用不同測試方法分別分析白色人種和有色人種測量結果對應的 Bland-Altman圖。從圖7(c)可以看出白色人種在使用本文方法得到的偏倚值= 2 .5bpm一致性界限為[-6.3,11.3]bpm。而從圖 7(d)可以看到該方法在測量有色人種時,其偏倚值=- 1 .2bpm,一致性界限為[-6.1,3.7]bpm。即該方法模型在對有色人種的實驗測試結果比白色人種的實驗結果更優,對于具體原因還需要進一步研究。
本文分析了現有的非接觸式HR信號提取方法對自然狀態下魯棒性不足的原因,并在此基礎上提出一種基于低秩稀疏分解模型的提取方法,在去除陰影、噪聲后得到較為理想的信號,進而評估 HR值。為了檢測該方法的測試效果,本文采集部分數據集,同時也使用了部分MAHNOB-HCI數據集作為實驗測試數據。對于實驗數據,通過使用統計學方法與Bland-Altman一致性分析方法,對實驗效果進行評估,發現該模型在現有模型中取得理想的實驗結果,滿足一致性的要求。