融合多頭自注意力機制的無接觸心率估計模型

2022-12-31 00:00:00張鑫楊長強殷若南王夢茹

計算機應(yīng)用研究 2022年11期

摘要：為了在光照變化和頭部運動條件下實現(xiàn)準確穩(wěn)定的無接觸心率估計，基于U-Net模型提出一種融合多頭自注意力機制的端到端心率估計模型rPPG-UNet。該模型通過使用U型編碼器—解碼器網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)對生理特征的提取與重建，并使用Skip Connection連接編碼器與解碼器實現(xiàn)淺層時間特征的復(fù)用。該模型還融合多頭自注意力機制來捕獲生理特征的時間依賴性。最后，該模型采用多任務(wù)學(xué)習(xí)策略以提高心率估計的準確度，加速網(wǎng)絡(luò)訓(xùn)練。在公開數(shù)據(jù)集上的實驗結(jié)果表明，rPPG-UNet的性能優(yōu)于其他基線模型，可以實現(xiàn)更準確的無接觸心率估計。

關(guān)鍵詞：無接觸心率估計；U-Net；多頭自注意力機制；特征融合；多任務(wù)學(xué)習(xí)

中圖分類號：TP391 文獻標志碼：A

文章編號：1001-3695（2022）11-030-3390-06

doi：10.19734/j.issn.1001-3695.2022.04.0175

Contactless heart rate estimation model with multi-head self-attention mechanism

Zhang Xin，Yang Changqiang，Yin Ruonan，Wang Mengru

（College of Computer Science amp; Engineering，Shandong University of Science amp; Technology，Qingdao" Shandong 266590，China）

Abstract：To achieve accurate and stable contactless heart rate estimation under lighting changes and head motion conditions，this paper proposed an end-to-end heart rate estimation model called rPPG-UNet，which was based on the U-Net model and incorporated a multi-head self-attention mechanism.The model realized the extraction and reconstruction of physiological features by using the U-shaped encoder-decoder network structure，and used Skip Connection to connect the encoder and decoder to realize the multiplexing of shallow temporal features.The model also incorporated a multi-head self-attention mechanism to capture the temporal dependencies of physiological features.Finally，the model adopted a multi-task learning strategy to improve the accuracy of heart rate estimation and accelerate network training.Experimental results on public datasets show that rPPG-UNet outperforms other baseline models and can achieve more accurate contactless heart rate estimation.

Key words：contactless heart rate estimation；U-Net；multi-head self-attention；feature fusion；multi-task learning

作者簡介：張鑫（1997-），男，山東臨沂人，碩士研究生，主要研究方向為深度學(xué)習(xí)、無接觸心率估計；楊長強（1971-），男（通信作者），安徽舒城人，副教授，碩導(dǎo)，主要研究方向為計算機圖形學(xué)、激光點云采集與矢量化（Yhrui100@163.com）；殷若南（1996-），男，山東淄博人，博士研究生，主要研究方向為深度學(xué)習(xí)、無接觸心率估計；王夢茹（1997-），女，河南商丘人，碩士研究生，主要研究方向為推薦系統(tǒng).

0 引言

心率（heart rate，HR）是重要的人體生理信號，可以反映出一個人的身體和精神狀態(tài)。電極式心電圖（electrocardio-graphy，ECG）和光電容積脈搏波描記法（photoplethysmograph，PPG）等傳統(tǒng)的心率測量方法都需要受試者佩戴特定的傳感器，而遠程光體積描記術(shù)（remote photoplethysmography，rPPG）則可以通過分析面部視頻中的顏色變化來實現(xiàn)無接觸的心率估計，從而避免傳感器與皮膚長時間接觸引起的不適。

大多數(shù)的信號處理方法是先檢測或追蹤人臉，然后從人臉中選擇感興趣的區(qū)域（region of interest，RoI）以提取其中的rPPG信號，最后通過頻率分析來估計心率^［^1～6^］。這些方法因為固定或隨機地選擇感興趣的區(qū)域，所以會造成rPPG信息的丟失。plane-orthogonal-to-skin（POS）^［7^］和spatial subspace rotation（2SR）^［8^］等方法考慮了所有的皮膚像素對rPPG信號的貢獻，但它們使所有的皮膚像素貢獻相同的rPPG信號，這不符合不同皮膚像素貢獻不同權(quán)重的rPPG信號的事實。此外，研究人員還提出了很多基于顏色空間變化和信號分解的方法。然而，這些方法通常使用假設(shè)來簡化降噪的過程。基于blind source separation（BSS）的方法假設(shè)RGB通道相互獨立^［4^］，一些基于模型的方法使用Lambert-Beer定律（LBL）^［9^，10^］和雙色反射模型（DRM）^［7^］等假設(shè)的模型來重建rPPG信號。這些假設(shè)在劇烈的頭部運動和光照變化中可能不成立，因此傳統(tǒng)的信號處理方法難以推廣到新數(shù)據(jù)中。隨著深度學(xué)習(xí)在圖像識別任務(wù)上顯示出卓越的性能，研究人員將其應(yīng)用在rPPG任務(wù)中并取得了優(yōu)異的成果。深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動的方法，因此可以通過增加訓(xùn)練集的大小來提高模型的性能。與圖像識別任務(wù)不同的是，rPPG任務(wù)需要同時考慮面部視頻的空間和時間特征。為此，研究人員提出了DeepPhys^［11^］、HeartTrack^［12^］和PhysNet^［13^］等使用空間或時間注意力的模型。其中DeepPhys通過可以學(xué)習(xí)軟注意力掩碼來為信號較強的皮膚區(qū)域分配更高的權(quán)重以提高測量精度。HeartTrack使用3D時空注意力網(wǎng)絡(luò)來選擇面部區(qū)域并利用時間信息進行信號濾波。PhysNet基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的框架實現(xiàn)了多種時空建模方法，并進行對比實驗來比較它們捕獲時空上下文的能力。模型在從訓(xùn)練數(shù)據(jù)集遷移到現(xiàn)實世界中時往往不能很好地執(zhí)行。為了解決這個問題，Lee等人^［14^］提出了一種傳導(dǎo)元學(xué)習(xí)器Meta-rPPG。Meta-rPPG使用合成梯度生成器在測試過程中根據(jù)數(shù)據(jù)分布自動調(diào)整權(quán)重，使模型可以快速適應(yīng)不同分布的測試樣本。

在時間維度上，人臉序列所包含的生理特征隨著時間變化且互相關(guān)聯(lián)。充分考慮生理特征的變化與關(guān)聯(lián)有助于網(wǎng)絡(luò)學(xué)習(xí)到更有用的信息。為了解決上述問題，本文提出了一種端到端的多任務(wù)學(xué)習(xí)模型rPPG-UNet。rPPG-UNet使用U型網(wǎng)絡(luò)結(jié)構(gòu)以解決訓(xùn)練數(shù)據(jù)集較少的問題，融合多頭自注意力機制建模生理特征的全局時間依賴關(guān)系。該模型可以在頭部運動與光照變化情況下實現(xiàn)準確的心率估計。本文的主要工作如下：

a）采用編碼器—解碼器的U型網(wǎng)絡(luò)結(jié)構(gòu)，通過Skip Connection連接網(wǎng)絡(luò)的編碼器與解碼器。Skip Connection可以使網(wǎng)絡(luò)復(fù)用面部視頻的淺層特征，同時還可以有效地減少梯度消失問題。

b）融合多頭自注意力機制。在解碼器中融合了多頭自注意力機制，捕獲面部視頻幀的全局時間依賴關(guān)系并將其與局部特征進行融合，實現(xiàn)更準確的心率檢測。

c）采用多任務(wù)學(xué)習(xí)策略。將網(wǎng)絡(luò)提取的生理特征分別解碼為rPPG信號和平均心率值，利用它們內(nèi)在聯(lián)系進行多任務(wù)學(xué)習(xí)，使模型獲得更好的性能。

1 相關(guān)工作

1.1 基于rPPG的心率估計

1.1.1 基于信號處理的方法

2008年，Verkruysse等人^［6^］首次通過帶通濾波器從商品攝像機錄制的面部視頻中獲得了PPG信號。此后，rPPG技術(shù)進入了計算機視覺領(lǐng)域，研究人員致力于提高rPPG技術(shù)的預(yù)測精度和魯棒性。Poh等人^［5^］首先提出基于BSS的方法，該方法假設(shè)RGB通道的信號是彼此分離的分量，并采用獨立分量分析（independent component analysis，ICA）對RGB顏色通道信號進行時間濾波以獲得rPPG信號。Lam等人^［9^］隨機選擇多對面片進行ICA，將得到的多個心率值結(jié)合到一個多數(shù)投票方案中，該方法在MAHNOB-HCI數(shù)據(jù)集上取得了先進的結(jié)果。De Haan等人^［2^］提出了一種基于色度的方法，他們通過將RGB通道進行線性組合來計算色度信號，實現(xiàn)了運動條件下的魯棒測量。Kumar等人^［15^］提出了一種根據(jù)光照強度自動確定權(quán)重的方法，該方法通過預(yù)測器分析不同面部區(qū)域的顏色變化并進行加權(quán)組合以提高信噪比。此外，研究人員還提出了POS、2SR和self-adaptive matrix completion（SAMC）^［16^，17^］等各種基于運動表示的方法以應(yīng)對頭部運動的挑戰(zhàn)，但這些方法依賴于人臉的檢測與追蹤算法。以上這些傳統(tǒng)的信號處理方法使rPPG技術(shù)的性能有了顯著的提高，為以后的研究工作奠定了基礎(chǔ)。但由于實際場景中的頭部運動和光照變化更為復(fù)雜，這些方法的準確度與魯棒性仍需提高。

1.1.2 基于深度學(xué)習(xí)的方法

McDuff等人^［11^］提出了第一個用于rPPG任務(wù)的端到端的雙流神經(jīng)網(wǎng)絡(luò)模型DeepPhys，該模型使用注意力機制為信號較強的皮膚區(qū)域分配更高的權(quán)重，先進的實驗結(jié)果證明了使用神經(jīng)網(wǎng)絡(luò)提取rPPG信號的可行性。Niu等人^［18^］通過將三維視頻處理為二維時空圖來簡化rPPG信息的表示，并使用門控循環(huán)單元（GRU）捕獲視頻序列中相鄰HR測量值之間的關(guān)系，該模型在VIPL-HR數(shù)據(jù)庫上取得了先進的實驗結(jié)果。在此基礎(chǔ)上，Niu等人^［19^］又提出了一種生成PPG信號的數(shù)據(jù)擴充方法以解決訓(xùn)練數(shù)據(jù)不足的問題，他們還通過建模時空注意力來減輕噪聲的影響。為了減少視頻壓縮造成的rPPG信息的丟失，Yu等人^［20^］提出了一個兩階段模型。該模型在STVEN階段中增強壓縮視頻的質(zhì)量，然后在rPPGNet階段重建rPPG信號。這是第一個直接從壓縮視頻進行魯棒rPPG測量的解決方案。模型在從訓(xùn)練數(shù)據(jù)集遷移到現(xiàn)實世界中時往往不能很好地執(zhí)行。為了解決這個問題，Lee等人^［14^］提出了一種傳導(dǎo)元學(xué)習(xí)器Meta-rPPG。Meta-rPPG使用合成梯度生成器在測試過程中根據(jù)數(shù)據(jù)分布自動調(diào)整權(quán)重，使模型可以快速適應(yīng)不同分布的測試樣本。

以上這些方法大多是基于CNN或RNN，其有效性很大程度上依賴于長期記憶的學(xué)習(xí)結(jié)果。本文在解碼器中融合的多頭自注意力機制可以更好地捕獲人臉序列中的全局時間依賴關(guān)系。

1.2 U-Net模型

U-Net模型結(jié)構(gòu)如圖1所示^［21^］。該模型是一個編碼器—解碼器的U型網(wǎng)絡(luò)結(jié)構(gòu)，共包括四層編碼器與解碼器和一層中間層。4層編碼器表示4次下采樣操作，每次下采樣都經(jīng)過3×3卷積和2×2池化以提取圖像的深度特征；下采樣的圖像特征經(jīng)過中間層進入解碼器，解碼器需要進行4次上采樣操作以恢復(fù)圖像特征與大小，每次上采樣都經(jīng)過2×2反卷積與3×3卷積。解碼器輸出的特征通過Skip Connection與編碼器的特征進行拼接，從而使網(wǎng)絡(luò)可以復(fù)用圖像的淺層特征。U-Net的結(jié)構(gòu)使其可以使用更少的訓(xùn)練數(shù)據(jù)實現(xiàn)更好的分割準確度，因此該模型常被用于數(shù)據(jù)集較少的醫(yī)療影像分割領(lǐng)域。

1.3 多頭自注意力機制

2017年，Vaswani等人^［22^］提出了使用多頭自注意力（multi-headed self-attention，MHSA）進行序列建模的Transformer，并在自然語言處理領(lǐng)域取得了顯著的成功。MHSA結(jié)構(gòu)如圖2所示。其中縮放點積注意力（scaled dot-product attention）是對輸入特征作線性變換獲得對應(yīng)的Q（query）、K（key）和V（value）矩陣。然后使用矩陣K計算矩陣Q的點積，將點積結(jié)果除以指定維度d_K，然后使用softmax函數(shù)獲得權(quán)重，最后將矩陣V與權(quán)重相乘獲得注意力輸出。縮放點積注意力可表示為

為了實現(xiàn)注意力機制的并行計算，Transformer將矩陣Q、K和V線性映射為h個部分，使它們同時進行縮放點積注意力計算。最后將它們的輸出值拼接并再次進行映射。多頭自注意力計算可表示為

MHSA允許模型的不同表示子空間共同關(guān)注不同位置的信息，并且可以通過并行計算在不增加計算量的情況下建模長距離依賴關(guān)系^［22^］。之后，研究人員進行了許多將類似Transformer的架構(gòu)引入到計算機視覺領(lǐng)域的工作。Dosovitskiy等人^［23^］提出的vision Transformer（ViT）開創(chuàng)性地將Transformer架構(gòu)應(yīng)用于圖像分類任務(wù)。ViT將原始圖片劃分成多個patch并線性嵌入為序列以作為網(wǎng)絡(luò)的輸入，使用cls-token捕獲類別特征，但ViT需要使用大規(guī)模的數(shù)據(jù)集才能獲得優(yōu)秀的結(jié)果。在這項工作的基礎(chǔ)上，Bertasius等人^［24^］通過使用時空分離注意力將Transformer架構(gòu)應(yīng)用于視頻理解任務(wù)中。時空分離注意力包括時間自注意力和空間自注意力兩部分，其首先比較每個圖像patch與其他幀中相同空間位置的所有patch以捕獲它們的時間依賴性，然后比較每個patch與同一幀中不同空間位置的所有patch以捕獲它們的空間依賴性。

MHSA在序列建模中取得了顯著的成功。然而，較大的模型參數(shù)量使其需要使用大規(guī)模數(shù)據(jù)集進行訓(xùn)練優(yōu)化。本文通過多尺度融合MHSA來捕獲rPPG特征的全局時間依賴性，減少模型參數(shù)量的同時實現(xiàn)了更好的預(yù)測精度。

2 模型設(shè)計

rPPG-UNet模型框架如圖3所示。rPPG-UNet模型首先從原始視頻中檢測出人臉并進行下采樣，將采樣得到的人臉序列作為網(wǎng)絡(luò)的輸入。模型的編碼器encoder可以提取人臉序列的生理特征。解碼器decoder將生理特征逐步重建。Skip Connection使用網(wǎng)絡(luò)復(fù)用編碼器提取的淺層特征。最后生理特征被分別解碼為rPPG信號和平均心率值。

2.1 主干網(wǎng)絡(luò)設(shè)計

rPPG-UNet模型主干如圖4所示。該模型包括五層編碼器和解碼器及一個中間層。編碼器主要由3D Conv與3D maxpool 組成，負責(zé)提取人臉序列中的深度生理特征。編碼器輸出的特征經(jīng)過中間層Skip Connection進入解碼器。解碼器使用1D ConvTranspose重建rPPG信號。為了復(fù)用面部視頻中的淺層時間特征，本文重新設(shè)計了Skip Connection模塊，通過內(nèi)置不同維度的ResNet模塊將編碼器的特征輸出從3D降維至1D，然后與解碼器重建的rPPG特征進行拼接。Skip Connection可以有效地減少梯度消失問題，加速模型訓(xùn)練。

2.2 融合多頭自注意力機制的解碼器

在rPPG任務(wù)中，面部視頻中的生理特征在短時間內(nèi)的變化微弱且互相關(guān)聯(lián)。因此，捕獲視頻幀之間的變化與關(guān)聯(lián)有助于rPPG信號的重建。為了解決這個問題，本文在解碼器中融合了多頭自注意力機制以更好地重建rPPG信號。

圖5展示了rPPG-UNet模型的解碼器細節(jié)圖。編碼器的特征輸出F_En經(jīng)過Skip Connection后與解碼器的特征輸出F_De進行拼接，然后經(jīng)過1D conv獲得局部特征F_local。局部特征進入MHSA模塊以捕獲生理特征的全局時間依賴關(guān)系F_global。局部特征F_local與全局時間依賴關(guān)系F_global進入特征融合模塊中進行融合。對于第i層解碼器，可將其表示為

其中：F_En表示編碼器的特征輸出；F_De表示解碼器的特征輸出；UpConv表示反置卷積；concat表示特征拼接；fusion表示特征融合模塊fusion block；F_out表示解碼器的特征輸出。

在特征融合模塊中，局部特征F_local和全局時間特征F_global在特征經(jīng)過concat后，分別執(zhí)行最大池化和平均池化以生成兩種不同的特征描述。然后使用sigmoid函數(shù)激活并相加，最后使用卷積核大小為1的3D卷積調(diào)整通道尺寸。對于第i層解碼器，其特征融合模塊可表示為

其中：σ（·）表示sigmoid激活函數(shù)；F_fusion表示融合后的特征。

解碼器通過MHSA機制比較每個視頻幀的時間特征與其他視頻幀的時間特征來獲得時間依賴關(guān)系，從而給序列中噪聲較多的視頻幀分配更小的權(quán)重，噪聲較少的視頻幀分配更大的權(quán)重。特征融合模塊則將卷積捕獲的局部特征與MHSA提取的全局時間特征進行融合，使該模型可以獲得更全面的生理特征。

2.3 多任務(wù)學(xué)習(xí)策略

rPPG信號和心率都包含了豐富的人體信息，利用它們的關(guān)系進行互相約束有助于提高模型的性能。因此，rPPG-UNet使用了兩種解碼器將rPPG特征分別解碼為rPPG信號和平均心率值，然后分別計算損失以優(yōu)化網(wǎng)絡(luò)。對于rPPG信號的任務(wù)分支rPPG decoder，本文使用負皮爾森相關(guān)系數(shù)作為損失函數(shù)，該損失函數(shù)Loss_rPPG可表示為

其中：T是輸入的視頻序列長度；x是模型預(yù)測的rPPG信號；y是真實的rPPG信號標簽；i為視頻幀的索引。對于平均心率值分支HR decoder，本文使用mean absolute error（MAE）作為損失函數(shù)，該損失函數(shù)Loss_HR可表示為

其中：HR_pred、HR_gt分別表示預(yù)測心率值和真實心率值。

最后，rPPG-UNet完整的損失函數(shù)Loss可表示為

其中：α和β是用于平衡兩分支損失函數(shù)的權(quán)重。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

實驗使用了UBFC-RPPG、COHFACE和MAHNOB-HCI三個公開數(shù)據(jù)集進行訓(xùn)練與測試。

UBFC-RPPG數(shù)據(jù)集發(fā)布于2017年。數(shù)據(jù)集中共有54個視頻，這些視頻使用Logitech C920 HD Pro攝像頭錄制，幀率為30 fps，分辨率為640×480，錄制的同時使用CMS50E 透射式脈搏血氧儀獲取受試者的 BVP 信號和相應(yīng)的心率值^［25^］。

COHFACE數(shù)據(jù)集發(fā)布于2017年。數(shù)據(jù)集中共有160個視頻，這些視頻使用羅技C525攝像機錄制，幀率為20 fps，分辨率為640×480，錄制的同時使用SA9308M同步記錄BVP信號作為心率標簽值，采樣頻率為256 Hz^［26^］。

MAHNOB-HCI數(shù)據(jù)集發(fā)布于2011年。數(shù)據(jù)集中共有527個視頻，這些視頻使用Allied Vision Stingray F-046C彩色攝像機和Allied Vision Stingray F-046B單色攝像機錄制，幀率為61 fps，分辨率為780×580。錄制時同步記錄了ECG信號值^［27^］。

3.2 實驗細節(jié)設(shè)置

實驗使用128幀的非重疊滑動窗口從訓(xùn)練集中獲取樣本，然后使用Dlib^［28^］中的人臉檢測器檢測人臉并將其下采樣至128×128。rPPG任務(wù)的標簽為對應(yīng)時段的BVP信號，HR任務(wù)的標簽為該時段內(nèi)的平均心率值。為了使Loss_rPPG和Loss_HR為同一數(shù)量級從而平衡rPPG任務(wù)分支與HR任務(wù)分支對網(wǎng)絡(luò)參數(shù)的優(yōu)化速度，本文將損失函數(shù)Loss中的權(quán)重系數(shù)α設(shè)置為10，β設(shè)置為1。模型一共訓(xùn)練了50個epoch，其中5個epoch進行學(xué)習(xí)率預(yù)熱以使模型在開始訓(xùn)練時更穩(wěn)定。網(wǎng)絡(luò)使用Adam優(yōu)化器進行優(yōu)化，使用的學(xué)習(xí)率為1E-3。

3.3 實驗評價指標

定義第i個視頻中的心率估計誤差為HR_e（i）=HR_pred（i）-HR_gt（i），其中，HR_pred（i）為預(yù)測的心率值，HR_gt（i）為真實的心率值。本文在HR分支中使用以下幾個評估指標：

a）平均絕對誤差HR_MAE可以表示為

b）標準差HR_SD可以表示為

c）均方根誤差HR_RMSE可以表示為

d）平均錯誤率HR_MER可以表示為

其中：HR_e表示HR_e的平均值。本文在rPPG信號分支中使用皮爾森相關(guān)系數(shù)（Pearson correlation coefficient，PCC）作為評價指標，表示為

其中：rPPG_pred為預(yù)測的rPPG信號；rPPG_gt為真實的rPPG信號。

3.4 數(shù)據(jù)集內(nèi)部測試

這部分實驗使用UBFC-RPPG和COHFACE數(shù)據(jù)集。本文將兩個數(shù)據(jù)集混合打亂后，選擇其中的80%作為訓(xùn)練樣本，其余20%作為測試樣本。為了證明本文方法的有效性，本文選擇了幾種先進的方法進行比較，包括傳統(tǒng)的信號處理方法^［4^，7^，8^］和基于深度學(xué)習(xí)的方法^［¹¹^，18^，20^］。比較結(jié)果如表1所示，其中最佳結(jié)果以粗體顯示。同時為了更直觀地展示各種方法的優(yōu)越性，本文在圖6中展示了HR相關(guān)指標的直觀圖。

從表1和圖6中可以看出，基于深度學(xué)習(xí)的方法的性能總體上優(yōu)于傳統(tǒng)方法。在傳統(tǒng)方法中，文獻[4]的效果最差，HR_MER達到了23.34%且rPPG_PCC僅為0.49。這是因為該方法基于RGB通道彼此獨立的假設(shè)，這使得它在新數(shù)據(jù)上難以部署和調(diào)整。表現(xiàn)最好的傳統(tǒng)方法2SR的HR_MER為14.92%，rPPG_PCC僅為0.71，但其整體效果仍差于基于深度學(xué)習(xí)的方法。在基于深度學(xué)習(xí)的方法中，本文提出的rPPG-UNet表現(xiàn)出了最好的性能。rPPG-UNet的HR_MAE為4.65 bpm（beat per minute，bpm），HR_SD為6.73 bpm，HR_RMSE為6.81 bpm，HR_MER僅為5.49%，且rPPG_PCC達到了0.83，明顯優(yōu)于對比算法。

圖7展示了本文方法預(yù)測的rPPG信號與真實值的比較，它們的PCC分別為0.882和0.930。圖中的實線rPPG_gt表示真實的rPPG信號，菱形點為其峰值；虛線rPPG_pred表示預(yù)測的rPPG信號，三角形點為其峰值。從圖7中可以看出，rPPG_pred與rPPG_gt高度相關(guān)，且rPPG_pred的峰值精確定位在rPPG_gt的相應(yīng)峰值處，這使得本文有希望從提出的方法中獲得可用于心率變異性（heart rate variability， HRV）分析和心博間期（inter-beat-interval， IBI）診斷的詳細信息。

為了進一步分析預(yù)測的心率值與真實值的關(guān)系，本文從測試集中選取了300個樣本進行比較。圖8顯示了Bland Altman圖，圖中黑色實線表示平均值，兩條黑色虛線表示95%置信區(qū)間。從圖8中可以看出，rPPG-UNet預(yù)測的心率值與真實值具有更小的標準差，其預(yù)測心率值與真實心率值更具一致性，這說明rPPG-UNet具有更好的預(yù)測精度和魯棒性。

3.5 數(shù)據(jù)集交叉測試

為了驗證本文方法的泛化性，本文使用UBFC-RPPG和COHFACE數(shù)據(jù)集來訓(xùn)練本文的網(wǎng)絡(luò)，然后在MAHNOB-HCI數(shù)據(jù)集上進行測試。由于MAHNOB-HCI數(shù)據(jù)集中只提供了ECG信號的標簽，所以本文沒有比較rPPG_PCC指標。表2顯示了所有方法在MAHNOB-HCI數(shù)據(jù)集上的實驗結(jié)果。同時為了更直觀地展示各種方法的優(yōu)越性，本文在圖9中展示了數(shù)據(jù)集交叉測試中HR相關(guān)指標的直觀圖。

從表2和圖9中可以看出，相對于UBFC-rPPG和COHFACE數(shù)據(jù)集，基于信號處理的方法在MAHNOB-HCI數(shù)據(jù)集上的性能有所提升，這是因為MAHNOB-HCI數(shù)據(jù)集中的頭部運動和光照變化不明顯。然而，基于深度學(xué)習(xí)方法的性能仍優(yōu)于基于信號處理的方法，先進的實驗結(jié)果說明基于深度學(xué)習(xí)的方法具有更好的泛化性。與數(shù)據(jù)集內(nèi)部測試相比，rPPG-UNet在MAHNOB-HCI數(shù)據(jù)集上的HR_MAE增加了0.97 bpm，HR_SD增加了0.75 bpm，HR_RMSE增加了0.94 bpm，HR_MER增加了1.40%，但仍優(yōu)于對比方法。圖10顯示了本文方法在MAHNOB-HCI數(shù)據(jù)集上預(yù)測的心率值與真實心率值的Bland Altman圖。

從圖10可以看出，雖然數(shù)據(jù)集交叉測試的標準差高于數(shù)據(jù)集內(nèi)部測試時的標準差，但大部分樣本結(jié)果都位于95%置信區(qū)間內(nèi)。實驗結(jié)果表明rPPG-UNet具有良好的泛化能力。

3.6 消融實驗

針對多頭自注意力機制和多任務(wù)學(xué)習(xí)策略這兩個可能影響rPPG-UNet模型性能的因素，本文通過消融實驗對其進行分析。消融實驗使用數(shù)據(jù)集內(nèi)部測試，視頻長度與面部采樣大小等參數(shù)配置保持不變。

3.6.1 多頭自注意力機制

本文通過在解碼器中融合多頭自注意力機制以捕獲視頻幀之間的時間依賴性，從而實現(xiàn)更準確的心率估計。為了研究多頭自注意力機制是否有利于rPPG-UNet提高預(yù)測精度，本節(jié)實驗對比了使用多頭自注意力機制和不使用多頭自注意力的模型效果。實驗結(jié)果展示在表3中，其中最優(yōu)結(jié)果以粗體顯示。

從表3中可以看出，當模型不使用多頭自注意力機制時，HR_MAE和HR_SD等各項指標均變差，其HR_MAE上升了1.77 bpm，HR_RMSE上升了1.40 bpm，rPPG_PCC僅為0.75，各項指標均不如使用了多頭自注意力的模型的表現(xiàn)。實驗表明，在解碼器中融合多頭自注意力機制使得rPPG-UNet可以實現(xiàn)更準確的心率估計。

3.6.2 多任務(wù)學(xué)習(xí)策略

本文方法利用rPPG信號與心率值的內(nèi)在關(guān)聯(lián)進行多任務(wù)學(xué)習(xí)（multi-task learning，MTL），使它們互相約束以提高模型性能。為了研究多任務(wù)學(xué)習(xí)策略對rPPG-UNet的影響，本節(jié)實驗對比了rPPG信號重建任務(wù)、HR預(yù)測任務(wù)和多任務(wù)學(xué)習(xí)三種方法的對比實驗。實驗結(jié)果展示在表4中，其中最優(yōu)結(jié)果以粗體顯示。

從表4中可以看出，當僅進行rPPG信號重建任務(wù)時，rPPG-UNet的rPPG_PCC僅為0.80，低于使用多任務(wù)學(xué)習(xí)策略時的0.83。僅進行HR預(yù)測任務(wù)時，其HR_MAE達到了5.96 bpm，HR_RMSE增加到了7.33 bpm，各項指標均不如使用多任務(wù)學(xué)習(xí)策略的情況。實驗表明，利用rPPG信號與HR的關(guān)系互相約束，兩個任務(wù)分支同時優(yōu)化網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)策略，可以使rPPG-UNet獲得更好的預(yù)測精度。

3.6.3 多頭自注意力機制與多任務(wù)學(xué)習(xí)策略結(jié)合實驗

在多頭自注意力機制與多任務(wù)學(xué)習(xí)策略分別進行消融實驗的基礎(chǔ)上，本文將多頭自注意力機制與多任務(wù)學(xué)習(xí)策略結(jié)合以進行更詳細的消融實驗，從而證明本文方法的優(yōu)越性。表5中展示了所有的實驗結(jié)果，其中最優(yōu)結(jié)果以粗體顯示。

從表5中可以看出，使用多任務(wù)學(xué)習(xí)策略的rPPG-UNet+MTL的rPPG_PCC指標由rPPG-UNet+rPPG的0.72提升到了0.77，而HR的相關(guān)指標也比rPPG-UNet+HR有所提升，這表明多任務(wù)學(xué)習(xí)策略有助于提高模型的預(yù)測精度，而使用了MHSA模型的性能均優(yōu)于不使用MHSA的對應(yīng)模型，尤其是本文提出的rPPG-UNet+MTL+MHSA表現(xiàn)出了最好的性能。實驗表明，rPPG-UNet使用的多任務(wù)學(xué)習(xí)策略和MHSA可以使模型實現(xiàn)更準確的心率估計。

4 結(jié)束語

本文提出了一個融合U-Net與多頭自注意力機制端到端無接觸心率估計模型rPPG-UNet。rPPG-UNet使用編碼器提取面部視頻的深層時間特征，使用解碼器恢復(fù)時間特征至原始視頻序列長度，其解碼器融合了多頭自注意力機制以捕獲面部視頻的時間依賴關(guān)系。同時，該模型使用Skip Connection實現(xiàn)對淺層特征的復(fù)用，從而可以有效地減少梯度消失和網(wǎng)絡(luò)退化問題，使模型的訓(xùn)練更容易。最后rPPG-UNet使用多任務(wù)學(xué)習(xí)策略約束rPPG信號重建和平均心率估計，以提高模型性能。rPPG-UNet在UBFC-rPPG和COHFACE數(shù)據(jù)集上的HR_MAE為4.65 bpm，HR_SD為6.73 bpm，HR_RMSE為6.81 bpm，HR_MER僅為5.49%，明顯優(yōu)于對比算法。在未來的工作中，筆者將基于卷積神經(jīng)網(wǎng)絡(luò)與Transformer結(jié)構(gòu)研究具有更高預(yù)測精度和更好泛化性的心率估計模型。

參考文獻：

［1］Balakrishnan G，Durand F，Guttag J.Detecting pulse from head motions in video［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2013：3430-3437.

［2］De Haan G，Jeanne V.Robust pulse rate from chrominance-based rPPG［J］.IEEE Trans on Biomedical Engineering，2013，60（10）：2878-2886.

［3］Li Xiaobai，Chen Jie，Zhao Guoying，et al.Remote heart rate measurement from face videos under realistic situations［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2014：4264-4271.

［4］Poh M Z，McDuff D J，Picard R W.Non-contact，automated cardiac pulse measurements using video imaging and blind source separation［J］.Optics Express，2010，18（10）：10762-10774.

［5］Poh M Z，McDuff D J，Picard R W.Advancements in noncontact，multiparameter physiological measurements using a webcam［J］.IEEE Trans on Biomedical Engineering，2010，58（1）：7-11.

［6］Verkruysse W，Svaasand L O，Nelson J S.Remote plethysmographic imaging using ambient light［J］.Optics Express，2008，16（26）：21434-21445.

［7］Wang Wenjing，Den Brinker A C，Stuijk S，et al.Algorithmic principles of remote PPG［J］.IEEE Trans on Biomedical Engineering，2016，64（7）：1479-1491.

［8］Wang Wenjin，Stuijk S，De Haan G.A novel algorithm for remote photoplethysmography：spatial subspace rotation［J］.IEEE Trans on Biomedical Engineering，2015，63（9）：1974-1984.

［9］Lam A，Kuno Y.Robust heart rate measurement from video using select random patches［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2015：3640-3648.

［10］Xu Shuchang，Sun Lingyun，Rohde G K.Robust efficient estimation of heart rate pulse from video［J］.Biomedical Optics Express，2014，5（4）：1124-1135.

［11］Chen Weixuan，McDuff D.DeepPhys：video-based physiological mea-surement using convolutional attention networks［C］//Proc of European Conference on Computer Vision.2018：349-365.

［12］Perepelkina O，Artemyev M，Churikova M，et al.HeartTrack：convolutional neural network for remote video-based heart rate monitoring［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway，NJ：IEEE Press，2020：288-289.

［13］Yu Zitong，Li Xiaobai，Zhao Guoying.Remote photoplethysmograph signal measurement from facial videos using spatio-temporal networks［EB/OL］.https：//arxiv.org/abs/ 1905.02419.（2019-05-07）.

［14］Lee E，Chen E，Lee C Y.Meta-rPPG：remote heart rate estimation using a transductive meta-learner［C］//Proc of European Conference on Computer Vision.Cham：Springer，2020：392-409.

［15］Kumar M，Veeraraghavan A，Sabharwal A.DistancePPG：robust non-contact vital signs monitoring using a camera［J］.Biomedical Optics Express，2015，6（5）：1565-1588.

［16］Tulyakov S，Alameda-Pineda X，Ricci E，et al.Self-adaptive matrix completion for heart rate estimation from face videos under realistic conditions［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：2396-2404.

［17］Magdalena Nowara E，Marks T K，Mansour H，et al.SparsePPG：towards driver monitoring using camera-based vital signs estimation in near-infrared［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway，NJ：IEEE Press，2018：1272-1281.

［18］Niu Xuesong，Shan Shiguang，Han Hu，et al.RhythmNet：end-to-end heart rate estimation from face via spatial-temporal representation［J］.IEEE Trans on Image Processing，2019，29：2409-2423.

［19］Niu Xuesong，Zhao Xingyuan，Han Hu，et al.Robust remote heart rate estimation from face utilizing spatial-temporal attention［C］//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway，NJ：IEEE Press，2019：1-8.

［20］Yu Zitong，Peng Wei，Li Xiaobai，et al.Remote heart rate measurement from highly compressed facial videos：an end-to-end deep lear-ning solution with video enhancement［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：151-160.

［21］Ronneberger O，F(xiàn)ischer P，Brox T.U-Net：convolutional networks for biomedical image segmentation［C］//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham：Springer，2015：234-241.

［22］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Advances in Neural Information Processing System.2017.

［23］Dosovitskiy A，Beyer L，Kolesnikov A，et al.An image is worth 16×16 words：transformers for image recognition at scale［EB/OL］.（2020）.https：//arxiv.org/abs/2010.11929.

［24］Bertasius G，Wang Heng，Torresani L.Is space-time attention all you need for video understanding［EB/OL］.（2021-02-09）.https：//arxiv.org/abs/2102.05095.

［25］Bobbia S，Macwan R，Benezeth Y，et al.Unsupervised skin tissue segmentation for remote photoplethysmography［J］.Pattern Recognition Letters，2019，124：82-90.

［26］Heusch G，Anjos A，Marcel S.A reproducible study on remote heart rate measurement［EB/OL］.（2017）.https：//arxiv.org/abs/1709.00962.

［27］Soleymani M，Lichtenauer J，Pun T，et al.A multimodal database for affect recognition and implicit tagging［J］.IEEE Trans on Affective Computing，2012，3（1）：42-55.

［28］King D E.Dlib-ml：a machine learning toolkit［J］.The Journal of Machine Learning Research，2009，10：1755-1758.

［29］譚擁，余成波，張林.基于修正加速度的對數(shù)歸一化變步長自適應(yīng)濾波的心率估計算法［J］.科學(xué)技術(shù)與工程，2021，21（10）：4092-4097.（Tan Yong，Yu Chengbo，Zhang Lin.Heart rate estimation algorithm based on logarithmic normalization variable step size adaptive filtering with modified acceleration［J］.Science Technology and Engineering，2021，21（10）：4092-4097.）

［30］戴陽，鄭婷婷，楊雪.基于視頻放大與盲源分離的非接觸式心率檢測［J］.計算機系統(tǒng)應(yīng)用，2021，30（1）：228-234.（Dai Yang，Zheng Tingting，Yang Xue.Non-contact heart rate detection based on video amplification and blind source separation［J］.Journal of Computer Systems Applications，2021，30（1）：228-234.）

［31］王賓如.基于三維卷積網(wǎng)絡(luò)的非接觸心率估計［J］.現(xiàn)代計算機，2021（18）：18-24.（Wang Binru.Non-contact heart rate estimation based on three-dimensional convolutional network［J］.Modern Computer，2021（18）：18-24.）

計算機應(yīng)用研究2022年11期

計算機應(yīng)用研究的其它文章: 下期要目; 基于近紅外和可見光差分特征的圖像融合方法; 融合雙重注意力網(wǎng)絡(luò)的兒童骨齡評估方法; 基于重疊域采樣混合特征的點云配準算法; 基于關(guān)鍵幀節(jié)點自適應(yīng)分區(qū)與關(guān)聯(lián)的行為識別算法; 基于組反饋融合機制的視頻超分辨率模型