楊宇祥 余紹帥 林海軍 李建閩 張 甫
(湖南師范大學工程與設計學院 長沙 410081)
吞咽是一個復雜的神經肌肉反射性生理活動,涉及超過50對肌肉協同工作[1]。受增齡性疾病的影響,全球數百萬人患有吞咽障礙,在老年人群及中樞神經系統疾病、神經肌肉疾病等常見疾病的并發癥中尤為普遍[2]。吞咽障礙不僅會使患者由于進食障礙而產生恐懼和抑郁心理,還會伴隨食物誤吸、滲漏和殘留,造成患者脫水和營養不良,引發呼吸道感染、(吸入式)肺炎、窒息,甚至危及生命[1]。研究表明,吞咽障礙早期篩查是降低吞咽障礙發病率的關鍵,可降低約40%的殘疾率、10%的肺炎發生率和護理率[3]。近年來,美國心臟與卒中協會、歐洲吞咽障礙學會相繼把吞咽障礙早期篩查作為一項關鍵檢測技術[4],我國也發布了《中國吞咽障礙康復評估與治療專家共識》[5]等,吞咽障礙早期篩查技術的重要性日益凸顯。
重復唾液吞咽試驗(Repetitive Saliva Swallowing Test, RSST)是一種簡單的吞咽障礙篩查方法,它的判斷方法是計算30 s內重復性干咽的次數,如果干咽次數少于3次,則判斷為具有吞咽障礙的可能性[6]。RSST無需任何特殊設備,但對實驗操作經驗要求較高,且主觀性較強,在醫療機構的日常檢測中已很少采用。電視熒光吞咽造影檢查(Video-Fluoroscopic Swallowing Study, VFSS)又稱改良鋇餐吞咽檢查,被認為是診斷吞咽障礙的金標準[7],可實時捕捉經鋇劑造影模擬食物和液體在口腔、咽腔和食道中的傳輸過程,甚至在食物進入呼吸道的情況下,它可以確定有多少物質進入了呼吸道[4]。但VFSS需配備昂貴的X射線透視設備和專業操作人員,且具有放射性輻射,不能重復使用[8]。此外,VFSS主要針對吞咽過程相關肌肉組織的結構學與形態學等器質性病變特征分析,而對于癥狀較輕的早期吞咽功能性病變特征很容易被漏診或忽略[9]。因此,VFSS的主要角色是對吞咽障礙疾病的確診,而不適合于吞咽功能的日常評估和吞咽障礙的早期篩查。
鑒于吞咽障礙的普遍性和深遠影響,早期發現吞咽障礙對于設計適當的護理計劃和改善患者預后至關重要[9]。由于目前還沒有可供護士日常使用的吞咽障礙篩查工具,為了有效地識別潛在的吞咽障礙患者,現階段的通用做法是利用無創、廉價的篩查技術對住院患者進行大面積檢測,對篩選出的疑似吞咽障礙患者做早期干預或進行基于VFSS的診斷[10]。在此過程中,對吞咽事件(如干咽、咀嚼和喝水等吞咽動作)的準確識別是臨床篩查的關鍵步驟[11];而對于治療目的的自動刺激或神經假體設備來說,能夠對吞咽事件進行檢測和分類也是至關重要的[12]。因此,吞咽事件識別成為吞咽障礙篩查和治療過程中的一個必不可少的關鍵環節[13]。
為了進一步提高對吞咽障礙篩查的準確度和便捷性,近年來許多學者利用加速度、壓力、聲音等傳感器檢測吞咽信號,提出了一些新的無創且易于實現的吞咽事件檢測方法。Damouras等人[14]通過加速度傳感器檢測吞咽信號,對固體、液體吞咽識別率較高,但是其測量過程復雜,不適合便攜式監測。Farooq等人[15]通過喉頭儀以檢測吞咽信號,將所測得的電流變化形狀同時顯現出來并記錄,對食物的分類達到90.1%。Kalantarian等人[16]通過壓電傳感器檢測吞咽過程中咽喉部的皮膚運動,能夠對測試者所吞咽的薯條、三明治和水等3種吞咽事件進行分類,分類準確率為86.0%。Mirtchouk等人[17]提出了一種由音頻傳感器和運動傳感器組成的多模式傳感系統來采集人體的吞咽信號并對食物類型進行分類,其分類精確率為82.7%。Bi等人[18]通過頸部高保真麥克風記錄進食過程中的聲音信號并進行食物類型識別,其識別率為86.6%。Inoue等人[19]通過鼻插管式流量傳感器和壓電傳感器記錄吞咽聲信號,并使用線性預測編碼和支持向量機算法識別吞咽事件,其分類準確率約為86.0%。總體來說,上述方法均易受外部環境噪聲或運動偽跡的影響,通常只能在實驗室內進行,識別率不高。
阻抗咽造影(Impedance PharyngoGraphy,IPG)[20]是一種基于吞咽過程中頸部肌肉電阻抗動態描記的吞咽事件檢測新方法,可在很大程度上克服環境噪聲和運動偽跡的影響,且具有無創、便攜、連續實時監測等突出優點[21]。吞咽過程可分為4個生理階段:準備期、口腔期、咽喉期和食道期[22]。相關研究表明,IPG波形可表征吞咽相關器官的運動特征,并用于評估吞咽功能,其中IPG阻抗的百分比變化反映了吞咽過程中口腔期和咽喉期所涉及器官的活動水平;咽喉期的IPG持續時間反映了吞咽運動的平滑度;IPG計數反映了出現的吞咽反射次數,進而有助于表征可能存在的頸部狹窄[20]。
然而,受微弱信號檢測手段的局限性,傳統的IPG技術采用模擬包絡檢波,只能檢測阻抗幅值而忽略相位信息,雖然實現簡單,但重復性差,靈活性低[21]。研究表明,肌阻抗的相位信息隨人疾病發展而發生變化,例如肌萎縮性脊髓側索硬化癥的檢測[23]和多發性肌炎和皮肌炎的檢測[24]。因此,IPG信號若能同時考慮相位信息和幅值信息,將有助于對吞咽信號的全面分析。
為了進一步挖掘和提升傳統IPG技術檢測吞咽事件的性能,本文利用周期信號整周期采樣的計算特性,提出一種基于整周期數字鎖相放大原理的復阻抗咽造影(Complex Impedance PharyngoGraphy,CIPG)檢測方法,搭建基于現場可編程門陣列(Field Programmable Gate Array, FPGA) 的CIPG檢測平臺以同時提取吞咽事件動作過程的復阻抗幅值和相位信息,并設計基于連續小波變換(Continuous Wavelet Transform, CWT)和GoogLeNet相結合的吞咽事件智能識別算法,最后通過吞咽事件識別實驗證明本文所提的CIPG檢測技術及智能識別算法具有更優的識別準確率。
鎖相放大是一種針對交變信號進行相敏檢波的微弱信號檢測技術,其核心工作原理是正交解調(即IQ解調),可大幅度抑制噪聲,改善測量的信噪比。鎖相放大可以分為模擬和數字兩種形式,其中數字鎖相放大利用數字信號處理的方式實現相敏檢波,克服了模擬鎖相放大的溫度漂移、不穩定、諧波失真等缺點,數字鎖相放大器備受青睞,已逐漸取代模擬鎖相放大器[25]。在基于數字鎖相放大的微弱信號幅相檢測過程中,需要一個截止頻率極低的低通濾波器(LPF),以濾除IQ解調后的高頻分量而保留直流分量,但是LPF的效果往往不是很好,微弱信號的幅值和相位檢測結果失真且波動劇烈[26]。為了降低LPF的設計難度,減小數字鎖相放大檢測結果的失真和輸出波動,本文提出一種基于整周期采樣的整周期數字鎖相放大算法,該方法充分利用了周期信號整周期采樣的計算特性,在數字IQ解調計算過程中自動消除了高頻分量,大大降低了傳統數字鎖相放大器對LPF的設計要求,且只需一個信號周期即可實現完整的IQ解調,大大提高了數字鎖相放大的速度。整周期數字鎖相放大器的基本結構如圖1所示。

圖1 整周期數字鎖相放大原理圖
設交變待測信號x(t)如式(1)所示

其中,A,?和f分別表示待測信號的幅值、初相角和頻率。式(1)對應的離散序列如式(2)所示

其中,fs為采樣率。
設兩路同頻正交參考序列rs[n]和rc[n]如式(3)所示

其中,fr為正交參考信號的頻率。
信號x[n] 分別與正交參考序列rc[n]和rs[n]相乘實現相敏檢波的功能,對應的同相分量(I)和正交分量(Q)如式(4)所示

其中,N表示序列的長度。將式(2)、式(3)代入代(4),并利用歐拉公式ejθ=cosθ+j sinθ得

其中,若正交參考信號的頻率fr與待測信號的頻率f相等,且滿足整周期采樣條件式(6),即

其中,p屬于正整數,則可根據等比數列求和公式證明:式(5)中頻率非零分量的累加和為零,即

因此,根據式(7)最終可得數字IQ解調的值如式(8)所示

最終,待測信號x(t)的幅值和相位可根據式(9)計算

與傳統的數字鎖相放大算法相比,整周期數字鎖相放大算法的前提是滿足式(6)所示的信號整周期采樣條件,即采樣點數N恰好覆蓋信號x[n]的正整數p個周期(p≥1),從而使得數字IQ解調后的2倍頻分量的累加和為零,如式(7)所示。因此,理論上整周期數字整周期鎖相放大后不存在高頻分量,但由于實際量化誤差和信號波動等因素仍然會造成少量殘余高頻分量,一般仍需在數字IQ解調后加一級FIR低通濾波器濾除殘余高頻分量。
在上述整周期數字鎖相放大原理的基礎上,本文設計了一種基于FPGA的復阻抗咽造影(CIPG)檢測系統,其硬件原理結構圖如圖2所示。該CIPG系統主要由直接數字合成器(Direct Digital Synthesizer, DDS)、數模轉換器(Digital-to-Analog Converter, DAC)、恒流源、電極系統、差分放大器、模數轉換器(Analog-to-Digital Converter,ADC)、基于FPGA的整周期數字鎖相放大器及低通濾波器等組成。圖2中,頸部復阻抗測量采用經典的4電極法以克服電極與皮膚之間接觸阻抗對測量的影響[27],其中外側的I+和I–為一對電流激勵電極,位于頸部兩側的胸鎖乳突肌附近;內側的V+和V–為一對電壓檢測電極,位于兩側的頸總動脈和頸內動脈附近(圖中左下角橢圓虛線區域)。日本學者Kusuhara的研究指出圖2中橢圓虛線區域涵蓋咽喉的食管和氣管,吞咽動作可引起阻抗的顯著的規律性變化[20]。
圖2中,CIPG系統首先由DDS和DAC產生一個頻率為50 kHz、峰峰值為1 V的正弦電壓信號,并通過低通濾波器濾除DAC的高頻量化噪聲。隨后,將正弦電壓信號送入鏡像恒流源,轉換為1 mA的電流信號,并通過電流激勵電極(I+,I–)注入人體。電壓檢測電極(V+,V–)與高輸入阻抗的差分運算放大器相連,獲得的電壓響應信號經低通濾波器消除高頻分量后送入ADC進行同步整周期采樣,得到電壓的離散采樣序列,緩存至FPGA。在FPGA上搭建整周期數字鎖相放大器,利用DDS同步產生的兩路正交參考信號進行解調,得到CIPG的幅值(A)和相位(?)信息,并經串口通信將解調信號上傳到計算機上,通過LabVIEW編寫的數字示波器進行CIPG信號的實時顯示與保存。為了實現整周期采樣,一個關鍵的因素是DDS與DAC, ADC的工作時鐘都必須由FPGA統一同步控制。經過調試,該CIPG系統可每秒進行1000次復阻抗測量,即每秒獲得1000組阻抗幅值和相位數據,連續描記可獲得阻抗幅值和相位的1維時間序列。

圖2 復阻抗咽造影(CIPG)系統硬件原理結構圖
典型的CIPG信號如圖2右側所示,它是1維時間序列。為了從1維的CIPG信號中識別出不同類型的吞咽動作,本文設計了基于連續小波變換(CWT)和GoogLeNet相結合的吞咽智能識別算法,其算法結構如圖3所示。本算法首先利用CWT將獲取的1維CIPG信號映射為2維小波尺度圖,并將其調整為224×224×3的RGB圖像;用于訓練的CIPG數據經CWT轉換為RGB圖像后送入GoogLeNet,進行特征提取后存入特征模板庫;用于測試的CIPG數據也經CWT轉換為RGB圖像并送入GoogLeNet,提取特征后與特征模板庫進行匹配,最終識別為喝水、干咽、吃面包、吃酸奶、咳嗽等5種吞咽事件中的一種。
在獲取CIPG1維時間序列后,為了增加數據維度和去噪,本文利用連續小波變換(CWT)將1維CIPG信號轉換為2維圖像信號。假設CIPG信號為a(x)∈L2(R),a(x)的連續小波變換定義為


(1) 初始值給定。設S為尺度,fs為采樣頻率,FC為小波中心頻率,則S對應的實際頻率Fa為

(2) 小波基的選取。對CIPG信號a(x)進行小波變換,本文采用db5小波基,尺度序列長度設為100,變換后的尺度序列S計算公式為

其中,a為整數序列,取值范圍為1~100。
(3) 小波尺度圖的構造。將尺度和小波基確定后,利用式(11)—式(13)將CIPG信號進行小波變換,從而生成CIPG所對應的尺度圖。
在利用CWT將CIPG1維時間序列轉換為2維圖像的基礎上,本文設計了基于GoogLeNet的吞咽智能識別算法。GoogLeNet是卷積神經網絡(Convolutional Neural Network, CNN)的一種,常用于圖像領域,處理2維數據[28]。
圖3所示的GoogLeNet網絡中,輸入為224×224×3像素的RGB圖像,將圖像進行零均值化的預處理操作,使用7×7的卷積核進行特征提取,將輸出圖像卷積后進行修正線性單元(ReLU)操作(ReLU是激活函數,能提高計算速度),之后再經過3×3的最大池化層將輸出圖像進行ReLU操作,使用3×3的卷積核再次進行特征提取(卷積核的滑動步長設置為1,填充寬度為1)。卷積后再次進行ReLU操作,經過3×3的最大池化層,再進行ReLU操作,從而分析淺層的特征提取網絡。隨后,通過相同的Inception模型提取圖像特征并加以整合,使特征值更豐富圖像更易識別。通過GoogLeNet網絡結構的平均池化層和批量歸一化模塊(Batch-Normalization),使輸入數據分布更加穩定,加快網絡收斂速度,同時也可以在一定程度上緩解梯度消失問題,最后采用分類層的Softmax作為分類器,輸出吞咽識別結果。

圖3 基于CWT與GoogLeNet的吞咽智能識別算法結構圖
利用本文開發的CIPG系統,選取9名健康志愿者進行吞咽實驗,志愿者平均年齡為25歲。圖4(a)為吞咽事件檢測的現場照片,圖中受試者采用坐姿,4片ECG電極(3M Red DotTM 2560,3M Health Care, Germany)分別貼在脖子兩側并與圖2所示的CIPG系統相連,構成4電極阻抗測量模式。
分別對9名志愿者進行連續監測,志愿者在被監測期間多次執行喝水、干咽、吃面包、吃酸奶、咳嗽等動作,總共獲得各種吞咽動作的CIPG數據共687條記錄,訓練集共500條記錄,即每種吞咽動作100條記錄,測試集分5類。分別為干咽、喝水、吃面包、吃酸奶、咳嗽,每種樣本對應測試樣本個數為59, 39, 35, 32, 22。圖4(b)為某志愿者1次完整吞咽實驗的CIPG連續監測數據示例,圖中上半部為阻抗幅值的時間序列,下半部為阻抗相位的時間序列,持續時間為310 s。
圖4中,喝水、干咽、吃面包、吃酸奶、咳嗽等吞咽事件中均包含多個周期性重復變化信號,表示對應的吞咽事件相關動作的重復。為直觀對比起見,圖5(a)、圖5(c)給出了喝水和干咽兩種吞咽事件所對應的CIPG信號時序圖,圖中紅色實線和藍色虛線分別表示阻抗幅值和相位變化時序圖,持續時間約為8 s,并根據國際慣例將其分解為準備期、口腔期、咽喉期和食管期等4個階段。在這4個階段中,阻抗幅值和相位在準備期基本平穩,而在口腔期阻抗幅值略有上升;在咽腔期,阻抗幅值陡降,而阻抗相位陡升(相位為負值);到了食管期,阻抗幅值和相位又逐漸回歸正常值。由此可見,CIPG信號在咽腔期具有明顯的變化特征,可為吞咽動作的自動識別提供判據。

圖4 某受試者的CIPG連續監測信號

圖5 喝水和干咽事件所對應的CIPG阻抗幅值和相位變化時序圖及其對應的2維RGB圖像對比
在利用CIPG系統獲得各種吞咽動作的復阻抗時間序列數據集的基礎上,將一部分數據抽取出來建立吞咽事件識別算法的訓練數據集,剩余部分作為測試數據集。將1維CIPG時間序列數據按圖3所示的流程進行處理,其中在CWT階段,由于每個數據庫的小波變換采樣頻率不同,因此使用了重采樣功能將所有頻率參數重建為128 Hz,并將每個2維小波尺度圖轉換成224×224×3的RGB圖像,以符合GoogLeNet網絡的輸入。圖5(b)、圖5(d)分別表示喝水和干咽事件對應的2維RGB圖像。之后將2維RGB圖像送入GoogLeNet網絡進行特征提取,來自訓練數據集的特征存入特征模板庫,而來自測試數據集的特征則用于識別。
為了更加直觀地區分吞咽事件的分類結果,本文引入混淆矩陣對測試結果進行精度分析。混淆矩陣是評估精度的一種標準格式,具有可視化分類精度的優點,其中,精確率(Precision, P)和召回率(Recall, R)的定義如式(13)所示

其中,FN(False Negatives)為假陰率,表明實際是正樣本預測成負樣本;TP (True Positives)為真陽率,表明實際是正樣本預測成正樣本;FP (False Positives)為假陽率,表明負樣本預測為正樣本。
F1 (F1-Measure)為精確率和召回率的調和均值,表達在精確率和召回率都最高的情況下,取得平衡,其定義為

為了比較CIPG對傳統IPG技術的改進效果,本識別實驗進行了基于幅值信息vs基于幅值+相位信息的對比識別實驗。為此,本文建立了相應的幅值混淆矩陣和幅值+相位混淆矩陣,分別如圖6(a)、圖6(b)所示。
表1為基于幅值信息與基于幅值+相位信息的吞咽事件識別對比實驗結果。在基于幅值信息的吞咽事件識別實驗中,干咽、喝水、吃面包、吃酸奶、咳嗽的精確率P分別為82.0%, 90.0%, 85.0%,87.0%和91.3%,F1的值均大于70.0%,圖6(a)所示的混淆矩陣表明GoogLeNet網絡在最后一次迭代之后的精確率高達86.1%(圖6(a)右下角);在基于幅值+相位信息的吞咽事件識別實驗中,5種吞咽事件的精確率P分別為93.4%, 94.7%, 97.1%, 96.9%和100.0%,F1的值均大于90.0%,圖6(b)所示的混淆矩陣表明GoogLeNet網絡在最后一次迭代之后的精確率高達95.7%(圖6(b)右下角)。通過上述對比實驗結果可以看出,本文提出的基于幅值+相位信息的識別指標優于基于單一幅值信息的識別方法,證明本文提出的CIPG技術優于傳統的IPG技術。

表1 吞咽事件識別對比實驗結果(%)

圖6 用于吞咽事件識別的混淆矩陣對比
表2對比了本文與文獻中基于不同傳感器及智能算法的吞咽識別實驗效果,可以看出本文提出的方法具有更高的識別精確率。

表2 不同的吞咽事件識別方法性能對比
本文提出了一種基于整周期數字鎖相放大原理的復阻抗咽造影(CIPG)檢測方法,該方法巧妙利用了整周期采樣周期信號的計算特性,在數字IQ解調計算過程中自動消除了高頻分量,大大降低了傳統數字鎖相放大器對低通濾波器的設計要求,且只需一個信號周期即可實現完整的IQ解調,大大提高了數字鎖相放大的速度;研制了基于FPGA的CIPG檢測系統,該系統可動態描記吞咽過程的復阻抗(阻抗幅值+相位)信息(每秒高達1000次復阻抗測量);設計了基于連續小波變換(CWT)和GoogLeNet相結合的吞咽事件智能識別算法,吞咽對比識別實驗表明,僅利用阻抗幅值信息時的吞咽事件識別準確率為86.1%,而同時利用阻抗幅值和相位信息時的識別準確率達到了95.7%,后者的準確率高于其他算法。本文的研究證實了CIPG檢測技術和吞咽事件智能識別算法的有效性與優越性,后續研究將著眼于針對吞咽障礙患者的吞咽功能評估實驗,即利用CIPG系統對特定人群進行吞咽功能連續監測,建立相應的吞咽障礙風險評估模型,最終形成一套基于CIPG檢測與智能算法的吞咽障礙早期篩查方法。