趙 津 ,宋文愛,邰雋,楊吉江,王青,李曉丹,雷毅,邱悅
(1.中北大學軟件學院,太原 030051;2.首都兒科研究所附屬兒童醫院耳鼻咽喉頭頸外科,北京 100020;3.清華大學自動化系,北京 100084;4.首都醫科大學附屬北京兒童醫院耳鼻咽喉頭頸外科北京 100045)
1976 年兒童阻塞性睡眠呼吸暫停(Obstructive Sleep Apnea,OSA)被Guilleminault 等[1]第一次提出,之后阻塞性睡眠呼吸暫停綜合征被定義為上氣道間歇性完全阻塞或部分阻塞,這種疾病會影響睡眠質量,常伴有睡眠碎片和間歇性低氧血癥[2],由OSA 引發的慢性間歇性夜間低氧血癥和睡眠不足可能會導致神經行為問題、心血管疾病和精神疾病綜合癥等重大風險。根據調查顯示兒童OSA 患病率為1.2%~5.7%[3],我國香港地區的兒童OSA 患病率為4.8%[4]。可見OSA 嚴重影響兒童的身心健康,并對未來的長期健康產生深遠影響。所以,對于兒童OSA患者來說,初期發現和診斷至關重要。
兒童 OSA 的診斷一般是通過多導睡眠圖(PolySomnoGraphy,PSG)以及針對兒科的診斷標準來實現的[5]。根據文獻[6]可知,在面部特征方面,推薦重點關注腺樣體面容;文獻[7-8]中分析了腺樣體面容,面部特征變化主要集中在眼睛、鼻子、嘴唇。這些面部特征也可用于兒童OSA的預測中。臨床數據中一般收集人口統計學特征如身高、體重、頸圍、腹圍、臀圍和PSG檢測中的睡眠參數。在診斷時,把PSG數據中的阻塞性呼吸暫停低通氣指數(Obstructive Apnea/Hypopnea Index,OAHI)>1 次/小時作為兒童OSA 的診斷界值指標,有利于早期發現和干預治療。此外呼吸暫停低通氣指數(Apnea Hypopnea Index,AHI)、阻塞性呼吸暫停指數(Obstructive Apnea Index,OAI)和最低血氧飽和度對兒童OSA診斷也有重要參考作用。對于兒童OSA嚴重程度診斷指標,參考標準如下:1)輕度為1次/時
在偏遠地區和醫療條件差的區域,不可能每個人都進行PSG監測,造成對兒童OSA的診斷困難很大,所以非常需要計算機進行輔助診斷。隨著人工智能等領域的發展,使用計算機輔助診斷這類疾病,可以幫助早期發現和診斷兒童OSA,改善了偏遠地區醫療資源不足等問題。
傳統的人臉輔助診斷的研究最先是提取圖像上的淺層特征,如紋理特征、幾何特征、顏色特征進行輔助診斷,如:Balaei等[9]通過提取到的臉部寬度、眼睛寬度、頸心角和下頜長度等幾何特征,使用邏輯回歸分類器來預測OSA;Song等[10]通過提取內眥贅皮、黑素細胞痣的紋理特征,前額、鼻梁和眼睛之間的幾何特征預測特納綜合征;Schneider 等[11]提取紋理和幾何特征預測指端肥大癥。隨著神經網絡的發展,可利用神經網絡提取圖像中的深度特征進行輔助診斷,如:Kumov等[12]使用神經網絡提取圖像的深度特征,并融合了幾何特征來預測8種遺傳病癥,平均分類精度達到了約93%;Balaei 等[9]把正臉和側臉圖像作為輸入向量,輸入到前饋神經網絡中進行分類,然后又選擇臉部特定的四個特征輸入到神經網絡中進行分類,結果顯示對于使用臉部特定位置的四個特征進行預測,與直接使用正臉和側臉圖像進行預測相比準確率有所提高。
傳統的診斷方法由于可供訓練的數據集較少,神經網絡不能充分地發揮其性能,遷徙學習的提出,解決了數據集短缺的問題,充分發揮了神經網絡的分類性能。遷徙學習按照遷移方案劃分,可以分為歸納遷移學習、直推式遷移學習、無監督遷移學習;如果按照遷移學習方法劃分,可以分為實例學習、基于特征表示的遷移、基于參數的遷移、基于相關性的遷移。目前使用遷移學習來診斷兒童OSA 的相關研究非常有限,遷移學習可以有效地解決兒童OSA數據短缺問題。
與二維圖像相比,3D 人臉數據包含更多的信息,可以提高診斷的準確性,也是疾病輔助診斷研究的重要領域。最先的研究是提取3D 人臉數據上的局部特征進行疾病的預測,如:Kiaee 等[13]提取3D 人臉模型上的等高線、曲率和水平曲線,將提取到的特征用拓撲數據分析方法進行分類;Wu[14]利用兒童的3D 人臉數據,計算線性和角度測量值,采用三維形態計量學分析來評估高危人群和低風險人群面部特征的差異。隨著深度學習的發展,設計更加龐大復雜的神經網絡,可以提取3D 人臉數據上的深度表型特征來進行輔助診斷。如Kiaee 等[13]的研究,3D 人臉數據理論上可以捕捉到兒童臉上微小的面容變化,更好地預測兒童OSA,但由于3D 人臉數據數量少,目前的研究不是很理想。
傳統的計算機人臉診斷方法、基于遷移學習的診斷方法、基于3D人臉數據的診斷方法中的主要步驟如下:
1)傳統的兒童OSA 人臉輔助診斷。一般首先獲取臉部圖像并進行人臉檢測、圖像預處理、人臉關鍵點檢測、面容特征分析,然后提取人臉特征,最后進行分類預測。傳統的兒童OSA人臉輔助診斷流程如圖1所示。
圖1 傳統的兒童OSA人臉輔助診斷流程Fig.1 Flow chart of traditional face aided diagnosis of OSA in children
2)基于遷徙學習的兒童OSA 輔助診斷。首先使用成熟的神經網絡在大規模人臉數據集上進行訓練,然后把經過預訓練的神經網絡模型作為人臉特征提取器,再根據目標任務調整分類器,并利用目標域的數據集進行微調來預測兒童OSA。基于遷徙學習的兒童OSA 輔助診斷流程圖如圖2所示。
圖2 基于遷移學習的兒童OAS診斷流程Fig.2 Flow chart of OAS diagnosis in children based on transfer learning
3)基于3D 人臉數據的兒童OSA 輔助診斷與傳統的輔助診斷類似,一般先獲取3D 人臉數據、3D 人臉重建、特征提取,再分類預測。基于3D 人臉數據的兒童OSA 輔助診斷流程如圖3所示。
圖3 基于3D人臉數據的兒童OAS診斷流程Fig.3 Flow chart of OAS in children diagnosis based on 3D face data
傳統的兒童OSA人臉診斷主要步驟如下:
1)圖像獲取。一般都是在醫療機構,在統一的環境下,由專業的人員使用統一的設備進行拍攝,采集正臉和側臉的面部圖像。對于圖片的標簽可以根據文獻[6],利用OAHI 指標進行標注。
2)人臉檢測。把圖像中的人臉區域裁剪出來。人臉檢測是輔助診斷中重要的基礎任務之一,人臉檢測算法可以分為基于特征的人臉檢測和基于圖像的人臉檢測,例如基于AdaBoost的算法和基于神經網絡的算法都是基于圖像的。人臉檢測常用的算法有VJ(Viola and Jones)人臉檢測[15],VJ 人臉檢測器用多個AdaBoost 分類器篩選人臉候選框,每個弱分類器使用Haar-like 特征進行分類,所有的弱分類器集合起來判定人臉區域,隨后更多的特征被考慮,比如:一些擴展的Harr 特征、基于聚合通道的特征等。基于AdaBoost 的算法還有FloatBoost 算法、可變形的組件模型等;基于神經網絡的算法有級聯卷積神經網絡(Cascaded Convolutional Neural Network,Cascade CNN)[16],Cascade CNN 不僅結合了VJ 人臉檢測器的優點,還在每一級分類器中使用卷積網絡作為分類器,用于提高檢測的精確度,基于神經網絡的算法還有DenseBox、多任務級聯卷積神經網絡(Multi-task Cascaded Convolutional Network,MTCNN)等。在兒童OSA 輔助診斷中,人臉檢測可以減少背景對實驗的影響。Qin 等[17]使用人臉圖片識別唐氏綜合癥,對于進行了人臉檢測等預處理的數據集準確性高達95.87%,對沒有進行人臉檢測等預處理的數據集準確性僅僅只有57.87%,可見人臉檢測是重要的一環。參考文獻[18-19],人臉檢測方法的優缺點對比如表1所示。
表1 人臉檢測方法的優缺點對比Tab.1 Comparison of advantages and disadvantages of face detection methods
3)圖像預處理。消除光照等環境因素對實驗的影響,提高圖像的清晰度,一般對人臉圖像進行翻轉和圖像增強。傳統的圖像增強方法有歸一化、灰度變換、直方圖均衡化等;深度學習中,在不改變網絡模型的情況下,通過圖像增強的方法提高了分類的準確性,在深度學習中常見的數據增強方法有幾何增強、色彩增強、mixup、隨機擦除等。
4)人臉關鍵點檢測。檢測人臉關鍵點,在兒童OSA 診斷中也是一項重要的基礎任務。對于兒童OSA 的面容特征,重點關注眼睛、嘴唇、鼻梁等關鍵區域。人臉關鍵點檢測大致可以分為三類:基于統計模型的方法、基于級聯形狀回歸的方法、基于深度學習的方法。基于統計模型的方法包括點分布模型(Active Shape Model,ASM)[20]和形狀統計模型(Active Appearance Model,AAM)[21],ASM[20]把人臉關鍵點坐標組合成形狀向量,隨后提出的AAM 算法[21]加入了形狀約束,適用范圍都有所提高;基于級聯回歸的方法把關鍵點問題轉化為一個回歸問題。在訓練階段,回歸模型學習預測關鍵點的位置函數,預測時,直接用這個函數輸出關鍵點的位置坐標。常用的人臉關鍵點檢測的個數有兩種:一種是檢測人臉上的5個關鍵點;另一種是檢測人臉上的68個關鍵點。68個人臉上的關鍵點標記出眼睛、嘴巴、鼻子、眉毛、大致的臉部輪廓[10],如圖4(文獻[10])所示。根據的兒童OSA 的面容特征,可以檢測眼睛、鼻子、嘴唇上部、腮部等關鍵點,在兒童OSA 的診斷中,檢測出人臉上的68 個關鍵點可以更好地捕捉到兒童變化的面容特征。如Dlib 庫中的級聯回歸梯度下降樹(Gradient Boosting Decision Tree,GBDT)[22]檢測人臉的68 個關鍵點,首先在特征池中挑選兩個點,然后計算每張圖片與這兩個點之間的像素差,再隨機產生一個數值,如果像素差大于這個數值則向右分類,反之向左一直分裂至葉子節點,且二叉樹深度已經確定,不斷更新回歸樹,最終輸出模型,級聯回歸的算法還有基于回歸樹的人臉對齊(Ensemble of Regression Trees,ERT)算法等。基于深度學習的方法在關鍵點檢測上表現優異,如當前在檢測人臉68 個關鍵點中表現優越的實用的人臉特征點標記(Practical Facial Landmark Detector,PFLD)模型[23],其在損失函數中,通過給少量樣本包括側臉、正臉、頭朝上、頭朝下、表情、遮擋等賦予更多的屬性權重,角度偏差大的樣本賦予更多的角度權重,同時將3D姿勢的估算與2D距離的測量結合起來,對于姿勢較大和遮擋的人臉圖像關鍵點識別的精度也很高。人臉關鍵點檢測的精確與否對于下一步的特征提取至關重要,人臉關鍵點檢測作為基礎工作中重要的一環,影響著兒童OSA 預測的準確度。本節參考了文獻[19]和文獻[24],人臉關鍵點檢測的優缺點對比如表2所示。
表2 人臉關鍵點檢測方法的優缺點對比Tab.2 Comparison of advantages and disadvantages of face keypoint detection methods
圖4 人臉關鍵點檢測Fig.4 Face keypoint detection
5)面容特征分析。將每種類別照片上的關鍵點進行線性變換,生成每個類別的平均臉,通過熱力圖或皮爾遜相關系數矩陣等方法分析不同平均臉之間的面部差異和變化,如:文獻[7]使用平均臉繪制人臉68 個點之間的相關系數矩陣和熱力圖,分析腺樣體肥大的面容特征;文獻[25]計算每組中平均面部灰度的差值并顯示為熱力圖,分析兒童阻塞性睡眠呼吸暫停綜合征在術后的面容特征。面容特征分析對于醫生的診斷和接下來的特征提取具有很大的參考價值。
6)人臉特征提取。人臉特征提取是兒童OSA 輔助診斷中最重要的一步,直接影響著兒童OSA 預測的準確性。人臉特征提取大致可以分為兩個方法:一種是提取幾何、紋理、顏色特征;另一種是使用神經網絡提取深度特征。根據引言中所述的兒童OSA 面容特征,主要對眼部、嘴唇、鼻梁方面特征提取的方法進行了介紹和研究。
對于人臉幾何特征的提取一般是使用關鍵點之間的歐氏距離進行測量。針對兒童OSA 中的面容特征,可以計算眼睛之間的歐氏距離和鼻梁之間的歐氏距離作為特征進行分類,如:Balaei 等[9]提取眼睛寬度進行OSA 的預測;Song 等[10]提取眼睛和鼻梁之間的歐氏距離對特納綜合征進行診斷預測。對于人臉照片從3D 投影到2D 時,臉上關鍵點之間的實際距離有很大的差別,可能會對提取的幾何特征產生影響。為了消除這個影響,Kumov 等[12]用2D 人臉坐標進行3D 人臉重構,然后再提取特征。提取紋理特征最常用的方法是Gabor 小波變換,如:Song 等[10]在預測特納綜合征時,對眼睛區域在每個方向上分別對5個標度的Gabor濾波結果求平均,然后將平均結果合并為一個向量,進而提取眼部向量特征;武佳麗[26]使用8個方向、5 個尺度的Gabor 濾波器提取嘴唇的紋理特征。Gabor 濾波器經過一系列多尺度和多方向的濾波器組對圖像進行卷積,可以提取到空間局部的低頻特征,但可能會丟失特征信息,而且提取到的特征信息維度高,數據龐大。為了解決這個問題,除了使用常見的主成分分析(Principal Component Analysis,PCA)法進行降維外,倪永婧等[27]研究了二維Gabor小波與非對稱的鄰域梯度編碼(Asymmetric Region Local Gradient Coding,AR-LGC)算子相結合的人臉特征提取,可以更好地提取圖像的局部紋理信息。提取顏色特征的常用方法包括顏色直方圖、顏色矩、顏色集等。顏色直方圖反映了圖像中顏色的分布,可以比較圖像間的顏色差。而顏色集則是通過建立索引表進行特征檢索,如Chen等[28]根據嘴唇的顏色特征提取嘴唇邊緣,獲得上唇和下唇之間的輪廓并擬合曲線,用提取到的嘴唇特征診斷慢性疲勞綜合癥。而神經網絡提取到的深層人臉特征,可以捕捉到兒童面部特征的微小變化,提高兒童OSA 的分類精度,如Lin 等[29]使用深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)把病人的正臉、頭頂、左側60°和右側60°的四個圖像輸入到DCNN 中檢測冠心病。人臉特征提取方法的優缺點對比如表3所示。
7)數據降維。數據降維對計算機輔助診斷的準確率尤為重要,常用的方法有主成分分析(PCA)和線性判別分析(Linear Discriminant Analysis,LDA),如Kumov 等[12]對提取到的特征進行降維后,分類準確度顯著提高。
8)分類器分類。根據疾病的類型可以分為單一疾病的單一癥狀、單一疾病的多種癥狀、多種疾病的多種癥狀,常用的分類器有最近鄰算法(K-Nearest Neighbor,KNN)、支持向量機(Support Vector Machine,SVM)、AdaBoost、DCNN 等。本文是針對兒童OSA進行研究,用多個面部特征去預測兒童OSA,主要關注單一疾病的多種癥狀。單一疾病的多種癥狀用到的分類器大致可以分為兩種:一種是使用AdaBoost;另一種是根據不同特征選擇不同的分類器。文獻[30]中使用邏輯回歸(Logistic Regression,LR)、KNN、SVM 和卷積神經網 絡(Convolutional Neural Network,CNN)對不同的特征進行分類來診斷指端肥大癥,使用了加權算術平均值的策略,其中相應的權重通過最小二乘法計算。
隨著大規模數據庫VGG-Face[31]和ImageNet[32]的建立和神經網絡的發展,遷移學習廣泛應用于醫療領域。如:Van Ginneken 等[33]和Shi 等[34]使用遷移學習的方法檢測肺結節;Esteva等[35]使用遷移學習的方法診斷皮膚癌;Gurovich等[36]使用遷移學習的方法來預測罕見的遺傳綜合癥,準確率高達91%;Qin 等[17]在大規模人臉數據集上,使用遷移學習的方法來預測唐氏綜合癥,達到了95.87%的準確率,93.18%的召回率和97.40%的特異性;Jin 等[37]使用遷移學習的方法對β地中海貧血癥進行二分類,微調后的模型達到了95.0%的精度,對于多疾病的分類,用遷移學習預訓練了一個特征提取器,并用SVM 進行分類,精確度達到了93.3%。由此可見,在大規模數據庫上訓練后,深度卷積神經網絡可以學習到強大的分類能力,理論上可以捕捉到兒童面容特征的微小變化。
隨著深度學習[38-39]的發展,深度卷積神經網絡(DCNN)以優良的性能被世界上研究者廣泛使用。卷積神經網絡(CNN)可以在多個以數組形式出現的輸入數據(如彩色圖像等)中學習特征。CNN有四個關鍵特征:權重共享、部分連接、池化、多個層的共同作用。因為前幾層的卷積層提取通用特征,最后幾層提取更原始的特征,所以CNN 不僅有足夠的能力來識別相似的圖像中潛在的細微差別,還可以學習圖像中深層次的語義信息。不同的特征圖可以檢測局部特殊的圖像特征。在不同位置的單元之間由于權重共享,在檢測圖像時,可以學習到圖像間相似的特征。池化層可以減小特征圖的尺寸,不僅為小的偏移和變形創建不變性,還可以把語義上相似的特征合并為一個。但是CNN 通常需要在大規模數據集上才能發揮其全部潛力,所以在大規模數據集上進行遷移學習,然后用小規模的兒童OSA 數據集進行微調,可以發揮出巨大的潛力。如:Van Ginneken 等[33]使用OverFeat[40]經過遷移學習后來診斷肺結節;Shi等[34]使用VGGNet-16[41]經過遷移學習后診斷肺結節;Yu 等[42]使用VGGNet-16[41]和ResNet-50[43]對醫學圖像進行分類;Esteva 等[35]使用GoogleNet Inception v3[44]診斷皮膚癌。對于人臉圖像的診斷,如:Gurovich 等[36]使用深格塔式的深卷積神經網絡結構,該網絡由10 個卷積層組成,來預測遺傳病;Qin 等[17]用10 個卷積層的DCNN,并用大內核分解為多個較小內核的多層網絡模型,并在大規模人臉數據集CASIA Web-Face[45]上進行遷移學習來預測唐氏綜合癥;Jin等[37]使用5個卷積層的DCNN進行疾病分類。
表4 總結了醫療領域方面使用的遷移學習的網絡模型結構。
表4 醫療領域使用的遷移學習網絡模型及相應的源域數據集Tab.4 Transfer learning network models used in medical field and corresponding source domain data sets
當在小規模數據上進行訓練時,容易發生過擬合。為了解決某類數據短缺的問題,遷移學習[46]被提出。對于遷移學習的兒童OSA 輔助診斷的分類,如果按照遷移學習的方案劃分,由于目標域和源域的分類任務不同,屬于歸納遷移學習;如果按照遷移學習方法劃分,它將轉移的知識編碼為共享參數,則屬于基于參數的遷移學習[46]。在遷移學習的深度網絡模型中,特征提取和分類在一個統一的結構下,檢測速度和性能都有所提高。由于源域和目標域的人臉數據集在特征空間上一致,當在大規模VGG-Face[31]等人臉數據集上對模型進行訓練時,可以學到豐富的先驗知識。當遷移學習時,通過參數的轉移,把大量的先驗知識轉到了目標域的分類上,可以提高目標域的分類準確度。
在大規模人臉數據上學到先驗知識后,需要在小規模的兒童OSA 數據集上進行微調,從而更好地進行分類。微調的方法可以分為以下兩種:
1)把最后一層的全連接層替換為目標分類任務的線性分類器(如Softmax、SVM 等),剩下的網絡被當作特征提取器在目標域的數據集上訓練新的分類器。如Qin 等[17]和Shi 等[34]等只微調最后一層,然后訓練新的分類器。
2)不僅僅只訓練最后一層的分類器,以合適的學習率和神經網絡的反向傳播機制微調所有層的參數。如Shi 等[34]凍結除最后一層的全連接層,并將其替換為合適的分類器,然后使用反向傳播微調所有層。
與二維人臉圖像相比,三維人臉數據對于光照、遮擋、人臉姿態的魯棒性更高。同時,三維人臉數據中的表型特征被廣泛用于醫療領域,極大提高了疾病診斷的準確性[47]。3D 人臉數據的兒童OSA輔助診斷主要流程如下:
1)獲取3D 人臉數據。醫療領域的人臉三維成像有以下幾種,如電子計算機斷層掃描(Computed Tomography,CT)、錐形束CT(Cone Beam CT,CBCT)、微計算機斷層掃描(Micro CT,MCT)、3D 激光掃描、結構光技術、立體攝影測量技術和磁共振成像(Magnetic Resonance Imaging,MRI)[48]。在兒童OSA 診斷中常用的有:①CT,如程超等[49]使用CT 幫助醫生正確判斷上呼吸道狹窄或梗阻部位,提高手術效率;②3D 激光掃描,如深度圖;③結構光技術,如點云,Wu[14]利用點云結構分析高風險和低風險人群間的面部差異;④立體攝影測量技術,如三維可變形模型(3D Morphable Model,3DMD)系統、網格等。兒童OSA 常用的3D 人臉數據總結如表5 所示。圖5(參考了文獻[50])顯示了三種常用的人臉三維結構示意圖。
表5 常見的三維人臉數據獲取方法的特點對比Tab.5 Characteristics comparison of common 3D face data acquisition methods
圖5 三種常用的三維人臉結構Fig.5 Three commonly used 3D face structures
2)圖像預處理:去除掉3D人臉數據上對于實驗有影響的特征,如眼鏡、首飾頭發等,使用平滑和孔洞填充等過濾器對3D 人臉數據進行重采樣和預處理并檢測人臉的位置和方向[13,50]。
3)三維人臉重建。將三維圖像進行融合配準,生成完整的三維人臉數據,如點云數據的重建:將深度圖像進行數據增強,然后進行點云計算和配準,最后融合點云數據,獲得高精度的3D人臉數據。
4)三維人臉特征提取。與二維人臉特征一樣,同樣包括傳統方法和使用深度神經網絡的方法。傳統方法直接在3D人臉數據上測量關鍵點之間的線性距離和角度,如文獻[51-53]方案使用線性距離和角度來測量OSA患者的3D人臉數據結構,因為線性距離容易受尺寸的影響,當兩個不同測量對象缺少相對位置信息時,可能會產生相同的形狀信息,所以在形狀分析上造成很多困難。為了改進這些問題,文獻[13]方案提取3D 人臉模型上的持久同源性來診斷兒童OSA,因為持久同源包含了幾何特征和拓撲特征,所以結合了幾何的區分能力和拓撲的分類能力[54];文獻[14]方案則提取3D人臉數據上的幾何形態計量學(Geometric Morphometry Metrology,GMM)來診斷兒童OSA,GMM 不僅可以對整體形狀進行分析,還可以減少偏差[55];也可直接使用神經網絡自動去提取深度表型特征,如文獻[13]方案。但是由于3D 人臉數據復雜且數量少,而且神經網絡需要更多的層數和復雜的參數,所以神經網絡無法發揮出其潛在的性能,導致目前兒童OAS 的研究并不理想。3D人臉數據特征提取總結如表6所示。
表6 3D人臉數據特征提取方法的特點對比Tab.6 Characteristics comparison of 3D face data feature extraction methods
5)分類。對提取到的特征進行分類,如機器學習方法、深度神經網絡、高維正則化判別分析模型等。
本文綜述了兒童OSA 計算機人臉輔助診斷的三種技術路線。兒童OSA 作為一種發病率較高、并發癥嚴重的疾病,影響著兒童的健康發育,需要盡快建立一種快捷方便的診斷方式,提高診斷的準確性。
在二維人臉圖像中,傳統的圖像處理技術也在不斷地發展,神經網絡在人臉檢測、人臉關鍵點提取、人臉特征提取、疾病分類等方面在未來將會有更大的發展,但是還有很多問題值得研究:尋找更好的模型和方法來檢測人臉,以消除背景對實驗的影響;對于遮擋、姿態較大等問題的人臉圖像如何更好地提取關鍵點;使用神經網絡如何更好地提取圖像的深度特征來進行診斷預測,都需要建立更好的模型,不斷地進行參數優化。同時側臉相較于正臉圖像,可以提供更多的關于嘴唇、鼻梁、耳朵等特征信息,側臉可以與正臉特征結合起來提高兒童OSA預測的準確性。
3D 人臉數據雖然成本高,實施困難,臨床應用性低,但是與2D 人臉相比,不受焦深的影響,焦深會在2D 圖像中產生明顯的形貌失真,影響預測的準確性。雖然目前對于兒童OSA的3D面容研究還沒有取得突破進展,且現有的研究中由于數據量較少,導致研究結果不是很理想。但隨著研究的不斷深入,將有更多的3D 人臉局部特征提取方法被提出,可以更好地識別兒童面部變化。通過神經網絡提取3D 人臉上的深度表型特征也是未來研究的重點,深度表型特征可以提取到3D人臉上更深層的特征信息,更加精細地捕捉到兒童的面部變化,但同時需要建立龐大的數據庫和復雜的神經網絡結構。
隨著2D、3D、視頻等更多人臉數據庫的建立,如最近剛開源的大規模人臉數據集MAAD-Face,使用遷移學習可以有效地緩解兒童OSA 二維或三維人臉數據的短缺問題,同時也要避免負遷移,更好地優化遷移算法,完成目標域中的分類任務。遷移學習也是未來研究的趨勢之一。
對于條件允許的地區,兒童OSA 中的一些臨床數據也可與圖像數據相結合,提高兒童OSA 診斷的準確性。在未來,還要建立、建全兒童OSA 的圖像數據庫,不僅可以加快兒童OSA 輔助診斷的發展,也可以為其他相關聯的兒童疾病提供數據來源和技術參考。