趙紫娟,強 彥,趙涓涓,趙琛琦,王麒達,李 碩
(1.太原理工大學 信息與計算機學院,太原 030024;2.加拿大西安大略大學 醫學影像 和醫學生物物理學系,加拿大安大略 倫敦 N6A 3K7)
中醫(TCM)作為世界傳統醫學的代表之一,具有完整的理論體系、豐富的臨床實踐經驗,在世界范圍內被廣泛應用[1]。但隨著西醫藥的發展并在世界范圍傳播,中醫藥傳承與發展受到極大的影響和沖擊,中醫藥理論、中醫醫療模式及中醫藥人才等面臨嚴重挑戰[2]。2019年10月25日,習近平總書記在全國中醫藥大會上,對中醫藥工作做出重要指示:“要遵循中醫藥發展規律,傳承精華,守正創新,加快推進中醫藥現代化、產業化,推動中醫藥走向世界。”中醫藥信息化與現代化研究逐漸成為研究的熱點。
與此同時,隨著人工智能與機器視覺技術的不斷發展,計算機輔助技術對醫學領域的影響越來越大。針對臨床廣泛使用的醫學影像,利用計算機圖像處理技術對二維切片圖像進行分析和處理,實現對人體器官、軟組織和病變體的分割提取、三維重建和三維顯示,可以輔助醫生對病變體及其它感興趣的區域進行定性甚至定量的分析,從而大大提高醫療診斷的準確性和可靠性;在醫療教學、手術規劃、手術仿真及各種醫學研究中也起到了重要的輔助作用[3-4]。但是目前對于中醫的圖像處理方面發展還比較緩慢,在進行中醫視覺信息的處理時,仍然是醫生經驗占主導地位,容易受到主觀性和就診環境的影響,這給中醫的現代化發展帶來不利的因素。因此,研究者們開始嘗試從計算機圖像處理角度來研究中醫理論規律,從而提高數據分析的效率和準確性,提升健康與診療的效益及價值[5],實現中醫的智能化與現代化。
圖像處理技術在中醫領域應用中涉及多個環節,多個領域,并且能實現多種功能。如應用于中醫望診(面診、手診、舌診、目診)中的圖像識別與疾病診療、中草藥識別與質量評估,以及中醫經絡腧穴模型三維重建及可視化等。針對中醫望診,MA et al[6]提出了一種自動識別舌體構造的系統框架,設計了深度卷積神經網絡用于舌苔檢測、舌苔標定和舌體構造識別。在該系統框架下,提出了一種新的復雜性感知(complex perception,CP)分類方法,用于中醫體質識別,體質識別準確率最高可達96.77%.ZHANG et al[7]利用一種漸進可訓練的雙堆棧神經網絡(DsNet),通過分析候選人的面部圖像來區分慢性腎病、糖尿病患者和健康人,三種人群類別f1評分分別為95.33%、98.17%和94.67%,與其他傳統的無創檢測方法相比,該方法實現了顯著的提升。針對中草藥識別與質量評估,XU et al[8]建立了一個新的中草藥標準數據集,提出了一種新的用于中藥識別的注意力金字塔網絡(Attention pyramid network,APN),能夠對不同特征尺度的中草藥圖像進行自適應建模,并將其應用于中藥識別中。針對中醫經絡腧穴模型三維重建,HONG et al[9]提出了一種三維經穴識別與投影系統。以中醫經絡理論為基礎,融合了3D機器視覺和投影技術,實現了人體的三維重建、腧穴的識別與標注、經穴在人體表面的同步投影,該系統操作簡便,實現了穴位與經絡的可視化,適合經絡理論的教學與實踐。
本文重點介紹計算機圖像處理技術的相關研究進展以及其在中醫中的應用,內容框架如圖1所示。在中醫望診的應用中,總結與梳理了圖像分割與特征提取以及智能診療中的應用現狀,并且已有部分智能化望診運用到了臨床疾病研究中。在中藥材圖像鑒別的研究與應用方面,分別從中草藥的種類識別以及等級鑒定兩個角度進行分析,雖然取得了一定的成果,但基于中藥材圖像的等級鑒定仍然處于嘗試階段,技術及方案均沒有成熟。在經絡腧穴可視化方面,簡單總結了中醫穴位定位以及數字經絡三維重建兩個方面的工作,此方向研究內容較少,較分散,需要進一步挖掘。

圖1 圖像智能處理方法在中醫中的應用Fig.1 Application of intelligent image processing in traditional Chinese medicine
數字圖像處理(Digital Image Processing)是通過計算機進行圖像數據分析,對圖像噪聲去除、質量增強、復原、目標檢測與分割、類型識別、重建等處理的方法和技術。近年來,隨著我國各類科學技術急速發展,圖像處理技術也日漸得到完善,各類相關軟件對圖像的高層次處理能力也日益強大。圖像處理在醫學方面有展現出巨大的應用價值與應用前景,醫學圖像處理技術正在向診斷一體化、圖像描述定量化、圖像三維化、可視化及網絡化等方向發展。盡管數字圖像處理方法和技術包含許多方面,中醫圖像處理主要涉及圖像分類、圖像去噪、圖像分割、圖像重建以及目標檢測。
對于圖像分類,在2012年之前,圖片分類任務一般是首先設計特征提取器,然后對所提取的特征進行的分類和識別,這種傳統的圖像分類方法在PASCAL VOC競賽中的圖像分類算法中被廣泛使用。KRIZHEVSKY et al[10]在深度卷積神經網絡的基礎上,提出了一個跨時代的圖像分類網絡AlexNet,開啟了深度學習在圖片分類任務中的廣泛應用;HE et al[11]提出殘差網絡模型(ResNet),該網絡容易優化,內部的殘差塊使用了跳躍連接,緩解了在深度神經網絡中增加深度帶來的梯度消失以及過擬合問題,促進了深度學習的進一步發展。WANG et al[12]提出了HRNet,這種網絡結構可以在處理圖片的高層語義信息的同時,兼顧底層的形態學信息的學習,在視覺分類任務中取得了迄今為止最高的精度。目前,基于深度學習的圖片分類任務的精度已經超越了人類的識別精度,算法正朝著高精度、低復雜的方向發展。
對于圖像去噪,目前主要有兩種方法,分別是傳統的圖像去噪算法和基于深度學習的去噪算法。其中傳統圖像去噪算法主要是基于特征的濾波方法,小波閾值去噪算法是近年來最受歡迎,應用非常廣泛的圖像去噪方法,該方法簡單高效,并且可以較好地保持原圖中的紋理等細節信息。QIAN et al[13]提出了一種自適應中值濾波和小波閾值函數相結合的去噪方法。有效地解決了小波閾值算法所產生的偽吉布斯現象,較好的保留了圖片細節信息。SHEN et al[14]針對圖像去噪過程中傅里葉變換不能有效代表圖像的突變,小波變換不能有效代表圖像的紋理和緩慢變化的問題,提出了一種基于傅里葉去噪和小波去噪不同特點的傅里葉-小波混合去噪算法。該算法彌補了兩種算法的不足,在圖像去噪領域具有良好的應用前景。隨著深度神經網絡的不斷發展與改進,其強大的特征提取與計算能力使得目前基于深度學習的圖像去噪算法在性能上已經遠優于傳統方法,基于深度學習的圖像去噪算法逐漸成為當前研究和應用的主流方法。文獻[15]中NOISE2NOISE和文獻[16]中NOISE2VOID方法僅使用獨立的噪聲圖像對進行無監督訓練的方法,在去除高斯噪聲等問題上取得了很好的效果。實驗證明了只要滿足對可預測信號和像素獨立噪聲的初始假設,Noise2Void訓練的網絡就可以與傳統和Noise2Noise訓練的網絡競爭,并為大量應用領域打開大門,例如生物醫學圖像數據以及中醫圖像數據。
對于圖像分割,傳統的分割方法主要包括邊緣檢測法、閾值法、區域增長法、聚類法等。DONG et al[17]提出了基于3D空間的超體素區域生長算法,該方法在三維掩模約束下對模糊連通圖進行改進的超體素三維區域生長,在肺結節的三維分割中取得了較好的分割結果。目前圖像分割領域應用最為廣泛的一類方法依然是基于深度學習的圖像分割技術,LONG et al[18]首次提出了一種用于圖像分割的端到端的全卷積神經網絡FCN(Fully Convolutional Network),該方法可以接受任意大小的輸入,通過有效的推理和學習產生相應大小的輸出,并且定義了一種跳躍架構,將深層粗層的語義信息與淺層細層的外觀信息結合起來,以產生準確而詳細的分割結果,該算法設計簡單高效、易于訓練,在圖像分割領域產生了重要的影響。LIU et al[19]在FCN的基礎之上,提出了性能更高的DeepLab算法,這種算法在FCN分割結果的基礎之上再次進行線性插值處理,更好地維持了圖像的細節信息,然后使用條件隨機場(conditional random fields,CRF)對插值后的結果進行后處理,解決定位精度問題,從而進一步提高了圖像分割的精度。
對于圖像目標檢測,在深度學習時代的早期階段,算法流程分為四個步驟:數據預處理、設計滑動窗口、特征選擇與提取、特征分類與回歸。部分可形變模型DPM(deformable part model)[20]是一種非常經典和簡潔的算法,這種方法通過提取出SIFT、HOG、顏色直方圖等特征來完成對圖片中目標的識別與檢測,但是該方法的速度相對較慢,魯棒性不強,不適合在實際產品中應用。近幾年來,目標檢測算法取得了很大的突破,基于深度學習的目標檢測技術日益成熟,與傳統檢測器中使用的手工描述符相比,深度卷積神經網絡從原始像素到高級語義信息生成層次特征表示,并從訓練數據中自動學習,在復雜環境中顯示出更強的識別表達能力。基于深度學習的目標檢測算法大致可分為單階段檢測算法和雙階段檢測算法。雙階段檢測算法主要以Fast RCNN[21]和Faster RCNN[22]及其變體為主,這一類型的算法具有更高的精測性能,但是實時性較差,適合在服務器端使用。單階段目標檢測算法主要有YOLO[23]和SSD[24]等一系列方法,這些方法的檢測速度非常快,適合在實際任務中使用。
總之,自2012年AlexNet[10]提出后,深度學習領域的研究進展迅速,各類圖像處理方法也逐漸傳統向深度過度。在中醫圖像處理中的應用也呈現出這樣的趨勢,WANG et al[25]對圖像處理在中醫望診中的應用進行了綜合論述,對面部、手掌、舌像的診察進行了詳細的總結和分析。盧運西等[1]對基于傳統技術的中醫舌圖像分割方法和基于深度學習的中醫舌圖像分割方法進行了系統地總結歸納,并采用臨床采集和網絡收集的舌象數據集對典型算法進行網絡訓練和性能評估。同時對這些算法的特點進行分析和討論。圖像處理技術在中醫中應用范圍廣,如應用于中醫望診(面診、手診、舌診、目診)中的圖像識別與疾病診療、中草藥識別與質量評估,以及中醫經絡腧穴模型三維重建及可視化等,應用前景巨大。
望、聞、問、切是中國中醫治療疾病最基礎有效的診察手段,四診的標準化、客觀化是發展中醫技術的重要內容。其中,望診是應用圖像處理技術最多的診察方法。望診中的面象、舌象和手象可反映人身體健康狀況的信息,為疾病的定性定位及預后提供有力的診斷依據,利用圖像處理技術對圖像特征加以提取,可捕捉到人眼不易察覺的身體特征信息,有利于提高望診的準確性[26]。圖像處理在中醫望診領域發展十分迅速,產生了許多算法,并且具有很強的應用前景。根據應用現狀,圖像處理在中醫望診領域的應用大致包括中醫圖像分割和特征提取、疾病智能診療和預測預后。
中醫自動化望診中最具挑戰性的部分是適當切分和最佳特征提取。盡管在望診取像的過程中通過調節硬件的狀態可以獲得最大的目標(面部,舌體,手掌等)原始圖像,但由于被檢測人樣本的情況各不相同,非目標部分(如背景、唇、牙齒和頭發等)對顏色和紋理等特性的鑒定仍然具有很大的影響。因此,將目標區域從復雜的背景區域中分割出來是自動分析望診指標的重要步驟。中醫圖像分割與特征提取通常包括面部器管分割、舌象分割與檢測、手掌及掌紋分割等。
2.1.1面部器官分割
面色是人體臟腑氣血的外在表現,可以反映人體疾病的變化[27]。基本上,計算機輔助面部醫學分析的首要任務是從面部圖像中檢測和分割面部成分。膚色模型是面部器官檢測與分割中最常用到的計算機圖像處理方法,其中,基于高斯混合模型(gaussian mixture model,GMM)的膚色模型[28-29]應用最為廣泛,并取得了良好的效果。ZHAO et al[30]提出了一種基于患者全臉的面部膚色特征表征方法,并使用皮膚檢測、面部歸一化以及嘴巴、鼻孔和眉毛的水平位置對5個面部區域(前額、左臉頰、右臉頰、鼻子、下巴)進行分割。XU et al[31]提出了一種基于膚色高斯混合模型(GMM)和支持向量機的人臉顏色分類方法。具體來說,該方法基于GMM迭代確認屬于皮膚區域的膚色像素。在優化過程中,利用二維GMM提取特征來描述主色和次要色。YANG et al[32]將膚色模型和改進的AdaBoost集成到復雜背景下的高分辨率圖像中,進行人臉檢測,該方法能夠在較快的速度下達到較高的檢測率,降低了誤檢率和漏檢率。HU et al[33]提出了一種基于膚色混合模型的唇形分割方法。在Lab顏色空間中,以人臉上(無唇)部分的像素顏色作為訓練數據,為每個人臉圖像建立相應的膚色高斯混合模型。然后基于GMM迭代去除不屬于下半部分唇形區域的膚色像素,得到初始唇形;進一步在初始唇區和非唇區分別建立GMM提取出最優的唇形。
此外,隨著中醫目診與西方虹膜診斷的不斷發展與結合,基于眼睛圖像特征的診斷技術逐漸得到更多認可,虹膜分割技術受到了研究團體[34]的廣泛關注。現有的虹膜分割技術從道格曼的積分-微分算子、主動輪廓模型[35]和聚類算法到利用梯度(邊緣)信息[36-37]、Hough變換的變體[38-39]和其他。最近,研究人員開始研究基于深度學習的虹膜分割方法,如ROT et al[40]提出了一種基于SegNet架構的深度多類眼睛分割模型。該方法不僅分割虹膜,而且從圖像中使用一個單獨的分割模型分割其他五個眼睛部分。
2.1.2舌象分割與檢測
舌體分割與檢測是圖像分割技術在中醫中應用最為廣泛的領域。舌體分割方法主要分為三大類。第一個分割子類別是基于顏色特征的舌分割。LI et al[41]采用了一種基于顏色分解和閾值(CDT)的方法對舌頭進行分割。不同于以往涉及一系列特征的研究,該方法只需要少量的特征,如顏色分布和區域大小信息,具有更好的魯棒性。第二個分割子類別是基于Snake模型(也稱為主動輪廓)及其變體的舌分割。PANG et al[42]開發了一種可變形輪廓方法,即BEDC,用于自動提取舌頭邊緣,應用于舌診系統。GUO et al[43]提出了一種自動提取舌體輪廓的方法,該方法的創新點是首先通過簡單的初始邊界過程提取舌體的初始邊界。雖然以上方法均能得到滿意的分割結果。然而,它們也存在一些嚴重的缺點,主要表現在三個方面:1) 對光照變化和雜亂背景比較敏感;2) 由于舌頭和嘴唇顏色相似,無法準確分割,特別是基于Snake的方法;3) 通常需要預處理,如舌體檢測或要求在分割開始前指定初始區域。第三個舌分割子類別是基于深度神經網絡,最新的采用ResNet變體[44]和DeepLabV3變體[45]的舌體切分方法優于一些傳統的舌切分方法。LI et al[46]提出了一種基于U-net網絡的跨域社體分割方法,取得了目前社體分割的最優性能。
2.1.3手掌分割與掌紋識別
手診是中醫望診中一個很關鍵的步驟,中醫有“手相”的講究,手掌的特征是獨特的,包含很多的信息,手掌紋線色澤肥厚等,在預測家族性遺傳病(如癌癥、高血壓、糖尿病、冠心病等),都有突出的表現[47]。因此,香港中文大學的張大鵬團隊首次在國際上首次提出了“掌紋識別”[48]的研究方向后,更多的學者在這方面展開研究。
針對復雜背景下的手掌圖像分割問題,不同學者從不同角度進行了研究。2008年開始,TIAN et al[49]利用Otsu算法在RGB顏色空間的三個通道上的應用,分割復雜背景下的手掌圖像前景,但是由于RGB通道受光照影響較大,分割效果并不理想。2011年,ROTINWA et al[50]提出了一種基于人工神經網絡和CbCrY顏色空間的分割算法,有效地將手掌從復雜背景中分割出來,但是沒有將其用于移動端的掌紋識別技術的應用當中。張情等[51]在自適應高斯膚色模型的基礎上,提出了一種結合區域生長的手掌前景分割方法,該方法可有效分割出復雜背景中出現的類膚色區域的影響,并且克服了移動終端掌紋圖像處理受到的多方面干擾。
對于掌紋識別,SANYAL et al[52]研究了一種掌紋認證系統,利用交叉小波變換進行特征提取,利用不同種群的細菌覓食優化算法選擇特征組合,再采用神經網絡作為分類器,掌紋識別準確率達到97.85%.GENOVESE et al[53]利用深度學習和卷積神經網絡提取掌紋和內手指紋理,利用單手采集來實現掌紋和內手指紋理特征融合,結果表明,融合能夠提高識別精度,而不需要多次生物特征獲取。雖然這方面的研究不斷在發展與進步,但是將其與中醫之間建立連接的相關研究還較少,后續的研究可以大量的數據統計為驅動,通過病癥和手掌特征之間的對應關系,結合中醫醫生的經驗,最終找到看病治療的途徑。
將現代圖像處理和計算機視覺技術應用于中醫圖像分割的進一步研究正在進行中,尤其是針對面診和舌診,臨床上迫切需求智能診斷技術加以輔助。表1詳細描述了圖像處理在中醫圖像識別中的應用現狀,研究對象主要包括面部、舌相以及手掌,研究任務包括面色分割、虹膜分割、嘴分割、舌體分割、手掌分割及掌紋識別等。研究方法主要包括高斯混合模型、膚色模型、可變輪廓模型、支持向量機以及深度神經網絡(CNN,ResNet,U-net)等。評價指標主要采用準確率、精確度、MIoU值、PA值等。應用領域以中醫望診和生物特征識別為主。雖然基于深度學習的中醫圖像分割方法克服了面部、舌體、手掌等形態、光照、顏色多種因素的分割挑戰,能夠實現開放環境靜態人臉等的精準快速分割,但是這些方法只考慮了單獨的面部器官,導致診斷結果不準確和有偏倚。在后續的研究中,應該更側重于基于中醫整體觀原理的混合結構,以同時檢測和分割多個面部成分。

表1 圖像處理在中醫望診圖像分割中的應用Table 1 Application of image processing in segmentation of observation images of TCM
面對大量復雜的中醫圖像信息和持續增長的中醫診療需求,常規基于中醫師經驗的望診暴露出的工作負荷大、客觀化程度低、標準不統一、效率低等諸多缺點愈加明顯。而圖像處理技術在處理大數據和復雜非確定性數據、深入挖掘數據潛在信息等方面有著超越人類的優勢。運用計算機視覺技術解讀中醫圖像,幫助醫生定位病灶,輔助診斷,輔助治療,可以有效彌補其中的缺口,減輕醫生負荷,提高診療效率。
在智能疾病診斷方面,中醫望診為目前疾病診斷提供了一種高效的、無創的方法。因此,研究者們在基于中醫圖像的智能診斷方面做了很多工作。前期的許多著作中都著重研究了基于人體表特征(包括臉,舌,眼睛,手掌等)的疾病診斷[54-56],證實了無創方法的優越性和合理性。KIM et al[57]提出了一種利用面部圖像周圍的顏色分布的心臟病診斷系統。同樣,另一項基于人臉圖像的工作[58]在肝炎患者中進行了檢測,平均準確率達到73.6%.隨著深度學習算法成為基于中醫圖像的疾病診斷和預測的一個很有前景的工具,MA et al[6]提出了一種通過自然舌象自動識別舌體構造的系統框架,設計了深度卷積神經網絡用于舌苔檢測、舌苔標定和舌體構造識別。在該系統框架下,提出了一種新的復雜性感知(complex perception,CP)分類方法,用于中醫體質識別。2019年,發表在《自然·醫學》的一篇文章中表示[59],人工智能在接受上萬張真實患者面部圖像訓練后,能夠以高準確率識別罕見的遺傳綜合征。中國醫學科學院阜外醫院鄭哲教授聯合全國9家醫院與清華大學自動化系季向陽教授團隊,開發并驗證了一種基于人臉照片的深度學習算法,用于評價面部特征與冠狀動脈疾病(CAD)風險的關系。結果表明,基于臉部照片的深度學習算法可以幫助中國人群的冠心病檢測[60]。這項技術有望應用于門診冠心病的風險評估,以及社區冠心病患者的篩查,值得進一步研究開發為臨床可用的輔助工具。ZHANG et al[7]提出了一種漸進可訓練的雙堆棧神經網絡(DsNet),通過分析候選人的面部圖像,同時區分慢性腎病、糖尿病患者和健康人。第一堆疊子網絡有效地提取了人臉圖像的高級代表性特征;第二個堆疊子網絡可以進一步分析從第一個堆疊子網絡中提取的高級特征,從而同時對健康個體的兩種疾病進行分類,精確度可達97.8%.但大多只針對單一部位圖片進行診斷,后續的研究應側重于不同部位圖像數據的聯合表示,并利用它們之間的相關性,提高整體分類性能。
在自動化治療方面,部分研究者開始研究挖掘病人望診信息和中醫處方之間的關系,以期實現自動化的中醫處方生成與推薦。LIAO et al[61]設計了一種基于三粒度人臉的多尺度卷積神經網絡,從面部器官、局部區域和整個人臉中挖掘患者的人臉信息,使用深度學習方法來挖掘面部信息與中藥方劑之間的關系,并根據患者的面部圖像構建卷積神經網絡來生成中藥方劑。HU et al[62]設計了一種用于構建處方的深度神經網絡框架。它包括單/雙卷積通道和完全連接層用于舌象特征編碼,提出輔助治療主題損失機制,對中醫的治療進行建模,減輕稀疏輸出標簽對結果多樣性的干擾。實驗使用真實的舌象和相應的處方,結果可以生成接近真實樣本的處方。WEN et al[63]首先構建一個較大的舌象數據庫,每個圖像對應一個處方;然后利用自動編碼器對舌象進行特征提取,在此基礎上提出推薦神經網絡來推薦處方中的藥草;最后,提出了一種新的處方生成方法,從推薦的草藥中選擇最佳的草藥形成最終的處方。
然而,由于中醫望診自身的復雜性和計算機圖像處理相關技術未完全成熟,尚有一些問題待進一步探討和解決,目前中醫圖像智能診療面臨諸多的困難和挑戰,如對人臉、舌、手的原始圖像限制諸多,在現實生活中只有在特定的情況下才會得到實驗的樣本圖片,沒有特定的圖像采集設備,可獲得的數據光線、背景等無法得到統一,導致普通模型的泛化性弱;其次,面部照片中很容易提取出一些敏感的健康記錄數據,這種傳播使得這里討論的技術對個人數據保護構成了重大威脅,直接涉及個人隱私,易觸發倫理糾紛、肖像權糾紛等問題。未來的臨床應用研究應更加注意隱私保護以及其他社會影響,以確保該工具單純用于醫療目的。表2詳細描述了圖像處理技術在中醫疾病診療中的應用,研究對象包括舌診、面診,任務類型包括中醫體質分類、疾病診斷、處方生成等,研究方法包括CNN、DCNN、雙棧式自編碼網絡以及多層感知器等。
中草藥作為中醫的一部分,不僅在治療疾病方面有卓越的表現,而且在中醫理論體系的指導下還可以調理身體,因此逐漸成為人們生活的一部分。然而,一方面中藥材種類繁多、數據量稀少,且很多藥材形狀、名稱、顏色等極為相似,由于缺乏專業的設備和知識,非專業人員難以準確識別中藥材,因此對中藥材識別工具寄予厚望。另一方面,一部分商人受利益的驅使,制造和銷售假冒偽劣產品,中藥材摻假、摻雜、以假亂真、以次充好等現象屢見不鮮,直接危害到人民群眾臨床用藥的安全性和有效性。利用圖像處理方法,可以通過中藥材圖片識別藥材種類、鑒別藥材真偽、評估藥材質量等,具有可操作性、可重復性和價廉的優點。
中藥圖像識別面臨兩個問題:1) 一些中草藥屬于不同的物種,根據全局形狀特征容易被分類,如圖2所示。例如,砂仁和甘草在整體形狀上有很大的不同,因此可以很容易地根據形狀特征進行分類。2) 還有一些形狀相似的中草藥屬于同一種,需要更細粒度的特征來進行識別。

表2 圖像處理在中醫疾病診療中的應用Table 2 Application of image processing in TCM disease diagnosis and treatment
對于不同種類草藥識別,KAN et al[64]針對人工分類方法在識別藥用植物時存在的局限性,提出了一種基于形狀特征和紋理特征的藥用植物葉片圖像自動分類方法,為藥用植物分類體系的研究和發展提供了一個有價值的理論框架。SUN et al[65]提出了基于卷積神經網絡(CNN)的中藥圖像識別和檢索方法。對于識別問題,作者利用softmax損失對識別網絡進行優化;對于檢索問題,再微調識別網絡通過添加一個三元損失搜索最相似的醫學圖像。ZHANG et al[66]設計一種以深度卷積神經網絡為基礎的分類系統,應用于植物物種識別中,在植物物種數據集上取得最先進的性能。SUN et al[67]采用VGG16網絡對選取的50種復雜背景下的中藥材飲片進行分類識別,最終分類識別效果較為理想。中草藥數目龐大,同一類型草藥同一狀態下不同視角圖像,以及其每個成長階段的形狀顏色等均有變化;其次,很多中草藥極為相似,如何進行進一步的區分與辨別,給基于圖像的中草藥準確識別中帶來巨大挑戰。
對于同一種類相似中藥材識別,不同于常規的圖像識別或細粒度圖像識別,前者關注全局語義信息,如輪廓和形狀,而后者需要更詳細的局部信息。如圖2中的巴豆和蒼耳,它們在細節上只有少許差異。因此,中藥識別可轉化為一個多粒度的任務。一般情況下,僅使用單尺度特征很難兼顧以上兩種情況,因為常規的CNN無法自適應檢測尺度,需要考慮多尺度特征,并自適應地強調對不同藥材有效的相應尺度。如XU et al[68]從建立一個新的中草藥標準數據集開始,提出了一種新的用于中藥識別的注意力金字塔網絡(attention pyramid network,APN),能夠對不同特征尺度的中草藥圖像進行自適應建模,并將其應用于中藥識別中。

圖2 不同種類草藥Fig.2 Different kinds of herb
中藥材品質的保證是中藥質量標準的關鍵環節,但中藥材以次充好、以假亂真、濫用農肥的現象屢見不鮮,中藥質量控制一直是中藥現代化急需解決的關鍵問題。
目前,圖像模式識別技術已經在中藥材鑒定中得到了廣泛應用,該技術主要是利用被測中藥材圖像的密度、幾何形狀、色彩特征、密度等因子參數,實現對正規中藥材不同等級以及炮制品的對比,同時揭示出中藥材本身的數值分類,通過海量的數據內容歸類出相應的規律、特征,并構建出圖像識別鑒定標準,為相近藥材鑒定、炮制品鑒定提供可靠數據參考。如王丹等[69]利用Image-proplus和圖像處理技術,對來自寧夏、青海和新疆三個產區共90份枸杞子樣品的形狀性質等各項指標進行綜合評價,結果顯示,三個產區枸杞子藥材在形狀、重量、面積和顏色等外觀性狀方面均有一定差別,為中藥材的規格等級劃分提供新的思路和參考。張喜紅等[70]以西洋參為例,在百度人工智能開放平臺提供的EasyDL定制化圖像識別服務的基礎上,設計了一種基于圖像識別技術的中藥材品鑒助手系統,實現了中藥材的等級分析。實驗測試結果顯示,在白紙背景下拍照分析的識別正確率高達95%,能滿足實際使用的要求。
在實際應用中,除了基于圖像的鑒別方法之外,還需依據“望、聞、嘗、摸、水、火”等的經驗鑒別法,以及分子鑒別法、化學鑒別法、形態鑒別法、生物效應鑒別法等方法,后續的研究可以對多模態鑒別數據和圖像信息進行結合,通過紋理、顏色、氣味等感官特征分析,將一些非圖像信息加入考慮范圍內,提高鑒別的準確性。表3詳細描述了圖像處理在中藥材鑒別中的應用,研究對象包括植物葉片、中藥飲片等,研究方法包括SVM、CNN、DCNN、VGG16以及APN等。

表3 圖像處理在中藥材鑒別中的應用Table 3 Application of image processing in the identification of Chinese medicinal materials
經絡是運行氣血、聯系臟腑和體表及全身各部的通道,是人體功能的調控系統。經絡學也是人體針灸和按摩的基礎,是中醫學的重要組成部分。人體內經絡穴位數目龐大,錯綜復雜,隨著計算機技術、多媒體技術與三維虛擬技術的發展,研究者通過構建可視化三維模型,直觀、準確、動態地展示人體經絡穴位,觀察腧穴相關的空間解剖結構及毗鄰結構,顯示針灸關鍵點,模擬不同中醫療法循經傳感過程,提高教學及臨床可靠性與安全性。
準確定位人體穴位是經絡模型重建與可視化的基礎。早期的研究雖然未能明確指明應用于中醫腧穴的識別與定位,但是與之相似的人體關鍵點檢測算法與模型已有很多研究。
人體關鍵點識別一般包含手部關鍵點識別,人體骨骼關鍵點識別以及面部關鍵點識別。對于手部關鍵點的識別,TOMPSON et al[71]提出了一種基于模型的方法,最終可以實現實時跟蹤手的全部關節點,并且可以達到25 f/s,但該方法有一定局限性,對復雜手勢的關鍵點識別率低。卡耐基梅隆大學實驗室公布了開源項目Openpose,為手部關鍵點識別提供新思路。在此基礎上,CVPR 2019大會上谷歌發布了一種新的手部感知方法,該方法通過機器學習,從單幀圖像中推斷出一只手的21個3D關鍵點,并且能夠實時獲取關鍵點數據,從而提供了高保真的手掌關鍵點檢測以及手部和手指跟蹤[72]。
對于人臉關鍵點的識別,2013年,Face++在DCNN模型上進行改進,提出從粗到精的人臉關鍵點檢測算法[73],該算法并行的采用兩個級聯的CNN進行關鍵點檢測,實現了68個人臉關鍵點的高精度定位。2016年,ZHANG et al[74]提出一種多任務級聯卷積神經網絡(multi-task cascaded convolutional networks,MTCNN)用以同時處理面部檢測和面部關鍵點定位問題。作者認為人臉檢測和人臉關鍵點檢測兩個任務之間往往存在著潛在的聯系,然而大多數方法都未將兩個任務有效地結合起來,本文為了充分利用兩任務之間潛在的聯系,提出一種多任務級聯的人臉檢測框架,將人臉檢測和人臉關鍵點檢測同時進行。
人體骨骼關鍵點檢測是諸多計算機視覺任務的基礎,廣泛應用于動作分類、行為識別以及無人駕駛等領域。傳統的人體骨骼關鍵點檢測算法基本上都是在幾何先驗的基礎上基于模版匹配的思路來進行。Pictorial Structure[75]是其中一個較為經典的算法思路,主要包含兩個部分,單元模版(Unary Templates)和模版關系(Pairwise Springs),對于模版關系,提出了著名的彈簧形變模型,即對部件模型與整體模型的相對空間位置關系進行建模,利用了物體的一些空間先驗知識,既合理約束了整體模型和部件模型的空間相對位置,又保持了一定的靈活性。Convolutional Pose Machines[76]首次提出將深度學習應用于人體關鍵點檢測及姿態分析,同時用卷積圖層表達紋理信息和空間信息。主要網絡結構分為多個階段,其中第一個階段會產生初步的關鍵點的檢測效果,接下來的幾個階段均以前一個階段的預測輸出和從原圖提取的特征作為輸入,進一步提高關鍵點的檢測效果。CHEN et al[77]提出了一種基于級聯金字塔網絡(cascaded pyramid network,CPN)結構的人體關鍵點檢測框架。整體框架分為兩個階段:GlobalNet和RefineNet.其中GlobalNet主要負責檢測容易檢測和較難檢測的關鍵點,通過進一步更高層的語義信息來解決較難檢測的關鍵點問題;RefineNet主要解決更難或者不可見關鍵點的檢測,這里對關鍵點進行難易程度進行界定主要體現在關鍵點的訓練損失上。人體關鍵點檢測定位至今仍然是計算機視覺領域較為活躍的一個研究方向,并且算法已經達到較為完美的效果。這為基于關鍵點識別的中醫腧穴定位奠定了堅實的理論基礎。
在以上關鍵點模型的基礎上,JIANG et al[78]設計了一種用于醫院和針灸培訓和治療的針灸輔助系統。該系統首先利用穴位在基底面上的相對位置獲取笛卡爾坐標系中的穴位坐標。然后,將虛擬穴位構建為球體,地圖生成器構建基于圖形的三維臉部穴位地圖。最后,增強現實(Augmented Reality, AR)系統將現實世界中的人臉與虛擬針灸地圖結合起來,通過谷歌眼鏡的投影屏幕向用戶顯示增強視圖。CHANG et al[79]實現了一種基于“寸”的定位系統,將地標之間的相對距離由像素轉換為寸,假設發際線與眉毛之間的距離為3寸。可以根據其與某個地標點的相對距離(以寸為單位)來確定穴位的位置。王聰等[80]提出了采用深度學習方法進行關鍵點定位,再根據骨度分寸法定位出穴位位置,并計算穴位點與特征點之間的轉換矩陣,最后對穴位進行深度估計,為針灸機器人的運動控制提供目標穴位的三維位置信息。LAN et al[81]提出了一種利用關鍵點和三維變形模型(3DMM)進行穴位定位的新方法。該系統定位誤差約為2.4 mm,估計精度比之前穴位定位方法高出170%。在Android手機上實現了一個原型系統。在癥狀較輕的情況下(如頭痛、睡眠障礙等),患者借助該系統,患者可以快速找到相應的穴位進行推拿。
人體經絡腧穴三維可視化系統中經絡循行路線及腧穴的選擇與定位標準主要源于世界衛生組織西太平洋地區事務處頒布的《世界衛生組織標準針灸經穴定位》及《腧穴名稱與定位》(GB 12346-2006);全國中醫藥行業高等教育“十二五”規劃教材《針灸學》系列及中醫藥學高級叢書《針灸學》;世界衛生組織標準針灸穴位掛圖;《中國針灸穴位通鑒》等。
目前,已有部分學者對三維經絡和腧穴結構等進行了相關研究,如基于3DMax技術和人體解剖切片圖像數據建立穴位和經絡三維可視化模型[82-83]。莊天戈等[84]以中醫理念為指導,以VHP數據及VOXEL-MAN三維體視化模型為基礎,建立了腧穴定位及針刺方向的可描述模型,該模型包括利用三維可視化方法建立的空間模型,以及組織成為層次型文本知識體系的解釋模型,實現了基于中醫理念的顯示腧穴三維形態的可視人模型電子解剖圖譜。ZHU et al[85]利用三維虛擬技術構建人體經絡、穴位可視化三維模型,整合現有相關標準和臨床知識,實現跨平臺的三維可視化系統。HONG et al[9]提出了一種三維經穴識別與投影系統。以中醫經絡理論為基礎,融合了3D機器視覺和投影技術,實現了人體的三維重建、腧穴的識別與標注、經穴在人體表面的同步投影。
針對經絡腧穴重建與可視化的國內外研究比較少,且均為國內學者,在國際上并未得到廣泛的認可。其次,尚未有系統的研究方法及理論,也未能依據中醫經絡理論進行動態的循經傳導模擬與重建。

表4 圖像處理在中醫經絡腧穴重建中的應用Table 4 Application of image processing in reconstruction of meridians and acupoints in TCM
綜上所述可以看出,計算機圖像處理技術在中醫望診、中草藥鑒別以及經絡腧穴可視化等方面都有杰出表現,為在中醫信息化與現代化應用提供了重要的理論基礎和技術支撐,對全病種都具有很強的應用前景。然而,智能中醫圖像高速發展的背后依舊存在許多問題。
1) 缺少統一的、開放的、高質量標注的數據集。目前基于深度學習的算法在圖像處理領域應用越來越成熟,效果往往優于傳統的圖像處理技術,但深度學習算法大多是有監督的學習,即需要大量已精確標記的訓練數據,但是標記中醫醫學數據依賴中醫師的專業知識,耗時耗力,而公開數據集的訓練數據往往數量少、質量差,單一機構的小樣本數據訓練出來的模型存在過擬合或者魯棒性和推廣性差的問題,難以臨床轉化和商業使用。
2) 大部分是端到端的輸入輸出形式,決策過程透明度較差,利用深度學習方法得到的模型存在“黑匣子”問題,理論支撐薄弱,可解釋性較差。
3) 中醫主要的思想是“天人合一”,診斷過程中融合“望聞問切”多模態數據以及不同患者體質、生活環境等多種因素,但是目前不同診法設備分類標準不統一的中醫計算機圖像處理仍停留在單一模態,單一目標部位,無法全面建模傳統中醫的診療模式。
因此,如何解決上述問題將成為當前的研究熱點。首先,針對數據集不完善的問題,一方面,期刊可以加大數據集論文的支持力度,擴大訓練集的樣本量;另一方面,可以通過生成對抗網絡(generative adversarial nets,GAN)等數據增強方式,以多種算法組合為構架,并運用降維方法縮小訓練所需要的樣本量,在一定程度上解決樣本量和醫生標注效率低的問題。其次,針對直接使用端到端的神經網絡得出的結果使網絡的可解釋性較差,可通過可視化、參數分析以對比實驗去解釋,如不同卷積層特征激活圖、各通道的貢獻及訓練中梯度可視化等等,后期研究可僅在特征提取階段應用卷積神經網絡模型,再使用理論基礎更強的算法作為后端處理。最后,針對中醫圖像處理數據模態單一,無法全面建模中醫辯證模式問題,后續研究可考慮結合自然語言處理、語音識別等方法,從多源數據融合角度,將四診信息全面有機結合,實現基于多模態信息融合的智能中醫診療。基于圖像處理方法的智能中醫診療與更多無創、高效的多模態客觀化信息采集技術(如脈象采集傳感技術)的結合,將在精準醫療的發展中發揮重要作用。
計算機圖像處理技術將作為新一代中醫診療技術發展,推動中醫藥的智能化發展與經驗傳承的重要工具,目前圖像處理技術在中醫的應用更偏重于面診和舌診中,涉及的主要技術有圖像邊緣提取、目標檢測與識別、區域分割、顏色矯正、特征提取、圖像去噪、三維重建等,而中醫智能化進展需要的遠不止這些。大量標準統一,標注完善的圖像數據的獲取、多中心的研究驗證、決策過程和診斷依據的可視化及第三方評價體系的建立尤為關鍵。此外,智能中醫藥圖像處理技術的發展不僅需要大數據技術和各種傳感成像技術的深度融合、計算機人才與中醫藥人才的融合,還需要以中醫學問題和臨床結果為導向,解決在診斷前、診斷中和治療后實現ROI區域精準分割、智能辯證施治、中草藥的標準化等方面的研究及應用問題。