冷淥清,花蕊,石峰,陳明,吳玉橋,朱珠
垂體作為人體重要的內分泌腺,與其相關病變的診斷與治療一直受到臨床關注,最常見的包括矮小癥、肥胖癥、垂體增生以及垂體微腺瘤等,特別是矮小癥和肥胖癥患兒垂體大小檢查已成為常規。實際工作中都采用高度值來衡量垂體大小,因大部分垂體形態欠規則,不同的測量點可能造成值的差異性,如果用體積替代高度衡量垂體大小,將減少相應的問題并提高垂體病變檢出的敏感性。目前部分設備或軟件可以進行體積測量,需人工逐層勾畫后計算,操作繁瑣,本研究擬通過計算機深度學習,探討人工智能(artificial intelligence,AI)用于垂體體積自動測量的可行性。
人在回路(human in the loop)機器學習方式是通過人與機器學習過程進行交互,此方法不僅可以增加機器學習的準確性,還可以明顯提高人工效率,是近年來AI研究中受到業內認可的方法,通常表現為迭代式建模和糾錯[1,2]。
訓練數據來源于CoRR(Consortium for Reliability and Reproducibility)公開數據庫中5~70歲年齡段顱腦3D T1WI圖像1285例。納入標準:垂體高度3~10 mm,腺垂體與神經垂體顯示清晰。按照5~15歲、16~25歲、26~50歲、51~70歲年齡段分成4組,每組隨機選擇80例,分4批次進行試驗,單次每個年齡組隨機選擇20例,不合格樣本剔除后參照隨機原則補足。
標注采用Slicer 4.11版本軟件,圖像格式為NIFTI,神經垂體和腺垂體獨立標注,標注標準如下:①神經垂體的標注區域為垂體后葉區高T1信號區(圖1),除神經垂體外,垂體窩內非低信號區均標為腺垂體,低信號灶不在標注范圍(圖2)。②垂體標注采用橫軸面、矢狀面和冠狀面三個方位共同標注,其中矢狀面側重上下界線,橫軸面和冠狀面側重左右界線,在矢狀面圖像上左右界線難判定時以橫軸面或冠狀面為準,而橫軸面和冠狀面上下界線難判定時以矢狀面為準(圖3)。③標注過程中,海綿竇血管、鞍區骨質、鞍旁間隙以及場強因素導致的垂體信號不均勻可能造成干擾,在人工校準時需注意修正(圖4~6)。④部分樣本可能存在側壁增厚且與腺體分界不清,標注時參照鄰近側壁軟組織信號厚度進行剔除(圖7)。垂體分割模型使用級聯的VB-Net網絡進行訓練,該網絡是V-Net[3]的變體,在V-Net網絡框架基礎上加入瓶頸層,減少網絡參數數量,降低顯存。第一級VB-Net網絡對垂體進行粗分割,定位垂體位置;第二級VB-Net網絡基于垂體分割結果切塊進行精細分割,把垂體分割成神經垂體和腺垂體兩部分(圖8)。
垂體分割模型采用迭代式標注-訓練的方法獲得,包含以下步驟:①初始每組選擇3例圖像進行人工標注神經垂體和腺垂體,將人工標注后圖像作為訓練集進行模型訓練,直至模型收斂,可以初步完成垂體分割,獲取初始模型。如果無法完成初始模型建立,追加人工標注分割病例,直至計算機獲得初始模型。②應用初始模型對首批80例圖像進行分割,獲得分割后的神經垂體、腺垂體與垂體總體積數據,將分割結果進行人工校準,獲得校準后相對應的體積數據作為金標準。③使用配對樣本t檢驗對獲得的數據進行統計分析,如果AI測量值與人工測量值任意一個年齡組差異有統計學意義,則把本次人工校準后的垂體圖像與分割圖像加入訓練集,對上一次模型進行迭代優化。利用優化后的新模型繼續進行下一批次圖像AI分割與人工校準,獲得新一組測試數據。④重復進行步驟③,直到AI測量值和人工測量值在所有年齡段差值均沒有統計學意義為止。
進行統計分析的垂體體積數據包括神經垂體、腺垂體和總垂體3個值,采用AI識別自動測量和人工校準分別獲得AI測量值與人工測量值兩組數據,應用Python和SPSS軟件對兩組數據進行配對t檢驗、Dice計算和Spearman相關性分析,t檢驗以P>0.05為兩組數據差異沒有統計學意義。
經過初始12例人工標注后病例的訓練,計算機能進行垂體識別與簡單分割,初始模型建立成功。
經過4批次AI標注與再學習、人工校準,第4批次各年齡段神經垂體、腺垂體以及總垂體體積校正前后數據差值沒有統計學意義,t值為0.137~0.928。各批次t檢驗結果見表1。
第4批次各年齡段人工校準前后,最小Dice值0.941為16~25歲年齡組神經垂體數據,最大值0.989為25~50歲年齡組垂體總體積數據(表2)。同組數據進行Spearman相關性分析,校準前后腺垂體、神經垂體及垂體總體積相關系數分別為0.969、0.981和0.984(表3)。

圖1 a)垂體矢狀面T1WI示腺垂體為等信號,神經垂體為高信號;b)標注圖像,將等信號腺垂體區域標注為淺綠色,將高信號神經垂體區域標注為淺黃色。

圖8 級聯的VB-Net網絡框架。

表1 不同年齡段各次人工校準前后垂體體積t檢驗結果

表2 第4批次各年齡段人工校準前后垂體各區域分割對比Dice值

表3 第4批次人工校準前后數據Spearman相關性分析
經過電腦反復3批次學習與人工校準,第4批次AI標注的各年齡段神經垂體、腺垂體與垂體總體積三組數據均與人工校準數據的差異沒有統計學意義,Dice值為0.941~0.989,Spearman相關系數大于0.969,標志著AI深度學習的垂體分割模型建立成功。
人工智能在醫學影像方面的應用近年來不斷增多,相關領域也成為醫療機構研發的重要方向[4,5]。垂體人工智能與數字化領域相關的研究,主要集中在鞍區病變的手術方案設計、AI輔助定性及放療定位,方法上以影像學多模態結合計算機不同算法建模、動態不確定因果圖以及相關放療定位軟件[6-8]。國內有人對垂體疾病建立數據庫,輔助疾病診斷與治療[9]。針對垂體區域無明顯病變的研究相對較少,主要研究范圍為激素相關病變垂體大小情況分析,如矮小癥、肥胖癥等,類似研究中,衡量垂體變化的參數多數是采用垂體高度值變化,只有少數研究基于3D軟件人工勾畫進行垂體體積半自動定量分析[10,11]。
針對形態規則的垂體徑線測量,可重復性尚好,如果垂體形態欠規則,測量值的重復性會相應變差,垂體體積與垂體形態無關,因此采用體積來進行垂體的大小評估,將有效解決重復性差的問題。以球體體積計算為例,V=(4/3)πr3(V體積,r球體半球),當直徑從4 mm增大到5 mm時,增大了約25%,但體積將從33.5 mm2增加到65.4 mm2,增大約95%,體積的變化是長度值變化的4倍,因此,體積在反映物體變化上比徑線更敏感。隨著3D T1WI高分辨序列在1.5T以上設備的普及,若能實現AI垂體體積自動標識,將有利于垂體定期復查并早期發現異常變化,達到早期發現病變的目的。區別于實物模型,AI垂體分割模型是指計算機獲得的一種算法,是經過反復學習后計算機成功區分指定區域的技能,在本研究中表現為對神經垂體和腺垂體的自動識別。
研究所用圖像為公共數據庫3D T1WI顱腦矢狀面圖,層厚1 mm,無間隔掃描,圖像設備無限制。實驗中,將垂體窩內等T1組織認定為腺垂體,類似Rathke囊腫低信號灶被排除在腺垂體范圍外,垂體后緣高T1信號認定為神經垂體,實驗只對比兩種方法對認定的腺垂體和神經垂體區域體積測量值,不涉及疾病診斷與正常值測量。
磁共振掃描中,呼吸運動、蝶竇空氣、海綿竇區血管以及骨質常干擾腺垂體信號,其中以場強不均勻所致的腺垂體高信號偽影較多見,主要表現在腺垂體外周區域,校準時應注意與神經垂體區分開,將其歸入腺垂體,在定位上以神經垂體解剖位置靠后作為參考依據,需橫軸面、冠狀面、矢狀面多方位反復校正。圖7所示側壁增厚,在標注過程中不少見,產生側壁增厚的原因可能與局部蝶竇骨質信號或海綿竇信號有關,標注中如無法與鄰近腺垂體分界開,參考垂體外組織厚度進行減少標記,這樣可以防止腺垂體體積假性增多。
本研究中4個年齡段參考垂體發育時段設計,通過增加時段與總數據共同對比的差異性,增加了全數據對比差異沒有統計學意義的難度,進而提高了AI模型標準。
目前,垂體體積的測量沒有明確的金標準,臨床相關研究均以3D軟件進行人工標記后計算的數據作為金標準[10,11]。評估AI分割與金標準數據比較常用相似度來分析,采用Dice值[7,12,13],該值越接近1,表示待評估的分割值與金標準分割之間相似度越高,本研究第4批次數據Dice值達0.941以上,結合同組數據校準前后腺垂體、神經垂體與垂體總體積的相關系數大于0.969,說明AI識別的相似度已接近人工標準。
本研究用12例圖像進行計算機訓練建立初始模型后,采用迭代學習與糾錯方式反復優化,經過3批次學習,第4批次數據即達到校準前后數據差異沒有統計學意義,且Dice值大于0.941,初步認為AI垂體分割建模成功。AI垂體分割模型建立后,尚需要不同單位不同機型的更多數據導入進行迭代學習與模型優化,最終訓練成能識別不同設備垂體分區的成熟模型,實現垂體體積AI自動精準測量。