熊剪 曹永杰 馬永剛 楊孝通 張吉 黃平1, 萬昌武
(1貴州醫科大學法醫學院 貴陽 550004; 2司法鑒定科學研究院/上海市法醫學重點實驗室/司法部司法鑒定重點實驗室/上海市司法鑒定專業技術服務平臺 上海 200063; 3南京醫科大學基礎醫學院2021級博士研究生 南京 211166;4西安交通大學附屬三二O一醫院影像科 漢中 723000; 5山西醫科大學法醫學院 太原 030001)
年齡推斷是法醫個體識別實踐中的重要一環,精確的推斷年齡可有效縮小信息查找范圍。未成年人年齡推斷的研究已趨于成熟,但成人年齡推斷方法的發展相對較緩。在法醫工作中,成年人的骨骼年齡推斷才是經常面臨的問題,因此國內外學者開展了大量研究,探索恥骨聯合面、髂骨耳狀面、肋骨胸骨端和顱縫等指標應用于成年人年齡推斷的可行性[1-3]。其中恥骨聯合在成年后仍表現出規律的增齡性變化,可作為成人年齡推斷指標。Suchey-Brooks分級方法根據恥骨聯合形態變化整體分為6個等級[1],將其研究樣本每一等級的平均年齡作為預測年齡進行成人年齡推斷,是最常用的恥骨聯合整體分級年齡推斷方法[4]。Hanihara等[5]通過對恥骨聯合表面的7個特征進行評分,使用線性回歸模型預測年齡,是最常用的特征評分年齡推斷方法。
隨著薄層掃描CT技術和容積再現技術(volume rendering technique,VRT)的快速發展,與恥骨聯合面表面的形態學變化特征相結合的研究逐年增多。相較于傳統方法,CT掃描避免了在復雜的處理過程中對真實骨骼脆弱部分的損害,同時清晰還原骨骼表面形態特征[6]。其次,在建立龐大的參考樣本數據庫時,CT數據可以實時更新和共享,有利于推進不同地區不同人群的骨齡研究。Suchey-Brooks分級方法已廣泛應用于CT三維重建模型[7-9],Hisham等[7]應用于馬來西亞人群時,以分級年齡范圍為標準的準確率達97.8%,而Hall等[8]應用于澳大利亞樣本時,男性準確率僅67%。這種整體分級方法只能預測分級的平均年齡,存在較大方法誤差,且評價過程較主觀,應用于不同樣本時差異較大。而特征評分法通過對各個特征的形態變化進行描述和評分,能相對客觀地定量評估骨骼形態變化,從而得出確切年齡。目前尚缺乏適用于恥骨聯合三維模型的特征評分體系。
既往研究常用線性回歸來擬合恥骨聯合特征評分與年齡的關系[9],但線性回歸模型用于年齡推斷時存在較大誤差。機器學習算法的蓬勃發展為建立年齡推斷模型提供了新思路和新方法,已應用于肋軟骨[11]、骨盆[12]和顱縫[13]年齡推斷中。機器學習回歸模型在處理年齡推斷問題時具有一定的優勢,相較于線性回歸,更適用于處理復雜的多維數據,可以提取數據中隱藏的有效信息[14],并識別年齡和骨骼形態變化特征之間的變量關系[15]。因此,機器學習回歸模型結合恥骨聯合形態變化的方法在成年人的年齡推斷中具有很大的潛力。
本研究通過觀察恥骨聯合三維重建模型的形態學變化,建立新的特征評分體系;使用機器學習回歸模型擬合訓練樣本特征評分與年齡的關系,建立成年人年齡推斷模型,旨在進一步提升成人年齡推斷的準確性。
研究對象回顧性收集2018年1月1日—2020年12月31日陜西省漢中醫院放射科的734例腹部或盆腔CT掃描病例資料,其中男性350例、女性384例。排除影響恥骨聯合增齡性變化的疾病、外傷、手術史及骨骼畸形等情況,從上述CT數據中隨機抽樣選取男性315例(中位年齡45.5歲)、女性334例(中位年齡46歲)作為訓練集進行模型訓練和參數選擇,剩余的85例樣本作為測試集。
為評價模型的泛化能力設置3個獨立測試集。(1)臨床CT測試集:男性35例(中位年齡44歲)、女性50例(中位年齡34.5歲);(2)PMCT測試集:回顧性收集的2013—2019年司法鑒定科學研究院96例死后CT掃描,男性51例(中位年齡53歲)、女性45例(中位年齡57歲);(3)真實骨骼CT測試集:收集司法鑒定科學研究院2000—2008年保存完好的82例真實恥骨,男性40例(中位年齡32.0歲)、女性42例(中位年齡34.5歲)。采用薄層CT將恥骨放置于解剖位置進行掃描。訓練集及各測試集樣本年齡分布見表1。
樣本收集符合醫學倫理規定,經司法鑒定科學研究院醫學倫理委員會審查同意(2020-03-27),由于研究對象的匿名性和本研究的回顧性,倫理委員會予以免除患者知情同意書。
儀器臨床來源的腹部或盆腔CT掃描均采用Optima CT660 (美國GE Healthcare公司),掃描厚度為0.625 mm,管電流為300 mA,管電壓為120 kV。測試樣本使用CT-SOMATOM Definition AS (德國Siemens Medical Solutions公司)掃描,管電壓為120 kV,管電流為110 mA,掃描厚度為0.6 mm。
所有樣本均保存為醫學數字成像與通信(DICOM)文件,數據導入RadiAnt DICOM Viewer 4.6.5軟件(波蘭Medixant公司)中進行3D虛擬重建,對恥骨聯合形態進行觀察對特征評分。
評分方法第一步,3名觀察者(A為法醫學博士研究生,B、C為法醫學碩士研究生)按照Suchey-Brooks分級方法[1]對所有的恥骨聯合虛擬模型進行分級。第二步,根據分級結果觀察樣本,同時參考已建立的評分系統的特征[5,10],篩選出7個在VR重建模型上可觀察到的年齡相關性形態學特征,即腹側緣、背側緣、聯合面下端、聯合面上端、腹側斜面、恥骨結節、聯合面溝嵴(圖1)。第三步,3名觀察者依次對649例虛擬骨骼樣本進行觀察,根據特征的時序性變化將其細分為3~5個階段,并為每個階段賦予分數,其中兩位觀察者的評分一致即作為最終標準。形態特征及其相關的評分標準如表2所示,各特征的評分用于評估雙側和性別差異、確定與年齡的相關性,并推導回歸模型。

圖1 恥骨聯合三維重建不同特征的形態變化Fig 1 Different morphological characteristics of pubic symphysis in three-dimensional reconstruction
統計學分析使用獨立樣本t檢驗分析虛擬恥骨聯合模型形態的左右兩側差異和男女性別差異,雙側檢驗以P<0.05評定顯著性。觀察者內和觀察者間一致性使用Cohen’s kappa檢驗進行評估,從總訓練樣本中隨機抽取50例樣本,由2位觀察者(A和B)重復評估。初次評估3周后,第一位觀察者對50例樣本進行再次評估以計算觀察者內誤差。對所有649例訓練樣本進行Spearman相關性檢驗,用于評估腹側緣等級、背側緣等級、聯合面下端等級、聯合面上端等級、腹側斜面等級、恥骨結節等級和聯合面溝嵴等級與實際年齡之間的相關性。
機器學習年齡推斷模型的構建及檢驗利用訓練集(n=649)恥骨聯合特征所獲得的評分,采用梯度提升回歸(gradient boosting regression,GBR)(參數設置:最大葉節點數=20,最大深度=2)、決策樹回歸(decision tree regression,DTR)(參數設置:最大葉節點數=20)、支持向量機回歸(support vector regression,SVR)(參數設置:懲戒參數=0.5)、貝葉斯嶺回歸(Bayesian ridge regression,BRR)(參數設置:最大迭代次數=300)、集成學習回歸(adaptive boosting,AdaBoost)(參數設置:最大迭代次數=100)、多層感知機回歸(multilayer Perceptron,MLP)(參數設置:最大迭代次數=300)等機器學習回歸算法來推導恥骨形態特征與年齡之間的關系[16]。模型其余參數與scikit-learn網站(https://scikit-learn.org)默認參數一致。應用K折交叉驗證(K=10)評估回歸模型的預測性能。
所有模型完成訓練后,分別計算訓練集、10折交叉驗證及每個測試集的預測年齡和真實年齡之間的平均絕對誤差(mean absolute error,MAE)、平均誤差(mean error,ME)、均方誤差(root mean square error,RMSE)、絕對誤差5歲以內百分比(AE<5%)和絕對誤差10歲以內百分比(AE<10%),以比較各模型的準確性和泛化能力。采用Bland-Altman圖和組內相關系數(ICC)分別評估測試樣本的模型預測年齡與真實年齡的相關性和一致性。
采用IBM SPSS 21.0(美國IBM公司)進行恥骨聯合特征評分與年齡的相關性分析,通過scikit-learn(V 0.17)和python(V 3.8)進行模型訓練和測試。
恥骨聯合各特征評分與年齡的相關性分析虛擬恥骨聯合模型形態的左右兩側差異無統計學意義,而性別差異有統計學意義,因此按性別分別建立預測模型。結果顯示恥骨聯合形態各特征K值都在0.815以上,表明不同觀察者對三維重建模型上不同形態特征的評分具有良好的一致性。男性和女性恥骨聯合各特征及其評分與真實年齡分布如圖2和3所示,可見各特征等級變化趨勢隨年齡升高而增加,且各等級間存在明顯差異。年齡與恥骨聯合各特征等級高度相關,所有相關系數均有統計學意義(P<0.05,表3),男性恥骨表面溝嵴等級與年齡相關性最高(r=0.814,P=5.5349E-8),女性腹側斜坡等級與年齡相關性最高(r=0.838,P=1.3131E-10)。總體腹側斜坡等級與年齡相關性最高(r=0.800,P=1.6513E-16)。

圖2 男性年齡分布與形態特征等級Fig 2 Age distribution according to morphological feature scores in males

圖3 女性年齡分布與形態特征等級Fig 3 Age distribution according to morphological feature scores in females

表3 形態特征等級和真實年齡之間的Spearman相關系數Tab 3 Spearman’s correlation between chronological age and morphological feature scores
訓練集與交叉驗證集結果通過擬合訓練集和交叉驗證集數據分性別建立GBR、SVR、DTR、AdaBoost、MLP和BRR等6種年齡估計模型。男性和女性所有年齡推斷模型在訓練集、10折交叉驗證集及各獨立測試集上的性能評估如表4和5所示。男性中,AdaBoost的綜合準確性最高,訓練集MAE為5.23歲,RMSE為6.90歲,AE<5%及AE<10%分別為58.73%和80.95%;10折交叉驗證集MAE為6.10歲,RMSE為8.35歲,AE<5%和AE<10%分別為59.14%和82.86%。女性中,GBR的綜合準確性最高,訓練集MAE為3.94歲,RMSE為5.25歲,AE<5%和AE<10%分別為69.46%和93.11%;10折交叉驗證集MAE為5.12歲,RMSE為6.71歲,AE<5%和AE<10%分別為67.45%和92.45%。

表4 男性中訓練集、驗證集和測試集樣本年齡推斷的準確性Tab 4 Accuracy of adult age estimation in the samples of training set, validation set and test sets in males

表5 女性中訓練集、驗證集和測試樣本集年齡推斷的準確性Tab 5 Accuracy of adult age estimation in the samples of training set, validation set and test sets in females
測試集結果用訓練好的模型分性別對3個獨立測試集進行年齡預測以評估模型的準確率和泛化能力。3個獨立測試集中各模型的性能如表4和5所示,男性中年齡推斷模型的誤差較低(MAE<10歲),AdaBoost在3個測試集上表現最好,MAE為5.23~7.04歲,RMSE為7.70~8.98歲,AE<5%和AE<10%分別為47.0%~51.4%和65.7%~82.5%。在40~70歲的年齡區間內,男性AdaBoost年齡推斷模型的MAE均<10歲(表6)。該模型在3個獨立測試集上的預測年齡與真實年齡之間高度相關(臨床CT測試集:ICC=0.788;PMCT測試集:ICC=0.827;真實骨骼CT測試集:ICC=0.894),Bland-Altman圖顯示預測年齡與真實年齡之間的平均差異在-0.18~-4.67歲(圖4)。

圖4 男性中AdaBoost模型在3個測試集中的預測年齡和真實年齡之間的相關性Bland-Altman圖Fig 4 Bland-Altman plot of the correlation between predicted age and true age in the 3 test sets analyzed by AdaBoost model in males

表6 男性AdaBoost年齡推斷模型用于測試集每10歲年齡組的準確率Tab 6 Accuracy of the male AdaBoost age inference model for test set per 10 years age group
女性年齡推斷模型中,GBR在3個測試集上表現最好,MAE為5.02~5.71歲,RMSE為6.44~7.63歲,AE<5%和AE<10%分別為54.00%~62.30%和83.33%~88.00%。在10~70歲的年齡區間內,女性GBR年齡推斷模型的MAE<10歲(表7)。該模型在3個獨立測試集的預測年齡與真實年齡之間高度相關(臨床CT測試集:ICC=0.930;PMCT測試集:ICC=0.923;真實骨骼CT測試集:ICC=0.881)。Bland-Altman圖顯示預測年齡與真實年齡之間的平均差異在-0.74~-2.49歲(圖5)。

表7 女性GBR年齡推斷模型用于測試集每10歲年齡組的準確率Tab 7 Accuracy of the female GBR age inference model for test set per 10 years age group
成年人年齡推斷是法醫實踐中經常面對的重要難題。由于成年后多數骨骼發育基本停止,骨骺和牙齒等發育相關的觀測指標難以直接用于成人年齡推斷。恥骨聯合表面形態不僅在年輕時表現為規律的骨骺融合,在老年時也表現為有據可循的退行性變化。這些變化呈現階段性,可以劃分為明確的年齡段或等級,在成年人的年齡推斷時具有良好表現[16]。
Hanihara等[5]通過對70例雙側恥骨聯合進行研究后,選擇對溝嵴、恥骨結節、恥骨表面下端、骨化結節、腹側緣、背側緣、恥骨聯合表面邊界等7個特征進行描述,并根據時序性變化分別賦予1~4分,使用多元回歸和量化理論模型對所得評分進行分析,獲得年齡推斷方程,從而定量評估骨骼年齡。有效避免了評估整體分級帶來的主觀性誤差,提高了年齡推斷的準確性。Chen等[10]在此基礎上,用262例中國漢族男性恥骨聯合作為訓練樣本,增加了腹側斜坡、聯合面骨質作為特征,使用相同的方法獲得年齡推斷方程,對骨骼年齡進行定量評估。然而,這些年齡推斷方程未在獨立測試樣本上進行驗證,其適用性和準確率有待進一步檢驗。
本研究采用薄層掃描CT技術和容積再現技術,沿用Suchey-Brooks的分級思路,對訓練集中649例恥骨聯合三維重組模型進行形態學分析,發現孔隙度和聯合面骨質在VR上難以觀測,與Wink等[17]及Villa等[18]研究結果一致,因此舍棄此類特征作為評分指標。同時參考Chen等[10]和Hanihara等[5]評分系統中恥骨聯合形態特征,選擇了在容積再現上能清晰表現的腹側緣、背側緣、聯合面下端、聯合面上端、腹側斜面、恥骨結節、聯合面溝嵴等7個特征作為研究對象。Telmon等[19]也通過研究表明,這幾類特征在虛擬模型上的增齡性變化表現與真實骨骼間無統計學差異。觀察訓練樣本特征的形態變化,重新劃分評分等級,并與年齡進行相關性分析,結果表明重新劃分的等級與年齡高度相關。訓練集男女樣本整體相關性均有統計學意義(P均<0.001):腹側緣(r=0.738)、背側緣(r=0.700)、聯合面下端(r=0.728)、聯合面上端(r=0.776)、腹側斜面(r=0.800)、恥骨結節(r=0.728)、聯合面溝嵴(r=0.796)。評分隨年齡增加而升高,且各評分之間差異顯著,由此證明新的評分系統適用于建立年齡推斷模型。
既往的研究中,對髖臼、顱縫、髂骨、坐骨結節等骨骼形態變化等級評分后,常用數學統計理論推斷年齡,如直線回歸、多元逐步回歸、理論量化模型等線性回歸分析[20-22]。效率及準確率較傳統分級方法有所提升,但線性回歸分析在處理年齡推斷問題上具有局限性:(1)法醫學年齡推斷特征評分與年齡之間不屬于線性結構,而線性回歸只能描述變量間的線性關系。(2)傳統的線性回歸數學統計模型無法處理異常值,在數據存在噪聲時會導致預測結果存在巨大誤差。使用機器學習非線性回歸模型能在多維空間中對數據進行擬合,可以處理復雜的非線性關系,通過正則化等數據預處理方式可以降低噪音影響,適用于建立年齡推斷模型。Zhang等[23]使用5種機器學習回歸模型對502例肋骨的形態變化等級評分與年齡的關系進行建模,其中DTR模型在測試集上表現最佳,男性MAE為5.31歲,但老年樣本較少,且未在不同樣本上進行驗證。Fan等[24]使用5種機器學習回歸模型對230例顱縫的愈合等級評分與年齡的關系進行擬合,其中SVR模型在測試集上表現最佳,得到的最小MAE為7.73歲,精確度較傳統的線性回歸方程有所提高。一方面由于顱縫的愈合等級與年齡相關性在老年時稍顯不足,另一方面訓練集中老年樣本較少,所以在<30歲或>60歲的年齡段表現欠佳,MAE>10歲。本研究在獲得恥骨聯合形態變化等級評分后按男性和女性分別建立6個機器學習回歸模型,同時分別在臨床CT樣本、PMCT樣本和真實骨骼CT掃描樣本上進行驗證。結果顯示:男性AdaBoost年齡推斷模型在3個獨立測試集上都表現良好,整體MAE分別為5.23、7.04和5.77歲。女性GBR年齡推斷模型應用于3個獨立測試集時,整體MAE分別為5.16、5.02和5.71歲。男性和女性年齡推斷最優模型MAE顯示各年齡段誤差無明顯差異,在60歲以后的年齡段MAE<10歲。Savall等[25]使用傳統恥骨年齡推斷方法在評估法國男性個體年齡時,60歲以后年齡段MAE>10歲(56~95歲男性MAE為14.1~33.0歲)。相較之,本研究提高了老年的年齡推斷準確率。本研究建立的男性和女性年齡推斷模型適用于不同來源的CT數據,在實際案例中可應用于不同場景。
本研究的創新性:通過觀察恥骨聯合CT重建模型的增齡性形態學變化,建立了虛擬恥骨聯合表面形態特征評分系統,并使用機器學習回歸算法對恥骨聯合各特征評分數據進行擬合,建立量化的成人年齡推斷模型,相較于傳統分級方法降低了主觀性誤差,提高了年齡推斷準確率。本研究的不足:訓練樣本還不夠充足,且分布不均勻;特征評分過程仍存在一定的主觀性誤差,后期考慮引入機器學習圖像識別技術替代人工評分過程來完全消除主觀性誤差。
作者貢獻聲明熊剪 論文構思、設計和撰寫,文獻調研,可行性分析,數據整理,構建模型。曹永杰 可行性分析,論文修訂。馬永剛,楊孝通數據收集,繪制圖表。張吉,黃平 繪制圖表,研究設計,數據分析。萬昌武 研究設計,論文構思和修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。