孫宏軍, 何 亮, 俞飛虹, 徐海燕
(1.南京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 210016; 2.南京醫(yī)科大學(xué)第一附屬醫(yī)院 超聲醫(yī)學(xué)科,江蘇 南京 210029)
調(diào)查結(jié)果顯示,人群中罹患甲狀腺結(jié)節(jié)率為19%~67%,其中5%~15%患者的甲狀腺結(jié)節(jié)為惡性,如果甲狀腺結(jié)節(jié)檢查為惡性,則該患者有很大幾率患上了甲狀腺癌[1]。超聲檢查是甲狀腺結(jié)節(jié)診斷、治療及隨訪(fǎng)評(píng)估中首選的影像學(xué)檢查方法[2]。
超聲檢查診斷取決于超聲設(shè)備的性能,更與超聲醫(yī)師的認(rèn)知和經(jīng)驗(yàn)密切相關(guān),不同醫(yī)師對(duì)同一病例的診斷結(jié)論可能差別很大,給臨床處理帶來(lái)困難。2009 年Horvath等[3]首次建立了甲狀腺影像報(bào)告和數(shù)據(jù)系統(tǒng),規(guī)范了甲狀腺結(jié)節(jié)的超聲診斷報(bào)告。此后,不同地區(qū)的研究者陸續(xù)提出了多種超聲風(fēng)險(xiǎn)分層系統(tǒng),提高了對(duì)甲狀腺結(jié)節(jié)的鑒別診斷能力[4~6]。美國(guó)放射學(xué)會(huì)于 2017 年發(fā)布了《ACR甲狀腺影像報(bào)告和數(shù)據(jù)系統(tǒng):ACR TI-RADS委員會(huì)白皮書(shū)》提出了一種風(fēng)險(xiǎn)分層方法(以下簡(jiǎn)稱(chēng) ACR TI-RADS)[7]。劉紅等回顧性分析661例甲狀腺結(jié)節(jié)的超聲影像學(xué)資料及病理結(jié)果,證實(shí)了ACR TI-RADS在定性診斷甲狀腺結(jié)節(jié)中具有較高的臨床應(yīng)用價(jià)值[8]。ACR TI-RADS根據(jù)甲狀腺結(jié)節(jié)的成分、回聲、形態(tài)、邊緣和強(qiáng)回聲五個(gè)影像學(xué)特征進(jìn)行診斷,將甲狀腺結(jié)節(jié)分為1~5類(lèi), 1類(lèi)陰性,2類(lèi)良性,3類(lèi)可能良性,4類(lèi)可疑惡性,5類(lèi)高度懷疑惡性。因此,基于超聲圖像的甲狀腺結(jié)節(jié)診斷可以歸結(jié)為多屬性多類(lèi)別的分類(lèi)問(wèn)題,使用計(jì)算機(jī)分類(lèi)算法構(gòu)建模型能夠輔助醫(yī)生進(jìn)行甲狀腺結(jié)節(jié)分類(lèi)診斷。
多屬性分類(lèi)是指根據(jù)對(duì)象在多個(gè)指標(biāo)下的綜合評(píng)價(jià)將其分類(lèi)至相對(duì)應(yīng)的類(lèi)別。多屬性分類(lèi)可以有效地處理復(fù)雜指標(biāo)條件下的決策分析問(wèn)題,在社會(huì)經(jīng)濟(jì)生活等方面有著廣泛的應(yīng)用。分類(lèi)決策算法應(yīng)用主要有兩類(lèi):一類(lèi)是直接分類(lèi)法,即決策者直接給出效用函數(shù)、指標(biāo)權(quán)重和分類(lèi)閾值等決策參數(shù),運(yùn)用這些參數(shù)建立多屬性分類(lèi)模型進(jìn)行分類(lèi),如ELECTRE TRI[9];另一類(lèi)是基于案例學(xué)習(xí)的方法,即決策者通過(guò)對(duì)具有代表性的典型案例集的分類(lèi)結(jié)果進(jìn)行學(xué)習(xí),構(gòu)建對(duì)應(yīng)的模型,對(duì)所有評(píng)價(jià)對(duì)象進(jìn)行分類(lèi),其代表性算法有優(yōu)勢(shì)粗糙集[10]以及基于案例距離的分類(lèi)決策模型[11,12]等方法。直接分類(lèi)法依賴(lài)于決策者的認(rèn)知水平和經(jīng)驗(yàn)積累,如ELECTRE TRI需要進(jìn)行大量的兩兩比較以及人工設(shè)定分類(lèi)閾值。當(dāng)決策者認(rèn)知具有局限性時(shí),直接給出這些分類(lèi)結(jié)果較為困難。案例學(xué)習(xí)分類(lèi)法是基于多屬性評(píng)價(jià)指標(biāo)將方案按照某種特征進(jìn)行類(lèi)別劃分,將具有相似性質(zhì)的方案劃分為同一類(lèi)別。
在甲狀腺結(jié)節(jié)診斷過(guò)程中,超聲醫(yī)師通常對(duì)病兆特征顯著的病例直接給出診斷結(jié)果;對(duì)較為復(fù)雜的病例,則需要通過(guò)多個(gè)指標(biāo)比較分析鑒別診斷。本文借鑒該思想,提出了一種兩階段多屬性分類(lèi)方法,第一階段根據(jù)ACR TI-RADS中的直接分類(lèi)標(biāo)準(zhǔn)構(gòu)建決策樹(shù)模型,識(shí)別出區(qū)分性最好的類(lèi)別;第二階段,通過(guò)典型案例學(xué)習(xí)建立多屬性分類(lèi)決策模型,計(jì)算指標(biāo)權(quán)重和分類(lèi)閾值,完成復(fù)雜案例的分類(lèi)。
疾病診斷思維是指利用客觀臨床資料按科學(xué)思維方法進(jìn)行思維活動(dòng),以達(dá)到揭示疾病實(shí)質(zhì),解決疾病診治問(wèn)題的目的[13]。在診斷學(xué)中,將疾病的診斷程序分為四個(gè)步驟:(1)收集臨床資料,是指了解病人的情況并進(jìn)行相關(guān)檢查;(2)分析、評(píng)價(jià)、整理,將分散的臨床資料整合起來(lái),從整體上進(jìn)行思考和推理,結(jié)合臨床經(jīng)驗(yàn)及專(zhuān)業(yè)知識(shí),找出診斷線(xiàn)索;(3)提出初步診斷;(4)確立及修正診斷。根據(jù)疾病診斷思維,結(jié)合甲狀腺結(jié)節(jié)的臨床實(shí)際診斷過(guò)程,專(zhuān)業(yè)醫(yī)師在超聲檢查時(shí)首先會(huì)根據(jù)個(gè)人的醫(yī)學(xué)知識(shí)和經(jīng)驗(yàn)積累給出一個(gè)初步診斷,通常特征明顯較容易識(shí)別的疾病在此時(shí)即可識(shí)別出來(lái);然后再詳細(xì)分析超聲圖像,對(duì)較為復(fù)雜、難以區(qū)分的情況進(jìn)行鑒別診斷,最終給出診斷結(jié)果。因此,本文在借鑒該診斷思維和臨床實(shí)踐的基礎(chǔ)上,針對(duì)甲狀腺結(jié)節(jié)的診斷問(wèn)題提出一種兩階段多屬性決策方法。
甲狀腺結(jié)節(jié)分類(lèi)診斷問(wèn)題可以描述為根據(jù)成分、回聲、形態(tài)、邊緣和強(qiáng)回聲五個(gè)影像學(xué)特征將甲狀腺結(jié)節(jié)診斷為5個(gè)類(lèi)別,各分類(lèi)說(shuō)明詳見(jiàn)表1。

表1 甲狀腺結(jié)節(jié)類(lèi)別說(shuō)明
其中,類(lèi)別1表示良性(陰性),屬于正常甲狀腺,不需要隨訪(fǎng)進(jìn)一步檢查。而類(lèi)別2~5表示有惡性風(fēng)險(xiǎn)的甲狀腺,需要進(jìn)一步檢查診斷,嚴(yán)重的需要手術(shù)治療等。因此本文主要是對(duì)類(lèi)別2~5這4個(gè)類(lèi)別進(jìn)行鑒別診斷。
成分、回聲、形態(tài)、邊緣和強(qiáng)回聲等影像學(xué)特征是多屬性分類(lèi)的屬性,其影像學(xué)描述及量化表示分值參考甲狀腺ACR TI-RADS分級(jí)標(biāo)準(zhǔn)[7]。基于多屬性決策的甲狀腺結(jié)節(jié)分類(lèi)診斷過(guò)程如圖1所示,可以使用如下數(shù)學(xué)表示:

圖1 甲狀腺結(jié)節(jié)診斷分類(lèi)示意圖
(1)案例集A,A={A1,…,Ai,…,A|A|},其中Ai為第i個(gè)評(píng)價(jià)對(duì)象,|A|為A集合元素個(gè)數(shù)。
(2)評(píng)價(jià)指標(biāo)集C,C=(C1,C2,C3,C4,C5),表示甲狀腺結(jié)節(jié)診斷的{“成分”,“回聲”,“形態(tài)”,“邊緣”,“強(qiáng)回聲”}五種特征。其中Cj為第j個(gè)評(píng)價(jià)指標(biāo)。
(3)對(duì)于評(píng)價(jià)對(duì)象Ti的第j個(gè)評(píng)價(jià)指標(biāo)Cj(Ai),取值根據(jù)ACR TI-RADS評(píng)價(jià)標(biāo)準(zhǔn)得出。
(4)分組G,G(G1,G2,G3,G4),表示甲狀腺結(jié)節(jié)的2~5類(lèi)別,其中g(shù)m為第m個(gè)分組。

(2)案例集從歷史診斷記錄獲得,不失一般,本文設(shè)定,Tm?A,并且Tm∩Tn=?(?m,n=1,…,5,m≠n),即案例集均來(lái)自總體評(píng)價(jià)對(duì)象集,并且由于不同分組特點(diǎn)代表性,各自的案例集不存在交集。

ACR TI-RADS將結(jié)節(jié)按照成分、回聲、形狀、邊緣、強(qiáng)回聲五個(gè)指標(biāo),分別根據(jù)超聲特征賦予相應(yīng)分?jǐn)?shù)。表2給出了五個(gè)指標(biāo)可能出現(xiàn)的特征及其對(duì)應(yīng)的得分。在結(jié)節(jié)評(píng)估時(shí),超聲醫(yī)生從每個(gè)指標(biāo)中選擇對(duì)應(yīng)的要素然后計(jì)算該結(jié)節(jié)總得分,從而確定結(jié)節(jié)的ACR TI-RADS級(jí)別。本文關(guān)于五個(gè)指標(biāo)的量化方法,依據(jù)ACR TI-RADS中結(jié)論。

表2 甲狀腺結(jié)節(jié)指標(biāo)量化說(shuō)明
ACR TI-RADS給出一種甲狀腺結(jié)節(jié)直接分類(lèi)方法,即將每一種屬性量化后的分值相加,按照分值的總和進(jìn)行分類(lèi)。基于該分類(lèi)方法,本文構(gòu)建四個(gè)分類(lèi)決策樹(shù),如圖2所示。通過(guò)案例測(cè)試,識(shí)別出區(qū)分性最好的類(lèi)別。

圖2 二分類(lèi)決策樹(shù)模型

直接分類(lèi)法對(duì)于特征明顯的甲狀腺結(jié)節(jié)能夠快速分類(lèi),但是對(duì)于特征區(qū)分不明顯尤其是需要鑒別診斷的情況,難以有效分類(lèi)。本文針對(duì)這種情況,提出基于案例距離的多屬性分類(lèi)方法對(duì)復(fù)雜病例進(jìn)行分類(lèi)。基于案例距離的多屬性分類(lèi)流程如圖3所示,以2個(gè)指標(biāo)3個(gè)分組為例,案例距離用歐式距離表示,通過(guò)學(xué)習(xí)典型案例集構(gòu)建目標(biāo)函數(shù),求解最優(yōu)權(quán)重和閾值并對(duì)全體對(duì)象進(jìn)行分類(lèi)。

圖3 分類(lèi)流程示意圖
3.4.1 案例距離的設(shè)定
對(duì)于給定的案例集T,通過(guò)直接分類(lèi)法識(shí)別出分組g1=Ti后,采用基于案例距離的多屬性分類(lèi)方法對(duì)剩余案例Tm(m=2,…,5;m≠i)進(jìn)行分類(lèi),相關(guān)定義如下。







3.4.2 多屬性決策模型的構(gòu)建



對(duì)于第m組以外的分組的案例應(yīng)滿(mǎn)足以下約束條件,?q∈{1,2,…,|Tm|},Tq∈(T-Tm):

根據(jù)閾值和約束條件的設(shè)定,易知案例集Tm分類(lèi)的總體誤差平方和:

數(shù)據(jù)來(lái)源于南京醫(yī)科大學(xué)第一附屬醫(yī)院,從16份中文超神診斷電子病歷數(shù)據(jù)P={P1,P2,…,P16}中,分別用T2={p6,p3,p4,p11},T3={p14,p12,p15,p1},T4={p10,p5,p13,p16},T5={p7,p9,p8,p2}表示,按照成分、回聲、形狀、邊緣和強(qiáng)回聲5個(gè)指標(biāo)屬性及診斷結(jié)果提取決策信息,并根據(jù)上文指標(biāo)量化方法對(duì)各案例屬性進(jìn)行量化,構(gòu)建包含4個(gè)類(lèi)別的可量化計(jì)算的案例集,詳細(xì)信息見(jiàn)表3。

表3 甲狀腺結(jié)節(jié)案例數(shù)據(jù)集
針對(duì)本文甲狀腺結(jié)節(jié)分類(lèi)問(wèn)題,通過(guò)構(gòu)建的案例數(shù)據(jù)集,按照文章第2節(jié)兩階段法分析,詳細(xì)計(jì)算過(guò)程如下。
(1)第一階段:采用直接分類(lèi)法對(duì)各類(lèi)別分類(lèi)并計(jì)算分類(lèi)正確率,如表4所示。

表4 直接分類(lèi)正確率
由表4所知,T2的直接分類(lèi)正確率最高,因此ACR TI-RADS 2的區(qū)分性最好。

Step1構(gòu)建優(yōu)化模型學(xué)習(xí)案例集。案例集采集的依據(jù)是:每個(gè)案例集包含4個(gè)案例;其中前3個(gè)案例所對(duì)應(yīng)的5個(gè)屬性評(píng)價(jià)結(jié)果與所在組一致,后2個(gè)案例分別從另外兩個(gè)案例集中選取。
Step2計(jì)算各案例集的分組中心點(diǎn),并進(jìn)一步計(jì)算各案例到分組中心點(diǎn)的距離,詳細(xì)結(jié)果見(jiàn)表5。

表5 案例樣本到分組中心點(diǎn)距離

Step4使用LINGO 17.0求解得,R3=0.1093,W3={0.1178,0.0764,0.1036,0.1032,0.5993};R4=0.2684,W4={0,0.1405,0.5677,0.2918,0};R5=0.1831,W5={0.1121,0.0839,0.1137,0.3109,0.3793},將其代入公式(3),可以求得各樣本與分類(lèi)中心點(diǎn)的距離D(Pi)。


表6 樣本中心點(diǎn)距離-閾值計(jì)算結(jié)果

多屬性分類(lèi)模型的權(quán)重反映了特征的重要程度。通過(guò)分析表3數(shù)據(jù)集和多屬性模型的權(quán)重W3,W4和W5可知,T3組的案例數(shù)據(jù)相對(duì)于T2組的案例數(shù)據(jù),主要變化在于最后一個(gè)屬性“強(qiáng)回聲”,而W3的最后一個(gè)屬性的權(quán)重為0.599,表明該屬性對(duì)于確定分組的影響最大。同理可知,T4組的“形狀”屬性對(duì)該分組影響最大,其權(quán)重為0.5677;T5組的“邊緣”和“強(qiáng)回聲”是決定案例是否屬于該組的重要特征,因此其權(quán)重分別為0.3109和0.3793。
另外,本文所提方法根據(jù)臨床疾病診斷思維將決策過(guò)程分為兩個(gè)階段,與直接分類(lèi)方法相比較:
(1)甲狀腺結(jié)節(jié)分類(lèi)診斷問(wèn)題本質(zhì)上是典型的多分類(lèi)問(wèn)題,因此可以嘗試直接采用成熟的模型和算法進(jìn)行求解。分別采用邏輯回歸模型(LR)和層次支持向量機(jī)(H-SVM)來(lái)解決本文甲狀腺結(jié)節(jié)智能診斷分類(lèi)問(wèn)題。考慮到本研究中的類(lèi)別是互斥的,屬于單標(biāo)簽多分類(lèi)問(wèn)題,因此對(duì)于邏輯回歸模型,直接通過(guò)分類(lèi)器得到4個(gè)類(lèi)別;對(duì)于層次支持向量機(jī),采用“偏態(tài)樹(shù)”的形式,即每一個(gè)包含多個(gè)類(lèi)別的節(jié)點(diǎn)上的分類(lèi)器,將一個(gè)類(lèi)別與其它類(lèi)別分開(kāi),直至所有節(jié)點(diǎn)上只有一個(gè)類(lèi)別。因案例數(shù)據(jù)有限,此處采用交叉驗(yàn)證法,案例數(shù)據(jù)分為4組(每組分別從T2~T5中各取1個(gè)案例),其中3組作為訓(xùn)練數(shù)據(jù),1組作為測(cè)試數(shù)據(jù),共進(jìn)行3次,詳細(xì)計(jì)算結(jié)果如表7所示。

表7 分類(lèi)模型精度比較
由表7可知,采用本文所提兩階段多屬性分類(lèi)方法的結(jié)果優(yōu)于其它方法。
(2)使用文中第二階段的基于案例距離的多屬性分類(lèi)模型直接進(jìn)行分類(lèi)決策。由公式(9)可知直接進(jìn)行分類(lèi)至少需要7個(gè)約束不等式,則目標(biāo)函數(shù)即計(jì)算7個(gè)誤差調(diào)整系數(shù)平方和的最小值,而本文所提方法的目標(biāo)函數(shù)是計(jì)算5個(gè)誤差調(diào)整系數(shù)平方和的最小值,如表8所示,計(jì)算復(fù)雜度更低。

表8 分類(lèi)模型計(jì)算時(shí)間比較
綜上分析,本文所提方法對(duì)于解決甲狀腺結(jié)節(jié)分類(lèi)診斷問(wèn)題,在分類(lèi)精度和計(jì)算復(fù)雜度上比直接分類(lèi)求解更有優(yōu)勢(shì)。
本文針對(duì)甲狀腺結(jié)節(jié)的診斷問(wèn)題進(jìn)行了拓展研究,提出一種兩階段分類(lèi)方法,在第一階段根據(jù)經(jīng)驗(yàn)知識(shí)進(jìn)行直接分類(lèi),將區(qū)分性較好的類(lèi)別直接識(shí)別出來(lái);第二階段,通過(guò)學(xué)習(xí)已有的案例信息,構(gòu)建最優(yōu)化求解模型得出分類(lèi)參數(shù)信息,將其應(yīng)用于案例的分類(lèi)決策。該方法適用于多分類(lèi)疾病診斷等一類(lèi)醫(yī)學(xué)問(wèn)題,例如乳腺結(jié)節(jié)的診斷分類(lèi)、高血壓的分期診斷等。該方法以臨床疾病診斷思維為指導(dǎo),充分利用專(zhuān)業(yè)醫(yī)生的醫(yī)學(xué)知識(shí)和臨床經(jīng)驗(yàn),又結(jié)合了多屬性決策模型的優(yōu)勢(shì),對(duì)特征明顯易于分類(lèi)的情況直接給出診斷結(jié)果,對(duì)于較為復(fù)雜需要鑒別診斷的病例能夠通過(guò)模型快速得到結(jié)果且準(zhǔn)確率高,這些優(yōu)勢(shì)使得本文方法便于推廣使用。