施雅慧 李作峰 常 才 張曉艷
(1同濟大學(xué)生命科學(xué)與技術(shù)學(xué)院 上海 200092; 2飛利浦中國研究院 上海 200233;3復(fù)旦大學(xué)附屬腫瘤醫(yī)院超聲醫(yī)學(xué)科 上海 200032)
目前臨床上診斷先天性心臟病多采用超聲心動圖檢查[1-3],其診斷準確率高且具有直觀、無創(chuàng)、安全、可反復(fù)操作等優(yōu)點[4]。由于超聲檢查的測量結(jié)果易受設(shè)備、操作和體位等眾多因素的影響[5],醫(yī)師會用非結(jié)構(gòu)化的自由文本記錄檢查過程中觀察到的疾病征象和初步診斷,即超聲報告中的“所見”和“結(jié)論”部分。臨床醫(yī)師基于報告內(nèi)容對疾病發(fā)展情況進行評估,進而做出相應(yīng)的臨床診療決策[6-7]。
分析超聲檢查報告內(nèi)容與臨床決策間的關(guān)聯(lián),能夠量化報告內(nèi)容在臨床實踐中的應(yīng)用價值,并從報告中篩選出影響臨床決策的關(guān)鍵信息,從而完善檢查報告的信息質(zhì)量和書寫規(guī)范,提升醫(yī)院不同科室間信息傳遞的效率。通過對大量醫(yī)療文檔的總結(jié)歸納,有望挖掘出潛在的診斷模式,協(xié)助臨床工作者加深對疾病和診療方法的理解,也為后續(xù)的機制研究提供一些線索和初步假設(shè)。
自然語言處理(natural language processing,NLP)技術(shù)能夠高效、準確地從自由文本書寫的檢查報告中抽取出特定信息,有助于檢查結(jié)果的結(jié)構(gòu)化存儲和后續(xù)分析[8]。通過疾病征象的抽提,結(jié)合機器學(xué)習(xí)算法,能夠?qū)W習(xí)診斷模式及規(guī)則并為臨床提供決策支持[9]。本研究擬通過NLP技術(shù)與機器學(xué)習(xí)算法,分析兒童先天性心臟病的超聲心動圖報告及臨床風(fēng)險評估結(jié)果,構(gòu)建并評價風(fēng)險等級預(yù)測模型,進而評估報告內(nèi)容與患兒風(fēng)險的相關(guān)性,并從中挖掘臨床決策所依賴的關(guān)鍵信息。
研究對象本研究從在線醫(yī)學(xué)論壇(http://www.ibabyhear.com/forum.php?mod=forumdisplay &fid=6)收集到2 525份關(guān)于兒童先天性心臟病的咨詢病例。通過解析網(wǎng)頁內(nèi)容獲取其中的超聲心動圖報告內(nèi)容、年齡、性別和體重信息,以及受咨詢醫(yī)師為患兒評定的風(fēng)險等級,該風(fēng)險等級包含臨床醫(yī)師對疾病嚴重程度的評估及相應(yīng)的治療建議(分級指南見表 1)。

表1 發(fā)布于論壇咨詢板塊的風(fēng)險評估指南Tab 1 Risk evaluation guidelines provided by the online forum
Criteria column demonstrates several typical symptoms for every risk level.A patient will be assigned to the highest risk level of which any listed condition can match his/her echocardiography report.However,all the report contents wouldn’t perfectly match the listed criteria.The physician needs to make the diagnosis based on his clinical experience as well as the above guidelines.
剔除網(wǎng)頁中同時包含多份報告、報告內(nèi)容不全、缺失患兒個人信息或風(fēng)險等級的1 483份病例,最終納入分析的樣本量為1 042例(表2),其中女性549例、男性493例,平均年齡(335.97±841.22)天,平均體重(43.75±373.52)kg。

表2 數(shù)據(jù)集的統(tǒng)計描述Tab 2 Descriptive statistics of the variables
A character can be a Chinese character,an English letter,a digit or a punctuation.Each string of one or more blank characters (spaces,line breaks and tabs,etc.) is also counted as one character.
基于自然語言處理的特征構(gòu)建
基于n元語法(n-gram)的自動特征生成首先將同一份心臟彩超報告的“所見”和“結(jié)論”部分拼接成一份完整文檔,再使用Jieba分詞工具進行分詞。中文句子被以詞為單位進行切分,英語單詞和首字母縮寫詞(如“左心室射血分數(shù)”的縮寫“LVEF”)均會被視為一個完整的詞。由于本研究收集的數(shù)據(jù)來自不同的地域和機構(gòu),設(shè)備及操作水平不盡相同,報告中具體測量值的參考價值十分有限。因此,我們利用正則表達式將分詞結(jié)果中的實數(shù)統(tǒng)一替換為“#
通過預(yù)實驗的測試,本研究最終采用3-gram(即取n=3的n-gram)組成自動生成的候選特征。例如,“室間隔膜缺損約8 mm”這一短句,首先經(jīng)分詞后得到“室間隔/膜/缺損/約/8/mm”。其次,實數(shù)“8”被替換后得到“室間隔/膜/缺損/約/#
為進一步縮小特征空間,從而降低數(shù)據(jù)稀疏性并提升最終的風(fēng)險等級預(yù)測效果,我們借助正則表達式識別并剔除包含標(biāo)點符號的3-gram,同時剔除在全部文檔集合中出現(xiàn)次數(shù)過少(小于5)的3-gram,得到了自動生成的特征集合。其中仍然有大量語義不完整或信息量較低的3-gram,如“一大小約”、“中斷處可見”和“各瓣膜形態(tài)”等。為篩選出具有臨床意義的特征,我們進一步將領(lǐng)域知識引入特征的構(gòu)建過程。
借助臨床與超聲影像學(xué)術(shù)語進行特征篩選通過人工收集和整理,得到用于特征篩選的超聲心動圖疾病征象:(1)表1所示的風(fēng)險評估規(guī)則中提及的臨床決策依據(jù),包括肺動脈狹窄、肺動脈閉鎖、室間隔缺損、完全性肺靜脈異位引流、主動脈弓中斷、復(fù)雜先心病、右室雙出口、完全性房室間隔缺損、法洛四聯(lián)癥、法洛三聯(lián)征、法洛五聯(lián)癥、先天性心臟病、房間隔缺損、動脈導(dǎo)管未閉、先心病、肺動脈瓣狹窄、卵圓孔未閉、術(shù)后恢復(fù)良好;(2)超聲醫(yī)師提供的檢查報告常用術(shù)語,包括單心室、雙心室、完全性大動脈轉(zhuǎn)位、大動脈轉(zhuǎn)位、輕度肺動脈高壓、中度肺動脈高壓、重度肺動脈高壓、右向左分流、雙向分流、左向右分流。
使用Jieba工具對這些疾病征象逐一進行分詞。最后,通過腳本自動篩查基于報告內(nèi)容生成的2-gram、3-gram僅保留嚴格包含某個術(shù)語全部分詞結(jié)果的特征。例如,風(fēng)險評級規(guī)則中的“肺動脈狹窄”經(jīng)分詞被切分為“肺動脈/狹窄”,特征集合中的“肺動脈/未見/狹窄”和“肺動脈/輕度/狹窄”因包含這一分詞結(jié)果而被保留。而語義不完整的“肺動脈/可見”由于無法匹配任何一個術(shù)語的分詞結(jié)果,會被從特征集合中剔除。
基于決策樹的風(fēng)險等級評估模型經(jīng)過上述的特征生成與篩選,每份超聲心動圖報告可由通過篩選的n-gram表示為一個向量。以臨床醫(yī)師評估的風(fēng)險等級為分類標(biāo)簽,通過機器學(xué)習(xí)算法訓(xùn)練模型,能夠?qū)崿F(xiàn)基于報告內(nèi)容的風(fēng)險等級預(yù)測。
本研究使用weka軟件[11]和scikit-learn程序包[12]作為分類模型的訓(xùn)練和評估工具。為觀察醫(yī)師可能采取的決策過程,選用了可讀性較強的決策樹模型。通過分析決策結(jié)點上使用的變量和決策樹的分類規(guī)則,探尋臨床醫(yī)師基于報告內(nèi)容評估患兒風(fēng)險時的主要依據(jù)。
由于數(shù)據(jù)集中各個風(fēng)險等級的分布極不均衡(被評估為“3級”的患兒占全部病例的59.6%),為客觀評估模型對風(fēng)險等級的區(qū)分能力,本研究通過向下抽樣構(gòu)造平衡數(shù)據(jù)集進行模型評價[13]。為消除單次抽樣的隨機性,在模型評估階段進行50次的重復(fù)抽樣,在每一次隨機抽樣產(chǎn)生的平衡數(shù)據(jù)集上進行基于分層抽樣的10折交叉驗證[14-15]。對50次計算結(jié)果取平均值,作為最終的模型評估指標(biāo)。整體流程如圖 1所示。

圖1 抽樣數(shù)據(jù)集的構(gòu)建與模型的交叉驗證評估方法Fig 1 Schema of balanced dataset construction and cross-validation
在每一輪模型評估中均采用整體分類準確率(accuracy)和歸一化的平均絕對誤差(normalized mean absolute error,NMAE)作為評價指標(biāo)。準確率為正確分類的病例數(shù)占總病例數(shù)的比例,NMAE的計算公式為:
h(Xi)表示模型的分類預(yù)測結(jié)果,yi為醫(yī)師評估的風(fēng)險等級,Tj表示分類為j的測試文檔,maxErrorj為分類j對應(yīng)的誤差上限(本研究中共5個分類,因此“1級”和“5級”的誤差上限均為4,“2級”和“4級”的誤差上限為3,“3級”的最大誤差則為2),C代表各個分類。NMAE指標(biāo)用各分類的文檔數(shù)和最大誤差對實際誤差進行了歸一化,能夠消除各類分布不均的影響,客觀反映風(fēng)險評估模型的患者區(qū)分能力[16-17]。
通過自動特征生成,得到2 367個3-gram。基于這些特征和年齡、體重、性別信息所構(gòu)建的決策樹平均分類準確率約為32.82%,NMAE約為0.33,此時的屬性集中包含大量語義不完整的3-gram,模型的可讀性較差。借助風(fēng)險評級規(guī)則和超聲心動圖報告的常用術(shù)語進行嚴格匹配后,特征個數(shù)減少至19個。模型的平均分類準確率提升至48.57%,NMAE降至0.25。
對50次交叉驗證所得的混淆矩陣(confusion matrix)進行累加(圖 2),可定量評估模型對于各風(fēng)險等級患兒的區(qū)分能力。經(jīng)特征篩選后得到的模型,相應(yīng)混淆矩陣主對角線(左上到右下)上的數(shù)值明顯增大,而偏離主對角線的數(shù)值相應(yīng)地降低,表明各風(fēng)險等級的患兒中被模型正確分類的數(shù)量明顯增多,而模型的錯誤預(yù)測病例相應(yīng)地減少。同時,模型的預(yù)測結(jié)果也更加集中地分布在臨床醫(yī)師評估結(jié)果的相鄰分類中,表明此時的預(yù)測結(jié)果與臨床診斷更為貼近。綜上所述,經(jīng)過特征篩選后,決策樹的分類準確性得到了明顯的提升,對于嚴重程度相近的患者具有更好的區(qū)分功能。

A:Decision tree using the auto-generated 3-grams as features;B:Decision tree using the selected clinical terms and symptoms as features.Numbers on the leading diagonal (upper left to lower right)are the numbers of “correct” classification results,the others are numbers of “incorrect” results.Back ground color corresponds to the number in that cell.For an instance,the 5 numbers in the first row of the upper confusion matrix (“115,559,483,228,15”) indicate that among all the samples evaluated as “Rank 1” by the physician,the decision tree model correctly classifies 115 cases as “Rank 1”,misclassifies 559 cases as “Rank 2”,483 cases as “Rank 3”,228 cases as “Rank 4”,and 15 cases as “Rank 5”.
圖2決策樹預(yù)測結(jié)果的混淆矩陣
Fig2Accumulatedconfusionmatrixofthe
traineddecisiontreemodels
從訓(xùn)練所得的決策樹上能夠發(fā)現(xiàn)許多與風(fēng)險評級規(guī)則一致的決策路徑,在一定程度上證明了本研究所用方法及分析結(jié)果的可靠性。有研究發(fā)現(xiàn)“單心室”、“大動脈轉(zhuǎn)位”或“肺動脈閉鎖”等征象對應(yīng)著紫紺型先天性心臟病,此類患兒病情復(fù)雜、風(fēng)險較高[18]。醫(yī)師在風(fēng)險評估指南(表 1)中也將這類患者劃入最高風(fēng)險等級“5級”。圖 3A所示決策分支顯示,訓(xùn)練所得的模型從數(shù)據(jù)中發(fā)現(xiàn)“大動脈轉(zhuǎn)位”和“肺動脈閉鎖”這2個高度危險的指示征象。
對于未在風(fēng)險評級規(guī)則中明確提及的決策路徑,我們能夠借助模型信息推測其分類依據(jù),并基于已有的領(lǐng)域知識評估其合理性,進而對模型進行修正和完善。圖3A顯示,模型將動脈導(dǎo)管的分流方向(即特征集合中的“右向左”、“雙向”或“左向右”)作為重要的分類依據(jù),“雙向分流”和“右向左分流”在決策樹上非常靠近根節(jié)點,是僅次于“大動脈轉(zhuǎn)位”、“肺動脈閉鎖”和“右室雙出口”的重要特征。從圖3中的分類結(jié)果可以看出,出現(xiàn)“雙向”、“右向左分流”的患者,大部分被歸入“4級”和“5級”的較高風(fēng)險。有研究顯示,“雙向”或“右向左分流”的患者大多出現(xiàn)了肺動脈壓的升高[19],而嚴重的肺動脈高壓會增加外科風(fēng)險,是危險性較高的征象[20-21]。由此推測,模型在分析訓(xùn)練數(shù)據(jù)的過程中,發(fā)現(xiàn)了這一潛在的風(fēng)險因子。隨著數(shù)據(jù)量的累積,算法有望挖掘出更多潛在的診斷模式,為后續(xù)研究提供豐富的初步假設(shè)。
我們觀察到在報告內(nèi)容未提及關(guān)鍵疾病征象時,決策樹的判斷主要依賴于患兒的年齡和體重信息,雖然樣本規(guī)模不大,但基于個體信息的進一步拆分往往具有較好的患者區(qū)分效果,這在圖 3所示分支中也有所體現(xiàn)。可見臨床醫(yī)師在對疾病征象相近的患者進行細分時也將個體信息作為重要參考。該結(jié)果驗證了個體信息在先天性心臟病風(fēng)險評估中的應(yīng)用價值[22-23]及醫(yī)師的臨床經(jīng)驗在診療過程中的重要意義[24]。
基于算法本身的特性和參數(shù)的設(shè)定,模型的分類規(guī)則可能存在一定程度的冗余和對訓(xùn)練數(shù)據(jù)的過度擬合。如圖3A所示,在報告提及“雙向分流”時,模型會根據(jù)是否提及“單心室”將患者進一步區(qū)分為“4級”或“5級”。但分類節(jié)點上的樣本量數(shù)據(jù)顯示,同時存在這兩個征象且被臨床醫(yī)師標(biāo)注為“5級”的訓(xùn)練樣本僅有2例。這類在特定數(shù)據(jù)集上發(fā)現(xiàn)的分類規(guī)則,可能無法遷移到其他數(shù)據(jù)集,可以結(jié)合臨床研究結(jié)果進行修正。而類似圖3B中對患兒體重的判斷,這類基于同一指標(biāo)的連續(xù)多次樣本拆分,是算法特性造成的冗余,可以優(yōu)化為更簡潔的分類規(guī)則。決策樹良好的解釋性和易編輯性為模型的校驗和修正提供了極大的便利,有助于領(lǐng)域知識協(xié)助下的快速優(yōu)化與更新。
綜上所述,本研究所構(gòu)建的兒童先天性心臟病風(fēng)險評估模型可讀性強、易于理解,能夠自動對大量的醫(yī)療文本進行總結(jié)和歸納,體現(xiàn)出與已有研究成果較為一致的診斷規(guī)則,并能從大量數(shù)據(jù)中挖掘出潛在的決策依據(jù),為后續(xù)臨床實踐和研究提供初步假設(shè)。研究采用的文本挖掘技術(shù)展現(xiàn)出重要的應(yīng)用價值,值得進行進一步的優(yōu)化和更深入的探究。我們將在后續(xù)工作中收集更多的樣本,借助更大的數(shù)據(jù)量對模型進行優(yōu)化和提升。同時開發(fā)相應(yīng)的工具,借助NLP技術(shù)對包括測量值在內(nèi)的報告內(nèi)容進行信息抽提和標(biāo)準化映射,從而構(gòu)建更為完善的特征集合,全面評估超聲心動圖報告在兒童先天性心臟病診療過程中的臨床價值。

A:The number of training samples that are assigned to the node;B:The number of misclassified samples among them.Green labels show the classification results and red figures in parentheses demonstrate the purity of current node.The collapsed branches are represented as a node with the mark “…”.
圖3風(fēng)險評估決策樹(局部)
Fig3Examplebranchesofthetraineddecisiontree(partial)
借助NLP技術(shù)與兒童先天性心臟病相關(guān)領(lǐng)域知識,能夠有效地抽提超聲心動圖報告中的疾病相關(guān)信息。進一步結(jié)合機器學(xué)習(xí)算法,可以構(gòu)建出可讀性高、分類性能優(yōu)良的風(fēng)險等級預(yù)測模型,有助于對診斷規(guī)則的總結(jié)和歸納,協(xié)助臨床上對疾病的深入理解和相關(guān)研究的開展。模型評價結(jié)果顯示,超聲心動圖報告的文本內(nèi)容能夠在75%的水平上(NMAE≈0.25)解釋兒童先天性心臟病的風(fēng)險等級。其中的關(guān)鍵疾病征象,如“右向左分流”、“大動脈轉(zhuǎn)位”和“肺動脈高壓”等,是識別高風(fēng)險患兒的重要依據(jù);年齡、體重等個體信息有助于區(qū)分征象相似的患兒,為制定個性化的治療方案提供重要決策依據(jù)。
[1]SHIBAYAMA K,WATANABE H.Clinical use of echocardiography in structural heart disease[J].GenThoracCardiovascSurg,2016,64(7):365-372.
[2]LIU X,LIU G,WANG P,etal.Prevalence of congenital heart disease and its related risk indicators among 90,796 Chinese infants aged less than 6 months in Tianjin[J].IntJEpidemiol,2015,44(3):884-893.
[3]桂永浩,常才,黃晶晶,等.胎兒心臟血流動力學(xué)特征及其形態(tài)結(jié)構(gòu)的超聲心動圖檢測[J].復(fù)旦學(xué)報(醫(yī)學(xué)版),2001,28(2):93-96.
[4]BEIER UH,JELNIN V,JAIN S,etal.Cardiac computed tomography compared to transthoracic echocardiography in the management of congenital heart disease[J].CatheterCardiovascInterv,2006,68(3):441-449.
[5]程景華,肖敏,唐思琪.淺談變換體位在心臟超聲檢查中的應(yīng)用[J].醫(yī)藥前沿,2012,2(13):301.
[6]盧曉芳,謝明星,王新房,等.超聲心動圖診斷肺動脈夾層——附3例報告[J].中華超聲影像學(xué)雜志,2006,15(3):186-189.
[7]黃國倩,潘翠珍,舒先紅,等.25例肺靜脈異位引流的超聲心動圖分析[J].復(fù)旦學(xué)報(醫(yī)學(xué)版),2006,33(3):397-400.
[8]CAI T,GIANNOPOULOS AA,YU S,etal.Natural language processing technologies in radiology research and clinical applications[J].Radiographics,2016,36(1):176-191.
[9]PONS E,BRAUN LMM,HUNINK MGM,etal.Natural language processing in radiology:a systematic review[J].Radiology,2016,279(2):329-343.
[10]WEI Z,MIAO D,CHAUCHAT JH,etal.Feature selection on Chinese text classification using character n-grams[C]//International Conference on Rough Sets and Knowledge Technology.Berlin Heidelberg:Springer-Verlag,2008:500-507.
[11]HALL M,FRANK E,HOLMES G,etal.The WEKA data mining software:an update[J].SIGKDDExplor,2009,11(1):10-18.
[12]PEDREGOSA F,VAROQUAUX G,GRAMFORT A,etal.Scikit-learn:machine learning in python[J].JMachLearnRes,2013,12(10):2825-2830.
[13]YU DJ,HU J,TANG ZM,etal.Improving protein-ATP binding residues prediction by boosting SVMs with random under-sampling[J].Neurocom,2013,104(1):180-190.
[14]DRUMMOND C,HOLTE RC.C4.5,Class imbalance,and cost sensitivity:why under-sampling beats over sampling[C]//Workshop on Learning from Imbalanced Datasets Ⅱ,ICML.Washington DC,2003:1-8.
[15]BALAGUS R,LUSA L.Joint use of over- and under-sampling techniques and cross-validation for the development and assessment of prediction models[J].BMCBioinformatics,2015,16:363.
[16]JR GUSTAFSON WI,YU S.Generalized approach for using unbiased symmetric metrics with negative values:normalized mean bias factor and normalized mean absolute error factor[J].AtmosScienceLett,2012,13(4):262-267.
[17]GOLDBERG K,ROEDER T,GUPTA D,etal.Eigentaste:a constant time collaborative filtering algorithm[J].InformationRetrieval,2001,4(2):133-151.
[18]黃國英.超聲檢查對新生兒青紫型先天性心臟病的診斷意義[J].中國小兒急救醫(yī)學(xué),2006,13(5):404-405.
[19]于慧娟,楊興明,袁國勝,等.3576例先天性心臟病超聲診斷及分析[J].中國現(xiàn)代藥物應(yīng)用,2011,5(1):81-82.
[20]邢建洲,王志維,李羅成,等.肺動脈高壓致雙向分流性先天性心臟病的手術(shù)指征[J].武漢大學(xué)學(xué)報(醫(yī)學(xué)版),2013,34(2):299-301.
[21]褚銀平,竇平,周世民,等.嚴重肺動脈高壓患者室間隔缺損(附25例分析)[J].實用醫(yī)學(xué)雜志,1993,9(4):3-4.
[22]LIMB M.Children′s heart surgery website aims to end confusion over survival rates[J].BMJ,2016,353(1):i3539.
[23]張朝賓,張浩,晏馥霞.先天性心臟病手術(shù)風(fēng)險評估系統(tǒng)[J].國際麻醉學(xué)與復(fù)蘇雜志,2014,35(1):37-43.
[24]BAE JM.The clinical decision analysis using decision tree[J].EpidemiolHealth,2014,36(1):e2014025.