基于電子病歷的胃癌治療方案輔助選擇

2018-03-21 00:26:48，，

中華醫學圖書情報雜志 2018年2期

，，

臨床決策支持系統的構建離不開知識庫，而病歷的電子化為臨床知識庫的構建帶來了便利，研究人員可以通過計算機程序處理大量病歷中的文本，以實現重要知識的挖掘。病歷是醫療業務活動的詳細記錄，其中隱含著價值巨大的知識。將從病歷中提取的信息用于臨床決策支持，是近年醫療大數據的研究熱點之一。

在臨床決策支持方面，國外已有較為成熟的研究。關于決策支持系統對臨床治療作用的研究，Porat, Talya等人[1]研究了全科醫生和患者對診斷決策支持系統和咨詢影響的看法；Arts,Derk L.等人[2]研究了決策支持系統在實踐中預防改善卒中的有效性；針對從病歷中提取知識的研究，Nilashi M等人[3]提出了一種基于知識的乳腺癌分類系統；Kung,Robert等人[4]提出了一種從電子病歷中識別肝硬化患者身份的自然語言處理算法。在國內，醫護人員在撰寫病歷時存在用語不規范的現象，這就為從病歷中提取有用信息帶來了一定困難；加之國內醫療信息化起步較晚，即使電子病歷系統已實現部分內容結構化，但獲取病歷中有用知識的難點仍然存在。基于此，國內學者也開展了一些探索性的研究，在病歷文本的自然語言處理領域提出了不同的解決方案，推動著國內醫療信息化的不斷前進。如栗偉[5]研究了電子病歷文本挖掘關鍵算法，徐益輝[6]研究了中文醫療文本匿名化方法，李國壘等人[7]針對病歷信息通過潛在語義分析構建了決策模型，林楓[8]研究了云計算技術在醫療大數據挖掘平臺設計中的應用。

本文擬在借鑒中文病歷文本處理研究成果的基礎上，針對胃癌通過病歷文本中的詞進行聚類，探索詞或詞組與治療方案之間潛在的關系，建立1種決策支持模型。即首先對病歷文本進行分詞，再根據切分詞與病歷中抽取的治療方案的共現頻次，對切分詞進行聚類，并統計每份病歷文本在各聚類中匹配到的詞數；基于各類的匹配詞數與治療方案共現情況，探索性地采用Bayes判別思路建立起判別函數用以輔助決策。

1 數據與方法

1.1 數據來源

本文選取了2500份中南大學附屬三甲醫院2010-2014年已被確診為胃癌的電子病歷(入院病情摘要、診治過程)，將其隨機分為兩組：1 500份為訓練組，用于構建決策支持模型；1 000份為測試組，用于評價決策支持模型。

1.2 病歷文本分詞

已有研究結果顯示，詞典結合統計的分詞方法是進行領域分詞的有效方法[9]。據此，本文采用如下分詞策略(圖1)。

年齡是影響治療方案選擇的重要因素，但作為連續指標切分后無意義。依據世界衛生組織對年齡分段的劃分標準[10]，本文將入院病情摘要中的患者年齡進行對應轉換，得到原始文本(圖2)。

筆者于2015年4月在中國生物醫學文獻數據庫中以分類號=R735.2(即胃腫瘤)進行檢索，時間限定為2001-2003年，導出關鍵詞和主題詞，歸并作為詞典1，共包含5 429個詞語。

圖1 分詞策略

圖2 病歷原始文本示例

利用詞典1進行分詞并基于分詞結果(圖3)，使用互信息值(MI)計算方法，計算分詞碎片中相鄰字詞的MI值。根據MI≥0，即兩個字詞具有正相關關系，篩選出11 845個詞語。將11 845個詞對與詞典1中的5 429個詞合并去重，構成17 113個詞的新詞典—詞典2，并利用詞典2對原始文本再次進行分詞。

圖3 分詞結果

從分詞結果發現，經詞典2分詞后的結果能切分出更多術語，如“蠕動波”“靜脈曲張”“無反跳痛”等都被有效切分，但由于不同病歷中的檢測指標單位描述不同，因此在檢測指標上切分效果不好，如血壓值基本被切分成“高壓值”“/”“低壓值mmHg”3個詞。該實驗也說明，在帶數字的檢測指標上，本方法不能實現有效切分。此外，受詞典中詞語的限制，也有錯誤切分。如“退指指套無血染”應被切分為“退指”“指套”“無血染”3個詞，而實驗切分則是“退指指”“套”“無血染”3個詞。

1.3 輔助決策模型構建

本文建模方法選擇Bayes判別分析。Bayes判別的準則是使本應屬于某一類的樣品，經過規則的判別后在應屬類中取得最大的值或后驗概率，從而使得該樣品被判別為所屬類的原則。

1.3.1 切分詞處理

分詞結果中包含許多不具有實際意義的碎片。在建模前對分詞碎片進行處理，具體步驟如下：刪除超高頻詞部分的數字、標點及特殊符號；刪除不具備實際含義的單字詞，如“鳴”“查”等；低頻詞使用少且占據了分詞結果一半以上，結合分詞結果，刪除了詞頻小于11的詞。

切分詞經處理后，共保留1 207個詞。其中大多為兩字詞，也有3字及3字以上的詞。

1.3.2 抽取治療方案

病歷中的診治過程詳細記錄了患者住院期間的診療經過，包含患者的臨床癥狀的描述、檢查檢驗結果及治療過程。參考《2013胃癌規范化治療指南》[11]，本文將治療方案確定為手術治療、手術治療+放化療、放化療及對癥治療4種。根據出院記錄，確定如下治療方案抽取判定原則[12]。

若文本中出現“手術”相關字樣(全麻、根治術、切除、切除術等)且不出現“放療”“化療”字樣，判定該治療方案為手術治療；若既出現“手術”相關字樣，也出現“放療”“化療”相關字樣，判定該治療方案為手術治療+放化療；若僅出現“放療”“化療”相關字樣，不出現“手術”相關字樣，判定治療方案為放化療；若既不出現“手術”相關字樣，也不出現“放療”“化療”相關字樣，判定治療方案為對癥治療。

根據如上判定原則，從訓練組病歷中抽取治療方案，其中手術治療有794例，手術治療+放化療的有227例，放化療的有225例，對癥治療的有254例。隨機抽取100份進行人工比對，治療方案抽取準確率為97%。

1.3.3 構建共現矩陣

統計訓練組所有病歷中1207個切分詞在與每種治療方案共現的頻次，生成切分詞與治療方案共現頻次表(表1)。

1.3.4 切分詞聚類

采用SPSS 19.0軟件，選擇類平均法，并采用平方歐式距離進行聚類。本文結合后續模型構建的需要，分別選取3、4、5類建立模型。表2展示了聚類為4類時，各詞的所屬類別。

表1 切分詞與治療方案共現頻次統計(部分)

表2 聚類結果

1.3.5 建立Bayes判別模型

確定自變量。將判別指標按聚類結果別進行設定，即類1聚類結果為X1，類2、類3、類4分別設為X2、X3、X4。

確定因變量。以Y表示抽取的治療方案，將手術治療、手術治療+放化療、放化療、對癥治療4種治療方案對應賦值1，2，3，4。

統計病歷中的匹配詞數。將1500份訓練組病歷文本與4個類中的切分詞進行匹配并統計。若某條病歷文本能與X1類中的10個詞匹配，則計數10次；文本中多次出現同一個詞，則只統記1次。表3展示了以聚類為4類為例，1500份訓練組病歷文本在4個類中切分詞匹配數及所屬治療方案分類。

表3 訓練組病歷文本中匹配詞數與治療方案共現

依據表3中的數據，采用SPSS 19.0計算得出判別方程中的各項系數，所得Bayes判別模型如下：

Y1=-7.868-0.062*X1-0.257*X2+0.394*X3+0.001*X4

Y2=-6.338-0.059*X1-0.312*X2+0.347*X3+0.001*X4

Y3=5.026+0.198*X1-0.347*X2+0.193*X3+0.013*X4

Y4=-6.050+0.251*X1-0.324*X2+0.213*X3+0.013*X4

同時，本文也分別得出了以聚類為3類和5類分別建立的判別模型。

Y1=-7.027-0.12*X1+0.383*X2+0.001*X3

Y2=-6.763-0.135*X1-0.333*X2+0.003*X3

Y3=-5.180+0.035*X1+0.162*X2+0.16*X3

Y4=-6.042+0.079*X1+0.18*X2+0.017*X3

Y1=-7.893-0.030*X1-0.556*X2+0.334*X3+0.132*X4-0.035*X5

Y2=-7.842-0.025*X1-0.634*X2+0.283*X3+0.143*X4-0.036*X5

Y3=-6.063+0.223*X1-0.581*X2+0.146*X3+0.115*X4-0.014*X5

Y4=-6.728+0.269*X1-0.497*X2+0.178*X3+0.089*X4-0.007*X5

2 結果與分析

2.1 分詞結果

本文采用了詞典分詞與統計分詞相結合的方法對病歷文本進行分詞，分詞結果主要通過分詞準確性及速度2個指標進行評價。本文主要關注分詞方法的準確性，未考慮分詞速度這一測評指標。因此，在評價過程中，采用召回率、準確率以及綜合指標F-1值對分詞效果測評[12]。

隨機抽取50條記錄，刪除標點等特殊字符。對抽取的記錄進行人工分詞，統計每份出院記錄切分好的詞語總數。利用本文中采用的分詞方法進行分詞，統計分詞結果，并計算切分出的總詞數和切分出的正確詞數(即人工分詞后的詞匯在機器分詞結果中出現的詞匯總數)，計算每份記錄切分后的準確率、召回率和綜合指標F-1值，并以50條記錄計算的平均值作為測評結果。

經驗證，將詞典結合統計分詞方法用于病歷文本分詞的召回率為74.24%，準確率為82.30%，F-1值為78.06%。

2.2 決策模型驗證結果

采用測試組的1000份病歷數據對建立的3個模型進行驗證，其中聚為3類時建立的決策模型判別準確率為48.4%，聚為4類時建立的決策模型判別準確率為51.3%，聚為5類時建立的決策模型判別準確率為60.2%。

結合病歷文本對所構建的模型進行分析，發現只要病歷中出現“高齡患者”的病歷，構建的判別模型手術治療一類的函數值均不是最高，這也與病歷中手術風險過高的描述吻合。若病歷中出現了“癌轉移”“廣泛轉移”“淋巴結轉移”等詞，判別模型對應的放化療函數值大多為最高值，但這種情況僅限多數病歷。該判別模型所判別的治療方案為“放化療”與“對癥治療”兩種方案的判別值相近，這與原病歷中治療方案為“放化療”的患者同時也進行“補液”等對癥治療方案有關，即“放化療”通常都與“對癥治療”同時出現，故本文所建模型也與病歷中的情況相符。

此外，通過研究發現“高齡患者”“癌轉移”“廣泛轉移”等詞均屬于聚類結果中個性化用詞的一類，而這類詞對個性化治療方案的選擇是有影響的，且對于病歷中同時出現“放化療”和“對癥治療”兩種治療方案，判別模型也能反映出該特征，表明本文構建的判別模型針對年齡及是否存在癌轉移兩種因素是有一定區分度的，且經模型選擇的治療方案與病歷中治療方案的情況基本相符。

3 討論與結論

本文基于電子病歷中切分詞與治療方案的共現頻率，通過文本分詞、聚類分析及Bayes判別分析建立起了針對胃癌的輔助決策模型。在研究過程中，發現詞典結合統計的分詞方法用于電子病歷文本有較好效果，這也驗證了張梅山[9]提出的領域文本分詞方法。通過對切分詞的聚類，也發現部分詞或詞組與治療方案之間也存在一定關聯，如高頻詞“患者”“正常”“未見”都被聚類為一類，說明無論治療方案如何，這3個詞通常會同時出現；而“觸及、明顯”2個詞被聚為一類，發現多數病歷中均表述了“觸及明顯腫塊(腫物、包塊)”的表述，表明聚類分析用于挖掘病歷中的潛在知識是有價值的。

對于輔助決策模型的準確率不高(60.2%)，后續研究可以在兩方面進行改進。首先是檢查數據的利用，切分詞后的檢查數據為純數字，已經失去了意義，但它對于治療方案的選擇是有參考價值的；其次是切分詞的處理，對于切分詞碎片的取舍也值得進一步研究。綜上所述，電子病歷的決策支持價值得以體現，所建模型對于胃癌治療方案的選擇有一定的參考價值，但模型是否適用于其他疾病還需進一步實驗，以期提高模型的判別精度，從而更好地實現輔助決策的效果。