肖 瑞 裴 衛(wèi) 胡馮菊 肖 勇
(湖北中醫(yī)藥大學(xué)信息工程學(xué)院 武漢 430065)
中醫(yī)病歷又稱醫(yī)案、診籍, 是中醫(yī)臨床各科醫(yī)生對具體患者進(jìn)行辨證論治的文字記錄, 包括患者的生活習(xí)性、病情、診斷、治療及預(yù)后等情況, 從而成為保存、查核、考評乃至研究具體醫(yī)生開展具體診療活動的檔案資料[1]。但隨著信息化、網(wǎng)絡(luò)化的不斷推進(jìn),電子病歷已成為現(xiàn)今醫(yī)療記錄的大趨勢[2]。應(yīng)用電子病歷不僅提高就診效率、規(guī)范中醫(yī)行業(yè)術(shù)語,還為后期中醫(yī)藥研究提供數(shù)據(jù)資源。中醫(yī)電子病歷除具備一般電子病歷的特征外還具有自身的特殊性。在病歷內(nèi)容上不僅包括四診、辯證、立法、處方,西醫(yī)檢查和診斷等現(xiàn)代醫(yī)學(xué)診療信息,還包括中醫(yī)學(xué)辨證論治的診療信息;在病歷結(jié)構(gòu)上既要滿足醫(yī)療、法律、管理的要求,還要滿足中醫(yī)臨床信息全面、準(zhǔn)確采集的要求并做到高度結(jié)構(gòu)化,以便對四診信息中的定性描述進(jìn)行量化記錄;在標(biāo)準(zhǔn)規(guī)范化上,建立統(tǒng)一、全面、規(guī)范的中醫(yī)治療術(shù)語詞表以便對診療用語進(jìn)行規(guī)范;在診療處方上,中醫(yī)處方及中藥的藥療醫(yī)囑與西醫(yī)處方和配藥有很大不同,其配藥流程和西醫(yī)也不相同[3-4]。
肝硬化是由各種因素導(dǎo)致慢性肝損害的一類晚期肝纖維化疾病,肝移植是治療肝硬化唯一有效手段,但受到供肝及費(fèi)用等問題限制[5]。查閱近10年關(guān)于中醫(yī)藥治療肝硬化腹水的相關(guān)文獻(xiàn)可知,從病因病機(jī)及中醫(yī)治療兩方面而言,肝硬化腹水的中醫(yī)病機(jī)為正氣虧虛,氣滯、水停、血瘀3者錯綜為患,中醫(yī)治療以辨證分型施治、基本方加減、外治法為主[6]。
在電子病歷研究方面國內(nèi)外均有一定成果。王昱[7]等基于電子病歷數(shù)據(jù)進(jìn)行臨床接觸支持研究,對電子病歷數(shù)據(jù)進(jìn)行挖掘。李昆[8]等利用深度學(xué)習(xí)方法結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)方法,在電子病歷匿名化、胎兒體重預(yù)測和疾病分類預(yù)測等方面進(jìn)行預(yù)測模型構(gòu)建的嘗試。李準(zhǔn)[9]等研究冠心病電子病歷中與患者、疾病相關(guān)的指標(biāo),對冠心病進(jìn)行分類,進(jìn)一步探討檢查檢驗(yàn)結(jié)果與用藥之間的關(guān)聯(lián)性。商金秋[10]等通過電子病歷進(jìn)行數(shù)據(jù)預(yù)處理和結(jié)構(gòu)化提取,結(jié)合具體需求進(jìn)行可視化組織與分析。蔣慧麗[11]等提出基于語義技術(shù)的電子病歷信息集成框架,利用該框架解決電子病歷集成及推理問題。陸奕宇[12]等通過對慢性乙型肝炎(乙肝)及肝炎后肝硬化中醫(yī)證候分類進(jìn)行系統(tǒng)生物學(xué)研究,為乙肝及肝炎后肝硬化的診斷和個(gè)體化治療提供參考依據(jù)。本文以中醫(yī)電子病歷中肝硬化數(shù)據(jù)為研究基點(diǎn),從中醫(yī)治療肝硬化的檢查指標(biāo)入手,通過對電子病歷中檢查數(shù)據(jù)進(jìn)行主成份分析(Principal Component Analysis,PCA),提取出符合要求的致病指標(biāo)(特征),構(gòu)建致病指標(biāo)和診斷結(jié)果二元組,將得到的致病指標(biāo)與診斷結(jié)果二元組進(jìn)行深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)預(yù)測和支持向量機(jī)(Support Vector Machine,SVM)分類處理,通過對兩種模型結(jié)果對比分析,對肝硬化中醫(yī)電子病歷中檢查與診斷結(jié)果的關(guān)系進(jìn)行研究。其中SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的分類方法[13], 是一種監(jiān)督化學(xué)習(xí)分類模型。基本模型定義為特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略是間隔最大化,最終可轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題的求解。基本原理是通過將非線性數(shù)據(jù)映射到高維特征空間,在這個(gè)空間構(gòu)造最優(yōu)分類超平面,該超平面使類別間的分類間隔最大,有效克服維數(shù)災(zāi)難和過擬合等傳統(tǒng)算法的缺點(diǎn),能處理小樣本、非線性、高維數(shù)據(jù),因而成為研究復(fù)雜系統(tǒng)問題的熱點(diǎn)算法。
以某地區(qū)三甲中醫(yī)院2015年1月-2016年1月期間診斷結(jié)果為乙肝肝硬化和非乙肝肝硬化的1 273例門診記錄的電子病歷為數(shù)據(jù)來源(參照2011年8月中國中西醫(yī)結(jié)合學(xué)會消化系統(tǒng)疾病專業(yè)委員會制定的《肝硬化中西醫(yī)結(jié)合診療共識》[14])。字段主要由診療記錄中的患者基本信息(門診號、西醫(yī)診斷、性別、年齡等)、檢驗(yàn)(首次來末次檢查總膽紅素、凝血酶原時(shí)間、白蛋白等)、檢查(部位、時(shí)間、報(bào)告結(jié)果等)以及中醫(yī)診斷信息構(gòu)成。
該中醫(yī)院屬于國家重點(diǎn)專科醫(yī)院,中醫(yī)電子病歷數(shù)據(jù)結(jié)構(gòu)化程度較為規(guī)整,根據(jù)篩查檢驗(yàn)檢查結(jié)果,借助具有多年臨床經(jīng)驗(yàn)的醫(yī)生的指導(dǎo),將有明確診斷結(jié)果的數(shù)據(jù)納入。對于檢查檢驗(yàn)指標(biāo)缺少數(shù)據(jù)則不納入使用。不影響實(shí)驗(yàn)的指標(biāo)缺失,如個(gè)人信息,納入使用。按此標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)納入,最終符合要求數(shù)據(jù)為1 243例。
特指對中醫(yī)檢查數(shù)據(jù)的預(yù)處理,主要是針對中醫(yī)檢查數(shù)據(jù)中的常規(guī)字段,包括對檢查數(shù)據(jù)進(jìn)行修正和規(guī)范化。主要是對表意不明確或有歧義的數(shù)據(jù)進(jìn)行修正,主要由臨床醫(yī)師進(jìn)行人工篩查、糾正。對檢查數(shù)據(jù)的規(guī)范化主要由于檢查數(shù)據(jù)中存在一種指標(biāo)有多種說法或有的說法不規(guī)范,先通過模糊查找,再通過醫(yī)學(xué)相關(guān)專業(yè)人員輔助核定。
完成源數(shù)據(jù)預(yù)處理后進(jìn)行特征提取,主要是通過主成份分析法對肝硬化檢查指標(biāo)進(jìn)行分析,提取數(shù)據(jù)中的中醫(yī)檢查數(shù)據(jù),重點(diǎn)對中醫(yī)檢查部位、結(jié)果等方面進(jìn)行主成份分析,具體步驟為:將檢查記錄中各項(xiàng)數(shù)據(jù)按句號進(jìn)行分列,人工剔除不可用或無效信息指標(biāo);規(guī)整數(shù)據(jù),統(tǒng)計(jì)診斷指標(biāo)總數(shù);統(tǒng)計(jì)源數(shù)據(jù)中每個(gè)診斷指標(biāo)出現(xiàn)次數(shù),計(jì)算各診斷指標(biāo)頻率;將各診斷指標(biāo)頻率除以診斷指標(biāo)總數(shù),計(jì)算每個(gè)診斷指標(biāo)占有率;通過診斷指標(biāo)占有率進(jìn)行指標(biāo)篩選,選取診斷指標(biāo)占有率高的指標(biāo),確定為主要致病指標(biāo),即為特征。按照納入標(biāo)準(zhǔn)完成數(shù)據(jù)預(yù)處理后,利用特征構(gòu)建方法對檢查記錄各項(xiàng)數(shù)據(jù)進(jìn)行分列,得到共包含指標(biāo)數(shù)據(jù)4 914條(含重復(fù)項(xiàng));對分列數(shù)據(jù)進(jìn)行規(guī)整統(tǒng)計(jì)后共包含指標(biāo)數(shù)據(jù)2 002條(不含重復(fù)項(xiàng));對規(guī)整后數(shù)據(jù)進(jìn)行統(tǒng)計(jì)指標(biāo)占有率篩選后最后得到主要用于訓(xùn)練模型指標(biāo)數(shù)據(jù)140條。
本研究使用的中醫(yī)電子病歷門診數(shù)據(jù)中包含明確的診斷結(jié)果,對于未包含明確診斷結(jié)果的數(shù)據(jù)進(jìn)行剔除處理,通過對病例特征分析得到可用特征,將可用特征與疾病的明確結(jié)果相結(jié)合,構(gòu)建致病指標(biāo)與診斷結(jié)果二元組,將獲取的特征按照one-hot representation編碼規(guī)則進(jìn)行編碼,每一病例均以特征展開而構(gòu)成特征向量,以此構(gòu)建特征矩陣。將構(gòu)建好的特征矩陣進(jìn)行神經(jīng)網(wǎng)絡(luò)預(yù)測分析和SVM分類器訓(xùn)練,其中神經(jīng)網(wǎng)絡(luò)模型中輸出層和SVM分類器結(jié)果均定義為二維向量形式,表示電子病歷中檢查結(jié)果為陰性和陽性,即代表是否患病。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中對每個(gè)訓(xùn)練樣本存在一個(gè)標(biāo)準(zhǔn)輸出,即標(biāo)簽y,取值為1或0,使用交叉熵?fù)p失函數(shù)優(yōu)化此神經(jīng)網(wǎng)絡(luò)模型,其交叉熵表達(dá)式為:
l=-yln(y′)-(1-y)ln(1-y′)
(1)

(2)
對于一個(gè)訓(xùn)練集St來說,將其均勻劃分為多個(gè)小數(shù)據(jù)集(mini-batch):Sti,每個(gè)mini-batch中具有M個(gè)訓(xùn)練樣本,對訓(xùn)練集Sti={x1,x2,…,xM}而言,交叉熵總和為:

(3)
損失函數(shù)為l,因此優(yōu)化目標(biāo)是盡可能地減小l,即(min(l))。
神經(jīng)網(wǎng)絡(luò)預(yù)測模型,見圖1。圖例通過Visio繪制,最底層為輸入層,也就是構(gòu)建的特征矩陣,共140維;最頂層為輸出層,與診斷結(jié)果相對應(yīng),共2維,即代表肝硬化檢查結(jié)果是陰性還是陽性(是否患肝硬化)。

圖1 神經(jīng)網(wǎng)絡(luò)預(yù)測模型
根據(jù)電子病歷診斷信息可將診斷數(shù)據(jù)分為兩類:診斷結(jié)果為陽性或陰性。構(gòu)建出二分類SVM分類器,通過與神經(jīng)網(wǎng)絡(luò)模型相同的數(shù)據(jù)集進(jìn)行訓(xùn)練,將結(jié)果與神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行對比分析。
深度神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,見表1、表2。兩表分別是迭代100次和1 000次的結(jié)果,另外對訓(xùn)練和測試數(shù)據(jù)進(jìn)行不同比例的預(yù)測。結(jié)果表明運(yùn)用本研究使用的方法預(yù)測結(jié)果準(zhǔn)確率可達(dá)到80%,其中訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的比值在7∶3較為合適。

表1 預(yù)測結(jié)果(迭代100次)

表2 預(yù)測結(jié)果(迭代1 000次)
在進(jìn)行SVM訓(xùn)練中陽性和陰性分別用+1和 -1表示,通過已構(gòu)建的特征向量,采用SVM模型進(jìn)行訓(xùn)練,Libsvm開源軟件包,利用n-fold進(jìn)行交叉驗(yàn)證,其中n取值為10,通過反復(fù)試驗(yàn)跳轉(zhuǎn)參數(shù),最終結(jié)果,見表3。

表3 SVM實(shí)驗(yàn)結(jié)果
通過對比可以看出在兩者預(yù)測準(zhǔn)確率均達(dá)到80%的情況下神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率相對于SVM模型準(zhǔn)確率要高。表明篩選出的診斷肝硬化的指標(biāo)可作為診斷肝硬化核心指標(biāo),以該指標(biāo)構(gòu)建訓(xùn)練的模型可對患者進(jìn)行肝硬化預(yù)測診斷,若將該模型應(yīng)用于臨床能夠有效降低患者就醫(yī)成本,提高醫(yī)生診療效率,對臨床診斷肝硬化或研究其他疾病具有一定指導(dǎo)意義。
在互聯(lián)網(wǎng)高速發(fā)展下電子病歷普及程度越來越高,但各電子病歷軟件智能程度不一,特別是中醫(yī)電子病歷,其中的醫(yī)用專業(yè)術(shù)語標(biāo)準(zhǔn)不統(tǒng)一且當(dāng)前未形成統(tǒng)一規(guī)范,不同醫(yī)生記錄過程存在差異,在進(jìn)行電子病歷相關(guān)數(shù)據(jù)挖掘過程中存在各種問題,從而影響數(shù)據(jù)質(zhì)量。
數(shù)據(jù)挖掘過程中不可或缺的重要步驟,決定后期挖掘效果和質(zhì)量。由于中醫(yī)電子病歷中醫(yī)用專業(yè)術(shù)語標(biāo)準(zhǔn)不統(tǒng)一、描述不規(guī)范,在進(jìn)行數(shù)據(jù)清洗和預(yù)處理時(shí)需要剔除掉不可用、修改不規(guī)范、填補(bǔ)缺失值等,從而使得數(shù)據(jù)集減小,對模型訓(xùn)練有一定影響,同時(shí)由于數(shù)據(jù)預(yù)處理過程中需采用人工篩查、規(guī)整和規(guī)范化,可能造成異常或錯誤數(shù)據(jù)等問題,從而使得整體數(shù)據(jù)質(zhì)量出現(xiàn)問題。
在模型構(gòu)建算法上,本文僅從神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)分類模型出發(fā),借鑒前人經(jīng)驗(yàn),缺乏其他算法的對比和對復(fù)合算法的構(gòu)建。后續(xù)研究中將進(jìn)行更加嚴(yán)格、規(guī)范化的清洗工作,以進(jìn)一步提高模型準(zhǔn)確性,采用更大、更有效的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,對更多算法進(jìn)行對比,以求提出更適合肝硬化病癥特點(diǎn)的算法進(jìn)行算法復(fù)合模型訓(xùn)練,從多種角度進(jìn)行探索,訓(xùn)練出準(zhǔn)確率更高的模型,將模型投入臨床試用,為中醫(yī)臨床提供輔助診療,為中醫(yī)藥智能化提供輔助。