曠珊珊 白梅娟 郭趙斌 路巍 霍振宇 侯帥
摘? 要: 針對醫院人工導診效率和精確度較低的問題,提出了一種基于ATERDE(Automatic threshold Elites Regeneration Differential Evolution)和專家經驗的混合DGC(Data Gravitation Classify)智能導診算法。采用一種基于自動閾值的ERDE算法(ATERDE),以選出最優的客觀權重矩陣;將ATERDE算法與專家經驗融合,構建包含主客觀信息的屬性重要度權重矩陣;最后提出一種兼顧全局引力與局部引力的DGC算法,以減少數據不平衡對分類結果的影響。實驗結果表明,該方法平均分類精度達到87%以上,精確度有明顯的提升。
關鍵詞: 混合權重; 專家經驗; 數據引力; 智能導診
中圖分類號:TP39? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)03-36-05
Abstract: Aiming at the problem of low efficiency and precision of hospital manual triage, a hybrid Data Gravity Classification (DGC) intelligent triage algorithm based on Automatic Threshold Elites Regeneration Differential Evolution (ATERDE) and expert experience is proposed. ATERDE algorithm is used to select the optimal objective weight matrix;an attribute importance weight matrix containing subjective and objective information is constructed by integrating ATERDE algorithm with expert experience; finally, a DGC algorithm considering both global gravity and local gravity is proposed to reduce the influence of data imbalance on the classification results. The experimental results show that the average classification accuracy of this algorithm reaches more than 87%, it is significantly improved.
Key words: hybrid weight; expert experience; data gravitation; intelligent triage
0 引言
隨著全民醫療意識的提高,就醫人數逐年遞增。2018年國家統計局公布全國就醫人次達到了83.0802億人次,2019年增長至87.1987億人次,并且這個數據每年還以加速的趨勢增長[1]。有相關統計數據顯示,患者因為掛錯號而退號的比例高達46%[2]。如果能夠降低患者掛錯號的數量,將能極大地提高醫院的就診效率和患者的就醫滿意度[3]。
1 國內外研究現狀
針對上述問題,一些學者開展了相關研究工作,采用專家經驗知識的方式對患者就醫進行了導診[4]。FatemeMoghbeli使用Mamdani模糊算法,根據患者的初始生命體征和醫生的知識對患者進行分診 [5]。然而經驗知識可使用的場景有限,并且容易受到專家水平因素的影響。
隨著人工智能的興起與發展,不少學者采用機器學習算法對患者進行分診[6]。北京協和醫院的劉曉穎和TangKenneth強調了智能分診的必要性和重要性[7-8]。馬鈺以輔助診療的結果為基礎,將Skyline查詢和局部范圍內基于協同過濾的評分方式結合,提出了一種面向智能導診的個性化推薦算法[9]。單一機器學習的方法需要大量的訓練數據,然而實際能夠獲取的醫院病例數量有限,因此近年來一些基于少量數據樣本的數據引力算法逐漸興起。
針對上述模型所存在的問題,有學者采用混合預測模型的方法來預測科室分類[10]。韓金亮利用改進離散Hopfeild神經網絡和醫療專家系統的病情診斷混合算法,對醫療服務行業中病情給出良好的診斷結果[11]。但是這些算法僅僅是將兩種算法的結果進行并行預測和分診,并沒有將專家知識模型和數據模型進行更加有機的融合。目前基于專家知識和機器學習的算法已經在一些領域取得良好的預測效果,但是在智能分診領域尚未見到關于串行的混合模型的研究。
針對上述問題,提出了一種基于ATERDE和專家經驗的混合DGC智能導診算法。首先提出了一種基于自動閾值的ERDE算法(ATERDE),以選出最優的客觀權重矩陣。其次將ATERDE算法與專家經驗融合,構建包含主客觀信息的屬性重要度權重矩陣。最后提出一種兼顧全局引力與局部引力的DGC算法,以減少數據不平衡對分類結果的影響。
2 相關算法研究
2.1 DGC(Data Gravitation Classify)算法
將數據空間中的每一個樣本比作一個數據粒子,通過類比物理學中的萬有引力,比較不同數據類別對目標的數據引力來進行分類[12],引力計算公式如下:
2.2 ERDE算法
ERDE(Elites Regeneration Differential Evolution)算法是一種基于精英重生的差分優化算法,其主要思想是基于初始種群進行變異,交叉,選擇操作,產生新一代種群,并使用柯西分布和高斯分布概率模型對精英解周圍的可選個體進行采樣,在其附近選擇一個新的個體,通過判斷新個體和上一代精英之間的適應度,將適應度大的個體保留下來作為下一代的精英種群。當迭代次數滿足最大迭代次數時停止迭代,得到最終的精英群體[14]。
3 本文提出改進的算法
3.1 ATERDE算法
本文在種群迭代至后期時,對經過交叉變異的個體適應度進行自動閾值判斷,如果不大于閾值,則重新進行交叉變異,直到滿足大于閾值的條件,再進行新一代精英的更新。從而保證再迭代后期精英質量得到進一步提高。
3.4 算法步驟
根據領域專家醫生得到癥狀-科室專家經驗權重矩陣,根據數據集中的數據利用ATERDE算法得到客觀權重矩陣,利用黃金融合算法將兩個矩陣進行融合,計算每個科室對待預測病例的全局引力和局部引力并進行融合,選取引力最大的科室作為待預測病例的預測科室。算法步驟如圖1所示。
算法步驟:
輸入:病例數據集[X={X1,X2,…,XQ}],待預測病例[X*={x*1,x*2,…,x*N}],其中[Q]為數據集中病例總數量,[N]為癥狀總數量。
輸出:待預測病例的科室分類結果。
Step 1:為病例數據集[X]中每個病例數據分配質量[M={M1,M2,…,MQ}]。
Step 2:根據專家經驗知識,運用AHP算法獲取專家經驗權重矩陣[W]。
Step 3:利用ATERDE算法生成客觀權重矩陣[W']。
Step 4:運用黃金分割思想將兩組權重矩陣融合,得到最終的科室-癥狀權重矩陣[W'']。
Step 5:根據數據引力公式計算每個科室對目標病例X*的全局引力[Fglobal(X*,c)]。
Step 6:計算每個科室中,與目標病例相似度最高的K個病例對目標病例的局部引力[Flocal(X*,c)]。
Step 7:根據公式⒃計算每個科室對目標病例的X*最終引力:
[FfinalX*=FglobalX*,c+FlocalX*,c]? ⒃
Step 8:輸出對病例X*引力最大的科室,作為X*的預測科室。
4 實驗
4.1 數據說明
本文選取了四個國內知名的醫療資源網站,采用Python爬蟲技術對其數據進行獲取,并利用數據挖掘和中文醫療命名實體識別技術,將對應的癥狀及科室信息挖掘出來,作為算法模型的數據庫,其相關信息如表1所示。
表1? 數據信息表
[數據編號 癥狀數 科室數 數據量 數據來源 數據集1 79 9 978 好大夫在線 數據集2 103 11 2076 尋醫問藥網 數據集3 136 13 1879 丁香園 數據集4 122 11 1023 39健康網 ]
4.2 實驗結果
實驗采用K近鄰算法KNN、數據引力算法DGC、加權數據引力算法DGC+與基于ATERDE和專家經驗的混合數據引力算法ATERDE+DGC四種算法,分別在四個數據集上采取十折交叉驗證作為各模型的評估算法進行了20次交叉驗證,對每個算法的ACC指標進行評估,實驗中設置萬有引力常量G=9.8,局部最近鄰數據個數K=5。
采用KNN、DGC、DGC+和ATERDE+DGC四種算法在四個數據集上的ACC結果如圖2和表2所示。
根據實驗結果可以看出,DGC算法的準確率高于KNN算法,這是因為KNN算法只考慮了距離目標最近的幾個樣本,而DGC算法則計算了每個類中的數據樣本,增加了樣本數量。而DGC+算法在DGC算法的基礎上,進一步考慮了屬性權重對分類效果的影響,從而得到了更高的精度。本文提出的ATEDE+DGC算法,通過融合專家經驗和客觀數據對屬性權重進行優化,同時綜合考慮全局引力與局部引力,在DGC+的算法上,得到了更高的精度。
5 結束語
為解決人工導診效率低和降低患者尋找科室錯誤的情況,本論文提出了一種基于ATERDE和專家的數據引力混合導診算法。本文提出的方法與KNN、DGC和DGC+算法相比,取得了較好的預測效果。本文的研究結果表明,混合模型能夠融合專家權重法良好的魯棒性和ATERDE方法良好的學習性能的優勢。本文的研究內容能夠為智能導診的混合模型預測奠定良好的理論基礎,也能為其他領域的混合模型預測奠定重要的理論基礎。
參考文獻(References):
[1] 國家統計局.中國統計年鑒[M].北京:中國統計出版社,2020:3-12
[2] 徐雪珍,陳建萍,顧躍英,等.門診掛錯號患者經歷和心理體驗的質性研究[J].護理與康復,2015,14(3):211-213
[3] Xusong Bu, Lin Lu, Zhan Zhang, et al. A General Outpatient Triage System Based on Dynamic Uncertain Causality Graph[J]. IEEE Access,2020,PP(99):1-1
[4] Moghbeli F, Langarizadeh M, Kiavar M, et al. Expert Triage System in Cardiology Emergency Department[J]. International Journal of Computer Science and Network Security,2018,18:100-104
[5] Jiang H, Mao H, Lu H, et al. Machine learning-based models to support decision-making in emergency department triage for patients with suspected cardiovascular disease[J].International Journal of Medical Informatics,2021,145:104326
[6] 劉曉穎,田麗源,高健,等.人工智能在急診分診決策中的應用現狀[J].護理研究,ISTIC PKU,2020,34(14):2490-2494
[7] Jonathon S, Peter S, Girish D. Artificial intelligence and machine learning in emergency medicine[J].Emergency Medicine Australasia Ema,2018,102
[8] Tahayori B, N Chini-Foroush, Akhlaghi H. Advanced natural language processing technique to predict patient disposition based on emergency triage notes[J]. Emergency Medicine Australasia,2020,78
[9] 馬鈺,張巖,王宏志,等.面對智能導診的個性化推薦算法[J].智能系統學報,2018,13(3):352-358
[10] Mccullough C L, Novobilski A J, Fesmire F M. Prediction of adverse outcomes of acute coronary syndrome using intelligent fusion of triage information with HUMINT[C]// Defense & Security Symposium.2006,1
[11] 李勇,黃俊.一種混合醫生推薦算法的研究[J].信息通信,2018(2):67-70
[12] Peng L, Bo Y, Chen Y, et al. Data gravitation based classification[J]. INFORMATION SCIENCES,2009,179(6):809-819
[13] Aguilera J, González-Gurrola LC, Montes-Y-Gómez M, et al. From Neighbors to Strengths- The k-Strongest Strengths (kSS) Classification Algorithm[J]. Pattern Recognition Letters,2020,136
[14] Deng L B, Zhang L L, Fu N, et al. ERG-DE: An Elites Regeneration Framework for Differential Evolution[J]. Information Sciences,2020,539
[15] Cano A, Zafra A, Ventura S. Weighted Data Gravitation Classification for Standard and Imbalanced Data[J]. IEEE Transactions on Cybernetics,2013,43(6):1672-1687
[16] 李蕊,李躍,徐浩,等.基于層次分析法和專家經驗的重要電力用戶典型供電模式評估[J].電網技術,2014,38(9):2336-2341
3712501908239