李鈺 黃代政 黃超



摘要:目的:文章闡述了人工智能在醫療領域的應用,并結合機器學習算法,依據實例數據的類型特點,對患者就醫影響因素進行預測。突出機器學習算法的高效和準確性,同時為此類調查數據的分析提供新的思路。方法:對某醫院門診患者做問卷調查,采用貝葉斯網絡、隨機森林模型對患者就醫影響因素進行分析,揭示了各個影響因素之間的內在聯系及重要程度。結果:貝葉斯網絡顯示患者就醫影響因素之間相互影響,隨機森林模型擬合度為0.8。結論:機器學習可以根據數據類型從中獲取知識,從而降低錯誤率,使管理者做出精準決策,有效提高解決問題的效率。
關鍵詞:人工智能;機器學習;醫院選擇;預測研究
中圖分類號:TP391 ? ?文獻標識碼:A
文章編號:1009-3044(2022)13-0085-03
隨著大數據時代的到來,人工智能技術及其應用所涉及的領域已相對全面,包括醫學、社會學、計算機科學等各個學科范疇的知識,涵蓋機器學習、圖像識別等多個研究范疇。人工智能應用的推廣將為各行各業提供全新的改革方案,有效推動高新技術的發展,使民生福祉達到新的高度[1]。
近年來,公共衛生關注的焦點問題仍為衛生資源配置問題,而患者的就醫行為在一定程度上可以反映當下的衛生資源配置情況以及衛生政策問題。經文獻查閱,針對患者就醫影響因素的研究來看,多數國內外研究僅局限于基于二元 Logistic 回歸模型或SPSS基本統計軟件進行數據分析等方法得出數據的分布規律,進而推斷出影響患者就醫選擇的相關因素。在人工智能背景下,本文為了更好地考慮患者對醫療機構的選擇,依據實例數據的特點,考慮采用機器學習模型來對患者醫院選擇做預測,充分研究患者在醫院就診選擇中不同影響因素的內在關系,為此類調查數據的分析提供新的研究思路。同時,為優化醫療資源配置及提高醫療機構核心競爭力起到關鍵性作用。
1人工智能在醫療領域的應用
人工智能是計算機學科的一個分支,目前已廣泛應用于人類生活中的各個場景,涵蓋圖像識別、機器學習、知識圖譜等[2]。人工智能通過對感知信號的處理,經過不斷學習、推理,進而做出最佳決策。它所特有的快速處理且相對獨立的特性決定了在醫療發展上擁有廣闊的前景。目前,人工智能技術逐漸也成為醫療產業的重點技術[3]。從國際角度看,美國不斷出臺人工智能相關政策,向醫療領域開放適當的政府數據庫,便于為人工智能技術積累足夠的醫療數據,推動醫療人工智能的發展[4];日本將信息通信技術與人工智能技術相融合,使醫學知識與技術發揮其更大作用;德國強調在衛生健康等社會領域,人工智能需注重數據的保護及創新,使人工智能合理融入人類社會;法國先后出臺相關政策并巨資投資開發人工智能技術,決定在人工智能技術支撐下結合國家健康數據研究所成立衛生健康數據中心[5]。作為引領未來發展的戰略性技術,我國把發展人工智能技術上升為國家戰略,人工智能將成為推動各領域高速發展的新驅動[6]。
回顧近年我國面臨的醫療衛生現狀,人口老齡化、慢性病治愈力下降、衛生資源供給緩慢且分配不均而導致衛生服務體系嚴重失衡,使得大醫院人滿為患,小醫院無人問津,這些突出問題表明,現階段對醫療人工智能的巨大需求[7]。機器學習是人工智能技術的實現形式之一,在人工智能系統中普遍使用。能夠從大規模數據中進行學習,推理出新的規律,引導管理者做出正確的決策[8]。
2 實例分析
本文以廣西某綜合性醫院門診的問卷調查數據為例,根據數據類型特點,構建貝葉斯網絡以及隨機森林模型,探討患者在醫院就診選擇中不同影響因素之間的內在關系及其重要程度。該研究屬于現況研究,調查對象為某階段至該醫院就醫的患者人群,調查內容涉及影響患者就醫選擇的主觀因素及客觀因素,包括患者基本情況、醫院方面因素、患者主觀方面因素以及其他客觀外在因素等。本次研究共調查3655人,所有問卷均由患者自愿填寫并獨立完成,問卷真實有效,記有效問卷3428份,有效回收率為93.78%。
2.1貝葉斯網絡結構學習
本文采用的數據集類型屬于多分類因子型數據,數據量大,因問卷數據在完整和確定性上存在一定局限,故采用貝葉斯網絡對數據進行描述。與其他不確定性評價方法相比,貝葉斯根據人們的信念概率,使數據得到一個合理的解釋[9]。首先,可將相關因素圖解可視化;其次,對于不確定性問題有較強的處理能力,能在有限、不完整、不確定信息條件下自動進行學習和推理,得出正確結論。將貝葉斯方法應用到不確定性多種影響因素所導致結果的分析時,不僅能對信息的價值做出科學的判斷,還能對調查結果的可能性加以數量化的評價,將先驗知識或主觀概率巧妙地有機結合。
首先,對原始數據進行收集、整理、錄入以及缺失值處理,由于數據均為問卷數據,題中每一個數值代表該題的變量,故將數值型數據轉換為因子型。隨后從數據集中隨機抽取2/3數據作為訓練集構建模型,剩下的1/3數據作為測試集對模型加以驗證。最后使用爬山算法對數據進行結構學習。爬山算法屬于人工智能算法的一種,對于貝葉斯網絡的爬山算法,是貝葉斯網絡基于評分搜索方法中搜索算法的算法之一,通過三個搜索算子對初始網絡結構進行修改,得到若干候選網絡結構,分別對每個候選網絡結構進行評分,取評分最優的候選網絡與初始網絡相比較,如果候選網絡的評分高于初始網絡,則取該候選網絡作為當前網絡繼續搜索,否則,就停止搜索,并返回當前網絡結構,在上述原理基礎上經過反復迭代,得到最優網絡圖如圖1所示。
可以清楚地看到,貝葉斯網絡圖是一個有向無環圖。兩個因素之間的箭頭連線具有指向性,說明他們之間存在某種關聯。由圖1可知,每一個圓圈內的變量代表數據中涉及的影響因素,箭頭的指向代表影響因素間的依賴關系。因此,就醫開銷影響、參保類型、年齡、教育、疾病類型、居住受到職業類型的影響;醫生問診時長、就醫意愿受到疾病類型的影響;職業類型受到月收入的影響;患者的等待時間受到醫療開銷的影響;醫療機構類型選擇受到醫療開銷的影響。因此,貝葉斯網絡與統計相互結合,克服了許多計算與概念方面的解釋性難題,用圖形的方法描述各個變量之間的相互聯系,易于讀者對數據集形成一個清晰的架構。
2.2隨機森林模型
根據選用的研究數據可知,本文選用的研究數據為問卷數據,數據量較大,納入的特征數據集均為多分類數據,傳統的數據統計方法具有精度低、速度慢等弊端[10]。隨機森林是決策樹的集成方法之一,決策樹在擬合多元線性回歸模型時,如果特征之間存在較強共線性,會導致每棵樹的分類方式相同,使得預測變量高度相關。隨機森林可高效處理大規模數據,且適應于高維度數據的應用場景。此外,在缺失數據的場景中,依然能夠保證較高的分類[11]。故考慮采用隨機森林算法對數據集進行深入分析,對研究數據集納入的職業、居住地、疾病類型等12個特征進行抽樣,每次從12個特征中有放回地抽取等量的樣本數據來進行建模,形成相對應的分類樹,以確保所有的特征都會被使用,這樣平均之下就會減弱不同樹之間特征的高度相關性,以減小總體的方差,達到總體的最優。隨機森林算法樣式如圖2所示。
運用R語言統計分析軟件對數據進行進一步處理,采用隨機森林模型可視化變量的重要性以探究患者在醫院就診選擇中不同影響因素的重要性程度,隨機森林模型變量的重要性如圖3所示。
由圖3可知,經隨機森林模型運算得到Mean Decrease Accuracy以及Mean Decrease Gini兩個結果,結果分析如下:
Mean Decrease Accuracy是把一個變量的取值變為隨機數,隨機森林預測準確性的降低程度。該值越大表示該變量的重要性越大。即模型顯示變量的重要性依次為職業、居住地、醫療開銷影響、患者等待時長、疾病類型、醫生問診時長、教育、參保類型、就醫意愿、年齡、月收入、到本院就診的原因。
Mean Decrease Gini是計算每個變量對分類樹每個節點上觀測值的異質性的影響,從而比較變量的重要性。該值越大表示該變量的重要性越大,即模型顯示變量的重要性依次為職業、居住地、患者等待時長、教育、醫療開銷影響、疾病類型、參保類型、醫生問診時長、年齡、月收入、到本院就診的原因及就醫意愿。
通常使用AUC值來作為模型的評價標準,即AUC是衡量學習器優劣的一種性能指標。為驗證模型的優劣程度,故進一步對隨機森林模型進行評價,經檢驗,隨機森林擬合優度的AUC值為0.80,模型效果較好。
3結束語
綜上所述,機器學習可以從輸入的數據中獲取知識,從而使更多的問題得到解決,降低錯誤率的發生,有效提高解決問題的效率。本文采用貝葉斯網絡中的爬山算法以及隨機森林模型可視化變量的重要性對患者就醫選擇影響因素進行了分析研究,兩種方法學的應用展現了其各自的內在優勢。
一方面,貝葉斯網絡可直觀地揭示影響患者在醫院就診選擇方面的關鍵因素與其他因素的內在關聯和相關規律。不同于以往的假設檢驗統計方法做出的定性分析,采用貝葉斯網絡模型分析患者就醫選擇的影響因素,能夠利用分析結果將患者分流情況做定量分析。另一方面,隨機森林憑借其快捷、高效的性能特點,對大量冗雜的醫療數據進行高速處理,已在衛生服務領域發揮著重要作用。采用隨機森林模型對患者就醫選擇影響因素進行評估,對變量的重要性程度進行可視化,準確對患者就醫行為影響因素做預測,進而有效、正確地引導醫療衛生政策的制定以及實施。
貝葉斯網絡和隨機森林算法屬于人工智能機器學習范疇,由此可見,人工智能在一定程度上煥發醫療行業新活力,為優化衛生資源配置提供技術價值參考。促使醫院管理者做出精準醫療決策,提高衛生服務利用,對于衛生醫療體系的建設有著階段性的影響。
參考文獻:
[1] 李治軍,王昊欣.基于大數據時代背景的人工智能在計算機網絡技術中的應用探討[J].電腦知識與技術,2021,17(20):127-129.
[2] 許家睿.人工智能在輔助醫療領域現狀與未來發展趨勢概述[J].中國新通信,2021,23(1):232-234.
[3] 邵長年.論人工智能進入醫療領域的機遇與挑戰[J].中國醫療器械信息,2020,26(20):170-171.
[4] 袁紫藤,陶金婷,談瑩,等.國內外醫療人工智能應用現狀及相關政策[J].醫學信息學雜志,2019,40(5):2-9.
[5] 任潔,尚傳強,徐果.人工智能在醫療領域的發展給衛生監督帶來的挑戰及對策[J].中國衛生監督雜志,2019,26(6):547-551.
[6] 朱振一,王巍.人工智能在醫療領域的發展現狀及前景分析[J].世界最新醫學信息文摘,2019,19(50):77-78.
[7] 孫一帆.人工智能帶來的醫療變革[J].中國新通信,2019,21(1):210-211.
[8] 高一冉.基于人工智能的機器學習在醫療中的應用[J].科技傳播,2019,11(7):138-139.
[9] 程和祥,聶煒昌.人工智能中的貝葉斯方法[J].重慶理工大學學報(社會科學),2020,34(5):17-23.
[10] 韓玉,施海龍,曲波,等.隨機森林方法在醫學中的應用[J].中國預防醫學雜志,2014,15(1):79-81.
[11] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014,44(1):137-141.
【通聯編輯:梁書】