童俊
(安徽省蕪湖市第一人民醫院 安徽省蕪湖市 241000)
早在2015年的時候,我國衛健委便已經要求各個醫院可以同構對數據采集軟件的應用,將各種數據信息上傳到衛健委的數據中心當中,旨在完成對醫療大數據的精準化、統一化監督管理,為數據挖掘技術提供良好的環境支撐。在傳統的醫院的醫療大數據都是通過獨自存儲和管理的方式來完成的,如果想要確定病歷信息,則需要單獨地進入到各個醫院的系統當中,加之于不同醫院所應用的系統存在本質上的差異,因而導致醫療信息的收集工作的難度越發提升。如果從這點來進行審視,可以發現醫療領域的信息化程度與當前日新月異的互聯網信息環境相比,還是略顯落后,所以醫療行業有必要充分結合新時代的發展進程。
在信息化時代背景下,不管是自然科學、建筑工程還是醫療技術,數據的信息量都呈現出爆炸式增長趨勢。在此類數據中僅有部分內容是真實準確的,非常具備價值的,如果能夠有效地實現對此類數據的轉化處理,是極具意義的,也正是因為存在此種需要,才會出現數據挖掘理論。數據挖掘的本質就是在海量的信息資源以及各種并無規律的數據信息中搜尋各種隱性價值信息,充分應用到人工智能技術、特征提取技術和統計分析技術等。完善的數據挖掘流程主要包含以下幾項步驟:首先是數據準備階段。在此過程中需要完成對各種存在干擾的數據信息的清除處理,所以具體可以分為如下幾項任務:其一是數據清理工作;其二是數據集成工作;最后是數據選擇工作。首要步驟是根據相應的數據內容生成數據集,而后再實現對數據的降噪處理,最終結合任務的核心目標尋找具備實踐應用意義的代表性數據;次要步驟是發現規律,此階段是應用數據挖掘技術的最重要的環節,通過對各種算法的應用來完成數據集成分析工作,從而提出能夠為決策提供支撐的規律。最后步驟則是表示規律,在發現相應的規律以后要結合直觀具體的手段來完成表示,主要實現的是對規則和模式的可視化處理。
深度挖掘醫療大數據以后才能夠充分展現出數據信息的價值,通過收集、歸納和分析海量數據信息,精準地探尋其中所包含的隱形知識,可以為醫學研究、臨床護理等提供巨大的推動作用。于病患群體而言,良好的醫療大數據可以幫助其獲得更為良好的診療體驗,有效地避免過多的經濟投入;對于現代醫學研究發展而言,對其應用可以為今后的醫藥研發、臨床護理以及疾病診斷等提供良好的幫助。與此同時,對于群眾的醫療大數據進行深入且明確的挖掘分析可以有效地實現對民眾身體健康情況的監督監測,從而在其中分辨出存在高危病癥的患者,對于疾病的實際發展走向影響力巨大。
對醫療大數據技術的有效分析和應用絕對無法脫離完整的數據挖掘技術的支撐。而伴隨現代科學技術的進步和發展,數據挖掘技術所獲得的發展也越發完善具體,研究方向已經出現顯著的拓寬,其主要體現在如下幾點:首先,關聯規則挖掘,其次異常挖掘等,同時還衍生出大量嶄新的算法,此類算法將會為此后的醫療大數據的分析應用提供堅實的支撐作用,是打造醫療大數據體系的基礎。整體來看,此項技術在現代醫療大數據當中的應用可以歸納為以下幾個方向:
關聯規則挖掘技術所代指的是對不同事件內容的分析處理,而后收集并歸納存在相應的關聯性的知識內容,在現代數據挖掘技術當中,其本身從屬于關鍵問題,此研究方向被提出以后,無論是國內還是國外都開始了對其的深度研究,在此過程中衍生出了諸多有名的關聯規則挖掘技術,包括Apriori算法以及Patition算法等。在醫療行業當中,將會出現諸多的數據信息,而此類數據信息存在內在關聯的,并且其關聯性相當密切,通過對關聯規則挖掘的有效利用,可以綜合提取各種數據關聯知識,實現總結分析,精準地判定疾病的原因以及發展等,進而為公共衛生安全工作的開展奠定堅實的支撐作用。
在現代醫學科研工作當中,絕大多數情況下都需要完成對病因學的分析探討,例如某種新出現的并發癥是否為其他某種并發癥的誘發原因,此時便可以針對性地應用數據挖掘技術,進行關聯選擇,從極多的隨機當中尋找具備強烈關聯性的對象。關聯規則的優勢在于其具備良好的單向性特征,更加容易完成對因果關系的識別分析,如果前后的時間的可信度都是非常高的,那么便可以判定出二者的因與果是相互關聯的,二者表現為雙向轉化的狀態。
分類模型可以在數據挖掘的過程中發揮出極為良好的作用,其能夠實現對數據集當中的某個數據對象的映射處理,使其成為既定的類別,這樣便能夠為此后的模型預測提供良好的支撐作用,用于完成對未知對象的實際類別的預測處理。上述所提到的所有訓練數據集的內容均是由單組數據對象構成的,在數據內容當中,所有對象都可以被看做是由大量特性所造成的向量,此外訓練樣本本身需要帶有大量的類別標記,對于不同的數據類型以及應用背景,目前的分類挖掘方法已經顯著增加,比較普遍的包含神經網絡法、統計法以及機器學習法等。結合目前醫療行業的發展情況來看,分類挖掘分析主要展現在以下幾點:首先是對各種醫療事件的預測方面;其次則是在對疾病的預測方面,在此中的輔助診斷技術更是相當典型的應用。在醫療服務當中,在診斷絕大多數的疾病時都普遍停留在傳統的經驗診斷方面,之所以會存在此種問題,主要是因為病患存在差異性。與此同時,復合疾病的數量是非常多的,并且整體關系非常復雜,所以在開展實際診斷工作的時候,對于部分疑難雜癥,醫生通常難以給出具體明確的診斷,而通過對某種疾病的精確診斷病理并進行數據收集,最終利用大數據技術完成分析,則能夠更為有效地探尋病患以及病理類型存在的關聯性。在現代臨床醫療服務當中,可以結合患者所給出的癥狀信息,將此類信息輸入到系統當中,這樣便能夠充分彰顯出智能診斷的效果。我國已經有許多學界人士嘗試著將大數據技術和人工智能技術進行深度應用,同時完成對醫療大數據的挖掘處理,逐步構建并打造將慢性病預防作為基礎目標的疾病防控管理機制。
聚類分析所代指的是將個體按照屬性進行劃分,使其分類為多個不同的類別,根本目標是實現對同類的個體的距離的縮減處理,或者實現對不同類型的個體的距離的增加的處理。在諸多領域當中,此項技術已經獲得大量的應用,比如在人工智能領域當中的應用相當具體完善。和分類學習的方式想對比,聚類分析的對象本身并無類別標記,其需要按照學習算法來進行自動化確定處理,但是分類學習的訓練集的對象卻存在相應的差異性,其包含有類別標記。在最近幾年,聚類分析是人們探討的熱點話題,尤其是在大數據挖掘領域當中,經過深刻的研究和探討,其研究方向已經獲得巨大的拓展,比如開發并打造了包括DBSCAN以及BIRCH等在內的聚類算法模式。聚類分析的核心作用是挖掘數據集當中所存留的未知分布規律,同時還能夠針對其表示的事件集并進行深度挖掘。通過對目前已經在醫療領域嶄露頭角的大數據技術的應用情況,其最為典型和普遍的應用主要在于醫療費用、對疾病的分布和分析。
臨床科研的核心對象都是醫院和患者,將病患確定為基本變量,并依據于某個指標進行深度研究,如果是年齡和性別存在著相應的差異的患者,其醫學特征是存在差異性的,所以需要對患者進行分組處理,分組結合的信息為患者的性別以及年齡。但是在此種劃分的過程中,如果仍舊采用人工劃分的方法,是難以行之有效地彰顯出患者群體的客觀年齡分布的,而通過對聚類分析技術的有效應用則能夠實現對研究對象的性別以及年齡的科學劃分,同時還能夠實現對差異化年齡組成以及性別組成下的患者的臨床指標的深層次分析。
對于部分數據對象而言,其在自身所處在的數據集當中的表現是格格不入的,和數據集中的部分行為以及模型并不匹配,此類數據對象均是離群點,在數據挖掘分析時有必要將離群點的類似異常數據做刪除處理。不過在相應的數據挖掘分析的過程中,偶然罕見實例的研究意義將會比大概率事件更高,在此針對于離群點數據內容的分析還有其他的說法,其也被稱之為異常挖掘,而在異常挖掘的領域當中,研究人員需要切實有效地認識如下問題:到底何種數據才能夠被判定為是數據集當中的異常;研究人員需要采用何種方法才能夠明確異常點的挖掘方法。目前,發展比較成熟的異常挖掘分析方法主要包含以下幾種:首先,是將統計技術作為基礎支撐的方法,其次則是將距離作為基礎支撐的方法,最后,是將偏差作為基礎支撐的方法。
例如,國外專家學生針對于心電圖的時間歷史數據進行了異常挖掘分析,主要針對的是ECG時間序列數據中的各種異常模式的檢測監督,進而完成疾病診斷的重要目標。與此同時,在醫療保險行業當中,應用此項技術也具有極為深遠的理論意義和實踐意義,為充分尋找到醫療保險當中有可能存留的欺詐行為,能夠將醫療賬單看做是數據的源頭,而后針對性地應用數據挖掘技術,這樣便可以完成對賬單當中存在的各種異常數據的挖掘分析處理。進而行之有效地挖掘當中所留存的各種問題,此種方法在現代醫療騙保的檢測與研究方面的成效相當顯著。當然需要重點關注的是上述多種數據挖掘技術在現代醫療大數據角度的應用更多的是理論,其在實際當中的運用仍舊需要充分貼合醫院的實際發展情況,用于作出針對性的調整處理。
在醫療大數據當中應用的數據挖掘技術同樣可以被應用在流行病監測以及預報的角度,就目前我國在建設并打造國家傳染病與突發公共衛生事件網絡直報系統上的投入已經全面提升,每年都會有大量的信息數據被上報到相應的機關當中,其覆蓋范圍越發廣泛,并且已經逐漸達到我國縣級以上的疾控機構。面對極為豐富充實的數據資源,有必要針對性地應用數據挖掘技術,可以有效地實現對疫情的全面監督和管控,與此同時,通過對集成疾病監測程序的有效利用,可以實現對傳播時間以及傳播路徑的精準監督和管控,從而切實有效地減小流行疾病的出現概率。在通過對數據挖掘技術的有效利用以后,可以極大程度地提升監測預算的精準性,這點早在谷歌公司的實際發展中便已有所體現,谷歌公司此前曾嘗試著將全美國民眾搜索力度最高的詞條和疾病防控中心當中的數據內容進行對比處理,可以有效地判定民眾當中是否已經出現大規模流感等問題,通過對此類詞條檢索的情況的判定分析,可以有效地確定疾病的傳播途徑,此后疾控中心便能夠更有針對性地進行管理防控。
總而言之,隨著現代互聯網信息技術的迅猛發展,醫療行業也隨著的發展腳步而逐漸朝向信息化方向行進,大量醫療大數據技術開始不斷聚集,這為后續數據挖掘技術的深度應用奠定下了堅實的支撐作用。在分析醫療大數據的過程中,數據挖掘技術可以幫助相關工作者更為有效地發現各種隱藏信息內容。醫院所獲得的數據來源本身是較為復雜的,所以在數據挖掘的過程中并未充分彰顯出異構數據的優勢,此外,由于各個醫院系統并未形成完整的互聯態勢,且數據量甚至都沒有滿足大數據的入門需要。但隨著現代社會的飛速建設和發展,醫療數據體量也會飛速增加,屆時數據挖掘技術的應用優勢將會更為顯著,從而創造出更為良好的經濟收益和社會效益。