李奕霏
(濟寧市第一人民醫院,山東 濟寧 272000)
隨著計算機信息技術的快速發展,醫院信息化建設日趨成熟,健康檔案系統也已逐步升級為智能化的管理平臺。然而這類系統的廣泛使用會產生大量數據,對采集到的數據進一步展開智能化分析才能為醫療服務、疾病預測以及降低成本等提供有效的支撐。因此如何智能挖掘復雜的醫療健康檔案數據,并根據相關記錄來預測出對應的健康狀況是一個亟待解決的問題[1-2]。研究表明,深度學習(Deep Learning,DL)[3-4]技術可被廣泛應用于醫療健康領域的數據分析之中,并取得了良好的效果,故文中提出了一種基于深度學習與模糊C 均值聚類(Fuzzy CMeans,FCM)的數據分析算法。該算法可對具備復雜屬性的醫療檔案數據進行分析與研究,以獲得更為準確的數據挖掘結果。在對復雜屬性的數據進行特征提取的基礎上,通過聚類處理提高算法性能,并根據不同屬性對數據加以分類,進而實現對患者健康狀況的預測。
醫療健康檔案數據是一種多模式的復雜數據,其數據量會持續、快速地增長,且其中還包含著豐富的信息。因此針對這種復雜的海量數據,深度學習可以從中提取出更具表達能力的特征信息,從而實現更加精準地判斷及識別。
文中所采用的深度學習理論是一種利用深度人工神經網絡(Deep Artificial Neural Network,DANN)的機器學習算法(Machine Learning,ML)。基本的人工神經網絡結構[5]具有分別對應于神經細胞體和神經突起的節點與邊緣,如圖1 所示。其中,輸入層的節點通過邊連接到下一層中的其他節點,且邊的權重為w,該權重參數可反映兩個節點之間關聯的強度。典型的神經網絡由一個輸入層、一個輸出層及介于兩者之間可變數量的隱藏層組成。

圖1 人工神經網絡的基本組成
若神經網絡具有多個隱藏層,則稱其為深度神經網絡(Deep Neural Networks,DNN),基本結構如圖2所示[6-7]。首先將輸入層每個節點中的值乘以權重,而權重則被添加到下一層的節點中。因此,第一隱藏層中每個節點均包含具有不同權重的輸入節點中的所有信息,進而生成各種可能的簡化表示以區分數據集中的差異。隨后再將第一隱藏層節點中的信息集成到下一隱藏層節點中,即第一隱藏層所有節點中的值再次乘以不同的權重,且在第二隱藏層每個節點中產生不同的值。此過程在多個層中重復,使得節點差異組合的數量大幅增加,因此需要建立能夠分離數據集中差異的更高級標準。深度神經網絡的訓練旨在確定產生最小誤差函數的權重值,該函數表示解釋數據集的最優模型。在訓練期間進行權重優化,將初始輸入變量轉換為更有用的特征。然后選擇初始特征的子集并在更深層中構建抽象的特征,這些特征即為原始特征的差異組合。此外,由于所選要素中包含來自輸入數據的相關信息,故可以使用上述降維表示來執行所需的任務。上述方法即為深度神經網絡進行特征提取和選擇的過程。

圖2 深度神經網絡的基本結構
該文設計的基于深度學習與模糊C 均值聚類的檔案數據分析算法整體框架如圖3 所示。首先對醫院健康管理平臺獲取到的檔案信息進行數據預處理,以便后續算法的分析計算;然后利用深度學習模型雙向門控循環單元(BiGRU)學習數據集中的特征信息,并獲得不同屬性間的關聯性;最終引入模糊聚類方法對模型所學習到的特征信息進行聚類,從而實現患者健康狀況的預測。

圖3 檔案數據分析算法框架
深度學習方法可以從數據中提取深層及抽象的特征,并以有效的方式捕獲數據中的長期依賴關系,進而實現對圖像和文本數據的有效分析。由于診斷技術的發展,使得醫學圖像與轉錄數據的數量大幅增長。而在大數據分析中,深度學習方法具有比傳統方法更為理想的性能,故該文選擇了深度學習模型BiGRU 來進行數據的分析。該模型可以分別從正反兩個方向讀取數據,并提取健康檔案數據中的上下文特征和語義特征等信息[8-11]。因此,根據健康檔案數據的特點,該文基于深度學習模型BiGRU 設計了健康檔案的分析算法。
BiGRU 模型的基本單元由一個向前傳播與一個向后傳播的GRU 單元組成。GRU 是一種遞歸神經網絡(Recursive Neural Network,RNN)[12-13],其將輸入門和遺忘門合并至同一個更新門中,形成了更為精簡的結構。而上一時刻隱藏層的輸出對當前隱藏層的影響由更新門控制,更新門值越大,其影響就越大。前一時刻隱藏層信息的忽略程度則由復位門決定,復位門值越小,說明被忽略的信息越多。GRU 結構如圖4 所示。

圖4 GRU結構
圖4 中,x表示輸入數據,h表 示GRU 單元的輸出。r是復位門,z是更新門。GRU 在上一時刻通過復位門選擇需要放棄的信息,則有:
式中,Wr是復位門的權重信息,ht-1是前一時刻的輸入,br是該門的偏置,σ是激活函數。
GRU 通過更新門選擇并更新當前時刻的信息,計算公式如下:
式中,Wz是更新門的權重信息,bz是更新門偏置。
其中,tanh 為激活函數,Wh、bh為權重信息和偏置,rt為復位門的輸出,xt為輸入的數據。
最終GRU 便可根據上述結果得到輸出,計算公式如下:
深度學習算法雖具有良好的泛化與數值逼近能力,但其在執行過程中通常會產生確定值。而健康狀況有時較為模糊,因此直接采用深度學習算法訓練數據會存在較多的冗余信息,不但增大了計算量而且容易誘導算法難以收斂。相比于深度學習,模糊神經網絡可以產生更詳細的結果,也能過濾掉冗余信息,從而提高算法的泛化能力。模糊理論是一種具有模糊不確定性的重疊數據聚類算法,其能夠從海量數據中挖掘出關鍵信息并進行聚類識別[14-16]。為了提升檔案數據分析算法的性能,文中采用深度學習網絡模型和模糊C 均值聚類技術來構建新方法。
模糊C 均值聚類[17-19]根據距離與隸屬度值來最小化平方誤差目標函數J,然后將有限頂點集合V=(v1,v2,v3,…,vN)劃分為模糊子集C=(c1,c2,c3,…,ck)。
式中,m為大于1 的模糊度指數,Uij為vi在第j個聚類中的隸屬度。通過更新隸屬度矩陣U和聚類中心cj,迭代優化式(5)中的目標函數,以獲得模糊聚類。當邊緣切口小于閾值ε時,就會達到收斂。
首先初始化隸屬度矩陣U,令Uij=,然后利用式(6)計算所有頂點的模糊隸屬度:
再計算所有聚類的模糊聚類中心cj:
重復上述步驟,直至平方誤差目標函數J值達到最小化或小于閾值ε。
為驗證文中所提檔案數據分析算法的有效性,文中實驗將UK BioBank 的電子醫療記錄數據作為數據集。其中包含了319 650 名患者的入院診斷信息、處方、病理及影像報告等與健康有關的數據。而數據中的患者健康狀況類型可分為三種:健康、亞健康和疾病。同時,此次實驗還將該數據集分為訓練集、驗證集與測試集。
文中使用Python 進行仿真,通過實驗結果來驗證所提檔案數據分析算法的可行性。具體實驗環境如表1 所示。

表1 實驗仿真環境
將準確率、精確率、召回率與F1 值作為性能評價指標。計算公式如下:
式中,Pn為預測正確的樣本數量;N為所有樣本的總數量;TP 表示正確預測的樣本數,FP 表示其他分類被錯誤預測為此分類的樣本數,TN 表示作為其他分類被錯誤預測的樣本數。
3.3.1 參數調整
文中還通過多組實驗對比來確定算法的最優參數,具體實驗結果如表2 所示。由表可知,當算法的最優參數設置為迭代次數300 次、最佳優化器選擇Adam、學習率為0.001 以及批大小為64 個時,深度學習模型在數據集上的準確率可高達98.76%。

表2 參數調整實驗結果對比
3.3.2 算法對比
為了驗證該文算法的優越性,還將其與多種深度學習算法進行了實驗對比。表3 為不同算法的準確率、精確率、召回率和F1 值的對比結果。

表3 實驗對比結果
從表3 中可以看出,LSTM 在數據集中的表現最差,所有指標在對比算法中均為最低;而具有膨脹卷積和殘差模塊等結構的TCN 比LSTM 和GRU 這兩種RNN 的變體效果更優,且TCN 在測試集上的精確率為93.95%,召回率為94.18%,F1 值為94.06%。此外,該文算法的準確率、精確率、召回率與F1 值分別為98.76%、98.81%、98.56%以及98.68%,均優于其他深度學習模型,由此證明了該文算法的優越性,同時還驗證了加入模糊聚類的有效性。
為了對健康信息平臺采集的海量健康檔案數據進行智能化分析,文中提出了一種基于深度學習與模糊C 均值聚類的檔案數據分析處理算法,以實現對被測者健康狀況的精準預測。該算法采用深度學習模型BiGRU 對數據特征進行學習并提取關鍵信息,再通過模糊C 均值聚類算法進行處理,從而精準預測出相關人員未來的健康狀況。在UK BioBank公開電子醫療記錄數據集上進行的實驗結果證明了所提算法的綜合性能優越。此外,通過實驗對比還驗證了模糊C 均值聚類與BiGRU 聯合應用的可行性和有效性。