陳凌宇,鄧金城,盧燕妮
(1.玉林市第一人民醫院腫瘤科,廣西玉林 537000;2.深影醫療科技(深圳)有限公司,廣東深圳 518109;3.廣西醫科大學附設玉林衛生學校學生工作部門,廣西玉林 537000)
放療數據是惡性腫瘤治療過程中產生的相關數據,其產生的途徑主要分為3方面,一是由醫院信息管理系統、電子健康記錄以及個人健康記錄中產生;二是由放射治療計劃管理中產生;三是由醫學影像設備產生[1]。這些放射數據中包含患者所有的個人信息、診斷結果、治療記錄以及用藥和住院治療等多個方面的詳細信息[2];這些信息結構復雜,類別較多,包含醫學影響、診斷記錄、病歷檔案等,整體可分為結構化信息、半結構化信息以及非結構化信息[3],具有顯著的多源異構特性,因此在一定程度上呈現相互孤立、且分散程度較高等分布狀態。除此之外,放療數據存儲于不同的治療科室內,導致醫生在進行臨床應用時,無法全面掌握數據情況,到時數據的可利用程度較低[4]。近幾年惡性腫瘤的臨床治療病例顯著增加,各大醫院對于該類患者進行治療過程中,均需依據放療數據完成,因此,導致各大醫院對于放療數據的管理需求也逐漸增加,如何有效、全面、合理的實現放療數據的整合和管理[5],對于患者情況的掌握以及其放療數據的分析具有重要意義。
數據挖掘技術屬于人工智能領域中的一項重要的大數據處理技術,該技術具有良好的大數據處理能力,可獲取海量數據中的隱藏信息。并且該技術具有不同類型數據的挖掘和處理能力[6],能夠較好地完成具有多源異構特性的分析和處理;除此之外,其還能夠完成數據庫的挖掘。因此,本文針對放療數據的管理需求,提出基于數據挖掘的放療數據分析與評估技術,并對該技術的應用情況展開相關分析和測試。
由于放療數據為多源異構數據,數據的類別較多、結構較為復雜,因此,本文為實現放療數據的全面、有效管理,主要依據基于數據挖掘模型進行放療數據的挖掘,該模型結構如圖1描述。

圖1 放療數據挖掘模型結構
數據挖掘模型在進行放療數據挖掘時,可以對各個部門中的患者檔案、電力病例以及相關治療記錄文檔和表格進行深度挖掘,并且對挖掘和抽取的放療數據進行加載和轉換處理后,實現放療數據的高效整合[7],以此構建統一的元數據庫。以元數據庫為基礎,利用數據引擎獲取其中的放療數據和信息,并且通過可視化界面,將所需的放療數據呈現給用戶。通過該模型即可有效解決臨床中放療數據的分散現象,實現放療數據的整體化管理,提升放療數據的管理水平。
由圖1 可知,放療數據庫的構建是以元數據庫為基礎,因此,本文為保證放療數據庫構建后數據的調用能力以及數據完整性,文中采用MVC 框架作為放療數據的數據庫結構,該框架主要分為模型層、視圖層以及控制層,通過3層之間的相互支撐,完成數據庫基礎結構的構建。其中,模型層是數據庫框架的基礎,其主要作用是為數據庫構建提供相應功能支撐,保證放療數據業務處理流程滿足相關標準和規則;視圖層主要是用于實現數據庫的可視化和交互,使用戶能夠查看數據庫中的數據結果;控制層屬于數據庫框架中的中間層,主要用于另外兩層之間的數據傳送和操作的協調和控制。
采用數據挖掘技術進行放療數據挖掘時,以元數據庫為基礎,利用數據挖掘引擎獲取其中的放療數據,形成不同主題的放療數據集,實現放療數據庫構建。本文為保證放療數據的挖掘效果以及數據庫的質量,在進行放療數據挖掘和存儲過程中,主要采用聚類算法完成。
式中:me表示所有質心數量;αi表示質心,屬于同一個放療數據樣本,其計算公式為:
式中:X表示放療數據總樣本。
為避免挖掘的放療數據存在儲過程中發生畸變,文中引入畸變函數對挖掘的放療數據進行約束,其計算公式為:
式中:J(c,α)表示距離平方和,對應樣本點和其質心之間,保證其取值為最小結果,同時完成(c,α)的收斂,以此獲取放療數據局部最優結果。在此基礎上,依據概率強度和關聯重要程度,提升放療數據庫的應用效果,確保放療數據的存儲和管理效果。
依據上述小節完成放療數據的挖掘后,為衡量挖掘結果對于臨床的應用效果,挖掘的放療數據是否為有價值數據,文中直接對數據挖掘結果進行評估。該評估主要從兩個方面進行,分別為用戶的主觀層面以及挖掘模型的客觀層面;前者主要通過3種標準進行衡量,分別為易于理解程度、數據有效程度、潛在價值情況;后者則通過主觀度量進行評估,該度量需具有放療數據特征給定能力,同時滿足已經定義的信息需求。
本文在進行挖掘模型客觀層面評估時,度量信息能夠通過3個層次的度量,進行數據挖掘模型的評估,分別為基本度量、派生度量以及指示器。挖掘模型的評估度量構造模型如圖2描述。

圖2 數據挖掘模型的評估度量結構
對數據挖掘模型在進行放療數據挖掘后,會獲取若干條模式,其中也會存在一定的無價值模式,因此,對挖掘模型的挖掘結果進行評估,是保證數據挖掘結果的有效手段;依據評估結果可去除沒有價值的模式,并且提升數據挖掘的效率。
為分析數據挖掘技術在放療數據分析與評估上的應用效果,以某醫院的放療數據作為實例分析對象展開相關測試,測試主要包含兩個方向:一是放療數據庫構建效果,二是放療數據分析效果。
放療數據庫構建效果對于放療數據的應用效果存在直接影響,文中采用離散度常數作為衡量指標,用于分析數據庫中,同類放療數據的差異性,該指標的取值范圍在0~1 之間,越接近1 表示數據庫的構建效果越差。該指標的計算公式為:
式中:mean表示加權平均數;ij表示放療數據元素的一個項。
依據該公式獲取本文技術進行放療數據庫構建后,在不同的數據類別下,隨著數據量的逐漸增加,σ2的測試結果,如表1描述。

表1 離散度常數測試結果
由表1結果可知:在數字化結構數據、影像數據以及結構化數據三種數據類別下,隨著數據量的逐漸增加,采用本文技術進行數據挖掘后,構建數據庫,數據庫發的離散度常數σ2結果均在0.025 以下,表示同類放療數據之間的差異性較小,能夠有效完成放療數據挖掘,數據庫的構建效果較好。
為驗證本文技術應用后,對于放療數據的分析效果,隨機抽取一條數據庫中存儲的放療信息,并對該信息記性分析,獲取分析結果如圖3所示。

圖3 放療數據的分析效果
由圖3結果可知:本文技術應用后,能夠實現數據庫中放療數據的解析,并獲取解析結果,該結果中包含患者的CT 檢查數據以及部分的治療信息。因此,本文技術具有放療數據分析能力,能夠精準掌握數據庫中放療數據詳情。
數據挖掘技術對于大數據的處理具有顯著優勢,放療數據包含多個類別的數據信息,對于數據的利用、患者情況分析等均具有一定影響。因此,為保障放療數據的二次利用,同時分析數據挖掘結果的可靠程度,本文探析數據挖掘技術在放療數據分析與評估上的應用情況。以數據挖掘模型為基礎,并依據該模型挖掘放療數據,構建數據庫,實現放療數據的統一封裝和管理,并且評估挖掘效果,確保放療數據的管理效果。