楊曉露
【摘 要】本文從國內外C4.5算法在藥物臨床中的應用研究現狀出發,對C4.5在藥物臨床中的研究不足、研究建議做主要論述。有助于對藥物臨床數據挖掘的開發,具有一定的指導意義。
【關鍵詞】C4.5;藥物;開發;數據挖掘
一、C4..5及其臨床應用現狀
C4.5作為數據挖掘算法中成熟的算法之一,也早已被應用到醫學大數據分析分類中。C4.5相比較ID3算法,作為它的升級版,采用信息增益率來選擇屬性的方式,成功解決了原本ID3算法中用信息增益選擇屬性的不足。信息增益率使用“分裂信息”,將信息增益桂規范化,其主要定義為:
C4.5算法采用構造決策樹的形式,自上而下遞歸,在建造成決策樹過程中進行剪枝,快速進行連續屬性的離散化處理和對樣本內部缺失數據的處理[1]。
我國相對于其他國家更晚的進入信息技術時代,這也讓我國民眾對大數據的深遠影響的認識較晚。但是隨著投身到大數據領域的人才越來越多,獲得的成果也越來越豐盛,對C4.5的算法也越來越深入。在臨床糖尿病應用領域,國內外學者采用人工神經網絡、集成學習模型、灰色預測法、應用樹等方法來研究,先隨著C4.5模型的開發,C4.5也用在該領域,并拓展到其他臨床、新藥開發等領域。
在國外臨床中,科學家針對發病率較高的六種疾病,建立了決策樹。在每一顆決策樹中,對疾病的影響因素單獨分析,并通過決策樹提取針對規則,最終能提供給年輕、缺少經驗的醫師有參考價值的信息。而對于藥物試驗,早在上個世紀九十年代,美國醫療機構和制藥公司,早就已經將數據挖掘技術用到新藥的開發試驗當中,減少新藥開發周期。
在國內,對于雖然國家在1999年5月,開始中藥現代化研究與產業化開發,開啟了現代化中醫藥業的發展路程。在我國醫藥機構的研發下,已經建立了相關的藥物試驗平臺,用于新藥的開發和數據監控管理,減少新藥的開發周期與效率,最高可縮短30%。
臨床使用方面,我國關紅鈞教授提出了構造Ⅱ型糖尿病的決策樹,提高了診斷準確率,高達97%,為診斷該病提出了理論依據。其他Ⅱ型糖尿病決策模型,在選取的17例中使用C4.5算法建立模型,準確率比ID3算法高3%-4%。在乳腺癌診斷方面,我國學者翁天樂在癌癥腫瘤方面做出了相關研究,建立了腫瘤診斷的決策樹模型,改進了傳統醫療診斷弊端,將機器學習運用到診斷過程中。南昌大學學者王卓也在臨床分類中,運用粗糙集理論,整合并規范在臨床病例中的糖尿病并發癥數據,很好地實現對糖尿病并發癥的輔助診斷。
二、研究中產生的問題
在利用C4.5構造決策樹的過程中,只能將客觀數據輸入,具有很狹小的應用范圍,對于新藥臨床應用中,不同藥物要重新構造決策樹,不具備通用性。對于藥物的使用情況構造決策樹,并且決策樹中節點繁多,每一個節點都需要大量研究去證實,才能保證后期診斷過程中的診斷正確率。同時,藥物臨床應用過程中,對于不同的并發癥也需要單獨的決策樹,對藥物使用情況進行分析,從而增加了開發成本。
對于臨床實驗中,尤其是新藥的開發需要有更多的數據支撐平臺的合理性、通用性,但是在實際過程中數據達不到期望值。盡管病人數量達到一定值,但是與臨床試驗的匹配也是個巨大的工程,這是實際應用中的一大難點。
在決策樹過程中,所有的數據都是客觀數據,這些數據并不涵蓋心理、天氣等其他主觀、復雜的因素,也并不能精確地判斷藥物試驗后的人體的全面、真實、客觀情況。所以在判斷病人是否好轉的時候,作為判斷藥物作用程度的依據,缺乏準確性。[2]同時,對于使用藥物所出現的副作用并不能描述清楚,尤其是對人體數據采集的過程中,并不能對人體數據精確、全面的采集,只能依靠經驗或后期市場投入反饋來獲得,這也加大了新藥投入市場的風險。在病人服藥過程中,是否有潛在藥效也不能很好地發現。在藥物臨床的試驗過程中,受到成本、精力等因素的影響,往往只將測試點集中在試驗關注點,對于病人其他病癥是否產生藥效的關注較少,這也是在對人體數據采集不夠精確、全面的結果。
為此在C4.5算法決策樹構建過程,各實驗室、醫藥機構能夠加強數據交流,對所實驗的醫藥信息共享,讓數據在流動過程中具備一定的通用性。這樣也就能讓試驗人員對試驗過程中的數據管理有效監控,能滿足對數據的匯總統計的同時,減少不必要的試驗和開發周期。能在數據互通的情況下,低成本地發現新藥副作用、潛在藥效,同時一個機構或一個國家的信息系統數據偏少,但是在全球建立大型數據信息分享系統,能夠有效增加新藥試驗數據,且這一類試驗數據是在計劃成本、實際統計人數之外。這也擴大了醫藥數據的范圍,無形中減少因數據采集較少而產生的準確度低得問題。
三、研究建議
在人工智能發展的潮流下,該研究也乘上了互聯網的快車。對于醫療電子健康記錄的建立也是一大研究課題,不少醫院已經建立電子檔案庫,對患者一改傳統手寫檔案為電子檔案,對患者的患病記錄、用藥記錄等采集。電子健康記錄的普及,也為我國新藥試驗管理系統的開發提供了大量數據。雖然我國目前還沒有任何新藥試驗管理系統,遠遠落后于發達國家。
在試驗系統研發前夕,可以采用決策樹對臨床的數據采集、分析能夠投入到應用。對不同患者信息的錄入,后期可以依照特征信息對患者快速分類,并篩選出適合的患者,能降低尋找患者的周期、成本。在基于全國電子健康記錄系統開放的前提下,收集與新藥相關患者信息,并依據試驗項目信息對實驗者提取特征信息,對目標患者中受試者進行試驗,對于預測患者酌情試驗,最終得到足夠的試驗數據,并對臨床試驗后的受試者追蹤、隨訪,完成對整個臨床試驗的報告。
四、結論
C4.5算法在新藥臨床實驗中能夠發揮巨大作用,國外在該領域的應用遠遠領先于我國。我國在這一方面還沒有正式起步,但是未來也一定起步。不管是在新藥試驗系統開發中還是開發準備過程中,都具有不可忽略的作用。而本文也依據C4.5在新藥臨床試驗應用研究現狀,對其準備過程中提出了建議,對開發者具有一定的指導意義。
【參考文獻】
[1]王卓.基于粗糙集和C4.5決策樹的臨床病例數據分類研究[J].軟件導刊,2014,13(05):61-64.
[2]馬爾麗. 決策樹模型在2型糖尿病診斷中的應用[D].沈陽師范大學,2018.
[3]張大愚. 基于數據挖掘技術的新藥臨床試驗綜合平臺的研究[D].電子科技大學,2008.