,
(1.遼寧中醫藥大學,遼寧 沈陽 110032;2.遼寧中醫藥大學附屬醫院,遼寧 沈陽 130032)
數據收集和數據存儲技術的快速進步使得各組織機構可以積累海量數據。然而,提取有用的信息已經成為巨大的挑戰。通常,由于數據量太大,無法使用傳統的數據分析工具和技術處理它們。有時,即使數據集相對較小,由于數據本身的非傳統特點,例如像中醫的證候信息,也不能使用傳統的方法處理。在另外一些情況下,需要回答的問題不能使用已有的數據分析技術來解決。因此,就需要開發新的方法。數據挖掘是一種技術,它將傳統的數據分析方法與處理大量數據的復雜算法相結合。數據挖掘為探查和分析新的數據類型以及用新方法分析舊的數據類型提供了令人振奮的機會[1]。中醫學界的研究者正在快速積累大量數據,這些數據對獲得有價值的新發現至關重要。然而,由于這些數據的規模、噪聲和高維性,傳統的方法常常不適合分析這些數據集,需要新的數據分析方法。數據挖掘開發的技術可以幫助中醫研究人員解決這些問題。
數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還具有預測未來貫徹結果的能力,例如,預測一位向心性肥胖的人出現乏力、多飲,但目前測量血糖、血脂、血壓都正常,在未來半年內是否發生2型糖尿病。數據挖掘是數據庫中知識發現(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示[2]。該過程包括一系列轉換步驟,從數據的預處理到數據挖掘結果的后處理。
數據挖掘利用了來自如下一些領域的思想:(1)

圖1 數據庫知識發展(KDD)過程
來自統計學的抽樣、估計和假設檢驗。(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算,信息論、信號處理、可視化和信息檢索[2]。通常,數據挖掘任務分為兩大類:一類是預測任務,這些任務的目標是根據其他屬性的值,預測特定屬性的值;另一類是描述任務,這類任務的目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常)。描述性數據挖掘任務通常是探查性的,并且常常需要后處理技術驗證和解釋結果。
(1)預測建模,涉及以說明變量函數的方式為目標變量建立模型。有兩類預測建模任務:分類,用于預測離散的目標變量;回歸,用于預測連續的目標變量。預測建模可以用來解決中醫脈診的客觀化指標確定問題。為進行這一任務,我們需要一個數據集(脈名,相對客觀指標1,相對客觀指標2,……)。客觀指標相對化是指因測量者的體質不同而進行的修正,脈名的確定應該有權威的中醫專家確定。由此可以確定不同脈的客觀化指標的范圍,但需要后處理技術檢驗。(2)關聯分析,用來發現描述數據中強關聯特征的模式。關聯分析在中醫中的應用包括找出某一疾病患者出現的各種癥狀和體征之間的聯系,方劑的配伍規則。對中醫古代文獻中復雜的定性描述進行關聯分析,揭示其規律實現標準化[3]。(3)聚類分析,旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。中醫標準化診斷和治療是現今研究的熱點,而標準化要解決的第一個問題就是經西醫確診后的疾病的中醫證候分類問題[4]。例如,代謝綜合征到底有哪些證型,要解決這個問題需要的觀測值特別多,而且具有高維性,聚類分析可以進行初步的篩選和分類。(4)異常檢測的任務是識別其特征顯著不同于其他數據的觀測值,目標是發現真正的異常點,而避免錯誤地將正常的對象標注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。異常檢測的應用包括疾病的不尋常模式,藥物的不典型副作用。由此可見,對中醫觀測數據的挖掘應采用多種方法分批、多層次的挖掘,對結果應該綜合分析,并且得到專家的一致共識,才有參照意義。
以上所論及的挖掘算法都并非專為中醫開發的,它們的適應范圍廣,中醫研究是可以借鑒的[5]。如果根據中醫自身特點而研發的挖掘算法,則可以更好解決中醫研究中遇到的問題。筆者認為在這方面醫圣張仲景已經樹立了榜樣,他的《傷寒論》就應用了數據挖掘技術。他分析的數據就是大量臨床病例,分析數據所使用的方法來源有三,其一是他精通中國古代數學;其二是他鉆研《素問》、《九卷》、《八十一難》、《陰陽大論》、《胎臚藥錄》等典籍,從中得出的術數模型;其三是一些統計學方法。他得出的模式是六經辨證模式,此模式成為中醫臨床最重要的辨證模式。六經辨證模式解決了中醫外感病的分類與治療問題,外感病傳變、轉屬等諸多問題。以上雖有杜撰之嫌,但也的確能給研究者一些啟示。
[1]ZhangHui Tang,著.高 升,譯.數據挖掘原理與應用[M].北京:清華大學出版社,2007:2-4.
[2]Pang-Ning Tan,著.范 明,譯.數據挖掘導論[M].北京:人民郵電出版社,2006:1-4.
[3]秦雪君,施 誠.數據挖掘技術在中醫藥領域的應用[J].醫學信息,2006,19(5):945-947.
[4]張 琴,劉 平,張文彤.數據挖掘技術在中醫證候學研究中的應用[J].上海中醫藥雜志,2006,40(3):3-5.
[5]龔燕冰,倪 青,王永炎.中醫證候研究的現代方法學述評[J].北京中醫藥大學學報,2006,29(12):797-801.