李 冰
(黑龍江中醫藥大學 佳木斯學院,黑龍江 佳木斯154002)
數據挖掘(DM :Data Mining)作為仍在不斷完善和發展的技術,到目前為止數據挖掘技術到現在還沒有形成統一的普遍的定義,目前比較公認的定義為:數據挖掘是從海量數據中提取或“挖掘”出有用的知識[1-2]使用數據挖掘技術可以對這些復雜的定性描述和隱性知識進行挖掘, 揭示其規律并使隱性知識顯性化[3]。 數據挖掘[4](DM :Data Mining)是一個集合數據庫、數理統計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。不僅計算機學科由于它的出現得到了快速的發展,并且也能為過程控制、商務管理、科學研究、優化查詢、醫藥研發等領域提供新的方法和注入新的活力,從而推進各個學科的不斷發展。
數據集是從某個環境或過程中取得的一系列測量結果。對于一些基本的情況,我們有一系列的測量對象,每一個測量對象都有統一的t個測量數據, 此時可以把這p 個對象的一系列測量結果看作是一個p×t 的數據矩陣。 矩陣中的t 列表示對每個對象所作的t 種測量,稱為變量、特征、屬性或者字段。這個數據矩陣中的n 行表示被測量的p 個對象,亦可稱為個體、實例、實體或記錄。
模式是一個用語言A 來表示的表達式B,它可用來描述數據集C中數據的特性,B 所描述的數據是集合C 的一個子集CB。 T 作為一個模式要求它列舉出數據子集CB 中所有元素的描述方法簡單。 舉例說明,例如,“如果考試成績在91—100 之間,則成績優秀”可稱為一個模式,而“如果成績為91、92、93、94、95、96、97、98、99 或100,則成績優秀”就不能稱之為一個模式。模式有很多種,按功能可分為預測型模式和描述型模式等。 從數據集中發現模式是數據挖掘的主要任務。
數據挖掘[4](DM :Data Mining)是一個集合數據庫、數理統計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。 不僅計算機學科由于它的出現得到了快速的發展,并且也能為過程控制、商務管理、科學研究、優化查詢、醫藥研發等領域提供新的方法和注入新的活力,從而推進各個學科的不斷發展。

圖1 數據庫知識發展(KDD)過程
數據挖掘從不同的視角看有幾種分類方法,主要是:根據發現知識的種類分類、根據采掘的數據庫的種類分類、根據應用和根據采用的技術分類分類等[5]。
根據發現知識的種類分類:這種分類方法有:關聯規則挖掘、偏差分析、分類規則挖掘、聚類規則挖掘、序列模式挖掘、趨勢分析等。根據采用的技術分類:最近鄰技術、決策樹、遺傳算法、人工神經網絡、可視化技術)等。 根據挖掘的數據庫分類:關系型、事務型、多媒體、主動型空間型、時間型、面向對象型、文本型、異質數據庫和遺留系統等。
祖國醫學是中華民族的一顆璀璨明珠,在幾千年的發展之中積累了中華民族與疾病斗爭的寶貴經驗,幾千年以來,我國的傳統醫學積累浩瀚的方劑和豐富的經驗,是世界上任何國家都無法比擬的。 歷代醫家遺留了大量的經典方劑, 這些方劑之中內中蘊涵著豐富的內容,要繼承和發揚這些名醫名家的學術經驗,就迫切需要我們運用現代先進的科學技術手段對其進行研究。 而今人類社會正在處在大規模、高速度的信息化時代,信息已經成為人類社會發展、進步和賴以生存的重要資源和基本資源。 但是目前,先進的科學技術尚未能充分利用于中醫藥學領域,大量寶貴的經典方劑流失,這嚴重影響了祖國醫學的發展。
在這樣的背景下,中醫醫學現代化的利用、轉化和傳播的速度及能力是我國傳統醫學現代化發展的關鍵性因素。 如果僅單靠“師傳徒學” 或個人研讀古代經方揣摩名醫名家經驗信息效率是十分低下的,并且中醫學的很多征候還具備很強的辯證性,描述疾病的主觀不確切和證候信息所體現出的客觀不完整, 形成了中醫證候信息的復雜性。這就阻礙了祖國醫學的快速發展,要實現中醫現代化,就要將我國豐富的中醫信息資源和現代計算機方法相結合,整理歸納浩如煙海的古代經典中醫文獻資料,實現中醫藥信息資源處理、轉化及傳播的現代化。現有的中醫數據庫中的大量數據為建立中醫學數據挖掘系統提供了充分的基礎,通過先進的計算機信息處理技術,建立新的知識體系構建形成新的知識,為我國傳統中醫學發揚光大提供新的思路。
[1]喬延江.中藥(復方)KDD 研究開發的意義[J].北京中醫藥大學學報.1998,21(3):15-17.
[2]Jiawei Han Micheline Kamber.范明,孟小峰等譯.數據挖掘概念與技術[J].北京:電子工業出版社.2001,3-5.
[3]Fayyad U Piatet sky-Shapiro,Smyth,Uthurussm y [Z].Advances in Knowledge Discovery and Data Mining MIT Press.1996.
[4]秦雪君,施誠.數據挖掘技術在中醫藥領域的應用[J].醫學信息.2006,19(5):28-32.
[5]邵峰晶,于忠清.數據挖掘原理與算法.第1 版[M].北京:中國水利水電出版社.2003.