文/甘櫪元 郭超峰
數(shù)據(jù)挖掘歸屬于計(jì)算機(jī)科學(xué)的范疇,是數(shù)據(jù)庫知識發(fā)現(xiàn)中不可或缺的重要步驟之一,具體而言,數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中,依托相關(guān)的算法,對隱藏在這些數(shù)據(jù)中的信息進(jìn)行搜索的過程。數(shù)據(jù)挖掘技術(shù)的提出有其必然性,在進(jìn)行數(shù)據(jù)挖掘的過程中,對諸多先進(jìn)的思想進(jìn)行了借鑒和利用,如統(tǒng)計(jì)學(xué)的抽樣與假設(shè)、AI中的搜索算法及學(xué)習(xí)理論等等,由此使數(shù)據(jù)挖掘日漸成熟和完善,應(yīng)用領(lǐng)域也隨之拓寬。
對于數(shù)據(jù)挖掘而言,由于需要從海量的數(shù)據(jù)中找出有利用價(jià)值的信息,從而使得整個(gè)挖掘過程相對比較復(fù)雜。常規(guī)的數(shù)據(jù)挖掘步驟如下:
Step1:問題分析。這是數(shù)據(jù)挖掘的開始,具體是指對數(shù)據(jù)及相關(guān)的業(yè)務(wù)問題進(jìn)行理解,在此基礎(chǔ)上提出問題,并對目標(biāo)進(jìn)行定義;
Step2:準(zhǔn)備數(shù)據(jù)。這是數(shù)據(jù)挖掘中較為重要的步驟之一,包括對數(shù)據(jù)的提取及校驗(yàn)。需要先獲得原始數(shù)據(jù),從中抽取子集,并將這些數(shù)據(jù)子集放在數(shù)據(jù)模型兼容的數(shù)據(jù)庫當(dāng)中,再以清洗的方法,將不兼容的數(shù)據(jù)剔除掉,利用剩余的數(shù)據(jù)創(chuàng)建挖掘庫;
Step3:建立模型。將相關(guān)的算法在模型上進(jìn)行應(yīng)用后,能夠得到一個(gè)與實(shí)際問題相關(guān)聯(lián)的結(jié)構(gòu),通過對該結(jié)構(gòu)中的數(shù)據(jù)進(jìn)行瀏覽,對源數(shù)據(jù)進(jìn)行確認(rèn),據(jù)此生成模型,該模型中包含一些重要的特征;
Step4:編寫查詢程序。當(dāng)數(shù)據(jù)模型建好之后,可使用相應(yīng)的編程語言和工具,如VB等,對前端查詢程序進(jìn)行編寫;
Step5:模型維護(hù)。因數(shù)據(jù)模型中初始數(shù)據(jù)的一些特征可能在使用的過程中發(fā)生改變,所以需要對模型進(jìn)行定期維護(hù),以此來確保數(shù)據(jù)挖掘精度。
數(shù)據(jù)挖掘方法的種類較多,比較常見的有以下幾種:統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫等等。
1.2.1 統(tǒng)計(jì)
這是數(shù)據(jù)挖掘中較為經(jīng)典的一種方法,包括抽樣技術(shù)、多元化統(tǒng)計(jì)分析以及預(yù)測等。
1.2.2 機(jī)器學(xué)習(xí)
這種數(shù)據(jù)挖掘方法中,較具代表性的有歸納學(xué)習(xí),如決策樹;范例學(xué)習(xí);遺傳算法以及粗糙集等等。其中遺傳算法能夠獲取全局最優(yōu)解,而粗糙集可以有效處理完整程度低以及不確定的問題。
1.2.3 神經(jīng)網(wǎng)絡(luò)
這是一種通過模擬人的神經(jīng)元,按照人腦的思維方式解決相關(guān)問題的方法,最終獲得的結(jié)果可用于分類與回歸。神經(jīng)網(wǎng)絡(luò)突出的特點(diǎn)在于能夠?qū)性肼暤臄?shù)據(jù)進(jìn)行處理,并且還可以對一些非線性數(shù)據(jù)進(jìn)行處理。
1.2.4 數(shù)據(jù)庫
這里的數(shù)據(jù)庫是一種分析方法,可對多維數(shù)據(jù)進(jìn)行分析,其存儲結(jié)構(gòu)的主要作用是對數(shù)據(jù)進(jìn)行高效檢索,適用于聚合數(shù)據(jù)。
中醫(yī)藥是涵蓋內(nèi)容極為豐富的醫(yī)藥學(xué)體系,其除了具有悠久的歷史之外,還有著獨(dú)特的理論與技法,是我國醫(yī)藥衛(wèi)生事業(yè)的重要組成部分之一,與現(xiàn)代西方國家的醫(yī)學(xué)體系并立。中醫(yī)藥信息的特點(diǎn)體現(xiàn)在如下幾個(gè)方面:信息既多且雜,并且形式多種多樣;專業(yè)數(shù)據(jù)不規(guī)范,信息較為模糊;中醫(yī)藥的方法論具有傳承性。為促進(jìn)我國中醫(yī)藥事業(yè)的穩(wěn)定、持續(xù)發(fā)展,可在中醫(yī)藥研究領(lǐng)域中,對數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用,以此來實(shí)現(xiàn)中醫(yī)藥特色研究不斷突破的目標(biāo)。下面對數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的具體應(yīng)用進(jìn)行分析。
中藥方劑即治病的藥方,是中醫(yī)藥研究的重點(diǎn)領(lǐng)域之一,較具代表性的藥方有《神農(nóng)本草經(jīng)》、《金匱要略》、《千金要方》等等。方劑是中醫(yī)治法實(shí)現(xiàn)的前提和基礎(chǔ),不同的方劑在治療各種疾病中所能起到的作用均不相同。大部分的方劑是由四個(gè)部分組成:君藥、臣藥、佐藥和使藥,通過對中藥的選擇及配伍,能夠配制出各種藥物,從而滿足治病救人的需要。在中藥方劑研究中,對數(shù)據(jù)挖掘技術(shù)的合理運(yùn)用,能夠找到方劑中各類中藥的配伍規(guī)律,進(jìn)而發(fā)現(xiàn)方劑與病癥之間的內(nèi)在聯(lián)系,揭示方劑的功效,為臨床醫(yī)師開具處方及合理用藥提供指導(dǎo)。
如,可運(yùn)用數(shù)據(jù)挖掘中的頻繁項(xiàng)集與關(guān)聯(lián)規(guī)則,對治療呼吸疾病的中醫(yī)方劑中的中藥成分及規(guī)律進(jìn)行研究分析,由此可得出如下結(jié)論:在選取的500個(gè)方劑中,甘草的使用頻率最高,置信度達(dá)到52.5%,苦杏仁、五味子、麻黃及人參這四味中藥次之;在500個(gè)方劑中,苦杏仁與麻黃同時(shí)出現(xiàn)的比例為92.5%,說明二者適宜配對使用。在治療呼吸困難的方劑中,甘草和麻黃配對使用的較多,而在清熱化痰的方劑中,配對使用的中藥有甘草與半夏、苦杏仁與半夏。又如,可以利用雙向關(guān)聯(lián)規(guī)則挖掘算法,將支持度小且對方劑意義不大的藥對排除掉,再通過聚類分析法,對挖掘出來的藥對進(jìn)行功效總結(jié),進(jìn)而得出治療脾胃類方劑中,藥對的配伍規(guī)律,其中使用頻率較高的藥對為白術(shù)與茯苓、陳皮與茯苓、白術(shù)與人參,配以甘淡、苦溫等方面的中藥,可以起到化濕、健脾、理氣的功效。在中醫(yī)方劑的研究中,數(shù)據(jù)挖掘最終獲得的結(jié)果,與藥物的配伍規(guī)律相符,可為醫(yī)師開具處方提供指導(dǎo)。
2.2.1 四診客觀化
中醫(yī)診斷是中醫(yī)藥研究的重點(diǎn)領(lǐng)域,具體是指在中醫(yī)基礎(chǔ)理論的指導(dǎo)下,對診察病情、辨別病癥的方法和技能進(jìn)行研究。中醫(yī)診斷是基礎(chǔ)理論與臨床的橋梁,其重要性不言而喻。中醫(yī)四診包括望、聞、問、切四種診斷方法,四診客觀化是實(shí)現(xiàn)中醫(yī)診斷客觀化的前提和基礎(chǔ),而數(shù)據(jù)挖掘技術(shù)則是四診客觀化對相關(guān)文獻(xiàn)處理的有效途徑之一。例如,可將中醫(yī)的病案與脈診和舌診理論進(jìn)行有機(jī)結(jié)合,據(jù)此構(gòu)建OLAP系統(tǒng),即中醫(yī)病案聯(lián)機(jī)分析處理系統(tǒng),依托該系統(tǒng)對實(shí)際案例進(jìn)行研究,從而了解當(dāng)代名醫(yī)對脈診和舌診的認(rèn)識,掌握脈象、舌象與患者病癥之間的相關(guān)性。
2.2.2 臨床診斷
對于中醫(yī)臨床而言,診斷的主要作用是對治療方案進(jìn)行確定,對方劑的使用進(jìn)行指導(dǎo),從而達(dá)到調(diào)理康復(fù)的目標(biāo)。因此,中醫(yī)診斷的正確性尤為重要。由于中醫(yī)臨床的部分疾病具有錯(cuò)綜復(fù)雜的特點(diǎn),為此,可在中醫(yī)臨床診斷中,對數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用,借助分析分類的方法進(jìn)行疾病診斷。例如,可以利用數(shù)據(jù)挖掘中的貝葉斯學(xué)習(xí)分類法,對男女患者的CT圖像進(jìn)行自動(dòng)診斷;借助機(jī)器學(xué)習(xí)的方法,對重癥患者的呼吸壓力進(jìn)行分析。在中醫(yī)藥研究中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,由此使得中醫(yī)藥海量數(shù)據(jù)信息的處理成為可能,對于促進(jìn)中醫(yī)診斷學(xué)研究水平的提升具有重要的現(xiàn)實(shí)意義。
在中醫(yī)學(xué)中,證候是一個(gè)專業(yè)術(shù)語,是具有關(guān)聯(lián)性的癥狀總稱,即通過四診獲得的疾病在機(jī)體上的反應(yīng)狀態(tài)及變化情況。對中醫(yī)證候進(jìn)行研究的過程中,需要使用方法學(xué),而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為證候研究水平的提升提供了技術(shù)支撐。目前,基于數(shù)據(jù)挖掘的中醫(yī)證候研究呈現(xiàn)出逐步增多的態(tài)勢,并且其中部分研究取得了突破性進(jìn)展,通過各種數(shù)據(jù)方法的聯(lián)合運(yùn)用,能夠?qū)χ嗅t(yī)證候的特點(diǎn)進(jìn)行區(qū)分與歸納,從而為辯證治療提供支持。例如,可以采用樣本聚類分析的方法,找出胃脘痛的證候特點(diǎn),再通過回歸分析的OR值,可對胃脘痛證候的量化診斷進(jìn)行深入探討,從而為臨床辯證治療提供依據(jù)。又如,可利用決策樹C4.5算法,構(gòu)建中醫(yī)辯證模型,對慢性胃炎的中醫(yī)證候進(jìn)行鑒別診斷。
針灸是一種治療疾病的方法,分為針法和灸法。目前,針灸已經(jīng)被正式列入國家級非物質(zhì)文化遺產(chǎn)名錄當(dāng)中。針灸是一種內(nèi)病外治的傳統(tǒng)醫(yī)術(shù),是中國醫(yī)學(xué)遺產(chǎn)的一部分,通過針灸能夠疏通經(jīng)絡(luò)、調(diào)和陰陽,很多疑難雜癥都可以采用針灸進(jìn)行治療,并且療效顯著。盡管現(xiàn)代醫(yī)學(xué)快速發(fā)展,但中醫(yī)針灸卻仍然在醫(yī)學(xué)界中占據(jù)一席之地,這種治療方法的傳承與發(fā)展有其重要性和必要性。利用數(shù)據(jù)挖掘技術(shù),對針灸治療各種疾病時(shí)的用穴特點(diǎn)進(jìn)行研究分析,能夠幫助醫(yī)師更快地掌握針灸的方法,對于促進(jìn)該醫(yī)療手段的發(fā)展具有重要作用。例如,借助數(shù)據(jù)挖掘技術(shù)中的多層關(guān)聯(lián)規(guī)則,可對針灸治療心絞痛的用穴特點(diǎn)及規(guī)律進(jìn)行分析,從而得出中醫(yī)針灸在治療心絞痛方面使用頻率較高的經(jīng)絡(luò)和穴位為心包經(jīng)、膀胱經(jīng)以及任脈。內(nèi)關(guān)則是使用頻率最高的腧穴,膻中穴和心俞次之。從中發(fā)現(xiàn),在針灸治療心絞痛時(shí),有8個(gè)特定的穴位,配伍則是以這些穴位為主。該研究結(jié)果對于促進(jìn)針灸療法的改進(jìn)和發(fā)展意義重大。
綜上所述,中醫(yī)藥研究是一項(xiàng)非常重要的工作,尤其是在醫(yī)療技術(shù)快速發(fā)展的今天,中醫(yī)藥仍然占據(jù)一席之地。由于中醫(yī)藥有著悠久的歷史傳承,在這一過程中形成大量的數(shù)據(jù)信息,為從這些數(shù)據(jù)中發(fā)現(xiàn)更多有價(jià)值的信息,可對數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用,由此能夠推動(dòng)我國中醫(yī)藥事業(yè)的持續(xù)發(fā)展。