(河北經貿大學 河北 石家莊 050000)
本文主要是對數據挖掘以及對使用貝葉斯方法進行數據挖掘的研究。
數據挖掘是一門交叉學科,它涉及到統計學、數據庫技術、模式識別和機器學習,它主要對大型數據庫進行相關分析,以發現先前未知的、用戶感興趣的有用知識。數據挖掘的目標是從數據集中發現隱含的、有意義的知識,它所處理的數據可以是結構化的,如關系數據庫中的數據,也可以是非結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。數據挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。這里所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。
數據挖掘技術的一個重要應用就是挖掘先前未知的知識,數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別之一是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的知識應具有先前未知,有效和實用三個特征。
數據挖掘一般分五個步驟,各個步驟解釋如下:
1.問題定義:了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。定義要挖掘的目標。
2.數據提取:根據要求從數據庫中提取相關的數據。
3.數據預處理:主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。
4.知識獲取:運用選定的數據挖掘算法,從數據中提取用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。
5.評估:將發現的知識以用戶能理解的方式呈現,例如某種規則,再根據實際執行情況對知識發現過程中的具體處理階段進行優化,直到滿足用戶要求。
貝葉斯方法就是可以通過看結果來了解假設的一種方法,也就是說,在對一些必要信息之甚少,或者毫不知情的情況下,貝葉斯方法可以通過先驗信息來推得后驗結果。貝葉斯方法的一個特點是使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現。貝葉斯理論在數據挖掘中的應用主要包括貝葉斯方法用于分類及回歸分析、因果推理和不確定知識表達以及聚類模式發現等。貝葉斯統計是貝葉斯理論和方法的應用之一,其基本思想是:假定對所研究的對象在抽樣前己有一定的認識,常用先驗分布來描述這種認識,然后基于抽取的樣本再對先驗認識作修正,得到后驗分布,而各種統計推斷均是基于后驗分布進行。經典統計學的出發點是根據樣本,在一定的統計模型下做出統計推斷。而貝葉斯方法是在取得樣本觀測值X之前,往往對參數統計模型中的參數夕有某些先驗知識,關于夕的先驗知識的數學描述就是先驗分布。貝葉斯方法的主要特點是使用先驗分布,而在得到樣本觀測值X二x(xZ,…,x)r后,由X與先驗分布提供的信息,經過計算和處理,形成較完整的后驗信息。這一后驗分布是貝葉斯推斷的基礎。
1.貝葉斯方法用于聚類。首先根據先驗信息假定數據集中可能要聚為一類的數據服從某種分布,再用某種距離測度檢驗先驗信息給出的這種分布是否符合聚為一類的要求。如果達不到聚類的要求,則根據計算概率找出不符合要求的原因,重新確定其分布,或修正此分布的參數,以獲得更準確的分布。分類規則是根據數據集的樣本數據及其它約束條件將其分到某個類別中,在數據挖掘中,主要研究如何從數據或經驗中學習這些分類規則。對于分類問題,有些情況下,輸入的某些樣本唯一的對應著一個類別,在這種情況下,可以直接對數據對象分而治之,無需用貝葉斯方法或者其它方法進行復雜的處理;而在有些情況下,則會出現樣本重疊的現象,也就是說,來自于不同類別的樣本數據從外觀特征上具有極大的相似性,由于必須為一個樣本選擇一個類別,因此可以從某一樣本屬于某一類別的概率大小來判斷。貝葉斯方法就是這樣一種處理方法處理此種情況,即選擇后驗概率最大的類別。
2.貝葉斯方法用于發現關聯規則。挖掘關聯規則的目的就是找出所有這樣的規則,它們的支持度和可信度大于用戶指定的最小支持度和可信度。
3.貝葉斯方法用于偏差分析。偏差分析探測數據現狀和歷史記錄或標準之間的差別,例如結果與期望的偏離,異常實例等。用于偏差檢測的方法很多,其中數據挖掘本身的其它方法也可用于偏差分析,如前所述的關聯規則挖掘方法、聚類方法等。偏差分析的目的之一就是去除異常點,從而不能使這些異常點干擾挖掘過程。
在運用貝葉斯方法時,由于要對先驗概率進行計算而得出后驗概率,不可避免的多花費時間開銷,特別是對數據量不大的數據集進行分析時,這種差距比較明顯。即使這樣,其準確率卻是顯而易見的。使用貝葉斯方法后,準確率增加是山于貝葉斯方法是一個修正的過程,通過后驗結果來修正前面所得的結果,當然這有一個前提,就是先驗信自、的正確性。如果先驗信息不充分或者不正確,那所得的結果會與實際結果大相徑庭。
總結:本項研究中,仍存在的一些問題,有待今后進一步探討和解決,并闡明了數據挖掘的研究方向和應用前景。