李國慶
(江蘇聯合職業技術學院徐州財經分院 江蘇 221008)
數據庫技術是計算機數據處理與信息管理系統的核心,研究和解決了計算機信息處理過程中大量數據有效地組織和存儲的問題,其主要作用是通過技術實現在數據庫系統中減少數據存儲冗余、實現數據共享、保障數據安全以及高效地檢索數據和處理數據,數據庫技術的根本目標是要解決數據的共享問題。
在數據庫系統中對數據庫中的數據進行有效計算是數據庫研究中的重點內容,對數據進行分類實際上是發現數據之間存在的聯系,對具有共性的數據進行分類的一個過程。目前,在數據挖掘中已經成功應用多種數據處理方法,對數據庫的發展起到了有效推動作用。
貝葉斯(Bayes)分類法是歸于統計學的一種分類方法,主要利用概率知識對數據進行計算。大多數情況下,這種分類方法在效果上是能夠與神經網絡法與決策樹分類法相比較的。貝葉斯分類法主要應用于較大型數據庫當中,在計算效果上快速準確,尤其是在分類方面,能夠對數據進行合理分類。但是,在使用貝葉斯(Bayes)分類法算法的過程中,要對某一屬性值進行假設,假設它對相應類別的影作用是不受其它屬性值影響的,而這種假設在實際情況中并不成立,因此對計算的準確程度上會產生一定影響。
貝葉斯算法是一種實用性較強的技術,相對于決策樹算法而言,這種算法不僅運用起來較為簡單,且操作方便,不需要進行大量的數據搜索。但是,這種算法是基于假設進行的,而這類假設通常難以滿足實際情況。基于這種情況,研究者研制出了一種形狀類似網絡圖形的結構,并將其稱為貝葉斯網絡。貝葉斯網絡的理論基礎比較穩固,在建設上采用簡單易懂的圖解法來表示概率分布變更的情況。在這張圖中,每個屬性都存在于對應的節點,節點之間的連接具有方向性,但不能形成環狀,其工作原理如下:
(1)在統計學中,要求每次試驗的對象都相互獨立,即對實驗對象進行父輩節點屬性設置,保障其父輩以及更高輩分的屬性是相互獨立的。
(2)在概率論中,存在一條鏈規則,這種規則設定了屬性的數量,并通過公式將聯合概率分解為乘積形式。由于這種網絡是一種無法進行環狀連接的排序,因此節點順序也應按照大小進行排列。
由于貝葉斯算法的特點,其研究重點應該放在建立的過程。面對數據庫中的大量數據,研究者必須優化計算方法,將數據進行合理的屬性設定,保障其精度的準確。為此,研究者提出了一種較為折中的方式,被稱為“樹擴張”形式。這種方式的基本思想是將傳統貝葉斯方式的屬性假設做出合理設定,及在條件上稍微放松,將其結構進行合理擴展,讓這種結構能夠將屬性之間原本存在的關系有效容納。這種方式具體而言是在分類器上加上相應連線,并考慮將每個節點設置對應的父輩節點。通過實驗不難發現,這種算法的性能是比較優異的。
決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
決策樹在結構上呈現出樹狀,由一個根節點展開,對不同屬性的數據進行測試,并對測試結果進行分類,每個分類都相當于這棵樹的“分枝”,接著,將內個分類中的樣本劃分為不同的子集,子集的集合相當于樹的節點。在生成的決策樹中,每個葉節點都應該有一個相應的分類與之對應,保障從屬關系能夠被有效挖掘。舉一個簡單的例子,對某個周日下午是否適合打羽毛球進行分析,包含對戶外三種情況的分析,每種情況又要進行具體濕度或是風力影響的分析,具體構建出的決策樹如圖。
使用決策樹方法進行數據處理過程中,需要與數據倉庫進行有效結合,以此來保障數據挖掘的有效性。數據倉庫的存在能夠對數據進行分層次的挖掘,幫助決策樹能夠更加準確,且在交互式方面運用合理。在概念層次樹當中,與數據立方的有效結合能夠在抽象概念上對數據進行有效分類,即在決策樹建立完成之后還能夠使用樹中的概念層次將每個節點進行泛化。

決策樹的應用在數據挖掘領域中存在的時間較長,但仍舊存在著一些亟待解決的問題。例如,決策樹由于是對抽象概念的分析,因此在精度方面并不完善,提高決策樹的精度是目前研究的重點。在規模上,決策樹的規模越小,其知識要點就越簡潔,人們對決策樹的理解就越快捷,但是,結構簡單并不意味著精度越高,對決策樹的研究需要結合貝葉斯方法等將其進一步完善,保障精度的有效性。
關聯分類法在分類器的建造上主要分為兩個步驟,一是將右邊屬性為類別屬性的類別進行有效發現,并將其標記;二是在已經發現的類別中計算置信度,置信度最高的規則可以作為主要規則,也就是第一規則,用于將訓練集進行覆蓋。在這種情況下,當類別左邊相同時,若是右邊被分為了不同的類,應該選用置信度高的來作為整個數據對象的可能規則。關聯規則分類主要運用于大量事務數據的記錄中,尤其是對數據庫中隱藏在事務里面的關聯規則具有顯著成效。但是,基于關聯規則的分類也具有一定缺陷,例如在設計過程中,為了確保沒有規格被漏掉,設計者通常將最小支持度的值設置為零的狀態,這樣一來,關聯規則法就無法發揮其對對象進行優化的作用。這樣一來,系統會產生大量頻繁的項目集,久之在內存上無法容納,使得程序運行緩慢。
傳統的關聯規則挖掘算法是依照數據庫中發生的具體項目進行非常細節的挖掘,然而有時用戶可能想發現更高層次的規律,為此,提出了多層次關聯規則的挖掘問題,解決了傳統算法很難發現的數據處理規則,所以在歸納抽象層次上或多層次上挖掘關聯規則具有重要的意義。目前關聯規則發現已經從單一概念層次發展到多概念層次,在概念層次上一層層向下,從具體到一般,其發現的關聯規則所提供的信息也更具體,逐步發展到深化的知識發現。以下是幾種數據庫技術應用中常見的數據分類方法。
ARCS實際上是以聚類挖掘為基礎的一種分類方法,包含關聯規則聚類以及量化挖掘。其準確性很大程度取決于離散化的程度,并且可擴展,在相比之下,C4.5在時間方面是具有指數運行的,空間方面,要求將所有存放于數據庫中的數據全部放入內存當中。
關聯分類方法中,其規則具有較高的支持度以及置信度,其具體表達形式如下:
Cond_set=>Y。式中,Y表示一個類別,cond set指的是對屬性值對的集合。這種計算方式具有以下幾個特征,一是最小支持度較為頻繁,二是最小置信度較為精確。在計算過程中,若是在一個規則項集中存在相同屬性值對的集合,則應選取置信度高的作為規則,并且作為該集合的代表。其規則主要表現為以下幾個方面:
(1)系統需要將所有可能會出現的規則找到,并將其中頻繁出現以及精度上有所保障的規則歸為同一集合。在算法方面,系統會采用迭代方式,將規則進行裁剪再進行搜索。
(2)在分類的構建方面,可以使用啟發式方法,將規則根據其置信度等方面進行先后排序,一般而言,會將支持度或是置信度較高的規則排放在前面。
在數據挖掘的各項方法中,多數算法并沒有有效利用數據庫本身技術來進行,即數據庫的參與性并不高。但是,研究者們研究的算法對象是數據庫中的數據,若是不能夠有效結合數據庫,會造成資源的無端浪費,因此,這個問題已經成為了研究者們研究的重點之一。
除了上述分析的四種方法之外,還有一些其它的分類算法,像基于案例的推理方法、后向傳播法、模糊數據集方法以及遺傳算法等,都在數據庫算法中發揮著一定功效。對數據進行分類時數據庫發展中的重要課題,研究者應加大研究力度,在計算機技術不斷發展的背景下充實自身能力培養,加強對算法的優化策略,并根據各類不同算法的優缺點在計算中選取適合算法,讓數據庫技術得以提高。
[1]毛國君.數據挖掘技術與關聯規則挖掘算法研究[D].北京工業大學,2008.
[2]王清毅,張波,蔡慶生.目前數據挖掘算法的評價[J].小型微型計算機系統,2009(01).
[3]黃雯.數據挖掘算法及其應用研究[D].南京郵電大學,2013.
[4]胡斌.基于網格技術的分布式空間數據挖掘算法研究[D].中南大學,2008.
[5]劉長付.數據挖掘技術中的關聯規則挖掘算法研究[D].江西理工大學,2009.
[6]趙艷芹.關聯規則數據挖掘算法的研究[D].哈爾濱工程大學,2009.