[摘 要] 隨著數據在日常決策中的重要性越來越顯著,人們對數據處理技術的要求也不斷提高,需要對數據進行更深層次的處理,以得到關于數據的總體特征以及對發展趨勢的預測。本文介紹了數據庫知識發現及關聯規則,最后將二者結合應用于教學中,進而實現客觀地、科學地教學評估與知識發現,指導學校的教學工作。
[關鍵詞] 知識發現 數據庫知識發現 關聯規則
一、知識發現
隨著數據在日常決策中的重要性越來越顯著,人們對數據處理技術的要求也不斷提高,需要能夠對數據進行更深層次的處理,以得到關于數據的總體特征以及對發展趨勢的預測。過去,人們依靠經驗、大量的計算和人腦的智慧來處理這些深層次的信息,為決策提供技術支持。然而數據量爆炸性的增長使得傳統的手工處理方法逐漸變得不切實際了,現在的用戶很難再像從前那樣,自己根據數據的分布找出規律,并根據此規律進行分析決策。而且對于超市商品的銷售記錄、保險公司的客戶記錄、醫學上的成千上萬份病歷等等的這些天體數據來說,如果由手工處理的話需要幾十個人幾年時間,而且由于數據的繁雜,在由人工對數據進行處理過程中,很難找出關于數據較為全面的信息,這樣許多有用的信息仍然隱含在數據中而不能被發現和利用,造成數據資源的浪費,更無法體現出信息的時間效應。由此便迫切需要采用自動化程度高、效率好的數據處理方法來幫助人們更高效地進行數據分析,自動發現數據中隱藏的規律或模式,為決策提供支持。知識發現(Knowledge Discovery in Databases,簡稱KDD)就是為迎合這種要求而產生并迅速發展起來的一門技術,它是用于開發信息資源的一種新的數據處理技術。
許多專家都給出了知識發現的定義,最新的、在KDD領域一致認可的描述性定義是Fayyad等人給出的:KDD是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。
知識發現過程可粗略的理解為三部曲:數據準備(data preparation)、數據挖掘,以及結果的解釋評估(interpretation and evaluation)(如圖1所示)。
數據準備階段的工作包括3個方面的內容:
1.數據選取,主要是確定目標數據一一根據用戶需要從原始數據庫中抽取一組感興趣的數據,并將其組織成適合挖掘的數據組織形式。
2.數據預處理,也叫數據清洗,主要包括如下工作要做:消除噪音數據(這里提及的噪音數據是指那些明顯不符合邏輯的偏差數據,如某職員200歲,這樣的數據往往影響挖掘結果的正確性。目前討論最多的處理噪音數據的方法是數據平滑(Data smoothing)技術、推導計算缺值數據、消除重復記錄、完成數據類型轉換等。
3.數據變換,主要是指對數據進行降維處理。數據挖掘階段是根據挖掘的任務或目的使用具體的挖掘算法對準備好的數據集進行知識發現。這些知識是隱含的、先前未知的、對決策有潛在價值的,提取的知識表示為概念(Concepts)、規則(Rules)、規律(Regularities)和模式(Patterns)等形式。這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,為經營決策、市場策劃和金融預測等提供依據。例如,從超級商場的大量交易數據中發現,顧客購買牛奶時通常也同時會購買面包,如果將這兩種食品放在同一貨架上或同時進行廣告宣傳,肯定會大大提高銷售量。通過數據挖掘技術,有價值的知識、規則或高層次的信息就能從數據庫的相關數據集合中抽取出來,并從不同角度顯示,從而使大型數據庫作為一個豐富可靠的資源為知識歸納服務。
最后一階段是對于挖掘出來的模式進行解釋和評價,剔除冗余或無關的模式,將結果展現給用戶。
二、關聯規則
關聯規則也稱為關聯模式,是美國BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是數據挖掘研究中的一個重要課題。關聯規則是指大量數據中項集之間有趣的關聯或相關聯系。關聯規則發現的對象主要是事務數據庫,例如售貨數據,也稱為貨籃數據。它是描述一個事務中物品之間同時出現的規律的知識模式。用D表示全體事務的集合。用I代表D中所有數據項(物品)的集合。假設有一個物品集A,一個事務T,如果AT,則稱事務T支持物品集A。關聯規則是一種蘊含關系:A=>B,其中A,B是兩組物品,AI,BI,且A∩B=φ。衡量規則優劣的指標有二:
1.支持度(Support)。它是對A=>B的重要性(或適用范圍)的衡量,集合D中規則A=>B的支持度定義為物品集A,B同時出現的概率。支持度描述了A和B這兩個物品集的并集在所有的事務D中出現的概率有多大。如果某天有1000個顧客到商場購買物品,其中有100個顧客同時購買了牛奶和面包,那么牛奶=>面包的支持度就是10%。
2.可信度(Confidence)。它是對關聯規則的準確度的衡量,集合D中規則A=>B的可信度定義為在物品集A出現的前提下,B出現的概率。如上面所舉的牛奶和面包的例子,該關聯規則的可信度就回答了這樣一個問題:如果一個顧客購買了牛奶,那么他同時也購買面包的可能性有多大呢?在上述的例子中,如果購買牛奶的顧客中有70%的人購買了面包,則該規則的可信度是70%。
關聯規則的挖掘問題就是在事務數據庫D中找出具有用戶給定的最小支持度和最小可信度的關聯規則。挖掘關聯規則是指在數據庫中挖掘出具有這種形式的規則:由于某些事件的發生而引起另外一些事件的發生。它在決策支持系統、專家系統和智能信息系統等各個方面起著重要的作用。并且,隨著數據庫應用的普及,數據挖掘的應用越來越廣,包括零售商的貨籃分析、銷售分析、金融信貸風險分析、醫學診斷和物流貨源分析等其他領域。由于挖掘出的關聯規則既可以檢驗行業內長期形成的知識模式,也能夠發現隱藏的新規律,在近幾年內這方面的研究就倍受人們的關注。
近年來,對關聯規則的挖掘的研究主要集中在以下幾個方面:(1)對由R.Agarwa等人提出的Apriori算法的改進,這方面的工作主要集中如何有效的生成最大項目集以及改善該算法的效率上面;(2)對于關聯規則閥值的研究,這個方面的工作主要集中在如何調整閥值使得挖掘出來的規則具有更大的關聯性與有用性以及更加符合人們的要求;(3)提出關聯規則發現的并行算法;(4)擴展關聯規則發現問題,如廣義多層關聯規則、定量關聯規則、循環關聯規則和具有利潤約束關聯規則等等。
三、基于關聯規則的數據庫知識發現應用
在教育教學中,學校教學主管部門需要對教師的教學情況進行評價,如何客觀公正地評價教師的教學情況是擺在教育管理部門課題,如何在此基礎上合理地安排師資和學時,全面提高學生的知識水平尤為重要。隨著計算機技術和網絡技術的發展,許多學校都為某些學科建立網上考試系統,由于計算機的高效處理和海量存儲能力以及數據挖掘技術發展,使我們能夠利用計算機排除人為因素,客觀地進行教學評價與知識發現。
在教學評估系統中,首先建立星型結構(如圖2所示),建立了六維數據庫,當然也可以根據需要建立更多維的數據庫。大多數據情況下,與數據挖掘任務有關的數據是存儲在應用數據庫中,這些數據往往是為應用目的而建立的,不能直接運行挖掘算法,而是要進行必要的抽取和格式的整理工作,對字符型的屬性都要進行屬性展開,需要對數據進行清理和約簡,建立適合挖掘的關聯數據。
例如,在考試系統的學生答題庫中,記錄了學生對本學科各個知識點的掌握情況,利用關聯規則中的適當算法可以求得各知識點之間的關聯,提取某些新穎的關聯為教學服務。
下面取得關聯規則的一部分來舉例說明知識點的關聯關系。
關聯關系 可信度 支持度
A=>B48.09%40.2%
B=>C68.71%37.62%
C=>D24.86%30.97%
若規定支持度大于20%,可信度大于40%,就可以得到,如果知識點A掌握的好,那么知識點B、C就掌握的好,這樣就為教學管理部門提供客觀依據加強知識點A的教學工作。進而實現客觀地、科學地教學評估與知識發現,指導學校的教學工作。
四、結束語
數據挖掘或數據庫知識發現,受到了當今國際人工智能與數據庫界的廣泛重視。關聯規則是數據挖掘研究中的一個重要研究課題。在該方面的研究起步雖晚,其發展速度卻非常驚人,其研究碩果也是層出不窮。但目前的關聯規則挖掘技術也存在著明顯的不足:對小數據集適用性較強,但對于海量數據而言卻顯現出明顯的缺陷。在這個信息時代,數據量爆炸性地增長,關聯信息每天都迭迭涌現、悄悄溜走,為了充分利用數據資源,研究適合于從大數據集中進行關聯規則挖掘的新算法有待于進一步探索。
參考文獻:
[1]史忠植著:知識發現.北京:清華大學出版社,2002
[2]楊炳儒:知識工程和知識發現.機械工程出版社,2003
[3]白石磊 毛雪岷 王儒敬等:基于數據庫和知識庫的知識發現研究綜述[J].廣西師范大學學報:自然科學版,2003(1):136~138
[4]楊 武 陳 莊:數據庫知識發現技術及應用[J].重慶工學院學報:自然科學版, 2001,15(2):32~34
[5]李雄飛 苑森淼 董立巖:基于相聯規則的數據挖掘理論.吉林工業大學學報(自然科學版),2000,30(2):43~46