999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯規則的數據庫知識發現及應用

2009-01-01 00:00:00
商場現代化 2009年5期

[摘 要] 隨著數據在日常決策中的重要性越來越顯著,人們對數據處理技術的要求也不斷提高,需要對數據進行更深層次的處理,以得到關于數據的總體特征以及對發展趨勢的預測。本文介紹了數據庫知識發現及關聯規則,最后將二者結合應用于教學中,進而實現客觀地、科學地教學評估與知識發現,指導學校的教學工作。

[關鍵詞] 知識發現 數據庫知識發現 關聯規則

一、知識發現

隨著數據在日常決策中的重要性越來越顯著,人們對數據處理技術的要求也不斷提高,需要能夠對數據進行更深層次的處理,以得到關于數據的總體特征以及對發展趨勢的預測。過去,人們依靠經驗、大量的計算和人腦的智慧來處理這些深層次的信息,為決策提供技術支持。然而數據量爆炸性的增長使得傳統的手工處理方法逐漸變得不切實際了,現在的用戶很難再像從前那樣,自己根據數據的分布找出規律,并根據此規律進行分析決策。而且對于超市商品的銷售記錄、保險公司的客戶記錄、醫學上的成千上萬份病歷等等的這些天體數據來說,如果由手工處理的話需要幾十個人幾年時間,而且由于數據的繁雜,在由人工對數據進行處理過程中,很難找出關于數據較為全面的信息,這樣許多有用的信息仍然隱含在數據中而不能被發現和利用,造成數據資源的浪費,更無法體現出信息的時間效應。由此便迫切需要采用自動化程度高、效率好的數據處理方法來幫助人們更高效地進行數據分析,自動發現數據中隱藏的規律或模式,為決策提供支持。知識發現(Knowledge Discovery in Databases,簡稱KDD)就是為迎合這種要求而產生并迅速發展起來的一門技術,它是用于開發信息資源的一種新的數據處理技術。

許多專家都給出了知識發現的定義,最新的、在KDD領域一致認可的描述性定義是Fayyad等人給出的:KDD是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。

知識發現過程可粗略的理解為三部曲:數據準備(data preparation)、數據挖掘,以及結果的解釋評估(interpretation and evaluation)(如圖1所示)。

數據準備階段的工作包括3個方面的內容:

1.數據選取,主要是確定目標數據一一根據用戶需要從原始數據庫中抽取一組感興趣的數據,并將其組織成適合挖掘的數據組織形式。

2.數據預處理,也叫數據清洗,主要包括如下工作要做:消除噪音數據(這里提及的噪音數據是指那些明顯不符合邏輯的偏差數據,如某職員200歲,這樣的數據往往影響挖掘結果的正確性。目前討論最多的處理噪音數據的方法是數據平滑(Data smoothing)技術、推導計算缺值數據、消除重復記錄、完成數據類型轉換等。

3.數據變換,主要是指對數據進行降維處理。數據挖掘階段是根據挖掘的任務或目的使用具體的挖掘算法對準備好的數據集進行知識發現。這些知識是隱含的、先前未知的、對決策有潛在價值的,提取的知識表示為概念(Concepts)、規則(Rules)、規律(Regularities)和模式(Patterns)等形式。這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,為經營決策、市場策劃和金融預測等提供依據。例如,從超級商場的大量交易數據中發現,顧客購買牛奶時通常也同時會購買面包,如果將這兩種食品放在同一貨架上或同時進行廣告宣傳,肯定會大大提高銷售量。通過數據挖掘技術,有價值的知識、規則或高層次的信息就能從數據庫的相關數據集合中抽取出來,并從不同角度顯示,從而使大型數據庫作為一個豐富可靠的資源為知識歸納服務。

最后一階段是對于挖掘出來的模式進行解釋和評價,剔除冗余或無關的模式,將結果展現給用戶。

二、關聯規則

關聯規則也稱為關聯模式,是美國BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是數據挖掘研究中的一個重要課題。關聯規則是指大量數據中項集之間有趣的關聯或相關聯系。關聯規則發現的對象主要是事務數據庫,例如售貨數據,也稱為貨籃數據。它是描述一個事務中物品之間同時出現的規律的知識模式。用D表示全體事務的集合。用I代表D中所有數據項(物品)的集合。假設有一個物品集A,一個事務T,如果AT,則稱事務T支持物品集A。關聯規則是一種蘊含關系:A=>B,其中A,B是兩組物品,AI,BI,且A∩B=φ。衡量規則優劣的指標有二:

1.支持度(Support)。它是對A=>B的重要性(或適用范圍)的衡量,集合D中規則A=>B的支持度定義為物品集A,B同時出現的概率。支持度描述了A和B這兩個物品集的并集在所有的事務D中出現的概率有多大。如果某天有1000個顧客到商場購買物品,其中有100個顧客同時購買了牛奶和面包,那么牛奶=>面包的支持度就是10%。

2.可信度(Confidence)。它是對關聯規則的準確度的衡量,集合D中規則A=>B的可信度定義為在物品集A出現的前提下,B出現的概率。如上面所舉的牛奶和面包的例子,該關聯規則的可信度就回答了這樣一個問題:如果一個顧客購買了牛奶,那么他同時也購買面包的可能性有多大呢?在上述的例子中,如果購買牛奶的顧客中有70%的人購買了面包,則該規則的可信度是70%。

關聯規則的挖掘問題就是在事務數據庫D中找出具有用戶給定的最小支持度和最小可信度的關聯規則。挖掘關聯規則是指在數據庫中挖掘出具有這種形式的規則:由于某些事件的發生而引起另外一些事件的發生。它在決策支持系統、專家系統和智能信息系統等各個方面起著重要的作用。并且,隨著數據庫應用的普及,數據挖掘的應用越來越廣,包括零售商的貨籃分析、銷售分析、金融信貸風險分析、醫學診斷和物流貨源分析等其他領域。由于挖掘出的關聯規則既可以檢驗行業內長期形成的知識模式,也能夠發現隱藏的新規律,在近幾年內這方面的研究就倍受人們的關注。

近年來,對關聯規則的挖掘的研究主要集中在以下幾個方面:(1)對由R.Agarwa等人提出的Apriori算法的改進,這方面的工作主要集中如何有效的生成最大項目集以及改善該算法的效率上面;(2)對于關聯規則閥值的研究,這個方面的工作主要集中在如何調整閥值使得挖掘出來的規則具有更大的關聯性與有用性以及更加符合人們的要求;(3)提出關聯規則發現的并行算法;(4)擴展關聯規則發現問題,如廣義多層關聯規則、定量關聯規則、循環關聯規則和具有利潤約束關聯規則等等。

三、基于關聯規則的數據庫知識發現應用

在教育教學中,學校教學主管部門需要對教師的教學情況進行評價,如何客觀公正地評價教師的教學情況是擺在教育管理部門課題,如何在此基礎上合理地安排師資和學時,全面提高學生的知識水平尤為重要。隨著計算機技術和網絡技術的發展,許多學校都為某些學科建立網上考試系統,由于計算機的高效處理和海量存儲能力以及數據挖掘技術發展,使我們能夠利用計算機排除人為因素,客觀地進行教學評價與知識發現。

在教學評估系統中,首先建立星型結構(如圖2所示),建立了六維數據庫,當然也可以根據需要建立更多維的數據庫。大多數據情況下,與數據挖掘任務有關的數據是存儲在應用數據庫中,這些數據往往是為應用目的而建立的,不能直接運行挖掘算法,而是要進行必要的抽取和格式的整理工作,對字符型的屬性都要進行屬性展開,需要對數據進行清理和約簡,建立適合挖掘的關聯數據。

例如,在考試系統的學生答題庫中,記錄了學生對本學科各個知識點的掌握情況,利用關聯規則中的適當算法可以求得各知識點之間的關聯,提取某些新穎的關聯為教學服務。

下面取得關聯規則的一部分來舉例說明知識點的關聯關系。

關聯關系 可信度 支持度

A=>B48.09%40.2%

B=>C68.71%37.62%

C=>D24.86%30.97%

若規定支持度大于20%,可信度大于40%,就可以得到,如果知識點A掌握的好,那么知識點B、C就掌握的好,這樣就為教學管理部門提供客觀依據加強知識點A的教學工作。進而實現客觀地、科學地教學評估與知識發現,指導學校的教學工作。

四、結束語

數據挖掘或數據庫知識發現,受到了當今國際人工智能與數據庫界的廣泛重視。關聯規則是數據挖掘研究中的一個重要研究課題。在該方面的研究起步雖晚,其發展速度卻非常驚人,其研究碩果也是層出不窮。但目前的關聯規則挖掘技術也存在著明顯的不足:對小數據集適用性較強,但對于海量數據而言卻顯現出明顯的缺陷。在這個信息時代,數據量爆炸性地增長,關聯信息每天都迭迭涌現、悄悄溜走,為了充分利用數據資源,研究適合于從大數據集中進行關聯規則挖掘的新算法有待于進一步探索。

參考文獻:

[1]史忠植著:知識發現.北京:清華大學出版社,2002

[2]楊炳儒:知識工程和知識發現.機械工程出版社,2003

[3]白石磊 毛雪岷 王儒敬等:基于數據庫和知識庫的知識發現研究綜述[J].廣西師范大學學報:自然科學版,2003(1):136~138

[4]楊 武 陳 莊:數據庫知識發現技術及應用[J].重慶工學院學報:自然科學版, 2001,15(2):32~34

[5]李雄飛 苑森淼 董立巖:基于相聯規則的數據挖掘理論.吉林工業大學學報(自然科學版),2000,30(2):43~46

主站蜘蛛池模板: 国产精品久久久精品三级| 91欧美在线| 丰满的熟女一区二区三区l| 在线观看欧美精品二区| 2019国产在线| 色亚洲成人| 丁香六月激情综合| 萌白酱国产一区二区| 久久综合九色综合97网| 免费不卡在线观看av| 人妻无码AⅤ中文字| 精品91视频| 欧美亚洲日韩中文| 亚洲一区二区三区香蕉| 天天综合网色中文字幕| 91欧美亚洲国产五月天| 国产在线自在拍91精品黑人| 亚洲国产成熟视频在线多多| 国产美女视频黄a视频全免费网站| 重口调教一区二区视频| 亚州AV秘 一区二区三区| 天天视频在线91频| 亚洲视频免费播放| 日本手机在线视频| 国产欧美另类| 国产精品免费久久久久影院无码| 98超碰在线观看| 久久久久久久97| 影音先锋亚洲无码| 熟妇无码人妻| 欧美一级在线看| 干中文字幕| 国产精品免费露脸视频| 四虎在线高清无码| 热久久综合这里只有精品电影| 欧美一区二区三区欧美日韩亚洲| 国产区免费精品视频| 亚洲无线视频| 九一九色国产| 亚洲天堂精品视频| 日本一区二区不卡视频| 中文字幕亚洲综久久2021| 国产精品久久久久鬼色| 国产一二视频| 欧美精品H在线播放| 国产欧美高清| 亚洲一区二区三区国产精品| 欧美一级专区免费大片| 天天综合天天综合| 亚洲无码不卡网| 无码中文字幕加勒比高清| 中美日韩在线网免费毛片视频 | 亚洲精品午夜天堂网页| 色综合色国产热无码一| 99久久精品免费观看国产| 久久综合九色综合97婷婷| 国产手机在线小视频免费观看| 日韩黄色在线| 99偷拍视频精品一区二区| 人人看人人鲁狠狠高清| 国产午夜人做人免费视频中文| 玖玖精品视频在线观看| 精品伊人久久大香线蕉网站| 亚洲中文精品人人永久免费| 欧美国产在线一区| 亚洲国产av无码综合原创国产| 综合色亚洲| 国产精品白浆无码流出在线看| 国产精品亚洲欧美日韩久久| 91视频首页| 特级欧美视频aaaaaa| 在线免费观看a视频| 国产精品刺激对白在线| 国产精品成人AⅤ在线一二三四| 亚洲天堂视频在线观看免费| 夜夜爽免费视频| 亚洲综合激情另类专区| 国产精品一区在线麻豆| 国产精品深爱在线| 国产成人精品第一区二区| 三上悠亚一区二区| 丰满人妻久久中文字幕|