摘要:通過對數(shù)據(jù)挖掘技術的概念、挖掘過程和方法等知識的簡單介紹,就如何在成績分析系統(tǒng)和圖書館中應用數(shù)據(jù)挖掘,從中得到促進教學的所需信息等內(nèi)容進行了探討,并提出了數(shù)據(jù)挖掘技術在各部分的具體作法。
關鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;圖書館
中圖分類號:G4
文獻標識碼:A
文章編號:1672-3198(2010)16-0272-01
0 引言
數(shù)據(jù)挖掘(DM,Data Mining)技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。經(jīng)過十幾年的研究和發(fā)展,數(shù)據(jù)挖掘技術進入了一個更高級的階段,尤其是,隨著對網(wǎng)絡信息挖掘算法的研究和智能化搜索引擎的出現(xiàn),使數(shù)據(jù)挖掘技術進入了一個全新的階段。
1 數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采,相近的術語有KDD(數(shù)據(jù)庫知識發(fā)現(xiàn))、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。目前,國外在數(shù)據(jù)挖掘方面的發(fā)展趨勢及研究主要有:對知識發(fā)現(xiàn)方法的研究進一步發(fā)展。國內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學、研究所或公司。但是,國內(nèi)關于數(shù)據(jù)挖掘的產(chǎn)品還很少。
2 數(shù)據(jù)挖掘技術的目的與發(fā)展趨勢
2.1 數(shù)據(jù)挖掘技術的目的
數(shù)據(jù)挖掘并不專用于特定領域,它需要凝結各種技術和創(chuàng)造力去探索可能隱藏在數(shù)據(jù)中的知識。在很多情況下,應用數(shù)據(jù)挖掘技術是為了實現(xiàn)以下三種目的。
(1)發(fā)現(xiàn)知識。知識發(fā)現(xiàn)的目標是從數(shù)據(jù)庫存儲的數(shù)據(jù)中發(fā)現(xiàn)隱藏的關系、模式和關聯(lián)。
(2)使數(shù)據(jù)可視化。分析人員需搞清楚數(shù)據(jù)庫中存儲的大量信息的含意。(3)糾正數(shù)據(jù)。在結合大規(guī)模的數(shù)據(jù)庫時,數(shù)據(jù)庫的數(shù)據(jù)常常是不完整的,而且通常包含錯誤和自相矛盾的信息。
2.2 數(shù)據(jù)挖掘技術的發(fā)展趨勢
當前,數(shù)據(jù)挖掘技術的研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數(shù)據(jù)挖掘過程中的可視化方法;使得知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中的人機交互;研究在網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘技術,但是,無論怎樣,需求牽引,市場驅(qū)動是永恒的,數(shù)據(jù)挖掘?qū)⑹紫葷M足信息時代用戶的急需,大量基于數(shù)據(jù)挖掘的決策支持軟件工具產(chǎn)品將會問世。
3 數(shù)據(jù)挖掘的過程、分類及其典型方法
數(shù)據(jù)挖掘大致分為四個步驟:
(1)資源發(fā)現(xiàn);(2)信息選擇和預處理;(3)概括化;(4)分析,根據(jù)數(shù)據(jù)挖掘的應用類型不同,大致可分為以下幾類。
①分類模型;②關聯(lián)模型;③順序模型;④聚簇模型。
針對上述應用類型,數(shù)據(jù)挖掘領域提出了多種實現(xiàn)方式與算法。這里僅討論幾種常見的典型的實現(xiàn)方法。
①神經(jīng)網(wǎng)絡:②決策樹:③聯(lián)機分析處理(OLAP):④遺傳算法:⑤近鄰算法;⑥規(guī)則推導;⑦數(shù)據(jù)可視化。
目前,數(shù)據(jù)挖掘技術正處在發(fā)展當中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計、模糊理論、神經(jīng)網(wǎng)絡和人工智能等多種技術,技術含量比較高,實現(xiàn)難度較大。
4 數(shù)據(jù)挖掘技術在教學中的應用
4.1 數(shù)據(jù)挖掘在成績分析系統(tǒng)中的應用
4.1.1 現(xiàn)有成績分析的弊端
教師簡單的以考試分數(shù)來評價學生學習效果,教師在成績分析這方面所花的時間較多。在一定程度上牽扯了教師的精力使教師沒有更多的精力關注教學的設計和過程的組織。
4.1.2 數(shù)據(jù)挖掘的應用
(1)對試題的分析與評價。
通過分析考試成績及參與考試的樣本.警告出現(xiàn)異常反應的試題,以及對專家估計的試題屬性值進行自動校正等等。其中難度用通過率體現(xiàn)。通過率為組成試卷提供選題依據(jù),影響著分數(shù)的分布形態(tài),離散程度,從而制約著測驗的信度和效度。一般而言,整個試卷的難度平均為0.5為佳.各個試題難度均勻分布在0.2加.8之間為好。區(qū)分度反應了一個題目的鑒別能力。由其可以得到三個方面的信息,題目能否有效的測量或預測所要了解的某些特性或正態(tài);題目能否與其他題目一致的分辨被試以及被試在該試題的得分和測驗總分數(shù)問一致性如何。區(qū)分度取值介于(+l,-1)。
(2)對試卷的分析與評價。
對試卷的分析可以利用關聯(lián)規(guī)則對試卷數(shù)據(jù)庫進行分析來得到某次考試的有效性、可信度、得分分布等信息。評價從信度、效度、標準分數(shù)幾方面來進行。
其中信度包括由客觀題構成的試卷的信度和由主觀題構成的試卷的信度、由主觀題和客觀題并存的試卷的信度.對信度系數(shù)的大小度量,應結合測驗的用途、條件、內(nèi)容來看效度用以了解測驗的質(zhì)量和功能,為進一步改進測驗或是在幾個同類測驗中合理選擇提供依據(jù)。利用效標關系、效度進行預測。
(3)對學生的分析與評價。
學生在測驗后總是關心自己的成績,關心自己成績的排名,關心自己哪些知識點掌握的好.哪些知識點掌握得不好,想知道進一步努力的方向??梢岳梅治鰧W生的歷次考試成績及試卷中各題的得分,分析學生的進步情況、學習障礙、知識點和知識單元的掌握情況等等 其中包括利用Z分數(shù)對應曲線圖對學生同時進行的各科目測試成績進行的橫向比較、利用Z分數(shù)對應曲線圖及二列相關系數(shù)的分析對學生分數(shù)在歷次測驗中進行的縱向比較、利用成績分布曲線得出學生成績頻數(shù)分布圖等。
4.2 數(shù)據(jù)挖掘在圖書館管理系統(tǒng)中的應用
管理水平低下是影響我國圖書館事業(yè)發(fā)展的重要因素之一,管理水平的提高很大程度上取決于決策的科學與否。
(1)數(shù)據(jù)挖掘能將涉及圖書館這一信息系統(tǒng)的各種內(nèi)部數(shù)據(jù)和外部信息匯集起來,經(jīng)過處理和轉(zhuǎn)換。
(2)利用數(shù)據(jù)挖掘系統(tǒng)提供的OLAP工具可以對集成數(shù)據(jù)進行多維分析比較。對決策假設進行審查和驗證。提高決策的可靠度和可行性,達到合理利用有限資金、優(yōu)化圖書館資源配置的目的。
(3)數(shù)據(jù)挖掘工具可以從歷史數(shù)據(jù)中找出潛在的模式,并在模式的基礎上自動作出預測,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學性和合理性。