摘要:文章闡述了數據挖掘技術的概念、分類、功能以及主要過程,探討分析了數據挖掘技術用于職業教育的可能性。
關鍵詞:數據挖掘;職業教育;教育信息化
目前,計算機技術已經滲透到社會生活的各個方面,對職業教育的教學也產生了重要影響。隨著教育信息化進程的推進,產生了大量的、復雜的數據,面對如此巨大的數據資源,如何更充分、更有效地加以利用呢?將數據挖掘(Data Mining,DM)技術應用于職業教育中,可從大量的教育數據中發現隱藏的、有用的知識來指導教育、發展教育,改善職業教育中的教學效果,從而有效提高職校學生的職業與文化素質。
數據挖掘技術
隨著信息技術的飛速發展及數據庫技術的廣泛應用,人們積累的數據越來越多,但是數據資源中蘊含的知識卻未能得到充分的挖掘和利用,“數據豐富而知識貧乏”的問題十分嚴重。人們迫切需要一種新的技術將這些海量的數據資源轉換為有用的知識,從而幫助人們科學地進行各種決策。面對這一挑戰,數據挖掘技術應運而生,并逐漸顯示出其強大的生命力。
(一)數據挖掘的概念
數據挖掘是一個集統計學、人工智能、模式識別、并行計算、機器學習、數據庫等技術于一體的交叉性學科研究領域。數據挖掘是一個從數據中發現知識的過程。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、有用的信息和知識的過程。通過數據挖掘可以幫助決策者尋找規律,發現被忽略的要素,預測趨勢,進行決策。數據挖掘是對數據內在和本質的高度抽象與概括,是對數據從感性認識到理性認識的升華。它涉及對數據庫中的大量數據進行抽取、轉換、分析以及模型化處理,從中提取輔助決策的關鍵性數據,因此數據挖掘就是深層次的數據信息分析方法。
(二)數據挖掘的分類與主要功能
數據挖掘的分類方式很多,根據數據挖掘的任務可分為:分類或預測模型數據挖掘、數據總結、數據聚類分析、關聯規則分析、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。根據數據挖掘的對象可分為:關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據、異質數據庫、遺產數據庫以及Web數據源等。數據挖掘具有預測趨勢和行為、關聯分析、聚類、概念描述以及偏差檢測等主要功能。
預測趨勢和行為數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以通過數據挖掘迅速直接地由數據本身得出結論。
關聯分析數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。
聚類數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。
概念描述概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。
偏差檢測數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例等。
總之,數據挖掘所要處理的問題,就是在龐大的數據庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結構,作為決策者進行決策的依據。
(三)數據挖掘的基本過程
數據挖掘的基本過程包括:數據收集、數據整理、數據挖掘、結果評估、分析決策等,其基本與步驟如圖1所示。從圖1不難看出,數據挖掘的各過程不是一次就能完成的,其中某些步驟或者全過程可能需要多次的循環反復,才有可能達到預期的效果。

數據收集大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從談起。因此,數據收集是數據挖掘的首要步驟。在開始數據挖掘之前,首先要消除噪聲或不一致數據,廣泛收集用戶的各種信息,建立數據庫與數據表,為數據挖掘做準備。數據可以來自于現有事務處理系統,也可以從數據倉庫中得到。
數據整理數據整理是數據挖掘的必要環節。由數據收集階段得到的數據可能有一定的“污染”,表現在數據可能存在自身的不一致性,或者有缺失數據的存在等,從數據庫中檢索與分析任務相關的數據,確保數據能夠真實反映待挖掘的對象,因此數據的整理是必需的。數據挖掘通過匯總或聚集操作將數據變換或統一成適合挖掘的形式,可單獨利用也可綜合利用各種數據挖掘方法對數據進行分析,挖掘用戶所需要的各種規則、趨勢、類別、模型等。
結果評估數據挖掘的結果有些是有實際意義的,而有些是沒有實際意義的,這就需要進行評估。這樣對發現的規則、趨勢、類別、模型進行評估,可以保證發現的模式的正確性。
分析決策數據挖掘的最終目的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等,并將挖掘結果以可視化的形式展現在用戶面前。
(四)數據挖掘的模型
數據挖掘模型在本質上可分為預測型模型與描述型模型兩類,其模型結構框圖如圖2所示。從圖2中可以看出,每類模型下都包含一些需要用到該類模型的最常用的數據挖掘任務。預測型模型對數據的值進行預測,能夠完成的數據挖掘任務包括分類、回歸、時間序列分析和預測。描述型模型對數據中的模式或關系進行辨識。與預測型模型不同,描述型模型提供了一種探索被分析數據的性質的方法,而不是預測新的性質。聚類、匯總、關聯規則和序列發現在本質上都通常被視為描述型模型。

數據挖掘技術的應用
(一)教學管理方面
職校學生的知識結構和學習風格是學校學生的基本特征。知識結構說明了學生對正在或將要學習知識的掌握情況,主要包括學生初始技能、當前技能和目標技能。學習風格包括學生的生理特征、心理特征和社會特征三個方面。利用數據挖掘功能分析學生特征,掌握學習者的狀態,目的在于幫助學習者修正自己的學習行為。通過對學生特征分析結果和事先制定的行為目標標準進行比較,教師能夠幫助學習者修正學習行為,提高學習能力,完善人格,因材施教,有利于學生各方面素質和諧發展。隨著計算機在教學管理方面的廣泛應用,學生和教師的學習、工作、獎勵、處罰等信息被存儲在教學管理數據庫中。例如,學生入學后,在校學生管理數據庫中存放有大量的學生檔案,包括的內容有家庭情況、身體狀況、入校前后的學習成績、特長愛好、獎懲等信息。利用數據挖掘的關聯分析和演變分析等功能,在學生管理數據庫中挖掘有價值的數據,分析學生的日常行為,可得知各種行為活動之間的內在聯系。
(二)教學評價方面
教學評價是世界教育科學研究三大研究領域之一。教學評價的技術水平是衡量一個國家教育發展水平的重要尺度。教學評價就是根據教學目標和教學原則的要求,系統地收集信息,對教學過程中的教學活動以及教學成果給予價值判斷的過程。其內容主要包括對學生“學”的評價和對教師“教”的評價。
目前,職業教育評價指標主要包括學生綜合測評指標和課堂教學評價指標,這些評價指標多數是參考國內外相關評價指標體系并結合實際操作中的經驗和調查問卷等制定的,對于各項指標之間的關系、重要程度以及指標存在的合理性等方面很難作出判斷,將關聯規則和粗糙集理論應用于各評價系統,可以對指標進行排序、約簡等,在一定程度上對評價指標進行優化,可以找到比較合理且簡單易行的評價指標體系。另一方面,學習評價是教育工作者的重要職責之一。評定學生的學習行為,既可對學生起到信息反饋和激發學習動機的作用,又是檢查課程計劃、教學程序以至教學目的的手段,也是考查學生個別差異,便于因材施教的途徑。評價要遵循“評價內容要全面、評價方式要多元化、多次化、注重自評與互評的有機結合”的原則。在教學科研網絡普遍建立的今天,利用數據挖掘工具對學生的學習成績數據庫、行為記錄數據庫、獎勵處罰數據庫等進行分析處理,可以及時得到學生的評價結果,對學生出現的不良學習行為進行及時指正。同時,還能夠克服教師主觀評價的不公正、不客觀的弱點,減輕教師的工作量。
因此,將關聯規則運用于教學評價數據中,探討教學效果的好壞與教師年齡、職稱之間的關系、學生各項素質指標之間的關系等,用來及時地對教師的教學和專業發展以及學生的學習和個性發展提供指導,這是非常有意義的。另外,教學評價在實施的過程中,更多的是注重評價的結果,以作為教師晉升、學生評優等的依據,很少考慮教學評價對教學過程的指導作用。
(三)課程設置方面
職業學校的課程設置有其一定的規律性,先基礎,后專業,學習是循序漸進的。每學期要修的課程雖然有一定的規律,但也不是一成不變的。如何合理地設置每學期的課程,使之既顧全了大局,又兼顧局部需求是值得研究的問題。例如,同一年級在不同班級學習同一門課程時,學生的總體成績有時會相差很大,利用學校教學數據庫中存放的歷屆學生各門學科的考試成績,結合數據挖掘的關聯分析與時間序列分析等相關功能,就能從這些海量數據中挖掘出有用的信息,幫助分析這些數據之間的相關性、回歸性等性質,得出一些具有價值的規則和信息,最終找到影響學生成績的原因,并可在此基礎上,對課程設置做出合理安排。另外,在通常情況下,學生可以正常地修完本學期的課程,不會影響學生的學習效果。但個別學期出現的特殊情況如果處理不好,就會影響學習效果。
(四)教學過程與方法方面
在教學過程中,教師通常采用多種教學方法完成對本門課程的教學任務,如講授法、討論法、案例法、多媒體輔助法、實驗對比法、調查法、參觀學習法等等。這些大量的教學班次實踐過的經驗存放于教學數據庫中,可以用數據挖掘的方法來挖掘數據庫中的數據,判定面臨的教學班應該采取什么教學方法才能滿足教學需要,更有利于學生對知識的理解和吸收。課程結束后將每個學生的成績和對教學方法的評價進行綜合,運用回歸線性分析、關聯規則的方法來判斷本次教學方法適合哪一類學生,對于分類、分層次教學具有推廣和指導意義。
考試是對教學效果的檢驗,是教學中必不可少的環節之一,能否對教和學起到促進作用,在很大程度上取決于試題質量的好壞。因此,探索有效的方法來評價試題的質量在實際教學過程中有重要的意義。目前,大多數學校只是簡單地根據學生的考試成績畫出成績分布曲線,如果是正態分布則認為試題的難易度和區分度基本符合要求。這種評價方法給出的是對試題質量的粗略評價,對實際教學沒有起到很好的促進和指導作用。將數據挖掘中的關聯規則應用于試卷分析數據庫,根據學生得分情況可以分析出每道題的難易度、區分度、相關度等指標,教師據此可以對試題的質量作出比較準確的評價,進而可以用來檢查自己的教學情況及學生的掌握情況并為今后的教學提供指導。
數據挖掘技術采用比較成熟和科學的分析方法,在將其引入教學時也必須充分處理好其他因素,比如調查問卷的合理度、反饋結果的真實度、數據量的大小是否足以進行挖掘、不同學科的課程特點及挖掘結果的可信度等等,這樣才能更充分地挖掘學生的潛力,提高教學效率,優化教學策略和評估教學效果。因此,數據挖掘技術經過在教育領域中應用功能及技術的不斷發展和完善,必將發揮越來越大的作用,并且隨著人們對這一技術的關注,相信其在教育領域的應用范圍會越來越廣,其對教育的改革和發展必將起到巨大的推動作用。
參考文獻:
[1]朱明.數據挖掘[M].北京:中國科技大學出版社,2002.
[2]張玉林.數據挖掘技術在教學過程中的指導作用[J].西安通信學院學報,2006,5(2):38-40.
[3]于承敏.數據挖掘(Data Mining)技術運用于教育領域之探討[J].聊城大學學報,2005,18(2):79-82.
[4]李紅艷.數據挖掘及其運用于教學評價的設想[J].襄樊職業技術學院學報,2003,2(1):142-45.
[5]林陽.數據挖掘在教育信息化中的潛在價值[J].現代教育技術,2002,(1):65-69.
作者簡介:
段向紅(1966—),女,北京市人,北京市園林學校高級講師,主要從事教學、科研工作。
張飛舟(1966—),男,湖南邵陽人,北京大學地空學院遙感所教學、科研人員,主要從事人工智能、數據挖掘及其應用等方面研究。(本欄責任編輯:周秀峰)