徐 麗 徐志明 陳 峰
(景德鎮學院,江西 景德鎮 333000;2、景德鎮市財政局,江西 景德鎮 333000)
現代遠程教育系統是對傳統教學模式的一次革命,它突破了傳統“面授”教學的局限,為網絡學員提供了自由的學習時間、優秀學習資源共享、不受空間限制、動態交互式的全新教學模式。其設計大多基于XML標準和大型分布式數據庫等新一代設計環境。在遠程教育平臺系統上開展數據挖掘可以整合XML和OLAP等技術優勢,使遠程學習系統的設計以用戶為中心,各類教學資源都適應網站學習用戶需求進行差異化排列組合。
當前流行的遠程教學系統組織框架一般包括個性化的組合課程模塊、分階段的考試系統、遠程教育數據流控制動態調配模塊、作業答疑等子系統。結合WEB數據挖掘技術,可以針對當前遠程教育平臺體系中的一些不足,充分發揮數據挖掘在互聯網大數據處理中的優勢,為網絡學員提供可定制化的學習進度安排,提高網絡教育的質量。
在一些熱門的遠程教育系統中,比如新東方網校、中華會計網校以及國內外一些著名高校的遠程教育網站。教師和學員在教學互動中處于不同的空間、時間,網站通過動態交互頁面從注冊招生、教學管理、學員信息維護等多方位對整個教學過程進行管理。對遠程教育網站的各種用戶行為(如瀏覽空間、模塊點擊頻度)進行數據挖掘,獲取有用的知識,并隨之更新網站搜索引擎和web頁面設計,提供有針對性的服務內容,使遠程教學平臺的各類資源圍繞學生的個性化需求配置。
近年來,數據挖掘技術的應用引起了人們的極大關注。在這關注的背后是自上世紀九十年代以來各種大型的商業數據庫廣泛應用,產生了大量的歷史數據,而各種商業目的迫切需要從這些不斷產生的數據中挖掘出有用的知識,這些獲取的信息和知識已被證明有著廣泛的價值和應用。
作為一種較新的信息分析處理技術,數據挖掘(Data Mining)的核心步驟是對數據倉庫中的大量留存的歷史業務數據進行抽取、清洗、轉換和分類模型化處理,進而實現輔助設計、事務決策、全局分析等高價值商業目的。挖掘數據倉庫是一個多步驟的分析過程,包括問題定義、建立數據挖掘庫、分析數據、調整數據、模型化、評價和解釋等。知識提取往往需要反復對相關數據再處理以及對知識學習算法不斷優化。發現的知識必須經過實踐的檢驗,在應用中根據實際環境修改策略重新學習使得獲取的知識更精確化,新發現的知識對已有的知識進行拓展變得全面從而更符合現實情況。
數據挖掘是一個以數據庫、神經網絡、數理統計、模糊論等幾個支柱技術為基礎。數據挖掘算法的輸入是通過轉換接口導入的領域知識、元數據;輸出是新發現的規律或模式;中間的處理過程由知識發現系統管理器智能化引導。數據挖掘主要涉及挖掘內容、挖掘引擎構造、挖掘任務三個方面。其中的挖掘內容包括關系數據庫、文本數據庫、對象數據庫、空間數據庫、多媒體數據庫及ODS(操作數據存儲)等。常用的挖掘方法大致分為:關聯規則算法、分類構造法、遺傳算法、人工智能法,針對大型分布式WEB數據庫主要有多維數據分析方法、基于網格的聚類方法、貝葉斯分類算法和決策樹分類算法。
流行的數據挖掘工具有:基于粗糙集的工具、基于規則和決策樹的工具、基于公式發現的工具以及綜合以上多種方法的工具。數據挖掘工具主要可分為特定領域使用的和通用的。著名的如SKICAT系統、Advanced Scout系統均是特定領域的數據挖掘工具,Advanced Scout系統由IBM公司開發,針對NBA的數據,幫助球隊優化戰術組合;SKICAT系統由CIT設計,幫助人們發現遙遠的類星體。特定領域的數據挖掘工具針對性強,采用獨特的算法實現特殊的目的。通用的數據挖掘工具,采用通用的挖掘算法處理常見的數據類型,用戶可以自己定義挖掘的范圍和模式。投入初步商業化應用的如:加拿大西蒙菲莎大學研發的DB Miner軟件,SGI公司設計的Mine Set系統。
對于遠程教育網站平臺而言,對網頁的瀏覽量、點擊率等數據進行專門的收集存儲,建立DW并展開挖掘分析,可以提供有針對性的服務引導,及時優化搜索引擎算法路徑和Web頁面框架設計。
通過對網站系統架構改進重組,可以幫助系統管理人員創建一個高效的技術體系,優化服務器的通信:比如采用自動歸類技術實現網站信息的層次性組織,結合對用戶訪問日志的挖掘,把握用戶的興趣,開展個人信息的定制和推送;通過Web頁面數據提取,挖掘瀏覽歷史信息,提高網絡利用率,從而加快網站響應時間。
由于Web信息呈現半結構和無結構的特征,傳統的搜索引擎功能設計已不能夠滿足互聯網知識搜索的需求,更別提WEB上的知識發現。因此,針對Web信息的數據挖掘可以使遠程教育平臺的信息檢索水平得到較大的提升。Web數據挖掘一般分為Web內容挖掘、Web結構挖掘、Web日志挖掘,為提高對Web挖掘結果的興趣性,可以將上述三類挖掘方法一并使用。
隨著WEB應用的深入,XML的優點愈發明顯。首先,作為半結構化的XML規范,XML將顯示與數據內容分離并徹底把標示的概念與顯示分開,處理者能夠嵌套程序化的描述顯示數據;其次,XML解決了數據的統一接口問題并且XML能增加結構和語義信息,使得統一數據以不同面貌展現給不同用戶;除此以外,XML應用于網絡代理的所取得的信息編輯可以很好地適應個人用戶需要。利用XML的上述優勢,遠程教育平臺在實現智能交互時,搜索部件就不必了解每個數據庫是如何構建的。
OLAP是共享多維信息的、針對特定問題的聯機數據訪問和分析的快速軟件技術。它具有靈活的分析功能、直觀的數據操作和分析結果可視化表示等突出優點,從而使管理方對大量的遠程網絡教學數據的挖掘分析變得輕松而高效。
要在遠程教育系統中構建二級個性化教學子平臺,必須先對網絡學員各階段的學習情況給出較全面的評估,之后再匹配相關的教學方案。我們可以建立如下的多維數據模型獲取對學員的評估:
⑴事實數據表。事實數據表是數據倉庫結構中的中央表,它包含聯系事實與維度表的度量值和鍵,事實數據表包含描述業務特定事件的數據。遠程教育平臺系統的中心主題是對學員的學習事實做出多維度的評價,對網站學員的評價維度我們可以提取為簡單直觀的數值表示,對每個維度分別給出數字的度量值,然后進行綜合加權出最后的結果。
⑵項目評價維度表。學員是整個遠程教育網站服務的中心對象,要實現平臺真正的個性化教學功能,必須利用數據捕獲技術動態地跟蹤學員的學習活動,并及時對其學習進度、成效做出評價,反饋相關建議信息。評價的項目維度有四個方面:作業答疑情況、網站資源利用率、測試結果、交互程度。
⑶知識維度表。知識維度表存放課件中重要知識點的組織架構。在傳統文本形式的課件中,知識維度表架構呈現的是樹狀形式。其不僅可以從多重粒度上了解學員的學習效果,而且更便于掌握學員學習進度。我們在學習進程中是從上到下依次遍歷各知識節點,不會遺漏。其缺點是在分析難點和重點時,通常是愛莫能助的。要實現個性化教學,我們須另外構造一種知識結構圖,其基于有序矢量路徑的拓撲結構并假設新的知識點由一個或一個以上的已被掌握的知識積累形成,這種繼承關系組織知識架構去除了章、節等傳統結構,只留下要學習的知識點依照先后關系建構出有序可追溯的知識結構圖。對于學員碰到的重點、難點可以結合互動測試,根據相關結果重新進入相應知識結構圖的節點重新學習,從而針對性的突破學員遇到的課程重難點。
在網絡平臺教學資源建設上,為了更具備針對性,按如下步驟進行:首先對網站學員選擇的課程聚類并建立關注度模型,建立關注度和課件間關聯,調整課件制作方案,通過聚類算法標記每門課程;其次,根據關聯規則估計出若干組同類課程課件,根據類別標記輸入訓練集,構造分類器;最后計算關鍵字段使用頻度的平均值、方差值等統計數據,利用OLAP對數據倉庫進行多維分析,引導序列模式預測出學員感興趣的課件,根據學員需求配置相關教學資源。
要實現遠程網絡教育平臺的個性化教學,很重要的一點是要對學習者個體數據進行差異化分析處理。利用數據挖掘中分類和聚類分析的方法,依照學生的興趣愛好為其推薦相關知識點,并在學習過程中不斷調整,因材施教;根據學員的測試成績挖掘知識點和問題間的關聯,補充沒有掌握的學習點并給出相關學習建議;教師根據學員的學習行為和反饋情況,及時調整教學方案,制定專門化的教學內容。數據挖掘技術的應用使遠程教育方案能夠個性化實施、極大地提高遠程教育的作用和效率。
遠程教育系統的架構師可以結合WEB數據挖掘出的信息指導遠程教育網站建設,持續優化系統性能以提高廣大網絡學員的學習體驗。通過對注冊學員學習活動行為過程的挖掘,掌握學習者的訪問特點,預測學員學習訪問情況,重構頁面的底層鏈接。對需求強烈的頁面提供優化,預先緩存頻繁被訪問的頁面,改善信息通信瓶頸節點的流通速度,及時把學習者想要的信息以更有效的方式呈現給他,從而提高用戶的滿意度。除此以外,遠程教育網站系統的安全和穩定性能也是十分重要的,平臺的技術管理人員可以根據系統數據庫中間件被請求的資源,負載緩存的進出平衡和整個后臺流控突發情況等信息,找到影響系統性能的瓶頸,及時發現平臺的安全漏洞。
本文主要探討了現階段WEB數據挖掘在遠程網絡教學中的應用,數據挖掘技術在網絡遠程教學中還存在許多待研究的領域。隨著數據挖掘前沿技術領域不斷收獲豐碩的成果,Data Mining也呈現出可視化、精確化、更加智能化等新的特性。同時伴隨近兩三年來移動互聯技術、普適計算、云計算等數據應用大環境的迅速革新,作為核心數據處理技術之一的數據挖掘在遠程教育領域擁有廣闊的應用前景。
[1]Magaret H.Dunham.數據挖掘教程[M].北京:清華大學出版社,2005.
[2]張林.數據挖掘技術及其在高等教育教學中的應用[J].宿州學院學報,2011.
[3]黃勇,李玉華.面向知識發現的數據分類技術在網絡教學中的應用研究[J].南華大學學報,2006,(6):32-35.
[4]基于web的數據挖掘在遠程教育中的應用[EB/OL].<http://wenku.baidu.com/view/2967f91ca76e58fafa b003a4.html>