張春飛,李萬龍,魏久鴻
(1.吉林大學計算機科學與技術學院,吉林長春 130062;2.長春工業大學計算機科學與工程學院,吉林長春 130012)
計算機網絡技術的飛速發展,給教育事業注入了新的活力,使得在線教育成為當今社會的一個熱門話題,同時也使其成為一個值得進一步發展的領域。與快速發展的教育理論相比,傳統的教育組織和教育理論的矛盾是顯而易見的。20世紀80年代后期,基于認知學習的建構主義理論在教學領域成為國際教育改革的主要理論。建構主義者強調以學習者的自主學習為中心[1]。此外,當代信息技術的最新成果也為該理論提供了強有力的支持,使得在線教育得以快速發展。在線教育是一個完整的過程,其中包括了教學的組織、教學的實施以及交互的過程。在線教育的目標是通過對教學資源的設計、開發和管理及對學習者評估來達到對學習者學習效率的提升。作為傳統課堂教學的補充,個性化教學在教學理論和實際實施過程中得到了很好的應用。個性化教學離不開智能技術的支持,如數據倉庫和數據挖掘技術等。但同時它也存在一些主要的缺點,如延遲反饋學生的學習情況。究其根源在于面向知識的系統只能提供同步或異步的學習材料。在綜合考慮教與學的交互過程及個性化學習特點的前提下,智能指導系統應運而生。它主要是模擬人類的傳統教學理論,在教學過程中能夠快速接收學習者的反饋信息,并最終形成個性化的學習指導,使教與學的質量得到顯著的改善。
網上學習和在線學習領域已經取得了巨大成就。隨著網絡教育的快速發展,已經積累了大量的教學資源。同時,如何有效地利用這些資源,更好地為個性化教育服務成為一個亟待解決的重要問題[2-3]。解決智能教學問題是智能指導系統的核心,考慮到每一個學習者的特點和興趣愛好的不同,系統設計的最終目標是實現個性化教和學。然而,由于系統不能同時滿足學習者的所有要求,諸如,每個人課程的積累情況、不同種類學習資源的管理、及時的信息反饋、評估系統的效率及教學指導機制等,因此針對每一個學習者的智能指導是很難實現的。通過使用不同的數據挖掘技術和對學習者自我學習信息的分析處理,構建了學習者模型,學習路徑主要由路徑挖掘模塊來實現。同時,將C4.5算法應用于學習評估模塊,以此來改善自主學習者的學習效率,增強個性化教學的管理效果,為個性化教學提供堅實的基礎。
智能指導系統主要由以下部分組成:信息采集模塊、個性化分析和評估模塊、個性化調度模塊、學習工具模塊、管理工具模塊、領域知識、學生信息、教學規則和教學策略等。系統結構如圖1所示。

圖1 基于網絡的智能指導系統模型Fig.1 Model of intelligent guiding system based on the network
信息采集模塊負責收集不同類型用戶的請求,并通過對領域知識集的使用來跟蹤每個用戶所采取的行動。同時,負責將研究的所有數據存儲到系統數據庫中。所有的學習信息和Web目錄信息將被系統進行收集并作為輸入數據源供個性化分析和數據挖掘過程使用。借助于個性化分析和數據挖掘這2種先進的技術,多用戶所共有的普通特點和單用戶所具有的個性特點也將被抽象并存入數據庫規則集中[4]。教學策略庫主要用來存儲教學專家根據以往的實際教學經驗所總結出來的教學策略,記錄教學策略是通過利用分配不同的權重表示知識的方法來實現的。當授權的學習者登錄系統后,這些結果將被傳送給個性化調度模塊。然后,系統將根據規則調度工具和資源,為每個學習者提供個性化的學習環境。通過上述步驟,個性化的學習請求得到了滿足。根據每個學習者的學習效果,系統將及時修改相應的參數和系統規則的可信度。經過多次增值和修改后的規則將更好地反映每一個獨立用戶的實際需求,同時,規則的精確可信度也將得到顯著提高。
領域知識包括教學相關的知識和可用的教學資源。它主要是由相關的教學領域的知識點和這些知識點之間的關系組成,代表一個知識點與其他知識點的關系。領域知識庫包含2部分:知識點屬性庫和知識樹庫。知識點屬性庫是教學內容的集合,是最基本的單位。知識點可能是事實、概念、規則、公式、定義等,也可能是解決問題的方法。每一個知識點直接和一系列的相關教學材料關聯,如多媒體資料、相關的問題集、測試資料、課件、案例研究等。在該系統中,這些知識點的所有屬性和關系都是通過屬性來記錄的,諸如對于知識屬性的理解用于標記課程的重要性,知識點之間的關系反映了知識點之間的關系屬性。屬性相關的知識點形成一個獨特的網絡結構,將更大程度的知識點聚集在一個子集,這些知識點將用來形成課程、單元和章節。如圖2所示,由虛線表示的虛擬層由課程、單元和章節構成。知識點的編碼結構為course code,chapter number,section number,knowledge point number。這些知識點間的關系采用樹型數據結構來表示,并且存儲在知識庫中。

圖2 領域知識模型Fig.2 Model of domain knowledge
在智能指導系統中,關鍵的一步是根據學生信息建立教學規則。當學習者訪問知識庫以后,這些學生的信息便自動留在信息庫中,通過使用連續的挖掘方法,學習者的行為將被進一步挖掘[5-7]。這將進一步豐富教學策略庫,為每一個用戶提供個性化的學習指導,真正實現個性化教學理念。例如,經過一段時間的數據挖掘后,系統能夠找到相對于某個學習級別的各個知識點的最佳組織順序。這些最佳的組織順序將被作為默認的學習路徑或者推薦的學習路徑。如圖3所示,決策樹分類算法用于實現個性化分析和評估模塊。通過分析和評估學習結果,進一步優化教學策略。

圖3 評估模塊Fig.3 Evaluation module
決策樹通常作為數據挖掘算法的工具使用,決策樹分類算法采用自上而下、分而治之和遞歸等方法將數據劃分為幾個子集,在基于樹的拓撲結構中建立相應的分類模型。在智能指導系統中,決策樹分類算法是反映其智能性的關鍵因素。QUINLAN于1979年提出構建決策樹ID3算法,在ID3算法中,決策節點屬性的選擇是應用信息論中熵的概念[8-9]。通過信息屬性來獲得最大值以創建決策樹,節點的屬性能保證決策樹具有最小的分枝數和最小的冗余。后來,QUINLAN又提出了更先進的C4.5算法,C4.5算法是對剪枝算法ID3的修訂,更適合于高分枝屬性和空值屬性[10]。筆者在C4.5算法的基礎上,提出了新的C4.5r決策樹分類算法。新的C4.5r算法主要是基于簡化規則的相關性來實現的,應用該算法構建了高等數學個性化學習評估系統。
應用C4.5算法分類一些未知樣本時,系統可能會遇到過度擬合的問題。因此,在分類前,有必要先簡化樣本集。以下是改進的C4.5算法的執行過程,把該算法命名為C4.5r算法。
使用C4.5算法構建一個完整的決策樹T。
將T轉換成規則集R,r對應T中從根節點到葉節點的一條路徑。
R:riif Cond1∧Cond2∧…∧Condnthen class Cx。
簡化R中的每一個規則ri的過程如下。

在上述過程中,引入參數λ表示P(Condi+1∧Condi)的閾值,它類似于關聯規則中最小支持度的概念,默認值是0.15%,λ值用于控制刪除規則中過度擬合的部分。最后合并和簡化R中相同的規則,并得到一個新的規則集R′。
建立一個屬性關聯矩陣(tvs)n×n。根據矩陣中元素的取值來表示屬性的相關性:

簡化R′中的每一個規則r′的過程如下。


在這個過程中,首先判斷屬性Av和As之間的相關性,其中Av和As分別屬于Condi和Condj。如果Av和As相關聯,那么在規則中保留Condi和Condj;否則,重新計算2個條件概率,根據可信度,刪除Condi或者Condj。最后,合并和簡化R′中的相同規則,得到一個新的規則集R″。
在本文中,對于給定的一組數據,分別對C4.5算法和新的C4.5r算法進行測試。測試的參數包括運行時間、分類的正確性、規則的數量和規則集的大小。實驗結果如表1所示。實驗結果證實,新的C4.5r算法在確保分類精度的前提下,在運行時間等方面具有明顯的優勢。

表1 C4.5算法與新的C4.5r算法的比較Tab.1 Comparison of C4.5algorithm and C4.5ralgorithm
智能指導系統的建設對于互聯網教育具有深遠的意義。數據挖掘技術及其應用對于系統在智能方面的實現發揮了至關重要的作用。通過分析和研究C4.5算法,本文基于新的C4.5r算法提出一個簡單的應用。實現結果表明,新的C4.5r算法在運行時間、產生式規則集的規模及計算產生式規則的開銷方面相對于傳統的C4.5算法具有顯著的優勢。為了更有效地將該算法應用于智能指導系統,在執行時間、產生式規則集的規模等方面仍需要進一步改進。這也是后續研究中需重點解決的問題。
[1] 徐紅艷,馮 勇.基于Agent集成學習情境的E-Learning系統設計與實現[J].計算機工程與設計(Computer Engineering and Design),2009,30(2):515-520.
[2] 汪啟軍,申瑞民.基于 Web Mining的智能化、個性化的遠程教育模型研究[J].計算機工程(Computer Engineering),2000,26(12):157-159.
[3] 鄧 暉.論網絡環境下的學生特征分析系統設計[J].開放教育研究(Open Education Research),2003(1):30-32.
[4] 高 陽,廖家平.基于決策樹的ID3算法與C4.5算法[J].湖北工業大學學報(Journal of Hubei University of Technology),2011,26(2):54-57.
[5] 譚俊璐,武建華.基于決策樹規則的分類算法研究[J].計算機工程與設計(Computer Engineering and Design),2010,31(5):1 017-1 019.
[6] 李 萍,李法朝.基于決策樹的知識表示模型及其應用[J].河北科技大學學報(Journal of Hebei University of Science and Technology),2009,30(2):87-91.
[7] 李國剛,李 艷,李云紅.一種歸納算法的研究與改進[J].河北工業科技(Hebei Journal of Industrial Science and Technology),2009,26(5):325-327.
[8] 劉興文,王典洪.一種基于變精度粗糙集的C4.5決策樹改進算法[J].計算機應用研究(Application Research of Computers),2011,28(10):3 649-3 651.
[9] RAHMAT H,MUSTAPHA A.Measuring differences in accuracy,compactness and speed between C4.5and CPAR in classification[J].Journal of Communication and Computer,2012,9(1):42-46.
[10] 高長元,彭定洪.綜合評價模型自動選擇研究[J].哈爾濱理工大學學報(Journal of Harbin University of Science and Technology),2011,16(6):118-123.