繆廣寒
摘 要 利用數據挖掘技術中的貝葉斯分類技術可以對大量學習數據進行分析,確定其學習風格,完善個性化特征提取,為系統進一步的學習推薦與教學引導提供有效依據,進一步的提高學習質量與效率。
【關鍵詞】葉貝斯分類 數據挖掘 個性化學習 學習風格
網絡環境下的個性化學習是以學生作為教育系統的中心與教育服務主體。在個性化的教育系統中我們在營造數字學習氛圍的同時要強調并堅持學生的主體地位,開展個性化學習,把它看作是一種探索式性、實踐性、創造性的學習。實現網絡個性化學習的關鍵在于根據學習者的信息數據分析提取個性化特征,進而實現對學習者的個性化推薦或教學指導。
本文針對目前網絡學習系統中存在的個性化單一與實現難度大的問題,利用葉貝斯分類算法解決學習風格分類問題,讓學生更深入的了解自己的學習模式與需求,實現真正自主式、個性化學習。
1 數據挖掘與分類
1995年,美國計算機學會(Association for Computing Machinery ,簡稱ACM)組織提出了數據挖掘(Data Mining)概念。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先未知的、但又是潛在有用的信息和知識的過程。數據挖掘又稱為數據庫中知識挖掘(Knowledge Discovery in Databases)、知識提取(Knowledge Extraction)、數據采礦等。
數據挖掘是一個跨學科技術領域,它是數據庫技術、統計學、人工智能、數據可視化、信息提取、并行計算和分布式計算等多個學科結合的產物。發現潛在未知的規則,是數據挖掘的重要特征也是它的目標,它與數據分析的差別在于數據分析通常從一個假設出發,通過建立方程、模型來驗證假設是否成立,而數據挖掘則是直接挖掘信息之中隱藏的規律,發現新的知識。
分類是常用的數據挖掘手段之一。它是將一組組個體分門別類的歸入預先設定的幾個類中。分類的目的是建立一個分類模型,該模型能把數據庫中的數據項映射到類別中的某一個類別。常用的分類方法有:決策樹分類方法、貝葉斯分類方法和規則歸納方法。
2 應用葉貝斯分類算法判定學習風格
學習風格是指學習者一貫持續的帶有個性特征的學習方式,它是學習傾向和學習策略的總和。學習風格是個體在長期的學習過程中逐漸形成的,受特定的家庭、教育和社會文化的影響,通過個體自身長期的學習活動而形成,具有鮮明的個性特征。心理學認為人有七種學習風格:Linguistic(語言)、Logical(邏輯)、Visual(視覺)、Musical(音樂)、Kinesthetic(動覺)、Intrapersonal(內省)與Interpersonal(人際)。使用葉貝斯分類算法我們可以通過分析學習記錄,獲得學生的學習風格。 葉貝斯分類算法基于貝葉斯定理,應用于文本分類時,通過計算文本屬于每個類別的概率.將該文本歸為概率最大的一類中。
2.1 樸素貝葉斯分類和貝葉斯網絡
貝葉斯定理是關于隨機事件A和B的條件概率和邊緣概率的一則定理。
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
其中P(A|B)表示在B發生的情況下A發生的可能性。其中P(A)是A的先驗概率或邊緣概率。(A|B)是已知B發生后A的條件概率, P(B|A)是已知A發生后B的條件概率, P(B)是B的先驗概率或邊緣概率,也作標準化常量。由此,貝葉斯定理可表述為:
后驗概率 = (相似度*先驗概率)/標準化常量
由于,比例P(B|A)/P(B)也有時被稱作標準相似度,所以貝葉斯定理又可表述為:
后驗概率 = 標準相似度*先驗概率
貝葉斯分類方法是基于貝葉斯定理的,樸素貝葉斯(Naive Bayes)和貝葉斯網絡(Bayesian Networks)看作是兩種不同情形下的分類方法。
2.1.1 樸素貝葉斯分類
樸素貝葉斯分類方法是一個基于概率的分類方法,它通過計算后驗證概率的方法來確定所屬類別的概率。
Vj屬于V集合, 其中Vmap是給定一個example,得到的最可能的目標值。其中a1...an是這個example里面的屬性。這里面,Vmap目標值,就是后面計算得出的概率最大的一個.所以用max 來表示。
樸素貝葉斯分類默認基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。因此,該假定說明給定實力的目標值情況下。觀察到聯合的a1,a2...an的概率正好是對每個通過概率計算,從待分類的樣本數據的屬性 a1,a2,...,an 中求出最可能的分類目標值,即計算各類 Vj∈ V對于這組屬性的條件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(類別標識數),并輸出條件概率最大的類別標識作為該樣本數據的所屬類別。這個假設是樸素貝葉斯不同于貝葉斯網絡等其它貝葉斯分類算法的根本,也是樸素貝葉斯這個名稱的由來。
2.1.2 貝葉斯網絡
在實際應用中,大多數情況下不支持樸素貝葉斯的假設,即各特征并非彼此獨立,此情況下可以使用貝葉斯網絡進行分類。
貝葉斯網絡是根據變量之間的依賴關系,使用圖論方法表示變量集合的聯合概率分布的圖形模型,它引入了一個有向無環圖(Directed Acyclic Graph)和一個條件概率表集合。DAG的結點v包括隨機變量(類別和特征),有向連接E(A->B)表示結點A是結點B的parent,且B與A是有依賴關系的。同時引入了一個條件性獨立(conditional independence)概念:即圖中任意結點v在給定v的parent結點的情況下,與圖中其它結點都是獨立的,也就是說P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結點集,x1,x2,...,xn表示圖中其它結點。如果已知所有聯合概率值(joint distribution),那么就可以解決任何形式的概率問題。但現實中的特征集合數量過多(>10),幾乎無法通過統計得到。所以,這個問題要通過條件獨立的概念來對各條件概率值進行優化來解決。貝葉斯網絡的建模有兩個步驟:創建網格結構與估計每一個結點的概率表中的概率值。endprint
2.2 貝葉斯分類過程
在本學習系統中,主要使用樸素貝葉斯分類方法對網絡學習某一體育課程的學習者的學習風格進行分類。
2.2.1 建立樣本數據
根據體育學科的學習特點,我們可以把學習者的學習風格簡要概括為視覺型(V)、語言型(L)和動覺型(K)。把每一個學習者看作一個矢量 S,學習者的每一次學習記錄作為屬性 Ai,學習者的風格(視覺型、聽覺型和動覺型)作為可能的類別 C,對于隨機分類向量S={a1,a2,…,an},由此知道 s對每個類別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計算得到,概率最大的那個就是 s的預測類別。
當學生登入系統時,系統首先根據學號查看學習風格數據庫中是否有該生的學習風格類型記錄,如果有,系統則推薦學生適合其風格的學習內容,如果無,則系統將學習者這次學習的學習記錄保存在學生學習記錄庫的學習過程數據表中。
經過數據預處理,我們可以確保建模的數據是正確有效的。分析處理中我們需要得到分類模型需要的訓練樣本集的相關屬性,包括文本學習次數(T)、視頻學習次數(V)、活動次數(A)、文本學習平均成績(TS)、視頻學習平均成績(VS)、活動成績(AS)、學習風格類型(S)。當學生登錄次數達到某值時,系統自動將這些屬性值計算并存儲。在分析訓練樣本時我們把學習次數屬性值分為<5、5-10、>10 三個區間,將成績分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類法對于學習次數和學習成績這類連續屬性的類條件概率計算,一是把連續的屬性用相應的離散區間替換進而離散化,或是通過訓練數據估計分布的參數。
2.2.2 建立學習風格建模
根據貝葉斯的最大后驗準則,對任一未知樣本 s={a1,a2,…,an},確定后驗概率 P(Cj| a1,a2,…,an),把最大的類確定為該樣本的學習風格。具體步驟為:
(1)計算得到每一種學習風格類型的先驗概率P(Ci )。
(2)相對于每個類別的概率 P(aj|ci),訓練樣本集計算得出各屬性的所有取值。
(3)計算出未知樣本對三種類別的概率,選取概率最大的類別為學生的學習風格類型。
其中,建立學習風格分類模型最關鍵的步驟就是建立訓練樣本集。見表2-1。
2.2.3 建立算法
根據上述分析,設計算法如下:
初始化訓練集D;計算每個學習風格類型的先驗概率
由上述算法得出概率最大的類別為學生的學習風格類型。
3 結論
本文將葉貝斯算法應用在判定學習者的學習風格中,發現了學生的學習成績、學習興趣與學習風格之間的潛在聯系。經過實際應用發現當樸素貝葉斯分類的假定條件成立時,它是一種非常精確的分類方法。 使用貝葉斯分類對系統中的學習者的學習風格進行分類,其特點主要有:
(1)它結合了概率與貝葉斯網絡的分類方法,可以利用領域知識和其它先驗信息,計算假設概率。
(2)可以把所有的屬性都參與分類。
(3)針對離散屬性的對象進行分析。
(4)數據樣本可以增加也可以減少,這樣可以進行增量學習。
(5)利用有向圖的表示方式非常直觀,弧表示變量之間的關系。
參考文獻
[1]田文詩.基于學習者行為的序列模式挖掘算法研究與實現[D].碩士學位論文,吉林:吉林大學,2011(05).
[2]鄧暉、徐梅林.網絡學習環境之個性化屬性調查及啟示[J].現代教育技術,2003.13(1):49-54.
[3]凌江榮.在e_Learning中建立自適應學習路徑的研究[D].碩士學位論文,湖南:湘潭大學,2007.
[4]田曉輝.基于Web的個性化學習系統在遠程教育中的應用研究[D].碩士學位論文,西安:陜西師范大學,2007.
[5]史春秀.基于數據挖掘的個性化學習系統的研究[D].碩士學位論文,天津:天津大學,2007.
[6]王志平.基于數據挖掘技術的個性化學習系統的研究[D].碩士學位論文,重慶:重慶大學,2007.
作者單位
1.無錫高等師范學校 江蘇省無錫市 214000
2.無錫城市職業技術學院 江蘇省無錫市 214000endprint
2.2 貝葉斯分類過程
在本學習系統中,主要使用樸素貝葉斯分類方法對網絡學習某一體育課程的學習者的學習風格進行分類。
2.2.1 建立樣本數據
根據體育學科的學習特點,我們可以把學習者的學習風格簡要概括為視覺型(V)、語言型(L)和動覺型(K)。把每一個學習者看作一個矢量 S,學習者的每一次學習記錄作為屬性 Ai,學習者的風格(視覺型、聽覺型和動覺型)作為可能的類別 C,對于隨機分類向量S={a1,a2,…,an},由此知道 s對每個類別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計算得到,概率最大的那個就是 s的預測類別。
當學生登入系統時,系統首先根據學號查看學習風格數據庫中是否有該生的學習風格類型記錄,如果有,系統則推薦學生適合其風格的學習內容,如果無,則系統將學習者這次學習的學習記錄保存在學生學習記錄庫的學習過程數據表中。
經過數據預處理,我們可以確保建模的數據是正確有效的。分析處理中我們需要得到分類模型需要的訓練樣本集的相關屬性,包括文本學習次數(T)、視頻學習次數(V)、活動次數(A)、文本學習平均成績(TS)、視頻學習平均成績(VS)、活動成績(AS)、學習風格類型(S)。當學生登錄次數達到某值時,系統自動將這些屬性值計算并存儲。在分析訓練樣本時我們把學習次數屬性值分為<5、5-10、>10 三個區間,將成績分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類法對于學習次數和學習成績這類連續屬性的類條件概率計算,一是把連續的屬性用相應的離散區間替換進而離散化,或是通過訓練數據估計分布的參數。
2.2.2 建立學習風格建模
根據貝葉斯的最大后驗準則,對任一未知樣本 s={a1,a2,…,an},確定后驗概率 P(Cj| a1,a2,…,an),把最大的類確定為該樣本的學習風格。具體步驟為:
(1)計算得到每一種學習風格類型的先驗概率P(Ci )。
(2)相對于每個類別的概率 P(aj|ci),訓練樣本集計算得出各屬性的所有取值。
(3)計算出未知樣本對三種類別的概率,選取概率最大的類別為學生的學習風格類型。
其中,建立學習風格分類模型最關鍵的步驟就是建立訓練樣本集。見表2-1。
2.2.3 建立算法
根據上述分析,設計算法如下:
初始化訓練集D;計算每個學習風格類型的先驗概率
由上述算法得出概率最大的類別為學生的學習風格類型。
3 結論
本文將葉貝斯算法應用在判定學習者的學習風格中,發現了學生的學習成績、學習興趣與學習風格之間的潛在聯系。經過實際應用發現當樸素貝葉斯分類的假定條件成立時,它是一種非常精確的分類方法。 使用貝葉斯分類對系統中的學習者的學習風格進行分類,其特點主要有:
(1)它結合了概率與貝葉斯網絡的分類方法,可以利用領域知識和其它先驗信息,計算假設概率。
(2)可以把所有的屬性都參與分類。
(3)針對離散屬性的對象進行分析。
(4)數據樣本可以增加也可以減少,這樣可以進行增量學習。
(5)利用有向圖的表示方式非常直觀,弧表示變量之間的關系。
參考文獻
[1]田文詩.基于學習者行為的序列模式挖掘算法研究與實現[D].碩士學位論文,吉林:吉林大學,2011(05).
[2]鄧暉、徐梅林.網絡學習環境之個性化屬性調查及啟示[J].現代教育技術,2003.13(1):49-54.
[3]凌江榮.在e_Learning中建立自適應學習路徑的研究[D].碩士學位論文,湖南:湘潭大學,2007.
[4]田曉輝.基于Web的個性化學習系統在遠程教育中的應用研究[D].碩士學位論文,西安:陜西師范大學,2007.
[5]史春秀.基于數據挖掘的個性化學習系統的研究[D].碩士學位論文,天津:天津大學,2007.
[6]王志平.基于數據挖掘技術的個性化學習系統的研究[D].碩士學位論文,重慶:重慶大學,2007.
作者單位
1.無錫高等師范學校 江蘇省無錫市 214000
2.無錫城市職業技術學院 江蘇省無錫市 214000endprint
2.2 貝葉斯分類過程
在本學習系統中,主要使用樸素貝葉斯分類方法對網絡學習某一體育課程的學習者的學習風格進行分類。
2.2.1 建立樣本數據
根據體育學科的學習特點,我們可以把學習者的學習風格簡要概括為視覺型(V)、語言型(L)和動覺型(K)。把每一個學習者看作一個矢量 S,學習者的每一次學習記錄作為屬性 Ai,學習者的風格(視覺型、聽覺型和動覺型)作為可能的類別 C,對于隨機分類向量S={a1,a2,…,an},由此知道 s對每個類別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計算得到,概率最大的那個就是 s的預測類別。
當學生登入系統時,系統首先根據學號查看學習風格數據庫中是否有該生的學習風格類型記錄,如果有,系統則推薦學生適合其風格的學習內容,如果無,則系統將學習者這次學習的學習記錄保存在學生學習記錄庫的學習過程數據表中。
經過數據預處理,我們可以確保建模的數據是正確有效的。分析處理中我們需要得到分類模型需要的訓練樣本集的相關屬性,包括文本學習次數(T)、視頻學習次數(V)、活動次數(A)、文本學習平均成績(TS)、視頻學習平均成績(VS)、活動成績(AS)、學習風格類型(S)。當學生登錄次數達到某值時,系統自動將這些屬性值計算并存儲。在分析訓練樣本時我們把學習次數屬性值分為<5、5-10、>10 三個區間,將成績分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類法對于學習次數和學習成績這類連續屬性的類條件概率計算,一是把連續的屬性用相應的離散區間替換進而離散化,或是通過訓練數據估計分布的參數。
2.2.2 建立學習風格建模
根據貝葉斯的最大后驗準則,對任一未知樣本 s={a1,a2,…,an},確定后驗概率 P(Cj| a1,a2,…,an),把最大的類確定為該樣本的學習風格。具體步驟為:
(1)計算得到每一種學習風格類型的先驗概率P(Ci )。
(2)相對于每個類別的概率 P(aj|ci),訓練樣本集計算得出各屬性的所有取值。
(3)計算出未知樣本對三種類別的概率,選取概率最大的類別為學生的學習風格類型。
其中,建立學習風格分類模型最關鍵的步驟就是建立訓練樣本集。見表2-1。
2.2.3 建立算法
根據上述分析,設計算法如下:
初始化訓練集D;計算每個學習風格類型的先驗概率
由上述算法得出概率最大的類別為學生的學習風格類型。
3 結論
本文將葉貝斯算法應用在判定學習者的學習風格中,發現了學生的學習成績、學習興趣與學習風格之間的潛在聯系。經過實際應用發現當樸素貝葉斯分類的假定條件成立時,它是一種非常精確的分類方法。 使用貝葉斯分類對系統中的學習者的學習風格進行分類,其特點主要有:
(1)它結合了概率與貝葉斯網絡的分類方法,可以利用領域知識和其它先驗信息,計算假設概率。
(2)可以把所有的屬性都參與分類。
(3)針對離散屬性的對象進行分析。
(4)數據樣本可以增加也可以減少,這樣可以進行增量學習。
(5)利用有向圖的表示方式非常直觀,弧表示變量之間的關系。
參考文獻
[1]田文詩.基于學習者行為的序列模式挖掘算法研究與實現[D].碩士學位論文,吉林:吉林大學,2011(05).
[2]鄧暉、徐梅林.網絡學習環境之個性化屬性調查及啟示[J].現代教育技術,2003.13(1):49-54.
[3]凌江榮.在e_Learning中建立自適應學習路徑的研究[D].碩士學位論文,湖南:湘潭大學,2007.
[4]田曉輝.基于Web的個性化學習系統在遠程教育中的應用研究[D].碩士學位論文,西安:陜西師范大學,2007.
[5]史春秀.基于數據挖掘的個性化學習系統的研究[D].碩士學位論文,天津:天津大學,2007.
[6]王志平.基于數據挖掘技術的個性化學習系統的研究[D].碩士學位論文,重慶:重慶大學,2007.
作者單位
1.無錫高等師范學校 江蘇省無錫市 214000
2.無錫城市職業技術學院 江蘇省無錫市 214000endprint