999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

h-MMHC算法及其在主因素分析中的應用

2016-07-19 02:15:21李昌群程文娟
計算機應用與軟件 2016年6期
關鍵詞:分析學生

李昌群 楊 靜 程文娟 安 寧

(合肥工業大學計算機與信息學院 安徽 合肥 230009)

?

h-MMHC算法及其在主因素分析中的應用

李昌群楊靜程文娟安寧

(合肥工業大學計算機與信息學院安徽 合肥 230009)

摘要由于MMHC算法是針對所有的屬性進行的網絡結構圖的構建,時間相對較長且結構圖較為復雜。針對該情況,提出了啟發式h-MMHC算法。它是MMHC算法的改進,從一個初始的屬性集合出發,通過MMHC局部學習方法,借助啟發策略,逐步添加新的屬性,最終得到屬性之間相關關系的貝葉斯網絡結構。該研究以教學效果評估為實例,對于MMHC和h-MMHC算法做了比較。采用李克特量表法設計的調查問卷收集數據,使用兩種算法對調查數據進行分析。相對于MMHC算法,由于減少了需要考慮的屬性集規模,因此h-MMHC可更有效地應用于主因素分析中。

關鍵詞h-MMHC算法貝葉斯網絡主因素分析教學評估

0引言

特征提取問題是數據分析和挖掘的重要研究內容。恰當的算法可在眾多的特征屬性中,搜索到對于問題影響顯著的特征集合,從而更有效地開展對于數據的深入分析。其中一個重要的問題就是主因素分析,也即在確定目標屬性后,找出影響目標屬性的主要因素。例如仝美紅等人[1]利用主成分分析法以及熵值法來進行高校教師的績效評價。主因素分析可以看作是特征提取的一種特殊形式,也即提取對于目標屬性影響最大的一個或者若干個特征。

貝葉斯網絡又稱信度網絡,自提出以來一直受到廣泛的重視。在社會科學的研究中是一種常用的手段,其中包括教育研究領域,利用貝葉斯網絡的模型來分析與教學質量相關的因素。例如,Choo-YeeTing等人[2]使用貝葉斯網絡來構建一個基于計算機科學探索學習環境概念變化的計算模型;EvaMillán等人[3]使用貝葉斯網絡來提高知識評估,使用通用貝葉斯學生模型的整合和評估,用于Aveiro大學的計算機測試中;EvaMillán等人[4]使用貝葉斯網絡來設計和完善學生模型。依據該系統可以根據這些信息為學生們提供個性化的服務。同樣的,國內學者也在利用數據分析的技術對影響高等教育質量的因素進行探索。馬希榮等人[5]將數據挖掘中的關聯規則分析技術應用到教學評價中,有效地挖掘教育研究中的數據;何萬篷等人[6]將數學中的可拓方法與數據挖掘技術結合起來,挖掘影響教學質量的關鍵因素,以及教學質量與教師特征之間的關聯規則。所有這些研究都可以歸納為對于某個目標的主因素分析。

對于屬性的選擇,研究者們在不斷探索,正如魏浩等人[7]提出了基于相關性來進行屬性選擇。本文采用貝葉斯網絡的方法從數據中獲取屬性之間的潛在關聯。貝葉斯網絡模型是一種概率網絡,它可以用一個簡潔明了的結構圖來展示數據中蘊含的關聯。結構圖中的節點代表屬性變量(隨機變量),節點間的有向邊代表屬性之間的相互關聯,用相關系數表達關聯強度。利用貝葉斯網絡模型作為教學效果的分析工具,可以有效地了解影響教學質量優劣的因素。特別是影響教學效果的主要因素。

MMHC算法是當前常用的構建貝葉斯網絡的方法,但是對于主因素分析這樣的問題,由于MMHC方法對于所有屬性都是不加區別進行計算,存在計算量大,數據之間相互干擾問題。針對在主因素分析這樣的特定應用,本文提出一種改進,即啟發式MMHC算法,簡稱h-MMHC算法。該方法通過初始的部分屬性集出發,逐步刪除對于目標屬性影響不大的屬性,添加新的屬性來迭代式逼近實際的貝葉斯網絡。由于是逐步添加屬性,而不是一次性對于所有屬性進行計算,因此在主因素分析的應用中,h-MMHC算法具有計算量小,計算過程清晰的優點。通過對于一門課程教學效果的評估案例,探討了h-MMHC算法構建貝葉斯網絡的實際效果,以及在主因素分析中的應用。

1貝葉斯網絡模型

一個貝葉斯網絡是一個有向無環圖,由代表屬性的節點及連接這些節點的有向邊構成。貝葉斯網絡的學習過程實質上是在結構空間中尋找與樣例數據集聯合概率分布最一致的網絡結構。通常采用基于評分和約束滿足的學習方法進行結構的學習。

定義1[8]貝葉斯網絡BN是一個二元組B=。其中G=是有向無環圖,V={X1,X2,…,Xn}表示節點集合,Xi是隨機變量,E表示邊的集合,反映隨機變量之間的關聯關系。θ={θ1,θ2,…,θn}表示網絡中每個節點Xi相對于其父節點集Pa(Xi)的條件概率分布,是父子節點之間概率依賴程度的一種量化表示。θi=θxi|Pa(Xi)=p(xi|Pa(Xi))表示在Pa(Xi)確定下節點Xi取值為xi的概率。

一般地,令S是實例的集合,V是實例屬性的集合,貝葉斯網絡刻畫了各屬性之間的相關程度。確定貝葉斯網絡結構主要是確定各屬性之間的條件概率分布,由此可以得到關于各屬性之間相互依賴程度的信息。本文中假定相關關系都是指線性相關。線性相關是一般相關關系的近似,在實際確定貝葉斯網絡的結構時,經常考慮線性相關。并且,本文假定屬性是相互獨立的。

定義2[9]設V={X1,X2,…,Xn}是變量集合,若相關系數ρ(Xi,Xj)=0,則稱Xi與Xj(線性)獨立,記為Ind(Xi,Xj)。若Xi和Xj獨立,則有p(Xi|Xj)=p(Xi),即變量Xj的任何變化對變量Xi的概率分布不產生影響。

在貝葉斯網絡中,經常考慮一個節點關于其他一組節點的獨立性。即下所述貝葉斯網絡中的條件獨立性。

定義3[10]貝葉斯網絡中的條件獨立性令Q(X)是一個節點X的所有父節點和子節點的集合,也就是說,Q(X)是X的馬爾可夫覆蓋,那么對于其他任何不在Q(X)中的節點Y,Y與X關于Q(X)是條件獨立的,即ρ(X,Y|Q(X))=0,記作IndQ(X)(X,Y)。

在實際應用中,通常設置一個閾值δ,當相關系數ρ(X,Y|Q(X))<δ時,就認為它們是獨立的,這個閾值稱為關聯閾值。

2啟發式MMHC算法

從大量的數據中學習出一個網絡,是機器學習領域的一個重要內容。對于一個樣例,有多個屬性去描述它。在現實世界中,實例的屬性之間往往是存在一定關聯的。對屬性之間的關聯性可以用不同的方法去描述。

MMHC算法又稱為最大最小爬山算法,它基于約束的思想,結合了局部學習以及搜索評分技術的原則和有效方法。對于小樣本的數據集,該算法也能夠表現出很好的性能[11]。

利用MMHC算法從訓練數據集中學習貝葉斯網絡主要經過兩個階段:階段一,找出各個節點的直接父節點。該階段利用MMPC算法學習得到每個節點的父節點和子節點集合,學習過程中,利用條件獨立性測試,如果變量X、Y關于變量集Z條件獨立,即Ind(X,Y|Z)成立,則可以說明X和Y之間沒有直接的聯系,相反則說明存在直接的父子節點聯系。在整個階段一,利用該方法對各個節點做一次計算,最終得到所有變量的候選父子節點。階段二,確定節點聯系,即邊的定向階段。在該階段中利用爬山算法去確定各個邊,依次計算各個節點與候選父子節點的相關系數,從中選擇出相關系數最大的節點對,添加邊,即完成了所謂的定向。按照此方法不斷的執行,最終定向出圖中所有的邊。

MMHC算法描述:

該算法主要分為約束階段和搜索階段。

輸入:數據集D

//約束階段

為每個變量X∈V計算其候選父節點和子節點集,計算PCx=MMPC(X,D)。

//搜索階段

在受限的空間里通過執行貪婪的爬山搜索,包括添加邊,刪除邊,逆置邊等操作,找到具有最優評分的網絡G, 只有當y∈PCx時才執行添加邊Y→X操作。

輸出:關聯貝葉斯網絡結構圖G

MMHC可以被看做是SC(稀疏候選)算法[12,13]的一個特殊實例,也可以被歸為使用兩種方法的概念和技術的混合方式。對于SC算法,其要求用戶估計參數K來進行約束限制,而MMHC算法有效地解決了SC算法中的不足,最突出的就是它無需用戶估計參數K,從而使得該算法在計算量上大大減少。有關MMHC算法更多的細節可參看文獻[11]。

MMHC算法假設貝葉斯網絡是忠實的,即概率分布滿足Markov條件。只有在極少數情況下,這個假設才可能不適合(細節參見文獻[14])。

MMHC算法實際上是通過搜索-評分兩個步驟確定出一個節點的父節點和子節點。從而形成數據之間概率關聯關系的貝葉斯網絡。如果相對于節點A,A的父節點Pa(A),節點B關于Pa(A)與A是條件獨立的,則B與A之間沒有邊,也即B與A之間沒有直接關聯。在這樣的前提下,關于屬性集V=(v1,v2,…,vn)的聯合分布概率:

P(v1,v2,…,vn)=∏P(vi|Pa(vi))

由此公式,可以容易計算出對于目標屬性的主要影響因素,即主因素。

MMHC算法已經是目前比較流行的方法,并且寫進了Matlab,成為標準算法之一。但是MMHC算法有一個缺點,即所用來確定貝葉斯網絡結構的屬性集合是所有屬性,這就造成計算量大的問題。在主因素分析中不盡合理,因為主因素分析并不要求所有的屬性之間的關聯,而是只需要找出與目標屬性具有最大關聯的屬性。本文結合主因素分析這種特定的應用場合,提出了一種從局部屬性集合出發,逐步增加新屬性的學習方法,進行網絡結構的調整,最終得到主因素。用這樣的方法可以提高計算效率。相對于原來的MMHC算法,本文提出的方法屬于逐步逼近的貝葉斯網絡結構學習。其基本思想是,在樣例屬性集合中,首先取出一部分屬性,根據MMHC算法,建立有關這部分屬性的貝葉斯網絡結構,也就是建立這些屬性的關聯關系。然后將其中與目標屬性關聯度不大的屬性屏蔽,增添新的屬性,繼續應用MMHC算法,構建新的貝葉斯網絡。由于每次處理的屬性數量較少,因此比起傳統的MMHC算法,它的復雜度要低,并且容易揭示與目標屬性最相關的影響因素。這種方法用于主因素分析中具有明顯的優點。由于這種算法使用了對于屬性學習的啟發策略,因此稱為啟發式MMHC算法,記作h-MMHC算法。

定義4設S是貝葉斯網絡學習任務L的實例集合,V是實例中屬性的集合,d是某個特定的目標屬性,與d的關聯值超過某個閾值δ的屬性稱為影響d的主因素。

注意在此定義中,主因素可以不止一個。關聯閾值δ根據問題的需要選取。

由于貝葉斯網絡可以直接給出各屬性之間的關聯程度,因此貝葉斯學習和貝葉斯網絡結構經常成為主因素分析算法采用的技術。本文提出的h-MMHC算法是一種改進的方法。

h-MMHC算法具體的流程如下:

(1) 令V為所有屬性的集合;d為目標屬性;關聯閾值δ。

(2) 隨機的選取部分屬性集T?V,d∈T,利用MMHC算法構造關于T的貝葉斯網絡B,即B=MMHC(T)。

(3) 對于所有z∈B,并且z?Pa(d),若ρ(z,d)<δ,則刪去z。

(4) 令刪去的屬性集為Z;添加屬性集M,T=(T-Z)∪M,執行步驟2、步驟3。

(5) 直到所有的屬性都完成,得到最終的結構圖。

h-MMHC算法采用啟發式的步驟,分階段的添加屬性,而且每次迭代計算時,只需要對含有M中的屬性變量進行新的搜索和評分,實際運行表明,這種方法在很大程度上減少了計算量。這是h-MMHC算法區別于MMHC的獨特之處。

該算法的正確性依賴于下面的一個定理。

定理1令S為屬性的集合,d是目標屬性,Z和M是兩個屬性子集合,對于任意屬性X和Y,如果關于Z,X?pa(d),那么關于Z∪M,同樣有X?pa(d)。

證明:根據MMHC算法,X?pa(d),意味著IndZ(X,d),其中Z?pa(d),即X和d關于Z是條件獨立的。這時如果增加新的屬性子集M,則由MMHC的最大最小原則,只要有d的父節點子集Z使得IndZ(X,d),則X也不會添加到新結構中目標屬性d的父節點。

定理1說明,當屏蔽一些屬性,在增加一些屬性重新計算關聯性的時候,不會把原來非目標屬性的父節點變成父節點。但是,對于已是父節點的屬性,可能會由于新的屬性加入而變成不是父節點,此時,會有新的父節點替代原來的父節點。因此h-MMHC算法在逐步添加屬性將會逐步得到目標屬性附近的正確結構。

定理2給定學習樣例集S,對于任意初始的包含目標屬性d的屬性集合,h-MMHC算法都能正確收斂到d的附近的結構。

針對定理2,作兩點說明。第一,h-MMHC的正確性依賴于學習樣例集,不同的學習樣例集可能給出不同的貝葉斯結構。第二,所謂目標屬性附近的結構,是指距離目標屬性最近的那些節點,至少包含所有的父節點(子節點不必考慮,因為不屬于主因素問題的內容)。具體的界定需要根據問題確定,因為在實際中,存在一些節點,他們對于目標屬性最終有較高的關聯值,但卻不是父節點。這是h-MMHC算法的一個缺陷。這一缺陷可以通過對于主因素再做主因素分析來彌補,也就是通過二次的主因素分析來得到這些屬性,這樣的屬性可以稱為次主因素。當然,這種情況是較少發生的,除非該屬性對于某個主因素有較高的單向相關性,一般而言,這樣的屬性設計是較少碰到的。

關于每次需要添加的屬性,既可以根據事先制定的添加策略自動添加,也可以根據專家先驗知識和樣例分布特征選擇性添加,因此h-MMHC的屬性添加具有靈活性,可以根據問題的需要而裁量考慮。

3應用案例—課程評估

近期我們把主因素分析用于教學效果的評估。該工作在《網絡、群體與市場》課程中進行,這是面向本科大二學生,整個教學過程包括32個學時,為選修課程;一個年級總共180人,除了講授以外還會留一些開放性的題目,以及相應的資源網站,便于學生們課后學習;整個教學分為四個階段,在每個階段通過問卷了解教學效果,基本方法就是貝葉斯網絡的主因素分析方法,以確定影響教學效果的主要因素。并且根據分析的結果,剔除對于教學效果影響不大的因素,重新設計新的問卷,引入新的因素,在課程的下一階段使用新的問卷進行了解,結合前次的分析結果,綜合給出教學效果的評價。為了確保問卷題目的準確性,采用不記名式的作答;對收集回來的數據運用統計學的方法以及貝葉斯理論中的h-MMHC算法進行分析。

針對教學階段的自然劃分,采用分階段式的設計問卷。這樣每個階段的題目數不用太多,一方面不會讓學生們產生負擔,從而可以更認真的作答;另一方面通過幾個階段的設計,題目的數量也達到了我們預期的數量,如此便不會影響考察的效果。具體的問卷設計如表1所示。

表1 各階段的問卷設計

正如表1中所顯示的,各期的問卷題目數量不變,為了與課程進度保持一致,問卷的題目內容是動態變化的,通過當前階段的分析剔除不相關的題目,下一階段在相應問卷位置加入新的題目。由于我們要考察的目標節點是6,也就是學生們對該課堂教學的總體評價。

在此案列中,整體的問卷題目是事先設定好的,分四階段給學生進行問卷調查,問卷調查的題目有部分是重合的。根據上一階段的分析結果來確定下一階段的添加屬性(問卷題目)。因此,在本案例中,屬性添加參考了專家先驗知識。事實上,也可以事先將全部屬性制作成屬性列表(問卷題目列表),根據某種策略進行屬性的自動選取,例如事先規定的屬性選取順序或者是根據各階段應該選取屬性的數量。根據定理2,不同的屬性添加策略對于主因素的篩選沒有影響。

4實驗結果以及分析

4.1數據集

本門課共180個學生選修,由于每次上課不是每個學生都會到場,而我們的問卷只是針對到場的學生進行考察。因此,一共32課時,收集回來的數據一共是1713條數據。問卷的設計中考慮到數據的離散化與連續的問題,采用李克特量表法進行問卷設計。李克特量表是一種心理反應量表,常在問卷中使用,而且是目前調查研究中使用最廣泛的量表(http://baike.baidu.com/view/1574087.htm?fr=aladdin)。當受測者回答此類問卷的項目時,他們具體的指出自己對該項陳述的認同程度。由此收集回來的數據皆為離散化的數據,由于MMHC算法是一個專門用于離散數據的貝葉斯網絡學習算法,因此,離散化過程是必須的。

香娭毑給人的印象是一個能干婆,可她見了喜姑,妹妹長妹妹短的叫得十分親熱,從不在她面前逞能的。沒事的時候,喜姑也喜歡到香娭毑家里來串門。無論白天晚上,刮風下雨,只要喜姑一到,香娭毑就把寶剛爹支走,去去,到外面去,我們姊妹打講,你到屋里湊什么熱鬧。

4.2各階段結構圖分析

對于調查問卷收集回來的數據,本文采用h-MMHC算法進行測試。此次的實驗是在一臺CPU是Inter(R) 2.94GHz,內存為4GB,操作系統為windows7的電腦上進行的。部分代碼采用的是Causal-ExplorerMatlab_R14工具包。該研究中的各個階段屬性個數較少,故通過人為分析即可(例如,利用專家先驗知識)。當屬性個數較多時,可以在MMHC的構圖階段根據事先設定好的屬性添加策略,逐步進行屬性篩選,從而達到自動解析的目標。

如圖1所示的是第一階段收集回來的數據得到的網絡結構圖。對節點6(總體評價)有直接影響的節點分別是節點2(授課人講解生動度)和節點4(學生對該堂課的興趣度)。通過表2可以知道節點2和節點6之間的相關性達到0.513,節點4和節點6之間的相關性甚至達到了0.576。目標是尋找的對課堂總體效果(即節點6)有直接影響的節點,所以在第一階段的后期,刪去對節點6只存在間接影響的1、3、5節點。

圖1第一階段中

表2第一階段中的相關系數

節點對相關系數(1,5)0.541(2,4)0.472(2,6)0.513(3,2)0.412(4,5)0.61(4,6)0.576(6,1)0.552

MMHC算法下的結構圖根據結構圖可以得到的結論為:授課者對于授課內容講解得越生動學生們就越感興趣,從而對于該堂課的總體評價也就會增加。另外,學生們對該堂內容的興趣度指數也會影響他們對于該堂課的總體評價。

通過結構圖的表示以及條件相關系數的計算可以看到:節點1(課堂內容是否充實,信息是否充分),節點3(授課人與大家的互動做的如何)以及節點5(課堂內容是否實用)對于課堂的整體效果作用不大。有研究指出教學內容、教學方法會對教學效果產生影響的[15],這些結論似乎與此有所相關,應該是本門課程的實際情況,與學生和教師的具體狀態有關,作為一門課程的效果調研,畢竟是第一手資料。在該研究中出現的現象可以解釋為:授課者所講授的內容在學生們看來并沒有很充分以及很實用。圖2顯示的是第二階段問卷收集到的數據,表3是第二階段中的相關系數。

圖2第二階段中

表3第二階段中的相關系數

節點對相關系數(2,5)0.452(2,6)0.582(3,2)0.464(5,1)0.48(5,4)0.557(5,6)0.578(6,1)0.528

MMHC算法下的結構圖在第一階段中找到了與節點6關系緊密的節點,分別是節點2和節點4,因此在第二階段替換掉題目1、3和5。從替換掉間接影響的節點后得到的第二階段的圖中可以看到,節點2還是對節點6有影響而節點4此時卻并非是節點6的直接影響因素。變換的節點5此時卻成為影響總體效果的次直接影響因素。通過表3可以發現節點2和節點6之間的相關性是0.582,節點5和節點6之間的相關性是0.578。為了考察驗證結點4與節點6之間的關聯性,在第三階段的問卷中仍然保留節點4。所以在第三階段只替換掉節點1和節點3。

在第二階段,根據h-MMHC算法可以知道,新增加了1、3、5節點,新增加了三個節點后,通過條件相關性可以發現節點4和節點6之間的相關性為0。節點4在該階段忽然與6沒有聯系,也許是該階段中學生們對于老師們所教授的內容興趣度不高,從而不存在直接影響。基于這樣的考慮,在第三階段中仍然保留節點4,以進行驗證。

根據結構圖可以得到的結論為:授課者對于授課內容講解得越生動,那么學生們對于該堂課的總體評價也就會越高。同樣的,當授課者善于激發學生思考,帶動學生們的思考積極性,那么該堂課的總體評價也是會很好的。

此外,新增加的節點,分別是節點1(課程安排時間是否合理)、節點3(授課人課前準備)對于節點6 沒有影響,說明學生們對于課程上課時間不是很滿意,產生的原因與當時授課者將上課時間安排在周末可能是分不開的。基于上課的內容比較分散,學生們對于授課者課前的準備沒有很認可,所以在該階段表現出這樣的結果。

圖3顯示的是第三階段問卷收集到的數據,通過前兩個階段的分析,我們依次找到了對總體課堂效果有直接影響的節點,分別是第一階段的節點2、4和第二階段的節點2、5。在前兩階段中,節點2始終是節點6的父節點,而節點4和節點6的關系發生了變化。為了驗證節點4和節點6之間的關系,我們還是保留第二階段的題目4,只更換了題目1、3。這樣便得到了第三階段的問卷。從該圖中可以看到節點2和節點5都對總體評價產生影響,而節點4卻成為了節點6的子節點。通過表4可以看到,節點2和節點6之間的相關系數是0.593,節點5和節點6之間的是0.584。

圖3第三階段中MMHC算法圖

表4第三階段中的相關系數

節點對相關系數(2,3)0.541(2,5)0.472(2,6)0.513(4,1)0.412(5,4)0.61(5,6)0.576(6,1)0.552(6,3)0.489(6,4)0.58

通過結構圖可以得到的結論為:授課者對課堂內容講解的越生動,那么學生們對于課堂效果的總體評價就越高。同樣的,授課者如果善于激發學生們的思考,那么學生們同樣會對該堂課的效果評價高。此外,當授課者善于激發學生思考的時候,學生們也就會對該堂課的內容越感興趣。

被替換的節點1(課下是否愿意花時間去思考課堂上留下的問題)與節點3(該堂課是否達到期望)在該圖中顯示為受節點6的影響,說明在課堂效果評價好的情況下學生們會感興趣,然后課下會愿意花時間去思考課堂上留下的問題,最終可以達到學生們的期望。但這兩個節點不是影響6的直接因素。

圖4是第四階段收集到的數據得到的結構圖。很明顯可以看到該圖與圖3是沒有變化的,那么這就說明在上一階段得到的結論是成立的。也就是說盡管變動了1、3兩個屬性,節點2 和節點5對于課堂效果的總體評價仍是最有影響的屬性。通過表5可以看到,節點2和節點6之間的相關性系數是0.58,而節點5和節點6的相關性系數是0.590。

圖4第四階段中MMHC算法圖

表5第四階段中的相關系數

節點對相關系數(2,3)0.492(2,5)0.495(2,6)0.58(4,1)0.494(5,4)0.547(5,6)0.59(6,1)0.542(6,3)0.5(6,4)0.567

綜合上述的結果可以說明:授課者對課堂內容講解的生動度以及授課者善于激發學生們思考這兩個因素節點通過使用h-MMHC算法被發現為是影響教學效果的主要因素。

第四階段中新增的節點1(授課內容與實際的結合緊密度)與節點3(授課人的PPT制作效果)在該圖中顯示為節點6的子節點,說明這兩個節點反而受節點6的影響。

基于上述對節點4的處理方式,也正驗證了定理1的有效性。因此h-MMHC算法在逐步添加屬性的過程中將會逐步得到目標屬性附近的正確結構。

4.3MMHC的結構圖

相比于h-MMHC的分階段添加屬性節點,MMHC則一次性將所有屬性節點添加進來。在該研究中,一共有13個屬性,對應的結構圖中有13個節點。結構如圖5所示,相關性系數見表6。

圖5MMHC結構圖

表6MMHC的相關性系數

(2,6)0.58(4,6)0.43(6,9)0.55(6,7)0.48(6,12)0.31

通過圖5可以看到節點2和節點4對節點6是有影響的。該結論與h-MMHC的結論基本上是一致的。

限于篇幅的原因,在此只選取部分與節點6有關的節點對的相關系數。通過該表可以驗證h-MMHC的正確性,即分階段的添加屬性節點進而獲取主要影響因素是合理的。

4.4h-MMHC與MMHC的對比

從表7中可以看出h-MMHC算法和MMHC算法的區別之處。圖中的運行時間是50次運行后計算得出的平均時間。很顯然使用h-MMHC算法的整體運行時間少于MMHC算法的時間,時間相對來說提升了80%。就結構圖的復雜度來說,h-MMHC算法相對于MMHC結構圖較為清晰。

表7 h-MMHC和MMHC的對比

5結語

本文通過對于MMHC方法的改進,提出了h-MMHC方法,在主因素分析過程中可以更加有效地確定影響目標屬性的主要因素。這種啟發的策略來源于實際問題,并且通過逐步添加屬性來實現對于主因素的確定和比較。在本文的應用案例中,將問卷中的13個屬性,分階段添加進來,每個階段都會刪去影響不占優的屬性,在下一階段添加新的屬性,由于上一階段已經刪去了與目標屬性沒有直接關系的屬性。通過實驗可以驗證h-MMHC算法相對MMHC算法來說具有運行時間少以及結構圖簡單的優點。

在社會科學研究中,這種啟發式的主因素分析方法提供了更加靈活的數據處理方式。由于啟發策略可以根據具體問題來合理選取,因此在很多場合中這種方法看起來會更加有效。同時也避免了MMHC方法對于所有屬性一次性處理帶來的計算資源上的耗費。本文通過教學評估的一個實際例子,比較了MMHC和h-MMHC兩種方法的計算效果,其得到的結論是一致的,但是在耗費計算資源方面有明顯差別,h-MMHC方法能夠更快地完成計算。當然也需要指出的是,在這個案例中,有些結論和相關關系是與該案例的特殊情況有關,并不具有一般性。我們關心的是h-MMHC算法在這個案例中的應用。

參考文獻

[1] 仝美紅,段富.基于主成分分析和熵值法的高校教師績效評價[J].計算機應用與軟件,2014,31(1):62-64,169.

[2]TingChooyee,YokchengSam,CheeonnWong.ModelofconceptualchangeforINQPRO:ABayesianNetworkapproach[C].Computers&Education,2013,65:77-91.

[3]MillánE,Descal?oL,CastilloG,etal.UsingBayesiannetworkstoimproveknowledgeassessment[J].Computers&Education,2013,60(1):436-447.

[4]MillánE,LobodaT,Pérez-de-la-CruzJL.Bayesiannetworksforstudentmodelengineering[J].Computers&Education,2010,55(4):1663-1683.

[5] 馬希榮,孫華志.數據挖掘技術在教學評價中的應用[J].計算機工程與應用,2003,39(19):51-54.

[6] 方耀楣,何萬篷.可拓數據挖掘在高校教學質量評價中的應用[J].數學的實踐與認識,2009(4):82-87.

[7] 魏浩,丁要軍.一種基于相關的屬性選擇改進算法[J].計算機應用與軟件,2014,31(8):280,284.

[8] 何德琳,程勇,趙瑞蓮.基于MMHC算法的貝葉斯網絡結構學習算法研究[J].北京工商大學學報:自然科學版,2008,26(3):43-48.

[9] 楊靜,曹家儉.連續貝葉斯網絡模型在斷面調查數據的應用[J].計算機工程與應用,2014,50(19):192-198.

[10]RussellStuart,PeterNorvig.人工智能—一種現代方法[M].清華大學出版社,2002.

[11]TsamardinosI,BrownLE,AliferisCF.Themax-minhill-climbingBayesiannetworkstructurelearningalgorithm[J].Machinelearning,2006,65(1):31-78.

[12]FriedmanN,LinialM,NachmanI,etal.UsingBayesiannetworkstoanalyzeexpressiondata[J].Journalofcomputationalbiology,2000,7(3-4):601-620.

[13]FriedmanN,NachmanI,PeérD.LearningBayesiannetworkstructurefrommassivedatasets:the?sparsecandidate?algorithm[C]//ProceedingsoftheFifteenthconferenceonUncertaintyinartificialintelligence.MorganKaufmannPublishersInc,1999:206-215.

[14]MeekC.StrongcompletenessandfaithfulnessinBayesiannetworks[C]//ProceedingsoftheEleventhconferenceonUncertaintyinartificialintelligence.MorganKaufmannPublishersInc,1995:411-418.

[15] 徐秋云.影響課堂教學效果的主要因素分析[J].科技信息(學術研究),2007(30):197.

H-MMHC ALGORITHM AND ITS APPLICATION IN PRINCIPAL FACTORS ANALYSIS

Li ChangqunYang JingCheng WenjuanAn Ning

(School of Computer and Information,Hefei University of Technology,Hefei 230009, Anhui,China)

AbstractSince MMHC algorithm is a construction of network structure diagram for all properties, its operation time is relatively long and its chart is somewhat complicated. In view of this, we propose the heuristic h-MMHC algorithm, which is an improvement of MMHC. Starting from an initial attribute set, the h-MMHC algorithm utilises MMHC local learning method and heuristic principle to add new attributes incrementally, and eventually obtains the Bayesian network structure of correlation relationship among attributes. Using teaching effect evaluation as a concrete example, in the paper we compare MMHC and h-MMHC algorithms: using the questionnaire designed by Likert scale method to collect data and employing these two algorithms to analyse the surveyed data. Relative to MMHC algorithm, due to the decrease in the size of attribute set to be considered, h-MMHC can be better applied to principal factors analyses.

Keywordsh-MMHC algorithmBayesian networkPrincipal factor analysisTeaching evaluation

收稿日期:2015-01-08。國家自然科學基金項目(61305064,5127 4078);安徽省重大委托教研項目(2012jyzd15w);大學計算機課程改革項目(教高司函,<2012>188號)。李昌群,碩士生,主研領域:貝葉斯理論應用。楊靜,副教授。程文娟,副教授。安寧,教授。

中圖分類號TP3-05

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.058

猜你喜歡
分析學生
快把我哥帶走
隱蔽失效適航要求符合性驗證分析
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
趕不走的學生
學生寫話
電力系統及其自動化發展趨勢分析
學生寫的話
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国内精品自在自线视频香蕉| 成人字幕网视频在线观看| 67194亚洲无码| 精品视频福利| 日韩国产亚洲一区二区在线观看| 国产麻豆aⅴ精品无码| 超碰精品无码一区二区| 免费高清自慰一区二区三区| 国产在线观看99| 国产激爽大片在线播放| 亚洲综合片| 91精品在线视频观看| 97人妻精品专区久久久久| 亚洲免费福利视频| 波多野结衣无码视频在线观看| 在线无码九区| 亚洲a免费| 久久人与动人物A级毛片| 日韩午夜伦| 91精品国产91久无码网站| 久久综合成人| 色久综合在线| 国产一区二区三区在线观看视频 | 亚洲区视频在线观看| 久久福利网| 亚洲国产av无码综合原创国产| 在线欧美a| 特级做a爰片毛片免费69| 99精品视频九九精品| 99视频在线免费| 午夜限制老子影院888| 第九色区aⅴ天堂久久香| 精品国产免费观看| 宅男噜噜噜66国产在线观看| 国产精品自拍露脸视频| 亚洲AV成人一区二区三区AV| 亚洲无码高清视频在线观看| AV片亚洲国产男人的天堂| 免费xxxxx在线观看网站| 国产办公室秘书无码精品| 一级做a爰片久久毛片毛片| 美美女高清毛片视频免费观看| 亚洲天堂.com| 91视频精品| 精品久久人人爽人人玩人人妻| 亚洲激情区| 亚洲有码在线播放| 亚洲二区视频| 麻豆国产在线观看一区二区| 久久综合色视频| 又大又硬又爽免费视频| 欧美亚洲一区二区三区在线| 久久伊人色| 性欧美久久| 国产高清在线精品一区二区三区| 国产区精品高清在线观看| 成人国产精品网站在线看| 乱系列中文字幕在线视频| 呦系列视频一区二区三区| A级毛片无码久久精品免费| 亚洲av无码人妻| 久久国产亚洲欧美日韩精品| 日韩欧美亚洲国产成人综合| 58av国产精品| 日日噜噜夜夜狠狠视频| jijzzizz老师出水喷水喷出| 99精品在线视频观看| 香蕉视频在线观看www| 91小视频版在线观看www| 国产精品福利社| 综合五月天网| 亚洲香蕉在线| 青青草国产一区二区三区| 亚洲成在线观看| 日韩国产高清无码| 国产xxxxx免费视频| 天天综合网色| 东京热高清无码精品| 亚洲美女视频一区| 亚洲无线观看| 中国国产高清免费AV片| 91精品国产麻豆国产自产在线|