999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校教學管理關聯規則挖掘系統設計與實現

2007-01-01 00:00:00
現代教育技術 2007年2期

【摘要】本文將關聯規則挖掘技術引入高校教學管理領域,完成挖掘功能模塊的設計,實現對大量教學管理數據的處理與分析,期望挖掘結果能夠對管理工作有所啟示。

【關鍵詞】挖掘系統,教學管理,關聯規則,過程模型

【中圖分類號】G420【文獻標識碼】B【論文編號】1009—8097(2007)02—0045—04

關聯規則(Association Rules)挖掘技術是用于發現數據庫中屬性之間有趣的依賴關系,是“若條件怎么樣,結果便如何”的簡單形式[1]。如購買計算機的學生有購買學習軟件趨向的關聯規則,可以表示為:buys(x,“computer”)→buys(x,“study_software”),其中x為客戶變量。

對于高校教學管理領域,關聯規則的問題定義舉例如下:學生、教師、課程之間存在什么關系?哪些學生經常選同一門課程?哪些課程經常同時出現極高的不及格率等等。

一、高校教學管理數據挖掘過程模型

啟動一個數據挖掘項目很容易,但要真正完成它卻有一定的難度,需要花費相當長的一段時間依照特定的規范過程進行操作,需要系統地考慮所面臨的問題。經綜合Fayyad過程模型與CRISP-DM標準的過程模型,提出了適合于教學管理領域的,基于數據倉庫的數據挖掘過程模型,如圖1所示。

1.業務分析

數據挖掘技術在教育中的應用十分地廣泛,可以應用于教育資源庫的建設,促進教育教學資源的動態構建;可以用于遠程教育中學生學習平臺的建設,分析Web日志,將學習者進行特征分類,為其提供個性化的學習方式等等。教育教學過程中需要挖掘的內容的確很多,考慮到目前大部分的學校已存儲大量的有關教師、學生、課程等數據,而在實際教學管理中卻發揮著微小的作用,成了一堆“信息廢品”,因此,有必要對這些數據進行深入地分析。

2.確定挖掘目標

定義清晰的挖掘對象,認清挖掘的目標是數據挖掘的首要一步。要想充分發揮數據挖掘的價值,必須要對目標有一個明確的定義,即決定到底挖掘什么?是否存在潛在的有意義的數據?從何處入手?挖掘什么數據?需要多少數據?挖掘進行到何種程度?處理數據的費用是否低于應用數據挖掘項目而增加的利益?種種問題的回答將表明挖掘者的意向,能夠為挖掘工具準備適當的數據。其實這一步也就是對挖掘項目的可行性分析中最難的部分,即確定現實的目標和期望的成果。

3.了解數據、創建目標數據集

一組可行的數據集對任何一個成功數據挖掘項目來說都是最重要的。必須對數據進行初步地了解,如數據從哪里獲得,數據倉庫中有無直接可用的數據集市,所選用的數據表哪些字段是必要的,如何描述數據等等。當然,在確定數據挖掘的目標數據源時,可借助其它的數據分析工具,找到對目標輸出影響較大的數據字段,決定需要導出的變量,對數據質量進行初步的評估,以保證數據的正確性,否則太多的返工會產生很多不必要的資源浪費。

4.數據預處理、轉換

這一階段是對已確定的數據集進行必要的清理、填補、合并及轉換工作。由于數據庫太大,常常多達數千兆字節,甚至更多,極易受噪聲數據(含有錯誤或存在偏離期望的孤立點值)、空缺數據(有些感興趣的屬性缺少屬性值)和不一致性數據(例如,用于課程分類的課程編碼存在差異)的侵擾。數據預處理與轉換是否做好將直接影響數據挖掘的效率和準確度以及最終模式的有效性。

①噪聲數據:噪聲以各種形式和排列方式出現,比如重復記錄,學生成績為0的錯誤記錄等等。在某些情況下,通過檢查屬性的平均值和標準偏差值可以發現這種錯誤;如果數據集很大且只有幾個錯誤值時,可借助數據分析工具進行檢測,用戶輸入數據值的有效范圍,落在范圍之外的屬性值就被認為具有潛在的錯誤。

②缺失數據:對于缺失數據項的處理有好多種方法。比如,丟棄含有缺失數據值的記錄,該方法多用在當數據記錄只有一小部分含有缺失數據,并且可以確定信息已經丟失時;可以用中值代替,這是大多數情況下處理數據值屬性的一種方法;也可以采用回歸、建立分類模型等技術進行處理。

③數據轉換:所選擇的算法和工具決定了要對數據做哪些轉換工作,主要有數據規范化處理,使數據值落在一個指定的范圍內,如布爾關聯規則挖掘要求變量為0或1,因此在數據被提交至算法之前就必須對變量進行映射;數據類型轉換,大多數決策樹算法要將連續值數據轉換為離散值數據;有時還要創建新變量,進行數據項間的組合、數據縮減(減少數據量),以提高數據挖掘的效率、降低模型的復雜程度,比如創建“文科”、“理科”變量。

如果數據挖掘的對象是數據倉庫,則已有特定的工具完成了該預處理工作,可以直接進入下一關鍵處理步驟。

5.數據相關性初探

可以采用其它的數據分析工具,比如SPSS統計工具,找出數據的總體趨勢或初步預測變量之間的相關性,一方面可以細化數據,提高性能;另一方面在某種程度上也可以幫助消除噪聲,同時也可作為后期挖掘模型的驗證說明。

6.數據挖掘模型與實現

①選擇適用的挖掘技術:每一種挖掘技術有其適用性,必須針對挖掘目標所要解決的問題進行選擇。本文主要是分析學生考試課程中的關聯性,故為關聯規則技術的應用。

②挖掘模型的構建:選擇特定的挖掘算法(如分類、聚類、關聯規則等),選取合適的算法的參數,確定輸入和輸出的關系,便稱為模型已建立。由于使用所有的數據會花費大量的挖掘時間或需要性能很高的計算機,一般從數據中選取一個子集或樣本來建立模型。

③數據挖掘的實現:對經過處理轉化后的數據進行挖掘,除了進一步完善與選擇合適的算法需要人為干預外,數據挖掘工作可由數據挖掘工具自動完成。當然,這一由模型到數據挖掘工具的實現過程也是有一定的技術難度。

7.模式分析

去掉多余的無意義的模式,查找感興趣的模式,解釋模式并以用戶理解的方式呈現。在對挖掘結果進行驗證時,一般需考慮一些問題:用于建立模型的數據集是否優于用其它的數據集在模型上的操作結果?模型的某些結果是否比其他預測結果更準確?模型是以樣本數據為基礎建立的,與實際情況相比相差多遠等。如果不令人滿意,未達到預期的目標,就必須返回到數據了解階段,有時甚至需要重新審視最初的挖掘目標是否合理。

8.知識驗證及應用

數據挖掘能通過對歷史數據的分析,預測客戶的行為,可有時用戶都不清楚下一步將要做什么,對于挖掘的結果應如何看待?可以講,數據挖掘沒有人們所想象的那樣神秘,有時也不可能完全是正確的,它更需要實踐的檢驗,在應用過程中不斷用新數據進行測試。經過反復驗證成功的模型才是一個重要的“知識”。

二、系統設計與實現

1.關聯規則挖掘系統模型

設計主要實現對關系型數據庫中數據的關聯規則挖掘,數據類型可以為布爾型,也可為數值型。研究中參照一些比較成熟的數據挖掘模型結構,提出了一個應用于高校教學管

理,進行關聯規則發現的數據挖掘系統模型,如圖2所示。

2.實驗結果與模型驗證分析

有關較全面的教學管理數據的收集是研究中最困難的地方,部分信息的保密性與分散性給數據的收集帶來了一定的難度,還有部分數據目前還沒有存儲;而學生的成績比較容易獲得,但傳統的成績分析主要是得到均值、方差、顯著性區別檢驗、相關系數等,有些甚至從未分析過,也從未思考過其中所隱含的不易覺察的信息。因此,研究過程中利用一個簡單的學生成績數據進行系統測試。以下是某系本科生在校的四次英語考試成績為例,同時使用SPSS工具與所開發的關聯規則挖掘工具。

SPSS的等級變量相關分析結果如表1所示。

由表可知:本科生在四次的英語考試成績中,第一與第三學期,第二與第三、四學期,第四與第三學期的成績是相關的 (等級相關系數小于0.05,認為這兩組成績是相關的) 。

關聯規則挖掘工具的部分分析結果:

規則1:大學英1[75,90]→大學英2[60,75] (min_supp=40%, conf=76.7%)

規則2:大學英4[65,80]→大學英3[65,80] (min_supp=60%, conf=94.3%)

規則3:大學英3[65,80]→大學英4[65,80] (min_supp=60%, conf=64.1%)

規則4:大學英3[65,80]→大學英2[65,80] (min_supp=60%,conf=68.9%)

規則5:大學英2[65,80]→大學英3[65,80] (min_supp=60%,conf=91.0%)

規則6:大學英3[80,100]→大學英4[80,100] (min_supp=10%, conf=90.9%)

規則7:大學英4[80,100]→大學英3[80,100] (min_supp=10%, conf=38.5%)等等

挖掘結果說明:

規則1:通過SPSS工具分析,大學英1與大學英2成績之間沒有相關性,但是從該規則中可以看出,大學英1分數段在[75,90],同時大學英2分數段為[60,75]之間的可信度為76.7%,雖說出現這種現象的學生僅占所有人數中的40%左右,但在一定程度上說明了第二學期的外語成績會發生變化,應注意加強對新生入學的教育,使其盡快適應大學生活。

規則2/3:很明顯地說明學生的成績多數分部在65-80分之間(最小支持度為60%),且通過第四學期分布[65,80]分數段的學生成績比較容易推測其在第三學期也是在這個分數段,而由第三學期的成績卻不能說明第四學期的成績分布。

規則4/5:同規則2/3的含義相同,只是結果卻剛好相反,說明經過一個假期的時間,學生的成績出現波動,原因很多,具體問題還要具體分析,若有更加充實的支持數據,將獲得更為科學的結果。但是,從中也可以發現,第三學期成績的確很特別,與其它學期成績相比,更多地集中分布于[65,80]之間,經過向系里老師請教與復查試卷,發現試卷的難易度與區分度不到位。

規則6/7:第二學年外語成績優秀的學生不多,支持度僅為10%,但發現90.9%的優秀學生能夠從第三學期保持至第四學期,而在新的學期中努力取得好成績的學生也很多,因此,大學英4[80,100]→大學英3[80,100] 可信度僅為38.5%。①

還可以通過分析分數的分布發現課程之間的關聯性:

數字電路[80,100]∧普通物理[80,100]→模擬電路[80,100](min_supp=40%, conf=82.4%)

模擬電路[80,100]∧數字電路[80,100]→普通物理[80,100] (min_supp=40%, conf=87.5%)

模擬電路[80,100]→數字電路[80,100]∧普通物理[80,100] (min_supp=40%, conf=70%)

說明這三門課程之間具有強相關性,而且從中也可以看出,對《普通物理》課程的學習將很大程度上影響其它兩門課程的學習效果,這樣便可以為課程的科學開設提供依據。

經分析可以發現:研究與開發的關聯規則挖掘模型具有一定的準確性與可理解性,通過對算法的改進研究,挖掘性能有所提高,挖掘的結果對實際教學管理工作也有一定的指導價值。若數據收集整理更全面,利用本挖掘工具能夠獲得更好的效果,發現更有價值的知識。

三、總結

需要強調一點的是,有些人將數據挖掘看得過于神秘,認為只要有了數據挖掘工具,便能自動挖掘出所需要的一切有用信息,這是一個認識的誤區。要想真正做好數據挖掘,擁有功能強大的數據挖掘工具是必要的,它將為決策提供支持,使知識獲取過程變得更加方便,更有根據,但同時還需要對組織業務的深入了解和數據分析經驗。數據挖掘只是一個強大的工具,永遠不能夠替代有經驗的管理人員所起的作用,一個企業若想在未來的市場競爭中充滿活力,必須有數據挖掘方面的專家與經營者的合作;一所高校若想在以后的管理過程中走向科學,需要數據挖掘工作者與管理者的配合。

注釋

① 可能與第四學期學生準備參加國家英語四級考試有關

參考文獻

[1] 陳文偉等著.數據挖掘技術[M].北京工業大學出版社,2002.12

[2] Mehmed Kantardzic著.數據挖掘-----概念、模型、方法和算法[M].清華大學出版社,2003.8

[3] Zhan Shichao. Discovering Causality in Large Databases [J].Applied Artificial Intelligence, 2002, 16(5): 333-358

[4] Zaiane. MultiMediaMiner: A System Prototype for Multimedia Data Mining[J]. Procceedings ACMSIGMOD International Conference on Management of Data, Washington, June ,1998

[5] R.Agrawal, R.Srikant.Mining generalized association rules[J]. Future Generation Computer Systems, November, 1997:161-180

[6] Ferenc Bodon. Apriori implementation.

http://sziami.cs.bme.hu/ ~bodon/en /apriori

[7] H.Mannila. Efficient algorithms for discovering association rules [J]. Data mining and Knowledge Discovery, 199404:181-192

主站蜘蛛池模板: 国产福利不卡视频| 精品国产中文一级毛片在线看| 免费在线色| 看国产毛片| 精品福利网| 欧美国产精品拍自| 欧美一区二区啪啪| 农村乱人伦一区二区| 国产成人91精品免费网址在线| 婷婷午夜影院| 污网站在线观看视频| 亚洲国产天堂在线观看| 爱色欧美亚洲综合图区| 午夜电影在线观看国产1区| 国产导航在线| 男人天堂伊人网| 日韩区欧美区| 亚洲丝袜中文字幕| 一本久道久久综合多人| 国产成人三级| 日本91在线| 国产午夜一级毛片| 日韩国产一区二区三区无码| 亚洲一区无码在线| 亚洲精品在线观看91| 欧美三级不卡在线观看视频| 国产亚洲精品97AA片在线播放| 最新亚洲av女人的天堂| 最新精品国偷自产在线| 欧美中文字幕一区| 97国产精品视频自在拍| 99国产精品国产| 久久中文字幕不卡一二区| 手机在线国产精品| 国产极品美女在线| 成人av手机在线观看| 欧美特级AAAAAA视频免费观看| 久久综合伊人77777| 美女一区二区在线观看| 中文字幕在线日本| 99国产在线视频| 五月婷婷精品| 99尹人香蕉国产免费天天拍| 69av免费视频| 亚洲天堂在线视频| 国产在线专区| 99激情网| 欧美成人午夜视频| 人人爱天天做夜夜爽| 亚洲精品午夜无码电影网| 日本国产在线| 成人在线观看不卡| a色毛片免费视频| 中文字幕天无码久久精品视频免费 | 亚洲精品综合一二三区在线| 成人欧美日韩| 日韩精品一区二区三区大桥未久| 狠狠色综合网| 欧美视频免费一区二区三区| 欧美在线伊人| 欧美日韩中文字幕二区三区| 国产精品hd在线播放| 狠狠色成人综合首页| 国产精品中文免费福利| 激情无码字幕综合| 国产精品免费电影| 欧美日本二区| 亚洲首页在线观看| 国产精品久线在线观看| 成年人国产网站| 中文字幕人成人乱码亚洲电影| 高清久久精品亚洲日韩Av| 精品成人一区二区三区电影| 欧洲av毛片| 国产女人在线观看| 激情视频综合网| 国产成+人+综合+亚洲欧美| av天堂最新版在线| 国产精品微拍| 国产精品成人免费综合| 亚洲女同欧美在线| 99激情网|