數據挖掘技術在資源共享課程建設中的研究

2014-11-29 04:31:54范洪軍FANHongjun

價值工程 2014年31期

范洪軍FAN Hong-jun

（海南經貿職業技術學院，海口 571127）

（Hainan College of Economics and Business，Haikou 571127，China）

0 引言

我們已經步入信息化的時代，大量的資源給人們帶來方便的同時，由于缺乏相應的挖掘分析手段，造成了資源的大量重復和無意義相關，從而難以有效利用。在資源共享課程建設中，如何避免信息的重復繁雜，提高資源共享課程教學的針對性，規范課程教學資源的合理分布成為資源共享課程教學系統研究的重要課題。數據挖掘技術的產生，為資源共享課程教學系統的智能化研究提供了有效手段。

1 問題的提出

根據我國目前大部分資源共享課程信息化教育的實際狀況來看，教師建設網絡資源共享課程的主要目的不是開展遠程教育，而是利用課程管理系統（CMS）幫助教師和學生組織教與學的資源和活動，為師生提供信息化共享的學習環境，促進高質量教學[1]。

國內外對課程管理系統（CMS）的研究非常多，但涉及到智能化的研究并不多。信息化條件下，信息量在不斷增加，通過常規數據挖掘技術的搜索，分類，標記功能只能找到表層的關聯信息。通常在獲得的大量文檔中，只有很少一部分與目標接近，有很高的價值，大部分只是無意義相關。由于不能根據每一個學生的具體情況，給出最有效的資源，在某一篇文章、教學、課件、或者其他資源上傳到系統中時，我們并不能準確地知道它的價值，因此無法量化它產生的效益，當然就更不能讓資源跟蹤用戶。教師除了手工方式，無法知道學生之間的內部關聯，無法有效地為他們提供個性服務。

2 數據挖掘的需求與功能分析

數據挖掘技術的智能化就是要把系統中的每一個資源進行系統的分析，自動而非人為找到資源之間的內在聯系，形成有價值的信息，從而減少人的工作量，提高系統的服務效率。通常一個資源共享課程數據挖掘技術的應用離不開三大主體：教師、學生、管理員[2]。在智能化的資源共享課程數據挖掘技術中，管理員的角色被系統所取代，大部分工作由系統完成，一些功能分給了教師與學生。

智能化資源共享課程數據挖掘技術可以對師生進行有效的服務，教師可以在上面開設課程，設置課程，布局批改作業，對學生進行分組，評價學生學習。學生注冊進入課程，進行課程學習，完成作業，查找和評論資源。教師和學生都可以上傳各自的教學資源，學習心得，并相互討論。系統要完成的工作除正常的資源管理之外，增加了數據的智能化分析，主要包括三方面：

2.1 預處理階段分析各種資源的文本信息，對非文本資源如視頻、音樂等需要備注相關的文本信息，以便分析。在資源進入系統時即進行相似度的計算，找到資源與資源的關聯度，并將信息存入相應的數據倉庫中，以備進一步分析使用。根據詞頻與逆文檔頻率（TF-IDF）分析，給用戶一個資源上傳的評估，告訴此資源對系統的價值相關。

2.2 挖掘分析階段運用數據挖掘技術創建一個模型，用以發現和總結當前有價值的信息。當教師或學生在使用系統時，如查看課程信息、搜索關鍵詞、或者提出問題時，通過模型可以有效找到與當前操作相關度最高的資源，以提高系統的有效性。

2.3 評估階段使用者可以對通過模型的結果進行打分，打分的結果系統分存入相應數據庫中，供以后的信息價值評估。系統會根據學生的操作記錄，學習過程，學習結果等信息進行聚類分析，從而分析學生的內部關聯，形成結果，供管理員和教師參考。

3 數據挖掘技術平臺架構

一個網站性能總是受到CPU、內存、磁盤I/O、網絡帶寬等硬件資源的影響。提升網站性能除了進行硬件升級外，架構方面優化設計往往可以達到事半功倍的效果[3]。本系統采用B/S（browser/ server）系統架構，這種結構的好處是：客戶端不用安裝特別的軟件，直接使用瀏覽器即可，同時也方便系統的升級。系統采用Visual Studio 2005 作開發平臺，C#作編程語言，SQL Server 2005 作數據庫管理系統。

本系統采用USL、BLL、DAL 三層架構進行設計。其中USL 即用戶界面表示層，采用ASPX 擴展名的WEB 訪問，主要完成用戶的請求以及數據的返回；BLL 即業務邏輯層，對數據業務邏輯處理，將用戶傳來響應給數據層，并將結果返回給表示層的瀏覽器；DAL 是數據訪問層，以便為USL 和BLL 層提供更豐富的數據服務。基于數據挖掘的三層系統架構如圖1 所示。

圖1 基于數據挖掘的三層系統架構

4 數據挖掘技術在資源共享課程建設中的應用

4.1 數據倉庫的設計根據Bill Inmon 在1991 出版的Building the Data Warehouse 一書中是這樣解釋數據倉庫的：它是一個面向主題的（Subject Oriented）、集成的（Integrate）、相對穩定的（Non-Volatile）、反映歷史變化的（Time Variant）數據集合，用于支持管理決策。數據倉庫中的數據含基本數據，歷史數據，綜合數據和元數據。

為了在數據分析中排除不需要的、不完整的、不一致的數據噪聲，本數據挖掘技術在常用數據庫之外，還建立了一個方便進行數據挖掘的數據倉庫。

數據倉庫采用更新驅動方法而不是傳統數據庫中的查詢驅動方法，將資源共享課程教學系統獲取的、教師和學生的上傳的數據進行清理、集成、變換，并重新組織到一個語義的數據庫中，以便提供直接的查詢和分析。通過數據倉庫處理數據既可以提高數據的分析效率，又不會影響到數據挖掘技術數據庫中的數據源。

操作數據庫經過清理、集成、變換形成數據倉庫，數據倉庫再供，如圖2 是一個三層數據倉庫結構圖。

4.2 關聯計算和數據預處理關聯分析是指如果兩個或多個事物之間存在一定的關聯，那么其中一個事物就能通過其他事物進行預測。它的目的是為了挖掘隱藏在數據間的相互關系。在智能化的資源共享課程教學系統中，常常需要關聯計算對學生、素材進行預處理，從而建立相應的數據倉庫。例如對某學生登陸系統的次數，以及登陸系統的時間進行關聯分析，從而分析出該學生學習積極性。通過學生的作業完成情況與作業得分情況的關聯分析，可以測知學生學習的認真度。當學生在系統中使用相關素材時，根據學生對素材的瀏覽使用次數來判斷素材的價值，再結合聚類分析的應用，將素材價值與學生的分類進行關系，得出素材對學生類別的價值關聯。將這些信息以一個二維表的形式存儲在數據倉庫中。

圖2 三層數據倉庫結構圖

這里以系統判斷學生的學習的積極性為例，設學生p的學習積極性為Ip，影響Ip的元素一般認為有登陸次數n，以及登陸的時長t，以及系統操作o。一般認為一個學生登陸系統的次數越多，時間越長，系統操作越積極，那么p的積極性就越高，即Ip的值越高，即Ip=Δ×n×t×o，Δ 的作用是將值域約束到設定范圍。但是事實上，這只是最表層的意思，我們可以設想因意外，如網絡故障，客戶端不穩定等等，導致學生的登陸后掉線，利用瀏覽器的cookies 功能導致頻繁登陸，從而造成n 的干擾。如果學生在學習中，因故離開而沒有退出系統，那么t 就會增加。這些都會造成Ip提高的假象，還有的學生在操作中頻繁點擊，無意義的操作都可以造成o 的大量重復操作。要解決這些問題，可以利用基于密度的離群點檢測（局部離群點要素LOF技術），通過以下5 步判斷哪些是學生異常登陸系統的情況：

①計算每個對象與其他對象的歐幾里得距離；②對歐幾里得距離進行排序，計算第k 距離以及第K 領域；③計算每個對象的可達密度；④計算每個對象的局部離群點因子；⑤對每個點的局部離群點因子進行排序，輸出。

根據輸出將一些可疑數據（即離群較遠的點）排除出去，最后將數據進行變換后存儲到數據倉庫中，經過優化和改進后的數據可以很好地解決教學系統以外的意外帶來的影響。

4.3 聚類分析的應用在利用數據挖掘技術解決實際問題時，樣本的類別往往是未知的、或者即便可以獲得，其獲取過程也是非常困難的，運用聚類算法就能較好地解決這一問題。

在教學系統中，經常根據一定的條件把學生，或者教學資料進行一定的劃分，這樣有助于指導教學開展。本系統用數據矩陣來分析數據，用P 個變量表示N 個對象，如用年齡，性別，本課程的成績，興趣愛好等來描述學生。需要指出的是，興趣愛好不是一個具體的數字，所以可以事先做一些標記，如a 代表喜歡計算機組裝，b 代表網頁制作，c 代表動畫制作…z 代表其他。

使用K 均值和K 中心點對學生進行聚類分析。首先，隨機地選擇K 個對象，每個對象代表一類的初始值。對剩余的每一個對象每個算出它與類均值的距離，從而決定它屬于哪一類，然后再計算每個類的新均值。這個過程不斷重復直到分類穩定，即使重復計算也不會再有變化。聚類運算采用平方誤差準則，其定義如下：

4.4 TF-IDF 的應用 TF-IDF（term frequency-inverse document frequency）是一種用于資訊檢索與資訊探勘的常用加權技術。TF-IDF 是一種統計方法，用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

關于TF-IDF 算法如下：

freq（d，t）是指詞t 在文檔d 中出現的次數。通俗地說就是如果一個詞在本篇文檔中出現的次數很多，而在系統其他文檔中出現的次數很少，則就可以認為這個詞的區分度很高，那么這個詞對本文檔的作用就大。通過TF-IDF算法，就可以找出每篇文章的重要詞，也就是關鍵詞，這些關鍵詞無需要上傳者手工標注，而是由系統計算得到。比較這些關鍵詞就能計算出文檔與文檔之間的距離，即相似性。文檔，或者其他材料（需要以文本的方式進行說明）上傳時，系統都可以智能地計算出它與其他資料的相似性。在使用某些資源時，系統就可以將事先計算好的相似度高的文檔同時推薦給用戶，讓用戶不必去找資源，而是讓資源自動找到用戶。文檔相似度的計算主要應用于系統對相關資料的推薦，可以讓學生在系統中減少搜索有價值信息的時間，并且給教師提供資料的整體決策幫助。從而幫助使用者優化系統資源。

5 結束語

智能化的數據挖掘技術通過關聯數據挖掘技術，建立一個數據倉庫，數據倉庫將教學系統獲取的、教師和學生的上傳的數據進行篩選、復制、預處理、集成、注釋、匯總，并重新組織到一個語義的數據庫中，以便提供直接的查詢和分析。在傳統的網絡課程和資源共享課程系統基礎上，運用關聯計算、聚類分析、TF-IDF 等數據挖掘技術真正實現數據挖掘技術的智能化。無論教師還是學生，可以更加有效地地從系統中獲取自己的可用信息，幫助教學的決策和學習的指導。

[1]黎加厚，趙怡.課程管理系統（CMS）及其選擇[J].現代教育技術，2008（9）：64-75.

[2]Kang Dong,Chen Juntao,Zhan Jinmei,Xing Haihua*,Wu,Shulei.Design of university teacher's files management system[C].CPS(Conference Publishing Services),Guangzhou.China.2012，11.

[3]陳仁章，孟小華.大型網絡教學平臺架構設計及實現（大型網絡數據挖掘技術架構設計及實現）[J].計算機工程與設計，2012，31（11）：2455-2469.

[4]陳步英.數據倉庫和數據挖掘在蔬菜病蟲害預測中的應用[J].農機化研究，2013（1）：217-219，223.

[5]Wang Guoxun.DATA MINING MODEL SELECTION BASED ON MULTIPLE CRITERIA DECISION MAKING [D].Doctoral Dissertation.School of Management and Economics,2013,9.