楊 萍
西安外事學院 陜西西安 710077
基于數據挖掘技術的大學生信息檢索系統研究
楊 萍
西安外事學院 陜西西安 710077
隨著網絡通信的普及,各行各業中產生了越來越多的信息量,特別是高校的信息化的不斷發展中,出現了傳統信息管理模式不能滿足現代大學生的要求的問題,所以怎么能實現在海量的數據中快速檢索出準確,有價值的信息已經成為教育領域中關注的主要問題。本研究根據數據挖掘技術思想,而提出了一種基于大學生的個人情況、成績、考勤、社會行為、就業、獎勵懲罰、貸款還貸七類模塊數據的檢索和挖掘的信息系統,并實現了基于大學生的信息檢索的優化和具體的數據挖掘流程研究。
數據挖掘;云存儲;信息檢索
隨著網絡通信的普及,各行各業中產生了越來越多的信息量,特別是高校的信息化的不斷發展中,出現了傳統信息管理模式不能滿足現代大學生的要求的問題,所以怎么能實現在海量的數據中快速檢索出準確,有價值的信息已經成為教育領域中關注的主要問題。要實現高校數子化學生信息管理系統,必須從越來越多的大學生數據中深入挖掘信息,過濾出有用的知識,并能把不同的大學生按統一標準進行分類分析后,能夠使信息得到重新組合和分配。通過對大學生的優化管理和對大學生的信息深度挖掘和整合,使大學校園的數字化信息建設得到更進一步的發展。
隨著網絡與通信技術的蓬勃發展,越來越多的數據資源處于膨脹狀態,完全進入了“大數據”時代。面對大量的異構的數據資源,怎么進行劃分,查詢,獲得有價值的信息,成為各應用領域關心的問題。要想實現從海量數據中提取各類有用的信息并找到信息中各種隱藏的關系,其中最有效的方法就是利用數據挖掘技術來完成對數據的分析與提取。數據挖掘技術是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的信息和知識的過程,包括機器學習、數理統計、神經網絡、數據庫、模式識別、粗糙集、模糊數學等相關技術。隨著教育信息化的發展和數據挖掘技術的成功運用,傳統的以數據庫實現對學生的海量數據及學習過程進行管理的模式已經滿足不了教育工作者和大學生的要求了。如何轉換這些數據成為有價值的信息,并能為教學決策,學習優化、改進學習效果等服務,不僅成為教育界所關注的焦點,更是教育信息化發展的一個重要趨勢。Romero&Ventura(2007)以及Baker&Yacef(2009)對10余年的教育數據挖掘研究進行分析,歸納出5類教育數據挖掘方法。目前,教育數據挖掘技術已經得到廣泛的關注和應用,特別是網絡學習與相應的教育管理系統中得到充分的發揮。伴隨著教育數據挖掘技術方法的成熟,會進一步開啟對學生的行為分析的數據挖掘研究。本研究基于以上的教育數據挖掘技術的研究背景,立足于大學校園,通過對學生的海量數據進行挖掘,希望探索出學生的個人情況、成績、考勤、社會行為、就業,獎勵懲罰,貸款還貸中一系列活動分布特點。為開展對大學生教育教學個性化管理服務提供可靠的網絡信息平臺。
基于數據挖掘技術的大學生信息檢索系統是在大量的學生信息中發現隱含的數據規則,根據信息的需求,對包含有的信息進行采集、分析和存儲,從而完成學生信息檢索請求。主要實現的檢索信息功能見圖1。

圖1 大學生信息檢索系統功能模塊
(1)個人信息:對大學生基本信息包括學號、姓名、性別、民族、出生年月、電話、QQ號碼(MSN) 、郵箱、班級、家庭地址、所在院系、入學日期,年制等內容檢索。
(2)成績信息:主要包括成績與選課(選修和必修)兩部分內容。當查詢學生相關考試成績信息時,可以根據學號、姓名、課程、班級,專業等不同字段進行檢索也可以對選的課程的類型進行信息查詢。
(3)考勤信息:主要包括了學生在校上課情況信息的檢索。可以列出以班、課程為關鍵字的學生考勤報表、并能智能篩選分析個人或班級的考勤對比等模塊。同時,針對個人考勤情況,對個別問題學生也可以按一定標準進行統計并及時反饋。
(4)社會行為信息:社會行為信息中反應了大學生社會實踐重要內容。每一個大學生的道德修養和知識應用能力都是通過社會行為體現出來,其中主要包括了校內和校外的課外活動,其中校內的包括社團活動和勤工助學等,校外的包括科技文化援助、醫療衛生、法律宣傳、社會調查、文化服務等。
(5)就業信息:為了方便學校對已經畢業的學生進行跟蹤統計調查,實現對學生畢業后的工作情況信息檢索。
(6)獎勵懲罰信息:大學生在上學期間因何理由獎勵和因何事進行處分信息的檢索。獎勵懲罰的等級包括通報表揚、嘉獎、記小功、記大功、特別獎等和學生處分分為警告、嚴重警告、記過、留校察看和開除學籍五種。以上內容都會作為考核每一個大學生誠信水準的重要指標。
(7)貸款還貸信息:學生的貸款還貸現在已經成為大學里不可缺少的一部分。發展大學對貸款還貸信息化管理,以達到大學生自主管理貸款還貸的目的。為實現這一目的,該系統對學生貸款銀行、個人的誠信信息、貸款利率、貸款類別、貸款年限、貸款金額、和還貸時間等信息進行檢索和數據挖掘。
基于大學生信息檢索系統需求分析,以B/S網絡結構為基礎,實現不同的用戶通過網絡平臺對服務器中的學生的各類信息進行檢索和挖掘,多樣性的數據形式采取分類采集后,檢索的結果可通過服務器端發送回給客戶端。為了實現大學生的七大類信息檢索和數據挖掘,把系統劃分為用戶管理模塊、數據管理模塊(數據采集功能、數據分析功能,數據存儲功能),通過這些模塊相互協作實現大學生信息檢索功能。
用戶管理模塊按管理員、教師、學生三類用戶進行分類,不同的用戶在相應的權限下執行操作。每個用戶成功登錄后,可對學生基本情況,在校行為表現,學籍內容,獎勵和懲罰等信息的檢索。對于學生,可以檢索本人相關的全部信息,并能智能化推薦個性化的服務指導;而對于管理員,不僅可以獲得學生的各類信息,而且可以把檢索到的學生信息進行統計分析和進一步數據挖掘。同時,為了獲得更全,準確的個人信息,在注冊時提供數據類型具有多樣性,能夠滿足各用戶的各種輸入要求。
3.3.1 數據采集
數據采集分為客戶端數據采集和服務器端數據采集兩大類。當用戶把檢索條件提交后,先對客戶端數據進行讀取并匹配成功后傳到Web服務器,根據請求的檢索條件進行數據匹配,按一定的數據收集方法找到合適的數據源,并將收集到的不同數據源以相應的格式存入數據庫。
3.3.2 數據存儲
數據存儲問題是基于數據挖掘技術的大學生信息檢索系統中一個重要環節,需要建立一個完善的數據庫,以實現各類數據信息的存儲。本系統由七類信息模塊為依托,分別建立相應的數據表,其中不僅考慮了功能擴展的問題,還必須針對了各個表之間的關系,設置相應的數據表的主鍵和索引。
3.3.3 數據分析
數據分析是本系統功能實現的核心部分。服務器端根據不同用戶的要求,建立的相關索引,實時對海量數據的分析處理,經過數據清理后,將完整、正確、一致的信息存儲到大數據庫。其中可通過數據分析實現對用戶的個性化需求進行分析,并給予學生的行為分析預測,從而可提供滿足這些特征個性化內容的智能化信息展示與推薦指導。例如:從服務器中提取出某個學生的成績,對學生的成績數據篩選并進行數據挖掘分析后,不僅要分析成績的好壞,并能夠個性化指導學習狀態以達到學習效率的提高。
該系統的實現主要由3個層組成。

表1 基于數據挖掘技術的大學生信息檢索系統的層次結構

圖2 大學生信息檢索流程圖
各功能模塊交互協作實現數據信息的檢索,并傳送給客戶端。具體流程見圖2。
(1)智能檢索網絡客戶端接收用戶所提出的檢索要求,并對用戶名和密碼進行登錄驗證。
(2)服務器收到用戶提出的信息檢索要求后,把信息傳送給服務器平臺。
(3)在獲得服務器信息存取訪問后,建立客戶端與網絡平臺的通信。讀取信息時先從數據塊中采集到對應的元數據的信息位置,通過數據的位置信息,依次對相關數據進行讀取,真到讀取完成。在整個系統實現過程中就是通過數據挖掘工具對查找到的數據進行反復的過濾,去除模糊,不確定的數據,提煉出有價值的信息。
(4)檢索的結果將會有不同數據形式傳遞到客戶端。
目前,大學生信息數據進行合理的挖掘已經成為大學校園里數子信息化發展的重要指標。根據信息處理的挖掘技術,本研究提出了一種基于大學生的個人信息、成績、考勤、社會行為、就業,獎勵懲罰,貸款還貸七類模塊數據的檢索和挖掘的信息系統,并實現了基于大學生的信息檢索的優化和具體的數據挖掘流程。 通過構建一個全方位的學生檢索系統,使大學生的信息實現統一管理和數據重新分配與整合,而且還實現學生各類信息的優化,又保障了數據的準確性和實用性。但是,目前教育數據挖掘技術還不成熟,在具體應用中還出現很多問題,尤其是在檢索信息的時候,信息安全性,數據匹配,數據準確性等方面都有待于深入研究。
[1] WANG Yi-jie,SUN Wei-dong,ZHOU Song,et a1. Key technologies of distributed storage for cloud computing[J].Joumal of Software,2012(4):1-25.
[2] WU Yong—wei.HUANG Xiao—meng.Cloud storage[J].Society of China Computer Communication,2009,5(6):44-51.
[3] HUANG C Q,DUAN R L,TANG Y,et a1.EllS:An educational information intelligent search engine supported by semantic services[J].International Journal of Distance Education Technologies(I~DET),2011,9(1):21-43.
[4] Baepler,P&Murdoch,C.J.Academic Analytics and Data Mining in Higher Education[J].International Journal for the Scholarship of Teaching and Learning,2010,4(2):170-178.
[5] 陳衛榮.Web網絡信息挖掘系統的體系構建探究[J].寧德師范學院學報,201(10):156-160.
[6] 魏順平.學習分析技術:挖掘大數據時代下教育數據的價值[J].現代教育技術,2013(23):5-11.
[7] 徐鵬,王以寧.大數據視角分析學習變革——美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志,2013(6):11-17.
[8] 劉宇.網絡交易數據挖掘分析系統設計[J].電腦編程技巧與維護,2014(23):50-51.
[9] 中一鳴,申懷亮.基于Hadoop架構的校園信息系統研究[J].中國電子商務,2013(24):58-59.
[10] 張建莉.云存儲技術在高校信息化建設中的應用分析[J].科技視界,2013(28):216.
TP311.13
A