王平
基于大數據挖掘分析的高校信息化建設探索
王平
高校信息化建設過程中積累了大量的數據資源,如何利用數據挖掘技術獲取有價值的信息是高校大數據分析中的一個重要問題。介紹了幾種典型的數據挖掘技術,并且通過分析其在學生信息管理中的應用,說明了數據挖掘是一種在高校信息化建設中提高學校的管理能力和科研教學水平的有效技術。
大數據;信息技術;數據挖掘技術
隨著計算機技術的飛速發展,很多高校都建立了數字化平臺,內容涉及到方方面面。隨著時間的推移,這些數字化平臺中的數據不斷積累,使得高校逐步進入大數據時代。大數據的特征在于數據量大、類型繁多、價值密度低,而高校運行相關的有效信息被淹沒在海量的數據資源中。如何從這些豐富的數據中提取出與高校教學、科研、管理密切相關的信息,對于促進高校的信息化建設具有重要意義。為了實現更好的教學科研管理,提高高校大數據的利用質量,本文通過應用數據挖掘技術對高校中大數據進行分析,挖掘其中的有用信息,從而為教學科研管理人員和高校決策層提供技術支持。
數據挖掘是一種通過分析大量的數據,去粗存精,尋找得到有用信息的技術。它融合了多方面的知識,包括模式識別、機器學習和人工智能等,是大數據時代的一個研究熱點。數據挖掘一般包括3步:數據準備階段、數據挖掘階段和結果評定階段。其中,數據準備階段主要是完成挑選數據,能夠有效地降低數據挖掘的復雜度,具有非常重要的作用。數據挖掘階段,主要是采用相應的數據挖掘算法對數據進行分析。結果評定階段,主要是判斷挖掘的信息是否有用。
數據挖掘技術的常用方法包括下面的3種:
(1)云理論
云理論[1-2]由李德毅教授提出,研究數據的模糊性和隨機性,是一種處理定性和定量之間不確定性的理論,能夠為定量定性間的不確定性轉換提供模型。云包括3個數字特征值:期望值、熵和超熵,它把模糊性和隨機性完全集成到一起,構成定性和定量相互間的映射,為定性與定量相結合的信息處理提供了有力手段。數據挖掘中存在大量的不確定性知識,導致數據挖掘容易陷入混亂,輸出不穩定,增大挖掘的難度。云理論正好適應于研究不確定性數據挖掘。
(2)人工神經網絡算法
人工神經網絡算法[3]是一種模擬動物神經網絡的方法,從生理學、心理學、腦科學等方面研究神經系統,通過調整內部節點之間的相互連接關系來進行信息處理。其中,比較典型的是BP網絡和Hopfield網絡,BP神經網絡是一種多層前饋網絡,目前應用最為廣泛。神經網絡通過提取重要的數據建立模型,進而對未知的數據進行分類或者預測未來的發展趨勢,是分類挖掘中常用的方法之一。由于神經網絡的非線性特性良好,并且對噪聲數據不敏感,所以其實際應用效果較好,越來越多的國內外學者投入到神經網絡的研究中。
(3)Apriori 算法
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該算法的基本思想[4]是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中,每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。
改進的 Apriori算法[5]采用鏈表的數據結構,設Itemheadk是k-項集的頭結點,它有兩個指針,一個指向k-項集的第一個項結點Itemnode1,另一個指向k+1-項集的頭結點。每個項結點 Itemnode也有兩個指針,一個指向事務集的第一個事務,另一個指向下一個項結點。事務結點TID有一個指針,它指向下一個事務結點,具體如圖1所示:

圖1 鏈表的數據結構圖
隨著高校信息化發展,大量的數據得到積累,數據挖掘技術可以通過處理分析數據,挖掘出有價值的信息或知識,以輔助教學、科研和管理,從而提高高校的管理能力和服務水平。
下面以分析學生數據為例說明數據挖掘技術在信息化建設中的應用。學生數據來源于我校研究生院發布的 2014年研究生擬錄取名單公示通告中的2014碩士研究生擬錄取考生成績公示表格中的數據,選擇了專業代碼為085211的10名全國統考生的成績數據,如表1所示:

表1 擬錄取考生部分成績
本文選擇兩門業務課成績與初試總分作為研究對象,分析業務課的分數對總分的影響。以序號表示這10個事務,根據選擇的研究對象,表1可以簡化如表2所示:

表2 成績簡化表
為了更好的進行關聯規則分析[6],對表2中的數據進行預處理,方法如下:
用X表示業務課一,它的成績分為A(125-150分),B(110-124分),C(低于110分)。
用Y表示業務課二,它的成績分為A(120-150分),B(低于120分)。
用Z表示初試總分,它的成績分為A(370-500分),B(低于370分)。
根據上述方法對表2中的數據進行預處理后結果如表3所示:
本事物數據庫中有10條記錄,假設關聯規則的最小支持度為20%,置信度為70%,根據支持度和置信度的定義,其搜尋過程如圖2~圖4所示:

圖2 生成頻繁1-項集結點示意圖

圖3 生成頻繁2-項集結點示意圖

圖4 生成頻繁3-項集結點示意圖
根據上述內容可以得到強關聯規則為(YB,XB)=>ZB,它的最小支持度為30%,最小置信度為75%。此規則可解釋成業務課一成績一般,業務課二成績較差的情況下,初試總分也較差。
此外,還可以利用數據挖掘技術對學生的基本信息、參加的各項活動、上網時長、圖書借閱、選修的課程等進行分析,找到影響學生學習成績的主要因素,進而采取有效地措施,指導和激勵學生學習。
另外,數據挖掘可以圍繞著館藏優化、文獻類型、信息服務等方面開展。根據圖書館的借閱歷史,分析各種圖書的借閱次數,獲得不同圖書的需求量和變化趨勢,從而有目的地采購圖書資料,優化館藏結構,提高圖書的利用率。根據師生的搜索歷史,可以提供熱門搜索書刊、熱門借閱書刊等,通過對圖書館的搜索系統進行改進,可以提高檢索速度,提升服務的質量。
總之,通過對高校多方積累的數據進行分析,可以將數據挖掘技術應用到高校信息化建設中的方方面面,這里不再以實例說明。
3.1 有規劃地建立數據庫
數據挖掘技術在高校信息化建設中發揮了重大作用,而一個數據庫的好壞直接影響挖掘信息的價值質量,所以高校必須要有規劃地建立數據庫。數據庫的范圍要盡量大,收集個人、院系、學校的各項信息,還有長期以來的歷史信息。數據庫的維護工作也很重要,需要建立專門的數據庫維護人才隊伍,由于數據量非常大,應該有效地區分出哪些是高質量信息,需要長期存儲,哪些信息價值不高,只需短期存儲或者進行丟棄。
3.2 資源共享
資源共享需要打破各個部門、各單位之間的壁壘,進行信息交流和合作。資源共享有利于把所有的有效信息集合起來,形成巨大的數據庫,從而進行重點挖掘,提高各大高校的科研教學水平,促進高校的可持續健康發展。高校應該加強人才、軟件建設投入,與科研院所、IT公司合作,保障廣大師生能夠快速搜索到高校所有的有價值的資料。
高校信息化已經逐步邁入大數據時代,數據挖掘技術在高校信息化建設過程中的多個領域取得了廣泛的應用,初步顯示其魅力,并且具有良好的發展趨勢。高校要充分利用數據挖掘技術來提取信息系統中的有價值數據,進一步促進學校的管理能力和科研教學水平的提高。
[1] 邸凱昌,李德毅,李德仁.云理論及其在空間數據發掘和知識發現中的應用[J].中國圖象圖形學報: A版, 1999, 4(11): 930-935.
[2] 吳正洋.基于云理論的高校職員績效評價研究[J].統計教育, 2010(12): 31-41.
[3] 王悅.基于人工神經網絡的高校教育信息資源管理綜合評價模型研究[J].中國市場, 2012(2): 139-142.
[4] 孫秀娟, 杜曉娟,于文爽. Apriori算法的改進及其在試卷分析系統中的應用[J]. 北京工業職業技術學院學報, 2012,11(4):22-25.
[5] 陳則芝,李冬梅.數據挖掘關聯規則 Apriori算法的優化[J].山西大同大學學報(自然科學版) ,2008,24(4):35-40.
[6] 張瑤,陳高云,王鵬.數據挖掘技術在試卷分析中的應用[J].西南民族大學學報·自然科學版,2008,34(4):839-842.
[7] 陳錦,吳揚揚.Apriori 算法在高校圖書館圖書推薦中的應用[J].河南科技學院學報,2012,40(4):90-93.
Research on Informative Construction ofUniversities Based on Big Data Mining
Wang Ping
(China University of Petroleum (East China), Qingdao 266580, China)
Huge amounts of data resources have been built up. How to obtain valuable information based with mining technology is becoming an important issue among university big data analysis. This paper recommand several typical data mining techniques. By analyzing the application of data mining in student information management, it illustrates that data mining is an effective way to improve management capacity and scientific research skill in the university’s informationization construction.
Big Data; Information Technology; Data Mining Technology
TP311
A
2014.10.22)
1007-757X(2014)12-0026-03
王平(1979-),女,山東威海人,中國石油大學(華東)網絡及教育技術中心,工程師,碩士,研究方向:網絡信息化,青島,266580