文/王左利
非結構化數據的海量增多,為數據的挖掘提供了最好的原料,也給予了充分的挑戰。
目前,高校數據庫里的內容不僅多,而且結構也發生了極大改變,大量的數據是非結構化數據。據統計,全球結構化數據增長速度約為32%,而非結構化數據增速高達63%。這個趨勢在高校亦然。對于傳統的結構化的數據,由于已經達到一定數量,以關注其應用為主,而對于正在生長的海量非結構化數據,則要關注怎么收集、用什么方式有效管理。“學校正在掌握著越來越多活的數據,這為我們提供了新的方向——尋找某個規律背后的原因。”相關人士說。

業界人士指出,海量數據的分析將對教育信息化產生深刻的影響和沖擊。“高校也要關注大數據技術的研究和應用,智謀未來。”
從沉淀的數據中發現有價值的信息,深入挖掘、綜合利用、轉化為知識,才是信息系統真正價值的體現,而這方面可拓展的空間幾乎是不可限量的。從管理的角度來看,如何充分利用信息系統中的數據,是系統實施之后最重要的工作,也是長期的工作。 “要實現很好的數據分析,需要有兩個前提條件:一是足夠的數據量;二是數據必須是可用的、真實的,這就需要數據質量的保證。”
但是目前普遍存在的問題是數據質量不高。許多高校的數據分析、利用仍停留在初級水平,數據很難被發掘利用也反映了在系統建設和使用過程中的數據不準確、不精確、不一致等諸多質量問題。
專家表示,要進行數據分析,首先必須有充足的有質量的數據。之所以說現在做數據挖掘的時機是成熟的,是因為高校,尤其是一些大型高校擁有大量的教學、管理、科研等數據,這為從各個層面進行數據分析提供了信息基礎。此外,最近幾年移動互聯網技術、微博等SNS網站的推出,使學校擁有了很多可用的、有價值的海量數據。這也意味著,要進行信息挖掘,必須充分擴展應用,才有可能掌握更多的數據。
總體來看,目前高校對信息數據的挖掘主要集中在幾個方面:一、針對網絡系統運行所做的數據分析;二、針對教學教務管理所做的支持;三、針對特定學生的分析;四、針對科研所做的數據分析支持。
比如,華東師范大學對校園網站數據進行分析,從而改善用戶體驗。浙江大學通過對資產的歸納、整理,最終形成權威、全面的資產數據,并基于資產數據提供數據查詢和分析服務。這些數據分析的成果已經被真正地應用起來,能夠幫助教務處更好地利用教室、實驗室等資源。復旦大學則對特定的學生進行數據分析,并且得到一些非常有價值的數據。
對于數據分析的前景,大部分專家認為:前景非常好,但挑戰很多。數據分析存在兩個方面的關鍵因素。
首先,業務和技術的緊密結合非常重要。業務需求是所有數據分析的目的,做數據分析要先挖掘出分析什么,擁有了需求,高校才能有針對性地對數據進行分析,把數據深層次的價值挖掘出來,讓它們為決策服務。
其次,數據分析對于技術人員的要求很高,要求他們不僅精通技術,也要熟悉校園網業務。