趙玉潔
(陜西師范大學 網絡信息中心,陜西 西安710119)
自從人類社會進入信息時代后,數據作為信息時代獨一無二的傳遞媒介,在我們的生活中無處不在。特別是隨著互聯網和物聯網的快速發展,似乎一切都可以被數據化、被記錄。曾經靜靜躺在各種媒介中的數據,開始爆發出驚人的價值和巨大的信息量,這引起了越來越多人的關注和重視。人類已經邁入一個深度挖掘數據內在信息和核心價值的大數據時代。
在這場大數據的浪潮中,高校扮演著重要角色,既是大數據時代的參與者,也是大數據發展的推動者。高校能夠利用自己所掌握的大量數據和信息資源,在教育和研究工作中發揮出舉足輕重的作用,這也是順應大數據時代發展趨勢、推動自身信息化建設和發展的一個良好契機。
美國政府為了順應并推動大數據這一趨勢,于2012年3月宣布投資2億美元啟動“大數據研究和發展計劃”,把大數據研究和生產計劃提高到國家戰略層面。2014年4月,美國聯邦教育部宣布從財政預算中拿出2500萬美元用于教育數據挖掘和分析。我國也十分重視大數據在高校教育中的發展。《國家中長期教育改革和發展規劃綱要(2010-2020年)》明確提出,在加快教育信息化進程中要“加強優質教育資源開發與應用……促進優質教育資源普及共享”。《國民經濟和社會發展第十二個五年規劃綱要》提出,“重點研究……海量信息處理及知識挖掘的理論與方法……”
我國在高校研究大數據的條件更是得天獨厚。據國家統計局2014年2月公布的數據顯示,我國目前在校大學生達2468.1萬人。2013年我國網民近30%使用過在線教育產品,市場空間巨大。未來幾年中國在線教育市場將保持每年30%以上的增速。預計到2017年,我國在線教育市場規模將會突破1600億元。
然而在大數據風暴以迅雷不及掩耳之勢席卷全球各個行業的時候,我們卻充滿了疑惑,畢竟大數據本身尚未發展成熟,如何將它合理應用到高校領域還是值得深思的。本文將從高校中的大數據來源入手,分析高校大數據具有的特征,探討大數據將對高校信息資源共享發揮的作用,深入挖掘大數據在高校信息化建設應用中的挑戰,以探尋合理的策略實現大數據時代高校間資源共享,推動教育信息化的全面建設。
(1)大數據的概念及目標
最早提出“大數據”時代到來的是全球知名資訊公司麥肯錫。麥肯錫[1]稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波的生產率增長和消費者盈余浪潮的到來。”Gartner[2]于2012年對大數據做出如下定義:“大數據是大量、高速及多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與優化處理。”維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。[3]
無論哪種定義實際都強調大數據的目標:①獲取知識與推測趨勢;②掌握個性化特征;③通過分析辨識真相。因此,大數據技術的戰略意義不在于掌握龐大的數據信息,而在于通過將各種數據集合并后的分析得出大量額外的有價值信息和數據關系,幫助指導人們優化自身的決策和行為方式。
(2)大數據與傳統數據的區別
信息的大爆炸不斷提醒著我們,未來將會因大數據技術而改變。與傳統數據相比,大數據之所以如此受人追捧,是因為其具有天然優勢。兩者最本質區別在于:①數據采集的來源不同。傳統的數據庫只是采集基本數據信息,使用數據自身含義,沒有利用數據的附加價值。而大數據來源于對傳統數據的提取和分析,更強調數據之間的關聯性,主要研究數據間的關系;②數據應用的方向不同。傳統的數據庫主要對數據進行存儲和查詢,以對過去產生的數據進行保存為核心。大數據對事物發展的預測為核心思想,通過對海量數據進行分析,得到未來發展趨勢或者推斷將來的可能性。
(1)高校中的數據源
高校是一個每時每刻都會產生大量數據的地方。自從我國推行教育信息化以來,這些數據大部分被記錄保存了下來。比如人事、教學、財務等部門的基本業務數據,網絡教學課件和視頻、網絡遠程教育教學資源的多媒體數據,學生教師上論壇、微博、微信等社交網絡產生的網絡行為數據,校園網內連接無線網絡而感知的位置數據等。
伴隨著高校教育信息化建設程度的不斷深入和加強,比以往更多的海量數據被積累保存,這對于高校來說,是一筆寶貴的財富。這些海量數據并不是單純的數據積累、記錄和保存,其潛在的價值將會對現代化高校建設產生積極重要的意義。例如,通過對“課堂、成績、就業”等方面數據的統籌分析,能夠在一定程度上對傳統教育領域的授課和學習模式的改革給予指導和建議,通過學生的圖書借閱歷史和選課信息綜合判斷學生的興趣愛好。在這個信息就是金錢的時代,大數據技術的應用將會在高校教育信息化中起到越來越重要的作用。如何充分利用數據價值,使其為學校管理、教學、服務等工作提供有益幫助,將是本文重點研究的內容。
(2)高校中大數據的特點
對于大數據關注,往往過分集中于“大”的特點,而忽略了處理大數據所必須面對的一個難題:未經處理的碎片數據是造成大數據價值密度低的直接原因。在高校內部圍繞著教師或學生服務和管理產生的數據也具有“碎片化”的特點。這一點王左利在他的論文中也提到了。[4]同時他還總結了大數據的另一個特點——持續性。“持續性”體現了校園科研、教學和管理業務的規律。必須基于長期、持續的數據進行統計分析,靠短期數據分析獲得的結論對指導教育教學改革無益。
而筆者認為,高校的數據還體現了另外一個特點——多維度。“多維度”能夠表征校園活動參與個體的完整狀態。如,對一位學生而言,學習成績反映學習效果;借書種類反映興趣愛好;一卡通消費情況反映家庭狀況;上網軌跡反映思想動態等。只有將多維度的數據進行有效整合,通過建立量化分析模型,反映一個學生的生活習慣與學習進步的相互關系,才能清晰全面地分析學生個體。
通過討論大數據與傳統數據的不同以及高校數據源的特點,發現在大數據影響下的教育與傳統教育相比具有諸多優勢,主要體現在以下三個方面:
數據采集:傳統教育數據的采集方式來源于調查問卷、心理測試等。采集標準和規則均已完善。而大數據的采集是過程式的,它關注著學生在校數據的整個生命周期,關注著學生在校生活的每一個微觀表現。
策略決策:傳統數據詮釋宏觀、整體的教育狀況,用于影響教育政策決策;大數據透析微觀、個體的學生在課堂上的狀況,用于調整教育行為進而實現個性化教育。
評估誤差:傳統數據來源于階段性的、針對性的評估,其采樣過程可能有系統誤差;大數據采用微觀持續性記錄方式,采樣的方式誤差較小。
隨著互聯網技術的迅速發展,大數據帶來的信息風暴正在改變我們的生活、工作和思維。那么,當這場風暴席卷高校的時候,到底會給高校教育信息化建設帶來哪些變革呢?高校是數據生產大戶,中國高校數量多而且規模大,萬人以上的大學非常多,在高校里上學的學生從招生、學籍、選課、成績、飯堂、活動等方面產生大量的數據。在大數據時代,只有用好這些數據,才能更好地幫助教學、科研、學生管理等工作,大大提高高校的信息化水平。
大數據分析可以應用于教育中的數據挖掘。目前教育機構已經積累了大量數據,使研究者有更多的新機會探究學生學習環境和狀態。通過監測這些信息,形成教育大數據庫,全面掌握學生學習的全過程,發現學生的學習常態。通過數據流的變動分析,總結教育規律、調整教學內容和教學模式,客觀全面地評價學生學習成果和自身的教學成果。
對于教育領域來說,大數據的應用讓研究個體學習也成為了可能,讓專門培養和針對性訓練成為可能。通過學校數據中心分析學生的各類信息,如考試成績的變化、借閱圖書的種類、一卡通消費額度等信息,綜合性地分析判斷學生的狀態。根據分析結果,對于不同的學生因地制宜地制定相應的教學模式、培養方案。另外,也可以借助學校的微信公眾平臺為學生推送其感興趣的資訊信息。
學生中存在的問題和困惑,往往最先通過網絡顯露和傳播。如果學生的意見和建議得不到重視或延誤解決,就可能在網上形成炒作,個體情緒可能傳染到群體,演變為群體的不滿情緒,使網絡成為輿論的放大器。通過分析學生網絡訪問軌跡實現積累監測,利用其需求、行為、動向等眾多數據資源加強輿情分析和預警。另外,通過對學生數據的追蹤和分析,能夠發現情緒不穩定的學生或者受不法分子蠱惑的學生,及時將有可能發生的悲劇扼殺在搖籃里。因此,精準的預測分析能提升輿情管理工作水平,提高校園管理水平。
總之,大數據的教育應用可以為學生提供一個量身定做的個性化學習環境、一個靈活調整的可控教育系統、一個教育問題早期預警系統,為教師了解學生學習途徑和方法提供了嶄新的、可視的、可量化的新手段。
(1)數據源的可用性
關于大數據的一個普遍觀點是,數據自己可以說明一切,數據自身就是事實。但實際情況是,如果不仔細甄別,數據也會欺騙,就像人們有時會被自己的雙眼欺騙一樣。高質量數據的獲取是確保信息可用性的重要前提。[5]高校數據的來源多種多樣,包括各職能部門的基本業務數據、教學資源的多媒體數據、使用網絡的行為數據、無線網絡感知的位置數據等。數據模態千差萬別,如關系數據、標量數據、圖數據、流數據、XML數據、矢量數據等。既有重復性數據,又有冗余性數據,質量參次不齊,加工整理困難。這些校園化數據是否可用給大數據在高校中的推進帶來極大的挑戰。
(2)數據融合的可行性
眾所周知,數據不融合就發揮不出數據的潛在價值,高校大數據面臨的一個重要問題就是數據融合。作為高等院校,大數據的融合應該走在前列,必須徹底打通數據孤島,將各個業務充分整合。然而,由于傳統的業務系統缺乏長期規劃,采用的技術包羅萬象。據調研發現,目前高校所采用的數據庫包括Oracle、Sybase、Microsoft SQL Server、Mysql、Visual FoxProd等。有些學校或部門甚至沒有數據庫,而是采用Excel管理數據。在這種基礎上實現數據的有效融合,形成高質量的大數據,對于融合技術是一個重要的挑戰。
(3)數據分析的持續性
教育的規律有時很難理清,成功的個體也未必能夠簡單復制,評價教育本身的指標都有一定程度的缺陷,需要幾年甚至更長期的監測和不斷的更正。因此,高校中的大數據分析,不僅僅是橫向的對比,如職能部門間、兄弟院校間,更需要縱向歷史數據的對比。無論是數據收集、數據清洗還是數據挖掘的模型,都需要隨著每天產生的大量詳實而瑣碎的數據信息進行調整和修正,這也是一個不小的挑戰。
(4)數據挖掘的復雜性
大數據分析無疑是整個大數據時代的核心所在,因為大數據的價值就產生于數據分析過程中。在高校大數據的應用中,無論是做個性分析還是輿情預測,都需要構建特定的挖掘模型。教育行業因為其特殊性,傳統的分析技術如數據挖掘、機器學習、統計分析等并不能完全滿足高校大數據分析的需求,因此,需要在數據預處理、算法模型、評價指標等方面做出調整。當然,數據挖掘的復雜性,不僅是高校大數據所面臨的挑戰,也是整個大數據領域的巨大挑戰。
(1)數據共享意識
大數據時代需要海量數據作為基礎,高校中的大數據,其中很大一部分來源于各職能部門。而現狀是大量的數據分布在各個互相獨立的職能部門中,甚至大量的信息資源成為了個別部門的私有財產。造成這種狀況的原因一方面是因為年代久遠,數據整理工作難度較大、工作優先級較低;另一方面是業務部門并不清楚哪些數據是可以被分享的、哪些數據是不能被分享的。歸根結底,還是資源分享的意識不夠。然而,信息資源只有在相互流動、形成規模效應的前提下才能夠發揮出最大的價值,因此,還需要加強高校的數據共享意識。
(2)人員配備與組織結構
高校內部對于各職能部門間信息資源規劃缺位,導致了建設進度不同、資源投入有差距、各部門各顯神通一窩蜂建設,增加了數據資源共享共用的壁壘。在大力推行教育信息化之前,很多學校并沒有專門的信息化部門,技術人員儲備不足,甚至沒有。高校大數據的推行需要一批既懂得相關技術,又熟悉業務流程的技術人員。人才的匱乏也是非常不利的一點因素——相比于商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。
(3)個人隱私保護
教育說到底是一個交互的過程,交互的內容收集一定程度上與隱私等是矛盾的。目前大數據的發展仍然面臨著許多問題,安全與隱私問題是人們公認的關鍵問題之一,如教師的工資收入,學生的生活習慣、好友聯絡情況、閱讀習慣、檢索習慣等。多項案例實際說明,即使無害的數據被大量收集后,也會暴露個人隱私。如何做到大數據采集與用戶隱私保護的平衡是一個很重要的研究課題。
在教育信息化發展歷程中,高校早期缺乏信息化的意識,積累的數據質量參次不齊。即使在大數據時代的今天,信息化工作人員對于數據規劃意識依然朦朧。只是簡單地意識到所有的數據都是有用的,但是具體怎么用,哪些可以共享,并沒有明確的規劃。通過總體的科學數據規劃所得到的數據模型將是富有生命力的,在長達數年之內,它們可以憑借微小的調整和增加,就可適用于多種類型的系統和數據庫。所以,擁有一個數據的長期規劃是非常必要的。
數據質量是數據分析結論有效性和準確性的基礎,也是最重要的前提和保障。對于大數據在高校的應用,數據的質量管理需要考慮以下幾個關鍵問題。一是數據收集階段的標準化、全面化、高效化。既要滿足收集速度和精度要求,又需要滿足數據來源的質量要求。從數據源頭保證數據質量。二是數據清洗過程中的合理化和精確化。去除大量的噪聲數據,精確地提取有效數據,保證數據處理過程中的高質量。在此基礎之上,建立良好的數據管理機制,包括加強數據標準建設、重視歷史數據積累、學習數據處理技術等,以求在數據準備階段提高數據質量。
高校的管理體制規定著機構設置、職責運行和權限劃分,高校中推行大數據共享和應用,顯然要涉及對傳統管理模式所形成的利益關系調整,因而需要觸及體制調整與改革。只有從頂層部門進行全面、細致、強力的規劃推動,才能減少乃至消除職能部門間資源共享的屏障。信息化部門應借助自身在技術層面的優勢,整合各業務系統數據,形成數據中心,變被動為主動地去維護數據。同時,也要為學校職能部門等不同層次的用戶提供定制的主題數據分析。各學科職能部門也要充分溝通和配合,及時反饋和跟進。只有通過這種頂層推動、信息部門主導的模式進行體制改革,才能有效地推進大數據在高校中的應用。
在大數據以“迅雷不及掩耳”之勢席卷各個行業的時候,筆者更加關注大數據在高校信息化建設中的推進。本文通過討論高校中的數據源和數據的特點,探討大數據技術在高校中如何應用,并從技術和實施兩個層面分析大數據在高校教育信息化建設中所面臨的挑戰以及相應的解決策略。
隨著對大數據理解和應用的深入,我們期待看到大數據技術為高校信息化建設帶來更多的活力。也希望能夠拋磚引玉,給更多關注高校信息化建設中大數據的研究以幫助和啟發,同時,也希望真正讓大數據應用融入到校園生活的每一個角落里來,更好地服務于廣大師生。
[1]李志剛主編.大數據:大價值、大機遇、大變革[M].北京:電子工業出版社,2012.10.
[2]Gartner.BIG DATA[EB/OL].http://www.gartner.com/technology/home.jsp.
[3]Wikipedia.Big data[EB/OL].http://en.wikipedia.org/w iki/Big_data.
[4]王左利.校園大數據規劃先行[J].中國教育網絡,2014(1).
[5]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013(6).