方丹丹
(對外經濟貿易大學 信息化管理處,北京100029)
基于大數據的高校教師職業生涯規劃研究
方丹丹
(對外經濟貿易大學 信息化管理處,北京100029)
隨著大數據技術的發展,探討大數據在高等教育領域的深度應用,成為當前高校關注的熱點,文章探討了大數據技術給高校教師職業生涯規劃帶來的新思路和方法,從數據采集、數據處理、數據應用三個層次構建了基于大數據的高校教師職業發展規劃總體框架,并重點介紹了模型和算法的選擇,為大數據在高校人才培養方面的應用提供可行性參考。
大數據;職業生涯規劃
隨著大數據時代的到來,云計算、智能化、移動化、數據挖掘等新興技術的應用和普及,使得數據處理能力與日俱增,通過大數據技術可以對事物進行多維度、多層次的數據分析,獲得有價值的信息,及時準確、全面深入地把握事物發展的規律,對未來的發展方向和趨勢進行預測,極大地提高我們認識世界的能力。在教育領域,也迅速掀起了大數據促進教育改革和創新發展相關研究的熱潮,大數據的教育應用研究迅猛發展起來。2014年3月,教育部辦公廳印發的《2014年教育信息化工作要點》中指出:加強對動態監測、決策應用、教育預測等相關數據資源的整合與集成,為教育決策提供及時和準確的數據支持,推動教育基礎數據在全國的共享。可見,大數據與教育領域的深度融合,是當前教育事業發展的必然趨勢。大數據技術應用于高校教師職業生涯規劃的研究也是重要的研究方向,定性的研究方法向定量化的研究方向轉變,確定教師職業發展規劃的指標因子以及挖掘教師個人信息中的知識與規律,創新研究教師職業發展的路徑,通過對不同崗位、不同階段、不同目標的教師在自我認知的數據分析基礎之上,輔助教師制定個人的職業生涯規劃。
大數據(Big Data)一詞最早出現在20世紀90年代,主要用來表示數據的量化特征,相當于日常用語中的“數據量大”[1]。而2008年9月《自然》雜志所出版的文章Big Data:Science in the Petabyte Era,將大數據賦予了一種全新的科學理念,超越了單純數量意義的描述,引起了學術界的廣泛關注[2]。美國首屈一指的咨詢公司麥肯錫是研究大數據的先驅,在其報告《Big data:The next frontier for innovation,competition,and productivity》中給出的大數據定義是:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,并不是說一定要超過特定TB值的數據集才能算是大數據。隨后,又出現了許多大數據的定義,綜合各種定義,概括大數據的特征:并沒有明確的界限,它不僅僅是數據量大,還有類型繁多、價值密度低、速度快、時效高的特征。
高校教師職業生涯規劃是高校教師結合自身特點和所處的環境,制定職業發展目標,對影響職業發展的各方面進行規劃,并根據目標的實現程度,不斷反饋和調整,最終實現目標的過程[3]。
職業生涯規劃對高校教師的發展至關重要,合理的職業生涯規劃有助于教師了解自己以及自身所處的職業環境,明確發展方向,預測發展前景,克服發展的盲目性,極大地挖掘自身的潛能,實現個人價值和社會價值。
對于高校教師職業生涯規劃的相關研究已取得一些成果,研究者們對現狀進行了充分的分析,目前存在的不足主要表現在如下幾個方面:高校教師對職業發展滿意度較低,且缺乏明確的規劃和目標;重視程度和支持力度不夠,缺乏系統的職業規劃政策和指導;職業生涯規劃內容片面、形式單一、缺少創新,缺乏個性化,達不到預期效果;研究成果以理論研究為主,缺少定量研究,缺少可操作的模型。
大數據時代,不僅對高校教師的知識體系、教學方式、教學評價等帶來了革命性的影響,也為教師進行職業生涯規劃提供了新思路和方法。
1.以大數據為依據,幫助教師建立更完整、準確的自我認知和職業環境認知
良好的自我認知是職業生涯規劃的前提和關鍵,自我認知包括對自己的專業技能水平、性格特征、興趣愛好、特長、個人需求等各方面的認識和了解,傳統的自我認知建立在自己感知的基礎上,是感性的認知,不是量化的,而大數據可以將“人”數據化。隨著全社會信息化程度越來越高,越來越多的業務依賴于信息化應用,用戶在與應用交互的過程中產生大量的數據;此外,網絡數據記錄了用戶的行為,可穿戴設備記錄人們的身體狀況、行動軌跡等。無處不在的數據,為人們的自我認知提供了量化的工具,使人們能夠更加準確客觀地認識自己。
職業環境認知包括晉升制度、獎勵制度、薪酬制度等學校職業環境,也包括社會地位、收入福利等社會職業環境。職業環境會隨著國家或者學校的政策調整而發生變化。大數據時代,高校教師可以更多更快地獲取到外界的大量實時信息,學校整體職業環境、學校的發展規劃、學科建設情況、職業發展前景都可以通過數據進行展示,為教師分析自身所在的職業環境和職業發展趨勢,提供了有力的數據支撐。
2.大數據分析幫助教師選擇職業規劃路線
在自我認知和職業環境認知的基礎上,教師對職業生涯路線做出選擇,不同的發展路線,對教師的素質要求不同,也會產生不一樣的職業發展的結果。一般而言,教師根據自身的條件和所處的環境,對個人的職業生涯路線做出的判斷和選擇,很多時候都是主觀判斷的結果。而以大數據分析為基礎,一方面可以清晰地看到不同職業發展路線的要求和區別,也可以看到不同職業發展路線帶來的影響和結果,甚至可以看到學校歷年的職業發展路線選擇的歷史數據,為個人進行選擇提供依據。
3.個性化的大數據服務輔助教師職業發展
選定職業發展路線之后,教師需要制定階段性目標,確定相應的教育、發展和培訓計劃,并做出合理安排,個性化的大數據服務是結合教師的個人特征和階段性目標,進行個性化的推薦,推薦的內容包括教學資料、科研項目、圖書、培訓等各個方面,讓數據參與到教師的成長過程中,幫助教師更好地發展。
4.大數據報告對階段性目標進行總結和修正
教師職業規劃的過程還包括根據目標的實現程度,不斷反饋和調整,最終實現既定目標。大數據報告對教師各方面的數據進行總結和分析,隨時生成的大數據報告可以讓教師隨時了解和掌握目標實現的情況,對產生的偏差進行不斷修正和調整。
本研究從數據采集、數據處理、數據應用三個層次構建了基于大數據的高校教師職業發展規劃總體框架,如圖1所示。

圖1 基于大數據的高校教師職業發展規劃總體框架
1.數據采集
教師數據主要來源于學校業務系統數據和網絡服務器的瀏覽數據,學校業務系統包括人力資源管理系統、教務系統、教學平臺、科研管理系統、圖書借閱系統、E卡通系統等,可以獲取到教師基本信息、教學信息、科研成果、圖書借閱信息、校內消費信息等數據,這些數據大多是結構化數據,不要求實時處理,因此可通過ETL(Extract-Transform-Load)工具進行數據的自動采集,將數據從源端經過抽?。╡xtract)、轉換(transform)、加載(load)至目的端。網絡瀏覽數據是從網絡服務器獲取到用戶的網絡行為數據,這部分數據以非結構化數據為主,數據量巨大、多類別、更新頻率高,可采用一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統Flume工具進行采集。
2.數據處理
數據處理包括數據存儲、數據計算、數據分析與挖掘等,本研究采用一個開源分布式計算平臺Hadoop。采集到的數據首先要進行數據存儲,ETL工具采集到的數據一般存儲到傳統關系型數據庫mysql或者oracle中,再通過Sqoop工具導入到hbase中。Flume采集到的海量網絡瀏覽數據采用Lambda大數據架構,分為批處理和實時處理兩部分,批處理部分采用Hadoop實現,包括HDFS和Hadoop MapReduce,包括對全部數據集的預計算。實時處理利用流處理系統如kafka、Storm、S4、Spark等,采用各種復雜的增量算法實現。
數據計算采用分布式計算框架,根據不同的應用場景選擇離線計算、交互式計算或者流式計算,主要用到的框架包括 MapReduce、Spark、Impala、Storm等。
數據分析與挖掘使用Mahout機器學習算法庫提供的一些可擴展的經典算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,應用到各個不同的模型中。
3.數據應用
本研究的數據應用包括:教師畫像、個性化推薦、分析與預測、大數據報告四個部分。教師畫像是對現實世界中教師的數學建模,是通過分析挖掘教師盡可能多的數據信息得到的,用標簽的集合來表示。個性化推薦基于教師畫像的標簽特征,構建推薦模型,選擇推薦算法,實現推薦感興趣的信息給教師。分析與預測結合教師畫像的標簽特征和學校職業規劃環境,分析個人職業發展的方向和目標,并預測是否能夠達到下一個目標。大數據報告以數據的方式總結個人階段性成果,分析職業發展過程中現實和目標的偏差。
教師畫像、個性化推薦、分析與預測、大數據報告四個部分既是一個整體,各部分相互聯系,又是不同的功能模塊,無論是需求設計、功能設計、架構設計、模型和算法設計上都有很大的區別。本研究擬從共性和方法上進行論述,重點介紹模型和算法的選擇。
建模的過程是在明確需求、了解數據、構造特征的基礎上,根據實際的應用場景,選擇模型和算法,本研究的模型和算法如圖2所示。
1.數據預處理
數據處理的流程,一般先要明確問題,了解數據的規模,重要特征的覆蓋度,并明確需求和數據的匹配度。再對數據進行預處理,數據預處理的過程包括對數據進行集成、數據采樣、數據清洗、缺失值處理、噪聲數據處理、數據沖突處理等。其次是特征工程,特征是指對所需要解決的問題有用的屬性,特征的提取、選擇和構造是通過相關系數等方式來計算特征的重要性,針對所解決的問題選擇最有用的特征集合,本研究構造的特征包括:教師的性別、年齡、教育程度、籍貫、收入水平等基礎屬性,教師的教授課程、學生人數、課時量、學生評價等教學屬性,教師的論文、科研項目、橫向課題、縱向課題、學術會議等科研成果屬性,專業、研究方向、職稱等專業技能屬性,閱讀偏好、消費偏好等興趣偏好,借閱圖書、E卡消費、資料搜索等行為屬性。

圖2 模型與算法
2.模型與算法選擇
明確問題和需求后,根據問題的分類,選擇模型和算法。
分類問題是找出數據庫中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到給定的類別中。聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。回歸分析反映了數據庫中數據的屬性值特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系。關聯規則是隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。
選擇模型和算法考慮的因素包括:數據訓練集的大小、特征的維度、所要解決的問題是否是線性可分、特征是否獨立、對性能有哪些要求等。選擇方法可采用奧卡姆剃刀原理,這個原理稱為“如無必要,勿增實體”,即“簡單有效原理”。比如對于分類問題,只要認為問題是線性可分的,即可采用LR分類器 (Logistic Regression Classifier),該模型比較抗噪,效率高,可以應用于數據特別大的場景,很容易分布式實現。比如Ensenble方法(組合方法),根據training set訓練多個模型,然后綜合各個模型的結果,做出預測,該方法組合多個模型,可以獲得更好的效果,使集成的模型具有更強的泛化能力。
建模時通常會執行多次迭代,選擇合適的模型算法,運行多個可能的模型,然后再對這些參數進行微調以便對模型進行優化,最終選擇出一個最佳的模型。
3.模型與算法評價
最后需要對模型和算法進行評價,本研究采用廣泛應用于信息檢索和統計學分類領域的兩個度量值:準確率和召回率,來評價結果的質量,如表1所示。

表1 模型和算法評價
準確率accuracy=(TP+TN)/(P+N),就是被分對的樣本數除以所有的樣本數。通常來說,準確率越高,分類器越好;召回率recall=TP/(TP+FN),召回率是覆蓋面的度量,度量有多少個正例被分為正例。
大數據技術的蓬勃發展,帶來了各行各業的大數據應用創新,在高等教育領域亦如此,不僅在教學方式、教學管理、學生管理等各個方面,在高校教師的職業發展方面,大數據應用也有其應用價值。本文提出了教師畫像、個性化推薦、分析與預測、大數據報告四個方面的創新應用,并從技術角度,在數據采集、數據處理、數據應用三個層次構建了基于大數據的高校教師職業發展規劃總體框架,重點討論了模型和算法的選擇?;诒疚牡难芯績热?,可作為高校構建支撐高校教師職業生涯規劃的大數據平臺的參考。未來隨著技術的更新和進步,在技術架構、模型和算法的選擇方面,可以繼續進行更深一步的探討。
[1]安濤,趙可云.大數據時代的教育技術發展取向[J].現代教育技術,2006(2).
[2]宋學清,劉雨.大數據:信息技術與信息管理的一次變革[J].情報科學,2014(9).
[3]汪霞.關于高校教師職業生涯規劃的思考[J].信陽師范學院學報(哲學社會科學版),2010(2).
(編輯:魯利瑞)
G645
A
1673-8454(2017)14-0072-04