宋瑤瑤 周益名 李洋
海軍航空大學 山東 煙臺 264001
《中國教育現代化2035》提出要開展大數據支撐下的數據治理能力優化行動,推動以互聯網等信息化手段服務教育教學全過程[1]。高等教育院校作為立德樹人的重要基地,科學有效開展數據治理,打通局部系統、整合全部數據,實現校園龐大數據集群的管理與應用,責任重大、任務艱巨。高校教育數據治理是一項系統性工作,涉及數據質量標準、權責部門職能定位、數據價值流動等多個方面,關系到教學、科研和日常管理等各項活動,受到智慧校園等信息技術發展制約,同時還受到數據安全、數據隱私等方面的影響,為此,需要深刻剖析各方面影響因素及其作用機制,為高校數據治理的科學籌劃設計、嚴密過程把控、精準有效預判提供有力支撐。
數據治理最初起源于“數據倉庫治理”在兩家公司的應用實踐,因其在組織內部和外部管理數據使用上的重要性和獨特優勢受到越來越多關注。此后數據治理陸續應用于政府、企業、醫院等領域,旨在從紛繁復雜的巨量數據中探尋某種相關關系,更快速地完成預期目標。當前,國內外相關行業協會已研究發布了幾個具有廣泛影響力的數據治理標準規范:國際數據管理協會DAMA發布的《數據管理知識體系指南-DMBOK》,介紹了以數據為中心的10個信息化關鍵知識領域;卡耐基-梅隆大學CMU軟件研究所SEI發布的數據能力成熟度模型DMM,用來評估和提升組織的數據管理水平;中國通信標準化協會發布《數據治理標準化白皮書》,將標準化理念引入數據治理,搭建了數據治理標準體系框架,進一步明確數據治理任務及原則。
教育數據具有全員、全程、全方位等特點,采集呈現高度復雜性、應用需要高度的創造性、研究注重相關關系和因果關系結合。我國最初是許曉東等人提出由數據的獲取和抽取、整合和分析、解釋和預測幾個階段構成的高等教育數據治理分析框架,拉開了教育數據治理研究的序幕[2]。教育數據治理最初應用于高校圖書館管理領域,包冬梅等人從促成因素、范圍、實施與評估三個維度構建了符合我國高校圖書館實際的數據治理框架——CALib數據治理框架,全方位描述了數據治理工作的必備要素、重點關注領域及具體實施方法[3]。大數據時代的到來,教育系統內各類信息平臺增多,信息孤島普遍存在,缺乏協同和整合機制,廣大學者圍繞體系架構、治理方案、運行機制等展開探討,如余鵬通過歸納不同規模、類別、等次的高校樣本,提出了基于智慧校園良性發展的教育大數據生態體系架構[4];趙安新從數據融合的技術層面出發,將數據治理劃分為數據層、交換層、平臺層、展示層[5];董曉輝基于活動理論視角,從治理主體、治理客體、治理方式、治理目標四個方面,剖析高校教育數據治理體系構成要素及其內容[6];周煒歸納總結了四類數據治理牽頭部門——綜合協調部門、發展規劃部門、信息技術部門、大數據中心的職能定位,并從體制機制、統一數據平臺、數據標準、隊伍建設四個維度構建優化數據治理實施路徑四要素模型[7]隨著人工智能、云計算等技術的成熟,被廣泛應用與數據治理過程中,運用技術手段提高數據治理績效,如彭雪濤借鑒美國高校數據治理策略,提出我國院校應從頂層規劃入手,劃分權責體系,用信息技術保障數據治理,以分析應用推進數據治理[8]。巫莉莉提出數據治理的核心在于提升數據質量,其關鍵技術在于數據集成、數據剖析及數據清洗[9]。趙磊磊提出人工智能時代高校數據治理要致力于創設智能共管的數據管理職能優化機制、高效數據挖掘與共享質量標準、職權厘定的智能化數據決策、指向數據價值釋放的智能數據服務體系[10]。但與此同時,海量數據匯集帶來的數據隱私和安全問題也進入研究視野,陳桂香基于整體性治理理論視角,提出從制度、運行、觀念三個維度解決高校大數據治理制度“碎片化”問題,從而防范高校大數據社會風險的產生[11];王國貽認為大數據時代背景下,應從安全管理制度制定、應用系統保護水平升級、信息存儲傳輸幾倍提升等方面,確保數據在安全可控情況下發揮效用[12]。
總體來看,眾多研究者圍繞高校數據治理思想與理念、邏輯與框架、功能與職能等方面已開展了比較深入和細致的研究,但對于數據治理的影響因素以及相互的影響關系,相關研究和探索還比較薄弱;同時,目前各項研究整體上偏重于靜止態和初始態,而從運動態、發展態的角度解析和探討高校數據治理各影響因素狀態變化,基本處于空白。對此,亟待運用系統論、關系論的有關方法手段,全面解構高校教育數據治理的影響因素,并通過構建科學合理的數學模型進行演繹的分析,從而深刻把握高校教育數據治理的運作機理。
高校教育數據治理點多、線長、面廣,涉及管理方法與技術工具的綜合運用,更涉及眾多的利益相關方和眾多的環節要素,應當說數據治理是一項復雜活動,遵循社會活動的一般性特點規律。為此,按照社會活動理論的有關原理,圍繞治理主體、治理客體、治理目標、治理方式四個方面,深入分析高校教育數據治理的主要影響因素;而針對數據治理的影響因素具有多層次、多要素特點,運用原因分析法,進行系統全面的、逐級分解的溯因分析,對數據治理成效顯現的過程和機理進行“白盒”式的解構,形成高校教育數據影響因素因果圖(見圖1)。
圖1 高校數據治理因果圖
治理主體是指數據治理過程中涉及的關鍵主體,主要包括生產者、消費者、管理者,是數據治理過程中涉及的關鍵性參與者與實施者,起主導作用。一是生產者的影響。生產者既是院校處理日常事務和履行職責的各運行單位,又是參與院校活動形成海量數據的廣大教師和學生,是數據之源,從根本上決定數據治理水平。二是消費者的影響。消費者是在數據治理過程中獲取信息的主體,是數據利益的直接相關者,是數據的最終用戶和需求方,為數據治理成效提供需求牽引、做出用戶評判。三是管理者的影響。管理者不僅包括監督管理數據治理過程的管理人員,還包括使得信息條理有序并且將數據價值挖掘出來的專業技術工作人員,存在于數據治理全流程,發揮主導作用,是數據治理成效提升的直接推動力量。四是組織結構的影響。各數據治理主體協同參與,形成合理組織結構,保證生產者、消費者、管理者各司其職,從而規范和約束數據治理機構與職能。此外,值得一提的是,治理主體雖然被劃分為三種角色,但實際數據治理過程中往往某類人員兼具多種角色的情形,如高校教師既是數據生產者,也是數據消費者。在本研究中,為便于全面系統地開展分析,邏輯上仍劃分為生產者、消費者、管理者,分別解析其影響。
治理客體是指存在于教育教學、管理、科研等活動中,圍繞高校的人、事、物等采集和存儲的數據集合,主要集中在數據集成、數據分析、數據開放與數據運用四個方面[13]。治理客體是數據治理中主體作用的對象,對數據治理主體起到重要的反作用。一是數據集成的影響。數據集成是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源,是數據治理體現質量、凸顯價值的前提和基礎。二是數據開放與共享的影響。數據開放主要是指面高校向社會公開發布數據,而數據共享主要是指院校內部各部門之前共同使用相關數據。數據開放與共享直接推動打破信息孤島現象、提升數據利用率、滿足數據治理需求。三是數據運用的影響。數據運用是持續不斷地應用數據并創新服務、為院校創造價值的過程,強調數據的準確性、完整性等基本特征,是數據治理的出發點和落腳點。
治理目標是數據治理系統的頂層設計,體現于支持實施數據治理的環境水平,服務于如何實現數據價值和風險管控,主要圍繞包括決策水平、管理效率、數據隱私和安全等方面展開,在整個數據治理過程中起牽引作用[14]。一是決策水平的影響。決策水平決定著高校建設發展的全局性、根本性、方向性問題,對數據治理重要性必要性的認識、對數據治理項目的支持和推動力度、對數據治理工作的領導和指導水平,無疑都對數據治理成效起到根本性的影響。二是管理效率的影響。高校的管理運行效率一方面是數據治理水平程度和成果成效的重要體現,另一方面也是開展數據治理的現實條件基礎,決定著數據治理的起點。三是數據隱私和安全的影響。數據隱私和安全問題是數據治理過程中的主要風險點,是數據治理的底線和紅線,既容易成為數據治理中的疏失環節,又容易被當成消極推動或配合數據治理的擋箭牌,因而成為數據治理的瓶頸性堵點以及機制性阻礙。此外,在研究中,為實現對“治理目標”的可理解、可測量,用“治理環境”這一變量來表征“治理目標”的動態變化。
治理方式是指對數據全流程處理與分析時所采用的方法和技術,主要包括數據治理的技術架構與制度保障。治理方式是數據治理主體作用于客體的方式或措施,起支撐作用。一是技術平臺的影響。技術平臺是指數據治理相關的技術方法、設施平臺,包括數據處理技術、數據治理平臺等,直接決定著數據治理的科學性先進性水平,以及實施和推進效率。二是制度保障的影響。制度保障包括政策制度、法律法規等,具體指激勵機制、保障機制、監管機制、數據標準與規范、數據開放共享機制,其中保障機制是數據治理的前提條件,監管機制是數據治理的必要條件,激勵機制是數據治理的輔助條件。
系統動力學被稱為“社會政策實驗室”,提供了一種結構化、動態反饋的建模技術,在研究復雜反饋系統動態行為方面具有獨特的優勢:決策者在制定政策的同時,總是期望了解其政策實施的可行性及其結果,若直接通過系統的實際運行來達到這一目的,不僅代價高昂,而且即使發現錯誤,也難以逆轉;系統動力學不注重大系統中每一個子系統的細微小節,其仿真結果的絕對數值用于研究系統之間相互關系以及系統整體的變化趨勢,處理行為隨時間變化的系統問題,適用于宏觀的、模糊的、長期的趨勢預測。由此,教育數據治理影響因素的復雜性及其交互的動態性特征符合系統動力學強調結構關系、時間因素等對系統細微的影響,借助Vensim PLE系統動力學軟件構建教育數據治理模型,并對其重要變量進行具體分析。
基于上文中對主要影響因素的分析,根據系統動力學理論,運用Vensim PLE軟件,進一步解析各影響因素之間的關系,系統構建高校數據治理各影響因素的關系模型。為了使關系模型更加合理和完整,體現系統的動態性與反饋性,引入調控率和影響率,凸顯治理績效變化的反饋結果隨實驗階段不斷發展及治理因素對治理績效的動態影響,最終的系統存流量圖如圖2所示。
圖2 數據治理水平和治理績效
圖2 高校教育數據治理各因素影響關系模型
本文在構建系統動力學模型的過程中力求基本符合院校教育數據治理實際情況,結合筆者所在院校數據治理項目實際施工時間周期,確定系統的仿真周期為24個月,步長為1個月。治理調控率隨著項目的開展不斷增加,定義使用斜坡函數,其函數定義參考以往研究設定。模型參數初始數據采用問卷調查和算術平均法,調查對象為院校教師、教學管理人員以及一定量的在校生,影響因素的權重采用層次分析法,邀請院校數據治理相關領域專家對指標的重要程度進行評分,得到各影響因素的權重系數,形成各項數據治理SD模型方程,詳見表1。
表1 數據治理SD模型方程
續表
數據治理主體仿真結果圖2(a)所示,在數據治理開始前,院校各部門、教師、學生等面對龐大、復雜的數據治理項目,忙于完成日常事務,難以投入精力完成數據的填報、使用等。隨著項目的繼續推進,數據治理體系的各項機制作用逐漸凸顯,信息化帶來的便捷促進生產者、消費者、管理者的加入。而在項目后期,項目基本完成的同時,系統實現數據的實時、無感采集,數據治理主體的作用不再明顯。
數據治理客體仿真結果圖2(b)所示,在項目開展前期,數據治理系統采集和存儲的數據量較少,數據利用率低,但隨著項目推進,系統數據累積量充足,滿足數據消費者所需,圖中曲線前中期斜率越來越大,加速項目建設。而在項目后期,數據治理平臺平穩運行,實現數據的自動抓取、分析、可視化等功能。
數據治理方式仿真結果圖2(c)所示,在項目開展前期,面對眾多的軟硬件,尚未找到完全貼合院校數據治理系統實際需求的技術手段,處在不斷磨合階段,但隨著項目推進,數據處理平臺功能不斷完善,數據處理技術滿足日常所需,達到巔峰。而步入后期,項目逐漸完善,平臺和技術趨于成熟,作用逐漸減弱。
數據治理環境仿真結果圖2(d)所示,與數據治理方式相似,項目開展前,各因素之間的關系較為薄弱,數據治理涉及的利益、關系復雜,院校領導者決策監督在前期占有重要地位,需做好各方協調。而隨著項目的推進,涉及層面漸廣,復雜性增加,項目推進愈發復雜困難,領導層的作用愈發明顯,水平達到巔峰。項目后期,數據治理體系逐漸完善,復雜性降低,作用逐漸減弱。
數據治理主體、數據治理客體、數據治理方式、數據治理環境在數據治理過程中變化趨勢如圖2(e)所示。整體上隨著項目的開展呈現出先上升后下降的趨勢,前期到中期不斷上升且斜率逐漸增大,并在中后期達到頂峰,后期開始下降。在前期過程中,由于院校管理者決策、政策制度、數據治理技術等具有外部強制性,治理四要素中數據治理方式、數據治理環境對治理績效的作用占主導地位。隨著治理項目的開展,數據治理參與者之間的信任、共享、合作等互動增多,使得數據治理體系的構建向既定目標不斷完善,斜率越來越大。在后期數據治理體系逐漸成熟,數據治理環境、數據治理方式等外在強制作用減弱,數據治理主體的參與處于相對穩定的狀態,而系統數據累積量逐漸增多,數據增值價值凸顯,數據客體的作用逐漸增強。
數據治理績效動態變化圖2(f)所示。整體來看,在數據治理主體、數據治理客體、數據治理方式、數據治理環境的共同作用下,曲線是不斷上升的,在前期階段變化比較平穩,曲線的斜率先減小后增大,表明治理績效在周期內先穩步增長,在中后期逐漸增速。前期項目開展時,由于主體之間的合作生疏、關系聯系不強,資源調動等存在不足,加上項目復雜性較高,數據治理績效不明顯。而項目后期隨著數據治理主體之間信息的共享以及共同解決問題的頻率增加,技術手段的成熟,加上政策制度的約束以及院校管理層的協調調動,數據價值凸顯,治理績效加速提升。
當今正處在一個信息量爆炸的時代,院校在這一環境下不僅要準確定位角色,趕上時代發展變化,還要把握契機提升自身的治理能力,本文從治理過程的四要素出發,采用系統動力學方法探討其在院校數據治理各個階段作用的動態變化。結合仿真分析結論,提出以下數據治理績效提升對策建議。
前期階段,主體的參與對治理績效提升具有顯著作用。在此階段,院校應加強各部門之間的交流,了解數據消費者需求,建立合理的績效評估手段,調動數據生產者、管理者積極性,從自身需求實際出發,搭建數據治理平臺。注重大數據專業人才的培育,一批教育專業知識過硬、數據分析能力強的隊伍,是實現數據價值最大化、提升數據治理成效的重要推動力量。
數據治理的中后期階段,多源數據融合共享是數據治理的關鍵,針對院校產生數據的采集、加工、存儲,促進數據治理績效。因此,在此階段,院校應加強對各部門數據的整合,注重數據量的積累和存儲。開展數據摸底調研,對現有數據情況進行梳理,初步了解各部門數據信息及重要數據的真實性和可靠性,打通數據鏈路,同時摸清現有的使用規則、數據收集目的、方式、范圍、類型等數據活動情況,使數據達到質量與數量的雙重保證。
數據治理所產生的效果、效益并非立竿見影的,而是需要長期的實踐檢驗。院校數據治理環境及數據治理方式,包括領導者決策管理、數據安全、政策制度、治理軟硬件等,影響著治理的整體發展方向,伴隨數據治理項目的各個環節,應立足實際、實事求是,對自身條件進行清晰的認識和客觀的評價,滿足數據治理的現實條件。同時明確戰略重點、階段及對策,促進對數據治理成果的有效利用。