郭勝男 吳永和 張 治
(1.華東師范大學 教育學部教育信息技術學系,上海 200062;2.上海市寶山區教育局,上海 201999)
人工智能技術發揮作用的三要素為數據、算法和算力。正如人工智能專家周志華(2020)所言,“今天的人工智能熱潮是由于機器學習,尤其是深度學習技術在大數據、大算力的支持下發揮出了巨大威力”。這些均需建立在數據質量、數據安全及算法合乎倫理的基礎上,因此,如何進行有效的教育數據治理成為教育數字化轉型的必經之路。人工智能教育大腦系統整合了教育數據、智能算法和算力資源,以保證最大限度地挖掘大數據的潛在價值,為教育數據精準治理提供新路向。
“智能大腦”最早由雷·庫茲韋爾(Ray Kurzweil)提出,指借助海量數據和算法,模擬人腦思考和判斷(何懷宏,2018)。之后在城市治理領域,有研究者提出城市大腦概念,指在互聯網大腦架構的基礎上,以云神經網絡和云反射弧為建設重點,為解決城市治理難題提供全新工具(胡堅波,2021)。在教育領域,顧小清等(2021)以“人工智能教育大腦”為隱喻,將智能技術與教育融合,致力于解決高等教育數據治理和教學創新問題。張治等(2022)將人工智能本質和人腦特質結合,構建教育大腦生態架構,強調基于人工智能的教育大腦是實現教育數字化轉型的關鍵基礎設施。由此可見,人工智能等新一代信息技術支撐的“教育大腦”具備規范化整合數據資源和算法模型、提高數據質量和保障隱私安全的強大能力。
數據作為新的生產要素,在滲入教育治理結構時,必然會引發一系列新的問題,如數據質量參差不齊、隱私泄露、算法失衡。現階段教育領域尚缺乏有效的教育數據治理方案。為了提高教育數據質量,保障算法安全,打破數據孤島之間的壁壘,充分挖掘教育大數據的潛在價值,教育治理亟需更寬廣的視野和更強大、靈敏的治理工具。本研究遵循“問題解構→方法模型→實踐路徑”的邏輯思路,在解構教育數據治理的內涵、困境及成因的基礎上,構建人工智能教育大腦模型,提出教育大腦賦能教育數據治理的實踐路徑。
數據治理(data governance)是數字化技術和治理理論融合形成的新概念,學界尚未給出統一的定義。國際數據管理協會(DAMA International,2009)認為,數據治理指在管理和使用層面對數據進行規劃、監督和控制。國際著名數據治理專家桑尼爾·索瑞斯(2014)認為數據治理是制定與大數據相關的數據優化、隱私保護與數據變現等政策。國內學者梁芷銘(2015)認為數據治理是為了應對大數據帶來的種種不安、困難與威脅,運用技術工具對大數據進行管理、整合、分析并挖掘其價值的行為。有學者將數據治理等同于數據管理,認為二者均指采取必要的步驟、度量和策略管理數據的整個生命周期,涉及數據識別、收集、準備、組織、分類、處理、分析、存儲、發布、管理和重用等(Gajbe et al., 2021)。事實上,數據治理蘊含明確相關角色、工作職責和工作流程等含義,是過程性概念,強調做出哪些決策以及由誰做出決策(Abraham et al.,2019)。數據管理是目標性概念,強調決策是數據執行的一部分。從本質上講,數據治理是對數據管理進程行使權利和控制,指導組織內和跨組織的數據和算法整個生命周期的正常運行,強調數據資產的價值和數據安全管控(Carretero et al., 2016)。
隨著教育信息化的發展,教育領域積聚了海量數據,呈現“大數據”形態,“教育數據治理”概念應運而生。教育數據治理作為嶄新的研究領域,其概念一直是學界討論的議題。教育數據治理涵蓋教育的數據治理和數據驅動的教育治理兩層內涵,數據治理為教育治理提供技術和程序,教育治理為數據治理提供目標(劉金松,2018)。兩者交叉融合、密不可分,共同服務于教育發展需求,提升教育治理水平和治理能力。
研究發現,現有教育治理體系與大數據算法系統的耦合度不高(Janssen et al., 2020),教育數據治理在數據質量、安全風險、算法倫理等方面面臨難題,未能充分發揮大數據的價值,嚴重阻礙了教育數字化轉型的現代化進程。
1.教育數據質量不高,限制了數據價值釋放
教育大數據在科學決策、支持多樣化教學場景、創新教學服務和提升教學效率等方面蘊含巨大的教育價值,正如徐宗本院士(2017)所言,“大數據可以帶來超凡應用價值”。在教育領域,只有切實將數據應用于解決教育發展問題,才能真正彰顯數據的價值。但實際境況與理論設想“相距甚遠”,“雖然大數據在教育領域的熱度日趨增加,真正利用大數據解決教育問題的成功案例卻很少”(祝智庭,2017)。究其原因,數據質量是影響數據價值發揮的重要因素。
質量是教育數據的靈魂,是大數據發揮價值的基礎和保障,涉及數據規范性、準確性、完備性和一致性等。在智慧教育時代,人工智能、云計算、虛擬現實和物聯網等智能技術擴展了教學管理和實踐的時空邊界,政府部門、社會組織及各類院校等產生的海量數據在數據規模、結構類型、數據收集和存儲工具、時效價值等方面存在很大差異,教育數據的規范性、準確性、完備性、一致性等數據質量問題疊出,導致難以充分發揮數據的價值。這可歸因為以下幾點:其一,各教育主體間的“煙囪效應”。人工智能技術賦能多元化數據生產主體和治理主體,但各主體間因業務需求不同往往“各自為政”,未能形成統一的數據規范標準。在這種“煙囪式”治理模式下,數據冗余、數據片面、死數據等問題頻出,導致教育決策科學性不高。其二,學習分析技術與數據之間的“弱耦合性”。區別于一般大數據,教育大數據是在教育場景中產生的數據,結構多樣(結構化、半結構化、非結構化),模態豐富(行為、生理、心理),格式繁雜(視頻、音頻、文本、平臺日志、生物傳感)(吳永和等,2021),現有學習分析技術難以捕獲數據之間的關聯性和一致性。此外,高效的學習分析工具推廣不易,如果沒有利益相關者的批準和監管,高效的學習分析技術不會被教育系統采納。可見,學習分析技術與數據之間的“弱耦合”極大地限制了數據價值釋放。其三,從技術角度看,機器學習算法偏好“好數據”。教育領域可視為數據驅動下的智能算法的運行場域(趙磊磊等,2021)。流行的機器學習算法,如K-最近鄰(KNN)、樸素貝葉斯(NB)、支持向量機(SVM)和深度學習等對特征空間的變化非常敏感,高質量的訓練數據集才能形成高性能的特征向量,進而將機器學習算法訓練成“好”的模型(Singh et al., 2022)。然而,教育實踐中通常存在降低數據質量的因素,如噪聲、缺失值、數據不一致或異常值等,嚴重影響機器學習算法的學習性能,造成模型訓練數據的欠擬合或過擬合,進而導致決策失誤。
2.開放共享程度擴大,加劇數據安全風險
2017年,國務院印發《國家教育事業發展“十三五”規劃》指出,要加快推進教育大數據建設與開放共享,形成教育數據資源開放共享機制(教育部,2017)。人工智能時代,教育系統內部自組織、自生產形成的“熵減”現象和自我加強的“馬太效應”均蘊含著教育數據開放共享的迫切訴求。開放共享對數據資源的快速流轉與價值挖掘至關重要(陳雅云等,2021)。擴大教育數據的開放共享空間有利于促進教育數據的整合、流轉,打破各教育子系統之間的數據壁壘,提升數據的應用價值,形成相互支持的產業鏈。
移動互聯網、區塊鏈、邊緣計算、人工智能等技術深度發展,各教育系統、平臺和信息門戶等的加強,為教育數據的開放和共享提供了強有力的技術支撐,開放數據獲取、傳輸、存儲、處理和應用的力度不斷增強。在此過程中,數據泄露和數據破壞等數據安全風險問題不可忽視。一方面,教師、學生等數據生產者的隱私泄露風險加大。從宏觀上看,數據的開放共享具有高度復雜性和系統性,涉及各利益相關者的隱私。隨著數據開放共享力度的提升,學校、教師、學生等數據提供者的隱私空間被嚴重壓縮(田賢鵬,2020)。從技術視角看,學習分析系統的設計未能完全保證師生的隱私安全。隨著數據資源更加多模態,學習分析工具更加移動,原本無法追蹤、統計和檢索的蹤跡變得有跡可循,隱私侵犯現象變得普遍。另一方面,數據在共享過程中被破壞的風險增大。其一,開放共享為不法之徒竊取、篡改、濫用數據提供了可能,尤其是一些教育機構為了利益竊取開放共享的數據以換取商業報酬。其二,數據在傳輸和交換過程中會丟失。教育系統各組織間數字媒介和數據維度等不一致,使得數據在交換過程中易丟失或損壞,造成數據缺失或不完整。總而言之,數據安全治理是教育數據開放和共享過程中不可或缺的重要環節,也是教育數據治理亟需解決的核心問題。
3.人工智能技術帶來算法失衡風險
人工智能時代是一個讓數據“開口說話”的時代,數據和算法是人工智能技術發揮作用的重要基石。“如果說大數據是信息時代的石油,那么算法就是從中提煉衍生產品的煉油廠”(肖鳳翔等,2020)。大數據為算法提供底層支撐,算法從大數據中提煉知識和信息,可見,算法優劣嚴重影響數據治理的效能。然而,隨著智慧學習、智慧課堂等人工智能新應用的出現,算法在教育實踐中不可避免地遇到諸多困境,如算法失靈、算法偏好、算法濫用,給教育實踐帶來了不可預估的風險,嚴重限制了教育數據治理效能的發揮。
首先,機器學習算法在為數據治理提供強大算力的同時,其應用存在算法失靈的風險,具體表現為算法運行失序,背離教育德性倫理或者不利于教育正向發展。教育領域算法大多移植于其他領域,這些算法的數理邏輯并不完全適用于教育系統的技術架構和教育邏輯,無法完全滿足教育的實際需求,有的會背離以“人的發展”為核心的目標。其次,算法偏好風險。“再好的算法也不能完美反映客觀實在,其中必然存在諸多偏差與偏見”(譚維智,2019)。教育領域的算法應用是將教育現象抽象成數據進行表征,其中的程序設計和計算邏輯是人為設計的,不可避免存在偏見,從而導致算法結果出現偏差。機器學習算法以教育數據為支撐進行模擬和診斷,診斷的準確性往往與數據質量相關,偏好“好數據”,造成“繭房效應”。最后,算法的誤用和濫用風險。從教育實踐者的視角看,算法分析過程是個“黑匣子”,“知其然而不知其所以然”,這無疑增加了算法使用的盲目性,無法針對性地服務于教育教學。算法的濫用還模糊了公共領域和個人隱私邊界,可能侵犯師生的正當權益。
數據質量、安全風險和算法倫理是教育數據治理亟需解決的難題。人工智能教育大腦本質上是類腦復雜教育系統,面對系統性和功能性如此復雜的教育大腦,本研究從結構模型、輕量級信息模型和核心模塊三方面剖析人工智能教育大腦的整體結構、信息流轉調度及核心功能,為教育數據治理實踐提供支架。
任何時期的教育變革都離不開物質技術基礎的支持,新一代信息技術驅動的教育新基建是支持教育大腦運轉的“基石”和“底座”(見圖1)。教育大腦的底層支撐技術以人工智能為核心,通過與物聯網、5G、云計算、邊緣計算、大數據、數字孿生等新技術的疊加,為教育提供了一套全新的基礎設施——教育新基建。從功能性結構來看,教育新基建主要包括信息基礎設施、融合基礎設施和創新基礎設施(祝智庭等,2022)。其中,信息基礎設施可細化為網絡通訊基礎設施、新技術基礎設施(如區塊鏈、數字孿生)和計算基礎設施。融合基礎設施指傳統教育基礎設施在人工智能等技術加持下形成的集時空、虛實環境于一體的融合型基礎設施。創新基礎設施指支持科技創新的基礎設施,可不斷為教育數字化轉型提供新型工具。

圖1 教育大腦結構模型
正如城市神經元網絡和云反射弧是城市大腦建設的重點內容,教育神經元網絡和教育云反射弧是教育大腦結構的核心內容。神經元是教育神經網絡的基本單元,每個神經元代表具備一定數據收集、存儲、分析和決策功能的教育子系統。它從層級上可分為校級神經元、區/縣級神經元和市級神經元,每個神經元按照一定的功能標準和安全標準相互聯通、資源共享,形成教育神經元網絡,為教育云反射弧提供統一的運轉基礎。每條通過技術聯通的教育神經元之間的鏈條通路便是一條教育云反射弧,對應不同教育需求,包括個體級需求、學科級需求和管理級需求。
教育大腦本質上是一個類腦復雜智能教育系統,將大量的教育系統、子系統和平臺等神經元鏈接起來,涉及眾多的復雜技術和因素。為了明晰教育大腦內部的數據流轉和信息安全調度,本研究分別針對學生成長管理、面向特定學科的自適應學習管理和線上線下融合智慧教育模式的需求,構建輕量級教育大腦信息模型(見圖2),以厘清數據和算法有效治理的交互機制。

圖2 輕量級教育大腦信息模型
教育大腦作為互聯網大腦的進化產物,其構建初衷是解決教育領域的重難點問題,響應教育需求。輕量級教育大腦信息模型包括教育神經元網絡、數據湖、數據倉庫、智能處理器和智能服務等模塊,遵循“問題驅動→數據輸入→數據共享→數據分析→數據服務→需求響應”的邏輯,通過模擬生物的反射弧結構,深度挖掘教育數據的潛藏價值,對教育問題或需求進行及時且智能化的反饋。教育神經元網絡由無數個相互聯結的教育神經元構成,每個教育神經元信息由教育內容、數據來源和數據集成規則等構成。教育內容可借助普適設備(如平板電腦等)、多模態傳感器、平臺日志、問卷和訪談等方式收集視頻、語音、文本、生物傳感等多模態數據(吳永和等,2021)。每個教育問題對應的云反射弧均需要匯聚多個教育神經元的數據,具體操作流程為:首先,將教育神經元中產生的海量異構數據像水一樣匯聚在數據湖中,數據湖以原始格式存儲數據,無需對數據進行結構化處理,保留數據之間自然形成的“血緣關系”,包括結構化數據、半/非結構化數據和二進制數據(如視/音頻);其次,教育神經元之間的數據共享和融通嚴格遵循數據質量、數據倫理和數據安全等規范和標準,以保障數據在開放共享過程中的質量和安全;再次,數據共享和融通將數據按一定的規范和標準格式化處理后存儲在數據倉庫中,作為智能分析容器的數據原材料;智能分析容器是將數據原材料轉為智能服務的“工廠”,由自底向上的三部分組成,分別是底層算法/模型庫、中層算法/模型匹配器和頂層服務組件;最后,提供智能決策、智能服務推送和數據可視化等智能化服務,將反射響應結果反饋給神經元以完成云反射,同時響應對應的教育問題,實現教育的精準化治理。
人工智能的發展是不斷模擬、擴展人類智能的過程,反觀教育領域的現實境況,人工智能技術“有計算而無算計”“有智能而無智慧”“有感知而無認知”。人工智能教育大腦要實現“眼觀六路、耳聽八方、融合思考”的教育發展愿景(顧小清等,2021),離不開人類群體智慧和機器群體智能的深度協作,更離不開智能算法和高質量數據的底層支撐。具體而言,教育大腦主要包括智能分析和數據融通兩大模塊(見圖3),它們可類比為教育大腦的“左右腦”,左腦追求理解與認知,右腦追求快速大量記憶和自動處理機能,左右腦相互協調,提升教育大腦的“智商”和“數商”。

圖3 教育大腦的核心模塊
1.數據融通模塊
教育大腦的數據融通模塊是以數據中臺技術為架構的數據匯聚中心,致力于實現教育數據的共享融通、規范統一和風險防范,主要功能包括:其一,基于區塊鏈、云計算和物聯網等技術構建數據湖,在邏輯上聯通各神經元以不同方式收集的多模態異構數據,既保證數據的“進化”和“血緣關系”可追蹤,又保障數據“物種”多樣性;其二,數據共享和流通需嚴格按照數據權限管理和風險防范制度,明確權責邊界,加強隱私保護,保障數據的安全流通;其三,嚴格遵循數據分類編碼標準、數據管理標準、數據質量評估標準和數據倫理標準,對數據生命周期全流程進行規范和監控,采用統一的標準化規則清洗、規范化、標簽化數據,將滿足規則的數據存入數據倉庫中,為后續智能分析持續提供“燃料”。顯然,數據融通模塊通過清洗、篩選、關聯多模態異構數據,打通數據流通渠道,提升數據質量,為教育數據的精細化治理奠定了基礎。
2.智能分析模塊
智能分析模塊是人工智能教育大腦的數據“加工廠”,它通過算法訓練、情境匹配、決策服務等,充分發揮機器群體智能以挖掘教育數據的潛在價值。首先,智能分析模塊儲存了合理、科學、豐富的資源庫,包括算法庫、模型庫和教育情境庫。其中,人工智能模型是人工智能算法(移植的開源算法或教育領域的創新算法)根據教育情境產生的教育數據訓練而得的。其次,智能時代的教育情境是多元變化的,只有在特定情境中選擇適切的人工智能算法/模型,才能提供精準的決策服務。因此,智能分析模塊提供了算法集選擇器、模型集選擇器和教育情境計算器,保證教育大腦能夠自主提供適切的計算和決策服務,提升教育大腦的“智商”。再次,人工智能算法的監管功能,通過設置算法的智能監管組件監督算法使用過程中的倫理問題,防止出現算法濫用、算法誤用和算法失靈等風險。最后,人工智能算法的創新功能,用于不斷迭代解決教育問題的人工智能算法,更新算法庫和模型庫,確保教育大腦的高效運轉。
教育數據治理是一個復雜且反復迭代的系統工程,目的是實現數據應用價值和風險管控。本研究提出的人工智能教育大腦以新一代智能技術為基礎,充分整合數據、算法和算力,打通教育各部門的業務壁壘,為數據資源共享與規約整合、數據安全和隱私保障、算法“善治”、決策智能化等提供治理支架。因此,基于新一代智能技術,將智能治理的理念融入教育治理,在對數據和算法進行治理的同時,將“冰冷”的數據和“呆板”的算法轉化為數據質量和風險防范的“利器”,是智能時代擺脫教育數據治理困境的實踐邏輯(見圖4)。

圖4 教育大腦賦能數據治理的實踐路徑
人工智能教育大腦為教育數據生命周期全流程提供了一系列質量規范,如數據分類編碼、數據標準、數據質量評估等,但我們仍需要開展頂層設計和戰略規劃,建立權責明晰的數據管理組織架構,配合教育大腦形成完備的管理體系。其一,建立科學合理的數據管理組織架構。進入智慧教育時代,教育數據管理模式已由“逐層上傳”的科層級模式逐步轉向“網格管理”的扁平化模式,各級教育部門需建立權責分明的數據管理中心,落實各級部門的權力和責任。這包括:一是確保數據生命周期的每一流程都“有人負責,有人監督”,一旦發現數據質量等問題能夠及時溯源;二是搭建各層級業務間的“溝通橋梁”,相互驗證數據的真實性和有效性,保障數據的質量和安全流轉。其二,完善數據生命周期全流程規范化制度。數據質量參差不齊歸根究底是缺乏規范化的數據標準和流程。這就有必要從政策和制度著手,加強數據全生命周期的制度建設:1)以數據標準、質量管控、數據共享權限等政策為依據,進行整體性制度設計,制定通用的數據規范格式;2)全流程遵循“數據收集→數據存儲→數據處理→數據傳輸→數據交換→數據銷毀”的數據標準制度,各層級數據管理中心采用統一的規范進行數據流通,保障數據的規范性、準確性、完備性和一致性,提升數據的應用價值。
人工智能時代,教育數據安全問題日益突出,如何利用技術手段防范安全風險成為教育數據治理的當務之急。人工智能教育大腦通過教育神經元網絡響應教育需求的過程中,為規避數據治理的安全風險需設置防范措施,如共享數據權限管理、數據風險防范、數據安全加固和隱私安全保障等,這些措施以智能技術為依托,遵循“風險識別→風險預警→風險管控”的系統流程,將風險防范的“先手”與風險消解的“后招”有效結合。第一,建立數據安全風險智能識別機制。這需要明確數據安全風險類別,通過數據挖掘和特征提取等技術對風險源進行特征提取,并建立數據安全風險模型準確識別數據安全風險。第二,建立數據安全風險實時預警機制,即基于數據挖掘、物聯網、大數據和機器學習等技術,快速整合多源的多模態風險數據,構建數據安全風險預警平臺,完善“快速感知、實時監測、事先預警”的一體化流程,實現對數據安全風險的實時預警。第三,建立數據安全風險智能管控機制。風險管控指針對數據泄露和數據破壞等風險預先采取的挽救措施,如梳理數據湖中的數據來源,進行數據血緣分析,對重要性和敏感程度不同的數據啟動不同級別的數字加密等。
人工智能技術嵌入教育系統帶來的不僅是技術問題,更多的是源于人類自身的人性和倫理問題。事實上,人們對技術應用于教育的監管能力遠不及技術的革新速度(譚維智,2019)。因此,為了確保人工智能教育大腦的良性運轉,我們需要凝聚多元教育主體的智慧,對算法/模型進行倫理監管,以保證其符合“以人為本”的教育價值觀。這包括:1)算法設計需符合教育邏輯。算法設計者需以“人的發展”為設計理念,根據“人的體驗”不斷改善算法設計的影響因素。2)算法選擇需進行評估。算法對大多數教師、學生或教育管理者等使用者來說是“黑匣子”,這就需要對算法進行質量評估和風險評估。一方面,算法使用者應根據具體教育情境進行算法遷移、模型訓練和算法更新,評估模型計算是否丟棄了數據攜帶的重要信息以及從其他領域遷移的算法是否符合教育情境需要;另一方面,算法使用者應具備自主評估和管控算法風險的能力,厘清算法或模型的局限性及可能帶來的風險,預設風險應對方案。3)算法應用需先經測試。智能產品進入學校,需經過情境測試和教育效果評估,接受家長、教師、管理者和專家的審查。可見,人工智能教育大腦為凝聚教育管理者、教師、學生、家長等的集體智慧提供了接口,從“算法設計、算法選擇、算法應用”三個層面構建算法倫理監管機制,為教育數據治理提供算法倫理保障。