




摘要:當(dāng)前,教育信息化正處于高速發(fā)展時期,教育數(shù)據(jù)隱私風(fēng)險不容忽視。為有效保護(hù)教育數(shù)據(jù)隱私,文章采用系統(tǒng)文獻(xiàn)分析法,首先從研究時間、研究主題兩個維度梳理了教育數(shù)據(jù)隱私保護(hù)研究的發(fā)展歷程,隨后揭示了智能校園、智能虛擬教學(xué)空間、教育大數(shù)據(jù)平臺三大教育信息化應(yīng)用場景中存在的教育數(shù)據(jù)隱私保護(hù)問題,最后針對這些問題提出教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案。該方案提供隱私泄露行為監(jiān)測、隱私保護(hù)分級分類兩大功能,整合3種模型訓(xùn)練方式與9種隱私保護(hù)技術(shù)進(jìn)行三級隱私保護(hù),可實現(xiàn)不同教育應(yīng)用場景下模型訓(xùn)練方式與隱私保護(hù)技術(shù)的個性化配置,從而全場景保護(hù)教育數(shù)據(jù)隱私,促進(jìn)教育信息化安全、健康發(fā)展。
關(guān)鍵詞:教育數(shù)據(jù)隱私;隱私保護(hù);技術(shù)支持;教育信息化
【中圖分類號】G40-057 【文獻(xiàn)標(biāo)識碼】A 【論文編號】1009—8097(2023)05—0109—10 【DOI】10.3969/j.issn.1009-8097.2023.05.012
新型技術(shù)的快速發(fā)展,促使教育走向數(shù)字化、信息化、智慧化[1]。相較于傳統(tǒng)的教育信息化,當(dāng)前教育新基建更強(qiáng)調(diào)數(shù)據(jù)的深度使用[2],易引發(fā)數(shù)據(jù)隱私安全問題。因此,如何在使用教育數(shù)據(jù)時保護(hù)隱私安全,是一個重要的研究課題。當(dāng)前,主要通過政策和技術(shù)兩條路徑來解決隱私保護(hù)問題[3]。其中,政策的作用在于以規(guī)章為框架,規(guī)范數(shù)據(jù)隱私保護(hù)的方式與流程,重在培養(yǎng)相關(guān)倫理意識;而技術(shù)的作用在于通過多樣化的隱私保護(hù)技術(shù),滲透進(jìn)規(guī)章制度之中,從技術(shù)的角度支撐政策落地實施。在政策方面,當(dāng)前更關(guān)注通用數(shù)據(jù)隱私安全,較少關(guān)注教育數(shù)據(jù);而在技術(shù)方面,當(dāng)前大多數(shù)學(xué)者僅研究單一教育數(shù)據(jù)隱私保護(hù)技術(shù),或提出較為寬泛的教育數(shù)據(jù)隱私保護(hù)流程。基于此,本研究采用系統(tǒng)文獻(xiàn)分析法,首先梳理了教育數(shù)據(jù)隱私保護(hù)研究的發(fā)展歷程,之后揭示了教育信息化應(yīng)用場景中的教育數(shù)據(jù)隱私保護(hù)問題,在此基礎(chǔ)上本研究嘗試從技術(shù)角度提出教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案,以實現(xiàn)對教育數(shù)據(jù)隱私的有效保護(hù),推動教育信息化安全、健康發(fā)展。
一 教育數(shù)據(jù)隱私保護(hù)研究的發(fā)展歷程
2012年以前,國家對教育信息化的重視程度相對較低,教育數(shù)據(jù)隱私的相關(guān)研究較少。2012年3月,教育部頒布《教育信息化十年發(fā)展規(guī)劃(2011-2020)》,第一次從戰(zhàn)略層面強(qiáng)調(diào)教育信息化要引領(lǐng)教育現(xiàn)代化的發(fā)展[4]。基于此,本研究以知網(wǎng)、維普索引庫和Web of Science為文獻(xiàn)來源,以“教育數(shù)據(jù)隱私”(Educational Data Privacy)、“教育數(shù)據(jù)安全”(Education Data Security)、“教育數(shù)據(jù)保護(hù)”(Education Data Protection)和“教育數(shù)據(jù)倫理”(Ethics of Educational Data)為關(guān)鍵詞進(jìn)行檢索,檢索起止時間設(shè)為2012年3月~2022年12月,共獲得668篇文獻(xiàn)。根據(jù)研究目的,本研究按照以下條件進(jìn)行文獻(xiàn)篩選:①研究情境與教育數(shù)據(jù)隱私直接相關(guān),排除內(nèi)容為教育數(shù)據(jù)體系構(gòu)建、信息安全教育等方面的文章,旨在提升樣本的精確性;②文章來源于CSSCI、北大核心、SSCI、IEEE類期刊,排除來源為普通期刊、會議等方面的文章,旨在提升樣本的研究質(zhì)量。經(jīng)篩選,最終得到符合研究要求的樣本文獻(xiàn)共73篇。此外,由于數(shù)據(jù)隱私保護(hù)涉及現(xiàn)有政策規(guī)范,本研究從中國人大網(wǎng)(網(wǎng)址:http://www.npc.gov.cn/)、中華人民共和國教育部官網(wǎng)(網(wǎng)址:http://www.moe.gov.cn/)等相關(guān)網(wǎng)站,共搜集了23份相關(guān)的國家政策文件。本研究擬從研究時間、研究主題進(jìn)行分析,梳理教育數(shù)據(jù)隱私保護(hù)研究的發(fā)展歷程。
1 研究時間
對23份相關(guān)的國家政策文件和73篇樣本文獻(xiàn)按照年份分別統(tǒng)計各年的政策數(shù)量、文獻(xiàn)數(shù)量并繪制折線圖,可得到我國教育數(shù)據(jù)隱私保護(hù)相關(guān)研究的政策時間歷程、文獻(xiàn)時間歷程,具體如圖1、圖2所示。圖1顯示,教育數(shù)據(jù)隱私保護(hù)相關(guān)政策于2019年達(dá)到頂峰,并從2019年進(jìn)入在線教育的快速發(fā)展時期。圖2顯示,2012~2019年相關(guān)的文獻(xiàn)數(shù)量較少,為教育數(shù)據(jù)隱私保護(hù)研究的萌芽階段;2020~2022年相關(guān)的文獻(xiàn)數(shù)量約為萌芽階段的1.5倍,為教育數(shù)據(jù)隱私保護(hù)研究的快速發(fā)展階段。這兩個階段文獻(xiàn)數(shù)量的變化,反映了教育數(shù)據(jù)隱私保護(hù)研究受政策與在線教育行業(yè)的正向影響。
2 研究主題
在政策方面,本研究對23份相關(guān)的國家政策文件按年份提取教育數(shù)據(jù)隱私保護(hù)相關(guān)政策主題,結(jié)果如表1所示。2017年以前,我國教育數(shù)據(jù)隱私保護(hù)政策更關(guān)注教育系統(tǒng)的信息安全。2017年,我國開始實施《中華人民共和國網(wǎng)絡(luò)安全法》。2018年,教育部每年發(fā)布的文件《教育信息化工作要點(diǎn)》更名為《教育信息化和網(wǎng)絡(luò)安全工作要點(diǎn)》,將網(wǎng)絡(luò)安全納入教育信息化發(fā)展的重要工作。此后,教育數(shù)據(jù)隱私保護(hù)相關(guān)政策逐漸完善、研究主題維度不斷增加、教育數(shù)據(jù)隱私保護(hù)相關(guān)政策相繼出臺,如2019年我國發(fā)布首部兒童信息網(wǎng)絡(luò)保護(hù)的專門規(guī)章《兒童個人信息網(wǎng)絡(luò)保護(hù)規(guī)定》、2022年發(fā)布《直播類在線教學(xué)平臺安全保障要求》。
在學(xué)術(shù)研究方面,本研究將73篇樣本文獻(xiàn)導(dǎo)入CiteSpace 6.2.R3軟件,得到中文關(guān)鍵詞聚類分別為“數(shù)據(jù)隱私”“數(shù)據(jù)安全”“責(zé)任倫理”“倫理風(fēng)險”“教育倫理”“體系構(gòu)建”,英文關(guān)鍵詞聚類分別為“分析”“數(shù)據(jù)隱私”“學(xué)習(xí)分析”“數(shù)字媒介”“教育評價”。可見,學(xué)術(shù)研究方面不僅關(guān)注教育數(shù)據(jù)隱私與安全問題,也關(guān)注教育數(shù)據(jù)倫理問題。在此基礎(chǔ)上,本研究從教育數(shù)據(jù)隱私保護(hù)體系、教育數(shù)據(jù)倫理、教育數(shù)據(jù)隱私保護(hù)技術(shù)、其它四個維度對73篇樣本文獻(xiàn)的標(biāo)題與摘要進(jìn)行分析,得到教育數(shù)據(jù)隱私保護(hù)研究主題的論文分布情況,如表2所示。2019年以前,教育數(shù)據(jù)隱私相關(guān)研究更重視教育數(shù)據(jù)體系的隱私保護(hù)技術(shù)框架設(shè)計[5][6];而2020年之后更關(guān)注教育數(shù)據(jù)倫理[7][8]、新型隱私保護(hù)技術(shù)(如聯(lián)邦學(xué)習(xí)[9]、區(qū)塊鏈[10])的有效應(yīng)用,并嘗試從人文關(guān)懷與技術(shù)實現(xiàn)兩個角度進(jìn)一步推進(jìn)教育數(shù)據(jù)隱私保護(hù)的相關(guān)研究。
二 教育信息化應(yīng)用場景中的教育數(shù)據(jù)隱私保護(hù)問題
由于教育信息化發(fā)展與教育數(shù)據(jù)隱私緊密關(guān)聯(lián),而不同教育信息化階段將誕生不同信息化場景,因此會產(chǎn)生新的教育數(shù)據(jù)隱私保護(hù)問題。例如,在教育大數(shù)據(jù)階段出現(xiàn)了教育數(shù)據(jù)開放交互場景,這就需要關(guān)注數(shù)據(jù)所有權(quán)與數(shù)據(jù)隱私保護(hù)的問題。然而,當(dāng)前相關(guān)政策與文獻(xiàn)在教育信息化具體場景方面的研究較少,更多地以“教育數(shù)據(jù)”概括所有教育數(shù)據(jù)類型進(jìn)行教育數(shù)據(jù)隱私保護(hù)研究。在政策方面,僅2022年教育部發(fā)布《直播類在線教學(xué)平臺安全保障要求》,關(guān)注直播教學(xué)的數(shù)據(jù)安全保障;而在學(xué)術(shù)研究方面,李鳳英等[11]提出了移動學(xué)習(xí)的隱私保護(hù)方案、Prinsloo等[12]探討了慕課背景下的數(shù)據(jù)隱私問題。整體而言,現(xiàn)有的政策與學(xué)術(shù)研究大多僅圍繞單一教育信息化場景進(jìn)行隱私問題的探討,存在一定的局限性。為進(jìn)一步細(xì)化教育信息化推進(jìn)過程中存在的數(shù)據(jù)隱私問題,本研究對教育信息化常見應(yīng)用場景進(jìn)行了研究分析。
通過對23份相關(guān)的國家政策文件和73篇樣本文獻(xiàn)進(jìn)行分析,本研究將當(dāng)前教育信息化常見應(yīng)用場景主要?dú)w為智能校園(12份國家政策文件、8篇樣本文獻(xiàn))、智能虛擬教學(xué)空間(14份國家政策文件、9篇樣本文獻(xiàn))、教育大數(shù)據(jù)平臺(13份國家政策文件、15篇樣本文獻(xiàn))三大類。這三大教育信息化應(yīng)用場景存在的教育數(shù)據(jù)隱私保護(hù)問題主要如下:
1 智能校園的數(shù)據(jù)類型復(fù)雜、隱私保護(hù)等級要求不一
智能校園是指在數(shù)字化校園的基礎(chǔ)上,通過物聯(lián)網(wǎng)、人工智能等技術(shù)搜集教育數(shù)據(jù)并進(jìn)行智能計算,從而賦能線下教學(xué)環(huán)境,實現(xiàn)校園的數(shù)字化、信息化和智能化。智能校園覆蓋學(xué)生全天在校的相關(guān)教育數(shù)據(jù),包含學(xué)生校園基礎(chǔ)檔案、學(xué)生上課行為等不同數(shù)據(jù)類型和一級、二級、三級等不同隱私等級數(shù)據(jù)。從數(shù)據(jù)類型角度來看,若只采用單一的隱私保護(hù)技術(shù),難以實現(xiàn)全數(shù)據(jù)類型的隱私保護(hù);從隱私等級角度來看,不同教育數(shù)據(jù)的隱私保護(hù)等級要求不一,若只使用一種隱私保護(hù)技術(shù),可能存在隱私保護(hù)等級過低導(dǎo)致數(shù)據(jù)泄露,或因過度安全保護(hù)而產(chǎn)生昂貴的算力問題。因此,智能校園的數(shù)據(jù)隱私保護(hù)存在隱私需求多樣化、差異化的問題。
2 智能虛擬教學(xué)空間的腦機(jī)交互風(fēng)險大、隱私安全危險高
智能虛擬教學(xué)空間是由虛擬現(xiàn)實、增強(qiáng)現(xiàn)實等技術(shù)構(gòu)建的線上教學(xué)環(huán)境,與智能校園可共同構(gòu)建“線上線下學(xué)習(xí)一體化、泛在學(xué)習(xí)的教學(xué)環(huán)境”。元宇宙課堂是智能虛擬教學(xué)空間的發(fā)展趨勢之一,其利用腦機(jī)接口、虛擬現(xiàn)實等技術(shù)打造沉浸式的教學(xué)環(huán)境,可提高學(xué)生在虛擬課堂的參與感與專注度。
在技術(shù)作用方式上,根據(jù)是否對身體造成創(chuàng)口,腦機(jī)接口技術(shù)可分為侵入式技術(shù)和非侵入式技術(shù)。由于安全是教育的第一要素,因此并不提倡在教育中采用侵入式的腦機(jī)接口技術(shù),以避免出現(xiàn)較為嚴(yán)重的安全與倫理問題[13]。在搜集的數(shù)據(jù)類型上,腦機(jī)接口技術(shù)可搜集腦電信號,這屬于更隱私的信息,在一定程度上可以反映一個人的想法,使得大腦中非行為表現(xiàn)的信息被暴露出來。例如,填寫密碼時,機(jī)器會將大腦對應(yīng)的腦電信號顯示出來,入侵者可以根據(jù)其腦電信號推測原始密碼數(shù)據(jù),從而泄露隱私[14]。非侵入式的腦機(jī)接口技術(shù)在技術(shù)發(fā)展初期存在獲取信息不準(zhǔn)確、不穩(wěn)定等問題,但隨著研究發(fā)展的進(jìn)步,當(dāng)前已經(jīng)可以較為快速、準(zhǔn)確地搜集個體生物腦電信號[15][16]。腦電信號的數(shù)據(jù)信息雖然可以實現(xiàn)更智能的交互,但如果模型數(shù)據(jù)被竊取,數(shù)據(jù)所構(gòu)建出來的虛擬人就會更加真實,也就更容易發(fā)生詐騙事件。因此,智能虛擬教學(xué)空間對于教育數(shù)據(jù)隱私保護(hù)的等級要求更高,以防止出現(xiàn)危害學(xué)生數(shù)字身份安全的問題。
3 教育大數(shù)據(jù)平臺的多平臺數(shù)據(jù)交互難、集中訓(xùn)練易泄露
教育大數(shù)據(jù)平臺將各類教育數(shù)據(jù)集中于在線平臺進(jìn)行共享、計算與訓(xùn)練,構(gòu)建教育大數(shù)據(jù)模型,從而更好地推動教育智能化發(fā)展。教育大數(shù)據(jù)平臺需打通“教育數(shù)據(jù)壁壘”,獲取用戶在不同教育平臺產(chǎn)生的行為數(shù)據(jù),從而構(gòu)建教育數(shù)據(jù)模型,主要涉及兩個隱私問題:①各教育平臺由于商業(yè)利益、數(shù)據(jù)所有權(quán)等問題,難以直接提供用戶明文數(shù)據(jù),需要獲取用戶授權(quán),以及進(jìn)行脫敏處理,從而使多平臺數(shù)據(jù)交互存在困難;②若采用傳統(tǒng)的集中式訓(xùn)練模式,一旦集中訓(xùn)練的節(jié)點(diǎn)出現(xiàn)不可信或被第三方攻擊,就會導(dǎo)致數(shù)據(jù)泄露。而學(xué)習(xí)者隱私權(quán)被侵犯,將會產(chǎn)生恐慌,如2022年的學(xué)習(xí)通信息泄露事件。因此,教育大數(shù)據(jù)平臺應(yīng)更多地關(guān)注數(shù)據(jù)交互中的隱私保護(hù)問題,即要求教育數(shù)據(jù)模型訓(xùn)練方式或數(shù)據(jù)交互方式打破“教育數(shù)據(jù)壁壘”,以促進(jìn)教育數(shù)據(jù)隱私與安全共享、推動教育數(shù)據(jù)開放,實現(xiàn)真正的教育大數(shù)據(jù)應(yīng)用。
三 教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案
針對上述教育信息化應(yīng)用場景中的教育數(shù)據(jù)隱私保護(hù)問題,本研究認(rèn)為可從預(yù)防和保護(hù)兩方面著手:一方面,為預(yù)防教育數(shù)據(jù)隱私泄露,或在隱私泄露第一時間及時止損,可進(jìn)行隱私泄露行為監(jiān)測,對教育數(shù)據(jù)竊取、攻擊、非法轉(zhuǎn)移等行為進(jìn)行監(jiān)控;另一方面,為有效保護(hù)教育數(shù)據(jù)隱私,可設(shè)計“隱私保護(hù)分級分類”的教育數(shù)據(jù)隱私保護(hù)方案,根據(jù)不同的隱私保護(hù)等級需求,匹配相應(yīng)的隱私保護(hù)技術(shù),以實現(xiàn)個性化的教育數(shù)據(jù)隱私保護(hù)。在此基礎(chǔ)上,本研究提出教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案,如圖3所示。
教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案主要包括:①模型訓(xùn)練,關(guān)注教育數(shù)據(jù)交互方式;②隱私保護(hù)技術(shù),關(guān)注教育明文數(shù)據(jù)變?yōu)殡[私數(shù)據(jù)的方式。不同的隱私保護(hù)技術(shù)具有不同的特性,如密碼學(xué)技術(shù)雖然隱私保密程度高,但是計算效率相對較低,不適用于對數(shù)據(jù)處理效率要求高的場景(如直播授課)。為實現(xiàn)全場景的教育數(shù)據(jù)隱私安全保護(hù),本研究通過對3種模型訓(xùn)練方式(即聯(lián)邦學(xué)習(xí)、分布式訓(xùn)練、集中式訓(xùn)練)與9種隱私保護(hù)技術(shù)(即同態(tài)加密、安全多方計算、全局差分隱私、局部差分隱私、泛化、抑制、分解、加法擾動、乘法擾動)進(jìn)行整合分析,得到3個隱私保護(hù)層級,其中“一級隱私保護(hù)”對應(yīng)于最高隱私保護(hù)要求,而“二級隱私保護(hù)”“三級隱私保護(hù)”的隱私保護(hù)程度依次降低。
1 隱私泄露行為監(jiān)測:對內(nèi)對外雙把控
預(yù)防隱私泄露首先要保證數(shù)據(jù)授權(quán)設(shè)計合理,防止由于數(shù)據(jù)管理層級授權(quán)不當(dāng)或個人惡意使用而導(dǎo)致隱私泄露。具體來說,首先要科學(xué)設(shè)計教育數(shù)據(jù)庫的數(shù)據(jù)查看、使用、編輯等權(quán)限,避免人為主觀泄露隱私。其次,對于第三方攻擊數(shù)據(jù)庫,可通過隱私泄露檢測技術(shù)監(jiān)測安全攻擊,常見的隱私泄露檢測方法為靜態(tài)分析、動態(tài)分析和動靜結(jié)合分析。其中,靜態(tài)分析方法處理速度較快,但難以處理實時數(shù)據(jù);動態(tài)分析可處理實時數(shù)據(jù),但對機(jī)器的性能要求較高——在實際的教育教學(xué)應(yīng)用中,可根據(jù)場景特性采用動靜結(jié)合分析的方法,實現(xiàn)隱私泄露行為檢測技術(shù)配置的最優(yōu)化。最后,若教育數(shù)據(jù)隱私泄露,采用數(shù)字水印技術(shù)可在數(shù)據(jù)泄露發(fā)生的第一時間準(zhǔn)確溯源,找回被竊取的數(shù)據(jù)。數(shù)字水印技術(shù)的工作原理是將特定的信息(如文字、二維碼等)嵌入數(shù)字信號,實現(xiàn)對教育系統(tǒng)內(nèi)部數(shù)據(jù)文件全生命周期的追溯。
2 隱私保護(hù)分級分類:差異化保護(hù)隱私
隱私保護(hù)要分級分類,做好差異化隱私保護(hù):①“一級隱私保護(hù)”為最高級,其模型訓(xùn)練可采用“聯(lián)邦學(xué)習(xí)”方式,隱私保護(hù)技術(shù)可采用密碼學(xué)技術(shù)與差分隱私技術(shù);②“二級隱私保護(hù)”的模型訓(xùn)練可采用“分布式訓(xùn)練”方式,隱私保護(hù)技術(shù)可采用匿名技術(shù);③“三級隱私保護(hù)”的模型訓(xùn)練可采用“集中式訓(xùn)練”方式,隱私保護(hù)技術(shù)可采用擾動技術(shù)。
(1)一級隱私保護(hù)
一級隱私保護(hù)為教育人工智能中最高級的隱私保護(hù)類型,主要面向數(shù)據(jù)隱私要求高、數(shù)據(jù)泄露影響大的教育數(shù)據(jù)類型或場景。例如,采集的生物相關(guān)信息(包含基因、指紋、瞳孔信息等)一旦泄露,就有可能出現(xiàn)假冒的“數(shù)字克隆人”、個人信息盜用于借貸等嚴(yán)重隱私問題。
①模型訓(xùn)練方式:聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)由Google于2015年提出[17],是一種分布式的機(jī)器學(xué)習(xí)技術(shù),可實現(xiàn)在無可信第三方的場景下進(jìn)行多數(shù)據(jù)方的安全計算,其工作原理如圖4所示。以“學(xué)生學(xué)習(xí)行為數(shù)據(jù)模型訓(xùn)練”為例,要求由多個與學(xué)生學(xué)習(xí)行為相關(guān)的教育數(shù)據(jù)方共同對一個數(shù)據(jù)模型進(jìn)行訓(xùn)練——先由各參與方在自己的終端設(shè)備生成本地學(xué)習(xí)行為數(shù)據(jù)模型,將模型相關(guān)的參數(shù)(而非明文數(shù)據(jù))上傳至中心模型進(jìn)行訓(xùn)練;之后中心模型將從各方模型(學(xué)校、教育機(jī)構(gòu)等)獲得的參數(shù)進(jìn)行整合,進(jìn)行模型的訓(xùn)練迭代,并將新的學(xué)生學(xué)習(xí)行為數(shù)據(jù)模型參數(shù)返回給各方本地模型,進(jìn)行參數(shù)更新。通過本地模型和中心模型的反復(fù)迭代訓(xùn)練,直至中心模型訓(xùn)練至最優(yōu)狀態(tài),即可輸出當(dāng)?shù)貙W(xué)生的學(xué)習(xí)行為數(shù)據(jù)模型。
聯(lián)邦學(xué)習(xí)與分布式訓(xùn)練、集中式訓(xùn)練的對比情況如表3所示。聯(lián)邦學(xué)習(xí)采用分布式的訓(xùn)練方式,通過減少中心服務(wù)器中用戶數(shù)據(jù)的占用來提高隱私保護(hù)程度。因此,當(dāng)部分教育節(jié)點(diǎn)出現(xiàn)故障時,對模型訓(xùn)練的影響較小,具有一定的容錯性,隱私泄露風(fēng)險較低。在數(shù)據(jù)交互方面,聯(lián)邦學(xué)習(xí)的數(shù)據(jù)方來自不同的教育設(shè)備端,設(shè)備的網(wǎng)絡(luò)環(huán)境條件并不完全相同(如學(xué)校主要采用有線網(wǎng)絡(luò)、手機(jī)設(shè)備常采用無線網(wǎng)絡(luò))。聯(lián)邦學(xué)習(xí)可適應(yīng)不同教育場景進(jìn)行隱私保護(hù),具有可用性高的特點(diǎn)。因此,在多數(shù)據(jù)方參與的場景下,相較于分布式訓(xùn)練、集中式訓(xùn)練,聯(lián)邦學(xué)習(xí)訓(xùn)練的效果更好[18],且更注重隱私保護(hù)[19]。
②隱私保護(hù)技術(shù):密碼學(xué)技術(shù)與差分隱私技術(shù)。密碼學(xué)技術(shù)是指通過對數(shù)據(jù)進(jìn)行加密,來實現(xiàn)數(shù)據(jù)隱私保護(hù)的方式,常用同態(tài)加密、安全多方計算兩種技術(shù)。其中,同態(tài)加密技術(shù)將明文信息加密后進(jìn)行運(yùn)算,所得密文結(jié)果經(jīng)解密后等同于經(jīng)過相同運(yùn)算下的明文數(shù)據(jù)處理結(jié)果[20],涉及的數(shù)據(jù)方較少,但保密性較強(qiáng),因此更適合用于教育數(shù)據(jù)云加密存儲、教育項目投標(biāo)等場景。而安全多方計算是在無可信第三方、數(shù)據(jù)存儲不遷移的情況下,協(xié)同多個教育方參與目標(biāo)函數(shù)的運(yùn)算。每個參與方只能獲取目標(biāo)函數(shù)的計算結(jié)果,而無法窺探其他參與方的信息,存儲數(shù)據(jù)相互隔離——當(dāng)其中一方遭受攻擊時,其他參與方的數(shù)據(jù)信息也不會被竊取。與同態(tài)加密技術(shù)相比,安全多方計算的可參與方數(shù)量更多,但計算效率降低,適合大規(guī)模教育數(shù)據(jù)方共同計算的場景,如輸出某地區(qū)的年度教育數(shù)據(jù)報表。
差分隱私技術(shù)是一種具有嚴(yán)格數(shù)學(xué)理論證明的技術(shù),可使輸出結(jié)果的概率分布不會因為數(shù)據(jù)集內(nèi)某一記錄的改變(如增加、刪除或修改)而產(chǎn)生明顯差異,可抵抗推理攻擊。根據(jù)作用范圍,差分隱私技術(shù)可分為全局差分隱私技術(shù)和局部差分隱私技術(shù)。其中,全局差分隱私技術(shù)是指經(jīng)過函數(shù)計算后,統(tǒng)一添加數(shù)據(jù)噪聲,以保護(hù)數(shù)據(jù)隱私;而局部差分隱私技術(shù)是指各數(shù)據(jù)方先各自添加噪聲,再參與函數(shù)計算——兩者的區(qū)別在于添加噪聲的先后順序不一,但都可以維持?jǐn)?shù)據(jù)分布,因此不適用于教育中精細(xì)搜索的場景(如考試成績計算),但適合教育趨勢分析場景。
(2)二級隱私保護(hù)
①模型訓(xùn)練方式:分布式訓(xùn)練。區(qū)別于聯(lián)邦學(xué)習(xí),分布式訓(xùn)練采集的數(shù)據(jù)為明文數(shù)據(jù),而不是模型參數(shù)。分布式訓(xùn)練的節(jié)點(diǎn)一般處于專用機(jī)房,如地方教育局本地系統(tǒng);適用于數(shù)據(jù)來源穩(wěn)定且可采用明文數(shù)據(jù)的教育場景,如國家政府的教育年度報告。
②隱私保護(hù)技術(shù):匿名技術(shù)。匿名技術(shù)的工作原理是切斷原始數(shù)據(jù)內(nèi)容與數(shù)據(jù)所有者的關(guān)系,實現(xiàn)教育數(shù)據(jù)隱私保護(hù)。為達(dá)到各種數(shù)據(jù)匿名的標(biāo)準(zhǔn)(如K-匿名性、L-多樣性等),可采用泛化、抑制、分解等技術(shù)[21]。其中,泛化技術(shù)是指用比原始數(shù)據(jù)更抽象、更概括的值代替原始值,如將學(xué)生的原始成績“61分”改為“60~70分”,適用于只統(tǒng)計數(shù)據(jù)范圍的場景。抑制技術(shù)指的是刪除原始數(shù)據(jù),或用抽象符號如“?”或“*”代替。抑制技術(shù)會使數(shù)據(jù)的可用性直接消失,因此不適合大規(guī)模使用,僅適用于個別用戶的敏感信息(如貧困生信息)保護(hù)。分解技術(shù)指的是在不修改數(shù)據(jù)內(nèi)容的前提下,采用“有損連接”模糊數(shù)據(jù)內(nèi)容信息與數(shù)據(jù)所有者的關(guān)系。總的來說,匿名技術(shù)適用于對數(shù)據(jù)可用性和數(shù)據(jù)效率要求中等的場景。
(3)三級隱私保護(hù)
①模型訓(xùn)練方式:集中式訓(xùn)練。集中式訓(xùn)練一般采集明文數(shù)據(jù)參與模型構(gòu)建,且需要可信第三方的參與,否則會存在較大的隱私風(fēng)險。參與集中式訓(xùn)練的數(shù)據(jù)在中心節(jié)點(diǎn)統(tǒng)一計算,服務(wù)器的承載壓力較大,適用于擁有較強(qiáng)計算能力的教育官方平臺。
②隱私保護(hù)技術(shù):擾動技術(shù)。擾動技術(shù)旨在通過對數(shù)據(jù)添加噪聲,來降低數(shù)據(jù)的可用性,提高數(shù)據(jù)的隱私保護(hù)程度,適合對安全等級要求不高、但計算效率高的場景。常用的數(shù)據(jù)擾動技術(shù)為加法擾動和乘法擾動。加法擾動指的是直接添加一個噪聲,但噪聲是獨(dú)立于數(shù)據(jù)的;乘法擾動指的是數(shù)據(jù)乘以一個噪聲,而這個噪聲有一個均值,其計算量相對于加法擾動更大。這兩種技術(shù)與差分隱私技術(shù)雖然都是擾動技術(shù),但其根本區(qū)別在于差分隱私技術(shù)具有嚴(yán)格的數(shù)據(jù)證明,對數(shù)據(jù)損失具有可控性;而加法擾動和乘法擾動對數(shù)據(jù)損失沒有精確的控制,會較大概率地影響數(shù)據(jù)間原有的關(guān)系。因此,雖然擾動技術(shù)可用于隱私保護(hù),但會降低數(shù)據(jù)的有效性。
為進(jìn)一步厘清教育數(shù)據(jù)隱私技術(shù)與教育信息化場景之間的關(guān)系,本研究結(jié)合上述分析,對教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案所涉隱私保護(hù)技術(shù)進(jìn)行了對比,具體如表4所示。以智能校園為例,由于數(shù)據(jù)類型復(fù)雜,無法選用單一的隱私保護(hù)技術(shù),故可根據(jù)具體場景搭配選擇相應(yīng)的隱私保護(hù)技術(shù),如成績單發(fā)送涉及一對一通訊,可采用同態(tài)加密技術(shù):模型訓(xùn)練方面,對于隱私保護(hù)等級較高的教育數(shù)據(jù)可采用聯(lián)邦學(xué)習(xí),只獲取模型參數(shù)即可。以智能虛擬教學(xué)環(huán)境為例,若為私人教育平臺,建議采用分布式訓(xùn)練;由于智能虛擬教學(xué)環(huán)境涉及學(xué)生的大量在線信息,故可根據(jù)不同學(xué)生在線信息的隱私保護(hù)需求,搭配相應(yīng)的隱私保護(hù)技術(shù),如學(xué)生想隱藏自己在在線學(xué)習(xí)社區(qū)的昵稱,可以使用抑制技術(shù)。以教育大數(shù)據(jù)平臺為例,若采用集中式訓(xùn)練,建議只訓(xùn)練隱私保護(hù)等級較低的信息,如學(xué)生的基礎(chǔ)信息檔案僅含簡單的姓名、年齡,而不涉及家庭住址、生物信息等。此外,教育信息化還有許多應(yīng)用場景,但同一應(yīng)用場景類型也可能擁有不同的計算環(huán)境和隱私要求,因此要科學(xué)分析教育信息化應(yīng)用環(huán)境及其隱私保護(hù)需求,合理搭配隱私保護(hù)技術(shù),以實現(xiàn)有效的教育數(shù)據(jù)隱私保護(hù)。
四 結(jié)語
保護(hù)教育數(shù)據(jù)隱私,是教育信息化健康安全發(fā)展中的重要一環(huán)。本研究采用系統(tǒng)文獻(xiàn)分析法,從研究時間、研究主題兩個維度梳理了教育數(shù)據(jù)隱私保護(hù)的發(fā)展歷程。考慮到教育信息化的發(fā)展影響教育數(shù)據(jù)隱私發(fā)展,而不同教育信息化場景具有不同的數(shù)據(jù)隱私保護(hù)需求,因此本研究聚焦智能校園、智能虛擬教學(xué)環(huán)境、教育大數(shù)據(jù)平臺三大教育信息化應(yīng)用場景,揭示了這三大教育信息化應(yīng)用場景存在的教育數(shù)據(jù)隱私保護(hù)問題。在此基礎(chǔ)上,本研究提出包含隱私泄露行為監(jiān)測、隱私保護(hù)分級分類兩大功能的教育數(shù)據(jù)隱私保護(hù)的技術(shù)支持方案。此方案將3種模型訓(xùn)練方式與9種隱私保護(hù)技術(shù)進(jìn)行整合分析,得到3個隱私保護(hù)層級,可個性化適配不同的教育數(shù)據(jù)隱私保護(hù)需求,實現(xiàn)全場景的教育數(shù)據(jù)隱私保護(hù)。
然而,本研究只將常用的3種模型訓(xùn)練方式與9種隱私保護(hù)技術(shù)納入了技術(shù)支持方案,在技術(shù)類型的全面性上還存在一定的局限性。后續(xù)研究可基于3個隱私保護(hù)層級,進(jìn)一步擴(kuò)充技術(shù)支持方案,以實現(xiàn)更全面、更多元的教育數(shù)據(jù)隱私保護(hù)。為真正推動技術(shù)支持方案的落地實施,還需在技術(shù)兼容方案設(shè)計、隱私等級評價等方面進(jìn)行深入研究,如在技術(shù)兼容方案設(shè)計方面,可將不同的隱私保護(hù)技術(shù)融入同一技術(shù)框架,以發(fā)揮最優(yōu)的隱私保護(hù)作用,并平衡好數(shù)據(jù)可用與隱私保護(hù)的關(guān)系;而在隱私等級評價方面,可建立教育數(shù)據(jù)隱私等級評價制度,標(biāo)準(zhǔn)化與量化教育數(shù)據(jù)隱私,確定在不同情況下哪些教育數(shù)據(jù)屬于高級隱私保護(hù)層級、哪些屬于中級隱私保護(hù)層級,從而制定細(xì)粒度的隱私保護(hù)方案,以控制技術(shù)開銷,節(jié)省算力成本。
參考文獻(xiàn)
[1]Sandeepa C, Siniarski B, Kourtellis N, et al. A survey on privacy for B5G/6G: New privacy challenges, and research directions[J]. Journal of Industrial Information Integration, 2022,30:1-37.
[2]教育部等六部門.教育部等六部門關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見[OL].
lt;http://www.moe.gov.cn/srcsite/A16/s3342/202107/t20210720_545783.htmlgt;
[3]Monreale A, Rinzivillo S, Pratesi F, et al. Privacy-by-design in big data analytics and social mining[J]. EPJ Data Science, 2014,(1):1-26.
[4]陳琳,姜蓉,毛文秀,等.中國教育信息化起點(diǎn)與發(fā)展階段論[J].中國遠(yuǎn)程教育,2022,(1):9.
[5]余鵬,李艷.大數(shù)據(jù)視域下高校數(shù)據(jù)治理方案研究[J].現(xiàn)代教育技術(shù),2018,(6):60-66.
[6]楊現(xiàn)民,陳世超,唐斯斯.大數(shù)據(jù)時代區(qū)域教育數(shù)據(jù)網(wǎng)絡(luò)建設(shè)及關(guān)鍵問題探討[J].電化教育研究,2017,(1):37-46.
[7]田賢鵬.隱私保護(hù)與開放共享:人工智能時代的教育數(shù)據(jù)治理變革[J].電化教育研究,2020,(5):33-38.
[8]趙磊磊,陳祥梅.數(shù)智時代教育大數(shù)據(jù)風(fēng)險:表征樣態(tài)與化解路向[J].貴州師范大學(xué)學(xué)報(社會科學(xué)版),2022,(2):72-82.
[9]李默妍.基于聯(lián)邦學(xué)習(xí)的教育數(shù)據(jù)挖掘隱私保護(hù)技術(shù)探索[J].電化教育研究,2020,(11):94-100.
[10]黃超然,佟興,張召,等.面向教育的區(qū)塊鏈應(yīng)用合約架構(gòu)和數(shù)據(jù)隱私研究[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2022,(5):61-72.
[11]李鳳英,薛慶水,張際平.基于認(rèn)證的移動學(xué)習(xí)私密保護(hù)模型和方案[J].現(xiàn)代遠(yuǎn)程教育研究,2013,(3):72-77.
[12]Prinsloo P, Slade S, Khalil M. Student data privacy in MOOCs: A sentiment analysis[J]. Distance Education, 2019,(3):395-413.
[13]Saha S, Mamun K A, Ahmed K, et al. Progress in brain computer interface: Challenges and opportunities[J]. Frontiers in Systems Neuroscience, 2021,15:1-20.
[14]Xia K, Duch W, Sun Y, et al. Privacy-Preserving brain-computer interfaces: A systematic review[J]. IEEE Transactions on Computational Social Systems, 2022:1-13.
[15]Landau O, Puzis R, Nissim N. Mind your mind: EEG-based brain-computer interfaces and their security in cyber space[J]. ACM Comtuting Surveys, 2020,(1):1-38.
[16]Chen X, Wang Y, Nakanishi M, et al. High-speed spelling with a noninvasive brain-computer interface[J]. Proceedings of the National Academy of Sciences, 2015,(44):6058-6067.
[17]Mcmahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[J]. International Conference on Artificial Intelligence and Statistics, 2017,54:1273-1282.
[18]Li T, Sahu A K, Talwalkar A, et al. Federated learning: Challenges, methods, and future directions[J]. IEEE Signal Processing Magazine, 2020,(3):50-60.
[19]Wei K, Li J, Ding M, et al. Federated learning with differential privacy: Algorithms and performance analysis[J]. IEEE Transactions on Information Forensics and Security, 2019:3454-3469.
[20]Rivest R L, Adleman L, Detrouzos M L. On data banks and privacy homomorphism[A]. Proc of Foundations of Secure Computation[C]. New York: Academic Press, 1978:169-179.
[21]劉湘雯,王良民.數(shù)據(jù)發(fā)布匿名技術(shù)進(jìn)展[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2016,(5):562-571.
Abstract: At present, education informatization is in a stage of rapid development, and the risk of educational data privacy cannot be ignored. In order to effectively protect the educational data privacy, this paper adopted a systematic literature analysis method to sort out the development process of research on the protection of educational data privacy from two dimensions of research time and research topic. Then, the protection problems of educational data privacy in the three major application scenarios of current education informatization, namely intelligent campuses, intelligent virtual teaching spaces, and educational big data platforms were revealed. Finally, a technical support scheme for the protection of educational data privacy was proposed in this paper. This scheme provided two main functions of monitoring privacy leakage behavior and classifying privacy protection, and carried out the three-level privacy protection of integrating three kinds of model training methods and nine kinds of privacy protection technologies, which could realize the personalized configuration of model training methods and privacy protection technologies in different educational application scenarios, so as to protect the educational data privacy in the whole scenario and promote the safe and healthy development of education informatization.
Keywords: privacy of educational data; privacy protection; technical support; education informatization
*基金項目:本文為深圳市高層次人才科研啟動項目“隱私保護(hù)的高校智慧教室‘人工智能+教育’應(yīng)用研究”(項目編號:000527)的階段性研究成果。
作者簡介:林小紅,在讀碩士,研究方向為教育數(shù)據(jù)隱私保護(hù)與教育人工智能,郵箱為924372547@qq.com。
收稿日期:2022年12月21日
編輯:小米