

摘要:本文采用文本挖掘和主題聚類方法,對2016—2023年期間發布的111份人工智能教育政策進行了量化研究與分析。研究結果顯示,近年來人工智能教育政策數量趨于平緩,存在較為顯著的區域不平衡,且政策發布主體較為多元化。技術創新是當前人工智能教育政策關注的焦點,同時,政策也開始強調發揮企業的作用以及應用落地的重要性。文章通過主題挖掘以及演化分析進一步揭示了人工智能教育政策的深層次主題特征,為各級政府部門進一步完善和優化相關政策提供了重要參考。
關鍵詞:人工智能教育;政策分析;文本挖掘;主題識別;演化分析
中圖分類號:G40-011.8" 文獻標識碼:A" 論文編號:1674-2117(2025)08-0086-06
隨著人工智能技術的快速發展和教育信息化的不斷深入,人工智能在教育領域的應用也在不斷拓展。人工智能教育技術提供了個性化教學、智能評估和個性化學習計劃等功能,為教育注入了新的活力。人工智能的發展將深刻重塑教育的方式與體驗,這種教育模式的變革對提升教育質量、培養學生的創新能力具有重要意義。近年來,我國智能教育領域迎來了蓬勃發展,人工智能教育的重要性日益凸顯,各級政府也發布了一系列相關政策,積極支持和引導人工智能教育的發展。
然而,各級政府部門發布的人工智能教育政策較為分散,內容和主題并不完全一致。因此,運用科學的方法對不同區域和不同部門發布的人工智能政策內容進行深入研究和分析,有助于更好地把握我國人工智能教育的發展趨勢并提出針對性的對策建議。此外,從信息處理的角度來看,人工智能教育的相關政策屬于非結構化的自然語言文本,如果完全依靠人工分析,一方面分析效率不高,另一方面還可能遺漏潛在特征。因此,本研究提出采用基于文本挖掘的方法,對2016—2023年期間發布的111份人工智能教育政策進行量化研究和分析,進一步揭示人工智能教育政策的深層次主題特征和規律。
研究現狀
國內外關于各領域政策文本挖掘和分析的相關研究已經比較充分,但是直接針對人工智能教育領域的研究還比較少。目前,國內人工智能教育政策的相關研究主要集中在“政策對人工智能教育的影響”“國際視角的政策研究”“政策文件分析和解讀”“智能教育政策文本分析或文本挖掘”四個方面。而從國外的情況來看,與人工智能教育政策相關的研究文獻也比較少。總之,目前國內外關于人工智能教育相關的研究還是以定性分析為主,量化研究比較缺乏,特別是在政策文本深層次特征的挖掘和分析方面,還有較大的研究和探索空間。
研究設計
1.政策文本采集
通過網絡搜索,本研究共收集了111份與“人工智能教育”相關的政策文件,這些文件發布的時間跨度為2016年12月至2023年9月。在進行政策文件搜集時,主要基于以下兩條規則來進行界定:①政策文件名稱中明確出現“人工智能教育”“智能+教育”或“智慧+教育”的關鍵詞或關鍵詞組合;②政策文件內容中包含了人工智能教育相關條目或表述。
在進行政策文本采集的基礎上,進一步對文本數據進行預處理,包括分詞、去除停用詞等,此外,為避免一些專業術語不能被分詞庫正確識別的情況,采用自定義詞典來增加人工智能領域的專業詞匯,如“機器學習”“知識圖譜”“語音識別”等,提升文本分析的效果和準確度。
2.研究方法
本研究主要采用文本挖掘方法對人工智能教育政策進行研究和分析,具體包括以下方法和步驟:
①研究數據采集和預處理。利用知網、萬方、Web of Science等學術數據庫,搜集并篩選國內外與人工智能教育政策相關的文獻。通過閱讀和分析相關文獻,初步了解人工智能教育政策分析的研究現狀。同時,瀏覽教育主管部門、人民政府等政府機構網站,搜集人工智能教育相關的政策文件。對采集到的政策文件進行整理和預處理,以便進行后續的挖掘和分析。
②政策文件描述性統計分析。針對收集到的人工智能教育相關的政策文件,采用計量方法將政策文本進行描述性統計分析,包括一定時間跨度下人工智能教育政策在不同地區的分布情況、政策制定主體的分布情況以及不同時期的政策數量。分析結果將有助于直觀展示政策的演化情況,從而為后續的主題分析提供支撐。
③詞頻統計及語義網絡分析。對經過預處理的政策文本進行詞頻統計分析,挖掘和統計政策文本數據集中的高頻詞。為了進一步分析主題詞之間的關聯模式,采用Ge phi工具對主題詞進行模塊化分析,識別不同主題詞之間的關聯模塊。
④LDA主題聚類分析。基于LDA方法構建主題模型并對預處理后的文本數據進行主題聚類。采用一致性計算方法確定主題數,識別出主題熱點,并最終將LDA模型分析的結果進行可視化展示。
⑤演化特征分析。統計和分析政策文本中的高頻詞在不同年度的分布情況和變化趨勢,特別詳細統計2016年至2023年期間每年度排名前十的主題詞,并通過可視化的圖表展示人工智能教育政策主題詞隨時間演化的情況。
研究結果
1.政策數量特征
首先對采集到的人工智能教育政策的數量特征進行了分類統計。從政策類型來看,通知類占90%左右,意見類則占10%左右。另外,按照所屬領域的差異,又可以將政策分為兩類:一類是直接涉及教育領域的政策,另一類是人工智能產業政策,但是內容涉及人工智能的教育應用或場景。前者主要以政策名稱是否包含“教育”關鍵詞為劃分依據,這類政策占42%左右;后者的名稱并不包含“教育”關鍵詞,但是政策內容中涉及教育相關條款或表述,這類政策占58%左右。
針對2016年12月至2023年9月期間發布的人工智能教育政策文件,按照政策發布年份將其分組,并統計每一組的政策數量。數據顯示,在2021年以前,政策數量整體呈現增長趨勢,2021年達到了階段性峰值。其中,2019年至2022年間,每年的發文量都不低于15份,并且這四年的發文量占總量的75%左右。政策發布數量在2021年以后逐漸回落并趨于平緩,這一方面說明前期發布的政策能夠對行業形成一段時期的覆蓋作用,另一方面也說明政策實施的效果需要一定的時間來檢驗。
2.政策主體及關系
教育政策主體是指教育政策的制定者。從政策主體來看,中央直屬部門文件3份,省級政府部門文件108份。除了北京、上海、廣東、浙江等地以外,還有相當一部分并不屬于傳統意義上的數字經濟和互聯網產業區域。例如,陜西省發布的人工智能教育政策文件相對較多,表明當地政府十分重視人工智能教育,頒布了一系列政策來推動人工智能教育的發展。
多主體聯合制定或發布政策是比較常見的現象。通過分析不同部門聯合制定政策的情況,可以更清晰地了解政策制定主體之間的協作關系。為此,首先篩選出在政策制定過程中有兩個及以上部門參與的情況,在這些部門中,如果有多次重復合作的情況,則只記錄一次合作關系。利用Ge phi工具生成政策主體合作的網絡圖譜,通過對網絡圖譜進行適當的布局優化和擴展,能夠較為直觀地揭示政策主體之間的協作模式。
3.詞頻統計及語義網絡分析
為進一步分析政策文件的文本特征,對分詞后的文本進行詞頻統計,提取出頻率較高的前30個主題詞,并除去“教育”“人工智能”等所有政策文件必然包含的高頻詞。結果發現,“創新”“技術”“產業”“培訓”“人才”等關鍵詞的出現頻率比較高,表明政府在人工智能教育領域重點關注技術應用與創新、產業發展以及人才培養。
通過構建語義網絡的方式,進一步分析和展示高頻詞之間的語義關聯。在生成語義網絡圖譜時,首先給定一個閾值,將詞頻超過閾值的主題詞作為高頻詞集合。接著,用Ge phi工具對主題詞進行模塊化分析,識別不同主題詞之間的關聯模塊,具體可分為三類:第一類關聯的是人工智能教育的參與主體,包括企業、學校、政府等;第二類是人工智能教育關注的熱點領域,如技術、創新、科技等;第三類是人工智能教育發展的一些支撐性要素,如信息化、基地、培訓等。
4.主題聚類分析
為了進一步研究政策文本的主題特征,基于LDA模型對人工智能教育政策進行主題聚類分析。通常情況下,主題一致性越高表示主題連貫性越好,主題的可解釋性也越高。通過主題評估,發現選擇5個主題個數時一致性較高。因此,設定主題數為5,并繼續運行一次LDA模型,最后輸出每個文檔最有可能對應的主題。同時,利用Davis庫對LDA模型進行可視化,得到主題分類的可視化結果以及各個主題下特征詞的頻率分布,如上頁圖1所示。圖中5個圓分別代表5個主題,圓的大小體現了每個主題在總體語義內容(整個數據集文本)中的重要性,即主題強度。圓越大表明該主題在整個語料庫中的占比越高,其重要性越突出。主題強度是用來衡量人工智能教育政策文檔的各個主題相對分量,計算公式為:
其中,N表示文檔的數量;ki表示第k個主題在第i個文檔中的概率;Pk表示第k個主題的強度。
圓與圓之間的距離表示主題的相關度,距離越近主題相關度越高。主題1對應的主題強度最高,且與主題2和主題3都有一定的重疊,主題相關度較高。通過進一步分析主題1,可以進一步把握政策的重點內容,還可以進一步驗證上一節的主題分析結果。
LDA模型主題聚類的最終結果如右表所示。主題1在總體語義內容中占比最高,主要特征詞包括“教育”“創新”和“企業”,體現了人工智能教育政策的關注重點。主題2和主題3的內容占比也較高,除主題1中已經涉及的特征詞以外,還包括“學校”“培訓”等特征詞,也屬于政策的重點內容。主題4的內容占比較低,對應的典型特征詞是“人才培養”。主題5對應的范圍太小,可以忽略不計。
5.演化特征分析
為研究人工智能教育政策隨時間演化的特征和規律,針對統計得到的高頻詞,進一步記錄其在不同年度政策文本中出現的頻次,并將結果以散點圖的形式呈現(如圖2)。
此外,通過分析主題詞隨時間演化的情況,可以初步得出以下結論:
①技術和創新一直是政策的重點關注領域。在各年度的主題詞中,“技術”和“創新”一直保持較高的出現頻次,這表明人工智能教育政策一直非常關注技術應用和創新,并以此來推動人工智能教育的發展。
②學校是政策的重點關注對象。“學校”“高校”等主題詞在各年度也頻繁出現,這表明學校是人工智能教育政策的重點關注對象,以高校為代表的學校主體在人工智能教育發展中處于核心位置。
③企業的重要性日益凸顯。主題詞“企業”和“產業”在各年度主題詞中出現的頻次逐漸增加,這表明政府希望企業能積極參與人工智能教育,通過行業創新和產學研合作促進人工智能教育發展。
④政策開始注重實際應用的效果。“培訓”“機制”“科普”“能力”等主題詞在近幾年政策中出現的頻次逐漸增加,體現了政策在關注技術創新的同時,也開始重視實際的應用效果。
研究結論與建議
1.重視區域差異,注重平衡發展
從抽樣統計結果來看,不同區域發布人工智能教育政策的狀況并不平衡,區域差異較為明顯。部分省市已經發布了大量相關政策,但是也有部分省市還存在一定的政策空白或者尚未充分發布相關政策。這說明不同地區對人工智能教育的關注程度有所差異,并且在人工智能教育發展規劃和投入上也會存在一定的差異,且欠發達區域的在線教育特別是人工智能教育的發展和“冷啟動”,非常需要政策的激勵和引導。因此,在政策層面應正視區域差異的存在,同時結合區域實際情況,積極發布和實施相關政策,引導區域教育依托人工智能實現高質量平衡發展。
2.部門協同參與,推動跨區交流
從分析結果來看,當前人工智能教育政策的發布主體較為多元化,既有省級地方政府,也有中央直屬部門,此外還有相當一部分政策是多部門聯合發布的。在制定和實施人工智能教育政策時,應根據實際需要適當擴大主體范圍,發揮各主體的作用,特別是科技相關部門的參與。同時,要實現有效的跨部門協作和多元化參與,需要建立健全的溝通機制和協調機制。各部門之間應加強溝通、信息共享和資源整合,形成合力推動人工智能教育發展。此外,各地區在政策方面也可以互相交流和借鑒,取長補短,資源共享,不斷優化人工智能教育政策內容以及實施路徑。
3.聚焦前沿技術,加強深度融合
人工智能教育的發展離不開人工智能關鍵技術的支撐。通過文本高頻詞分析和主題聚類分析可以看到,當前人工智能教育政策涉及的主題內容較為豐富,涵蓋了參與主體、熱點領域、支撐要素等多個主題模塊,而“技術”“創新”等主題詞一直在政策中保持較高的出現頻次。另外,從政策文本主題分析的結果來看,部分政策中關于技術的表述較為寬泛,對具體的人工智能關鍵技術或新興技術的直接表述還不夠突出。近年來,人工智能領域涌現的一系列前沿技術如深度學習、知識圖譜、生成式AI/大模型、語音/圖像識別等,都將進一步影響和轉變未來的教育模式。因此,人工智能教育政策在強調技術創新的同時,應更加具體地聚焦前沿技術,在政策層面應進一步鼓勵教育行業和人工智能前沿技術的深度融合,通過具體的人工智能技術的場景落地和創新應用,進一步提升教育創新能力。同時,通過制定更加明確、具體的政策目標,為人工智能技術在教育領域的創新應用提供指導方向和有力保障。
4.政產學研協同,助推人才培養
從主題聚類分析的結果來看,直接和人才培養相關的內容在當前人工智能教育政策中的重要性還有待提升。除了學校作為主體積極參與以外,還需要相關企業和產業的支持。從文本分析的結果來看,現有的人工智能教育政策也強調了企業和產業的作用。因此,通過政產學研協同發展的模式,能夠進一步整合人工智能領域的優質資源,進一步推動人工智能技術服務于人才培養。為此,可以通過合理的政策引導建立面向人工智能教育的政產學研協同機制,鼓勵企業、學校以及科研機構合作開展人工智能教育創新活動,共同研發適用于教育領域的人工智能技術和產品,通過科研項目、實習實訓、培訓課程、學科競賽等多種形式助推人才培養。
5.開拓應用場景,引導技術落地
教育行業存在大量人工智能的潛在應用場景,而這些應用場景的開拓和實現,同樣需要政策的積極引導。開拓應用場景是實現人工智能教育價值的關鍵環節,政策應關注教育領域的實際需求,在強調技術創新重要性的同時,也要注重和引導應用場景的開拓,通過技術落地實現更加有效的應用推廣。例如,可以支持在教育領域開展智能教學、智能評估、智能管理等方面的試點項目,通過實踐驗證技術的有效性和可行性。依托線上線下相結合的模式,通過持續開拓人工智能教育應用場景來驅動創新。同時,建立健全的應用場景評估機制,對成功案例進行總結和推廣,以帶動更多應用場景的開拓。技術落地是人工智能教育從理論走向實踐、從實驗室走向課堂的關鍵步驟。政策應關注技術落地的實際需求和難點,提供必要的支持和幫助。例如,可以建立技術轉化平臺,促進人工智能科研成果在教育領域的轉化和應用;同時,加強教育部門和科技部門的溝通協作,共同推動技術的研發和應用。
6.政策迭代升級,同步技術發展
從時間維度上來看,人工智能教育政策的內容主題一直在不斷演化,這和人工智能行業自身日新月異的發展變化是有直接關系的。新興的人工智能技術和應用必然會對教育行業產生新的影響,但相比于人工智能技術的快速發展,政策的制定和實施必然會有一定的滯后性。這就要求政府在制定和發布政策時及時做出調整和優化,以適應這一領域快速發展的需求和挑戰。這種同步性不僅體現在政策的制定上,更體現在政策的實施和效果評估上。政策的迭代升級體現了教育系統對技術變革的響應能力,意味著政策制定者需要密切關注人工智能技術的發展趨勢,及時評估現有政策的適應性和有效性。當人工智能領域涌現出新的技術、理論或應用模式時,有關部門應及時作出反應,制定相應的政策導向和支持措施,以促進新技術在教育領域的落地和應用。此外,迭代升級意味著新的政策并不是推倒重來,而是在原有政策基礎之上的優化和提升。
參考文獻:
趙誠.個性化學習時代:人工智能如何重塑教育[J].中國教育信息化,2023,29(06):3-7.
作者簡介:蔡振合(1975—),講師,碩士,主要研究方向為社區教育、教育信息化;毛郁欣(1980—),教授,博士,通訊作者,主要研究方向為文本挖掘、知識圖譜;宋卓穎(2000—),碩士生,主要研究方向為政策文本挖掘。
基金項目:2021—2022年度浙江省高校重大人文社科攻關計劃項目“開放式創新社區領先用戶識別方法研究”(編號:2023QN077)、浙江省教育科學規劃2025年一般規劃課題“基于生成式人工智能的小學跨學科教學資源構建模式研究”(編號:2025SCG244)。