999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

我國人工智能政策新詞發現與演化研究

2024-06-03 14:42:47劉清民王芳黃梅銀
現代情報 2024年6期
關鍵詞:人工智能

劉清民 王芳 黃梅銀

關鍵詞: 新詞發現; 人工智能; 政策分析; 政策演化; 多特征融合算法

DOI:10.3969 / j.issn.1008-0821.2024.06.002

〔中圖分類號〕G350.7; TP18 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 06-0018-15

政策制定是政府實施社會治理和提供公共服務的重要手段[1] 。地方政府需要充分理解以往政策并與頂層政策設計保持一致[2] , 企業需要即時分析大量政策以支持快速變化的社會和經濟環境[3] 。政策文件作為公共事務的反映和行為印跡, 是政策分析的首要選擇[4] 。政策智能化分析可以快速獲取政策關鍵內容[5] , 而要實現政策的主題分析[6] 、情感分析[7-8] 、知識發現[9]等, 首先要對文本進行分詞。中文分詞經歷了基于匹配的詞典分詞、基于標注的機器學習和基于理解的深度學習3 個階段[10] , 已經取得了相當的進展, 但是面對政策領域內新詞, 仍存在切分歧義和未登錄詞(Out of Vocabulary)識別問題[11] 。這限制了自動分類、關鍵詞提取、文本摘要等文本挖掘技術在政策分析中的應用[12] 。

新詞發現的目的是識別和提取文本中出現的新詞, 不斷完善詞典, 優化分詞結果, 提升政策文本分析效果, 進而更好地理解政府調控方向和思路[13] 。在詞匯學中, 新詞是指隨著社會環境的變化而產生的新詞匯[14] 。從詞典的參照角度出發, 新詞可看作是現有詞典沒有收錄的詞語[15] , 也就是“未登錄”到分詞工具所使用的詞典中的詞匯(未登錄詞)[16] 。在本文中, 新詞主要指的是未被分詞算法正確識別或者已有詞庫中未出現過的詞匯, 由一些基本的字詞組合而成[17] , 比如: “云計算” 被分詞工具切分成“云” 和“計算”。新詞給分詞工具帶來了很大挑戰, 因為大多數分詞方法是通過詞典和相應的匹配算法實現的[18] , 只有不斷更新詞典才能保持其檢測新詞的能力, 但更新詞典會消耗時間和資源,并且可能無法識別意外出現的新詞。針對現有新詞發現算法對領域知識和語義使用不足的問題, 本文提出了融合多特征的新詞發現算法(Multi-featureFusion, MFF), 一種結合了詞特征和語義特征的新方法。將運用MFF 提取的新詞以詞庫的形式加入到Jieba 分詞系統中, 可以提升文本分詞效果。

政策文本是記載政策意圖和政策過程的客觀憑證[19] , 政策詞匯承載著政策目標、意圖和導向, 對政策研究至關重要。新詞的產生和使用反映了社會的發展變化和創新, 它們直接體現了社會問題、需求和挑戰, 政策制定者通過精確選擇和使用詞匯來傳達政策的含義和目的。相比于學術文獻、網絡媒體等文本, 政策文本的形成須經過逐級嚴格審核,因此用詞更加準確、嚴謹。同時, 政策數量相對較少, 基于政策文本進行新詞發現, 具有成本低、準確性高、確定性強、價值大等優勢, 對于擴展領域詞典、開展政策研究具有十分重要的意義。

近年來, 人工智能蓬勃發展[20] , 涌現出“強化學習” “自動駕駛” “智能醫療” 等新技術與應用[21] , 這些變革給政策制定者和技術創新者帶來了全新挑戰。人工智能政策文本是一個國家或地區政策制定者對技術應用、倫理規范以及社會影響的認知和規劃。借助新詞發現算法深入研究人工智能政策文本, 可以從新詞的角度審視政策在人工智能創新、延續和擴散方面的作用, 探索政策與技術發展的相互關聯, 揭示政策在不同時期對新技術和應用的關注點, 以及在不斷變化的技術環境中應對挑戰的方式。為此, 本文選擇人工智能政策文本作為研究對象, 并應用MFF 算法, 不僅豐富了政策文本分析的方法, 也為未來人工智能政策研究提供了新的視角和工具支持。

1 相關工作

1.1 政策文本計算研究

政策文本計算是一種基于計算機科學、語言學和政治學理論的框架, 旨在進行海量政策文本的挖掘和計算分析, 它倡導使用政策編碼、政策概念詞表以及政策與語言之間的映射關系, 以實現政策概念的自動識別和處理[22] , 涉及文本數據處理、文本內容分析和文本挖掘[23] 。政策文本內容分析是利用人工或者借助編碼管理工具對政策進行概念編碼和信息語義分析, 介于定量和定性之間[24] , 其目的是對政策文本中涉及的主題進行深入分析、解釋和預測, 探索相互關聯的發展趨勢[25] 。其數據處理主要依賴研究者的人工提取, 這類計算處理方法能夠處理的政策文本數據有限且主題特定[22] 。

基于文本數據處理和文本挖掘的政策文本分析, 通常依賴于開源的中文分詞工具。利用分詞后的語料對政策主題、類型、情感等進行統計或計量分析, 或應用共詞或共現分析政策增長、政策擴散、政策變遷[26] 、府際關系[27] 、政策演進[28] 、政策演化[29] 等變化規律, 或進行潛在的語義知識發現、關聯規則發現、聚類分析[30] 、自動分類[31] 等。開源的中文分詞工具對政策文本適應性較差, 對于未登錄詞和新詞的敏感度較低[10] , 難以捕捉領域新興詞匯和新興概念。專業詞庫的缺失也限制文本挖掘技術在政策分析的應用。針對這些問題, 研究者嘗試了一些應對策略。一方面, 在分詞時導入開源或者人工構建的領域專屬詞庫, 增加分詞工具對政策文本中名詞術語的識別能力, 改善切分結果的準確性[32-34] ; 另一方面, 通過構建包含詞匯同義、類別以及詞間關系的領域主題詞表, 提供領域相關的語義信息[35] , 從而更準確地切分政策文本。為了無監督地構建各種類型的主題詞表, 現有研究主要依據詞頻、共現等特征從分詞數據中提取關鍵詞[36] , 并通過關聯性分析和相似性匹配等方法識別詞語之間的等級關系[37] 。添加詞庫可以快速適應特定領域, 但需要維護和人工添加更新。構建主題詞表可以提供全面的領域詞匯覆蓋, 但目前針對政策領域的主題詞表研究較少。

1.2 新詞發現算法研究現狀

新詞發現可以自動識別政策領域的新詞和專有名詞, 擴展分詞器的詞庫和政策領域主題詞表, 提高政策文本的分詞效果。王芷筠等[38] 利用互信息和邊界信息熵發現新詞, 輔以人工補充修正構建環境政策法規專業詞庫, 驗證了新詞發現構建詞庫的有效性。張一帆等[12] 通過無監督學習的方式提升條件隨機場(CRF)模型領域適應性, 并結合種子詞典、關鍵詞提取、人工篩選和補充的方式實現能源政策的新詞發現。魏偉等[19] 在領域詞典的基礎上,利用信息熵對分詞后的結果進行詞合并, 分別對頻繁詞、熱詞和新詞進行概念界定, 揭示了政府工作報告的共性問題、熱點問題和演化規律。

新詞發現算法可以分為基于規則、基于統計和兩者混合3 種。基于規則的方法一般從語言學、領域知識出發[39] , 通過構詞特征[40] 、詞性以及詞的形態特征[41] 構造規則模版來識別新詞。基于規則發現的新詞質量比較高, 但需要人工瀏覽語料或者結合領域知識制定規則, 人工成本較高[39] 。基于統計的新詞發現算法利用大規模文本語料庫中的統計信息自動發現新詞, 通過詞頻[42] 、互信息[43] 、結合度、自由度[44] 等統計特征進行新詞識別。QianY 等[14] 提出了基于詞嵌入的方法(WEBM), 利用詞向量剪枝策略來量化判斷一個高頻詞串是一個新詞的可能性, 在金融、音樂、體育和旅游領域實現新詞發現。受WEBM 啟發, 張樂等[45] 結合中國知網和漢字筆畫庫訓練多語義詞向量(MWEC), 利用多語義詞向量的語義相似度來篩選經過熱度和合成性規則生成的候選詞, 解決語義混淆問題。基于統計的方法可以自動處理大量語料庫數據, 發現規則方法中未定義的新詞, 可移植性強, 但對于少見的詞語或特定領域的新詞表現不佳, 同時需要大的語料庫支撐。混合方法是將規則和統計方法結合起來, 綜合二者的優點, 既能利用規則方法的專業知識, 也能利用統計方法的自動化處理能力[46-48] 。

現有新詞發現算法取得了一定的效果, 仍存在以下問題: 忽視潛在有價值的數據與知識, 在融合領域知識方面存在不足; 大多方法忽略了詞的語義信息, 未對獲取的新詞進行語義完整性判斷, 導致提取過多不合理的新詞。同時, 單一特征往往無法全面捕捉詞語的特點和上下文信息, 而通過融合多個特征, 可以更好地捕捉到新詞的潛在特征。

1.3 人工智能政策研究現狀

世界各國(地區)紛紛出臺相關政策推動人工智能研發和應用[49] 。這些政策的主要目標是確保其國在人工智能領域的領導地位, 同時利用這項技術提高全球競爭力以及解決社會挑戰和發展需求[50] 。目前, 對于人工智能政策研究多以基于框架的內容分析[51-54] 、政策對比分析[55-58] 和政策量化分析[59] 為主, 大多涉及詞頻統計、關鍵詞提取、政策分類、主題詞挖掘、主題詞相似度計算和編碼內容分析等。人工智能是一個極具創新性的領域,新的技術、應用和挑戰不斷涌現[60] , 我國人工智能政策非常注重在技術研發、產業經濟和智能社會等方面的布局[61] 。人工智能政策是一項宏觀復雜的產業政策, 需要不斷調整以適應變化[62] , 過程中會產生許多專業術語和新詞匯, 需要正確切分才能正確解讀政策文件[63] 。但是, 政策文本分詞在遇到專業詞匯時容易出現錯誤, 在一定程度上會影響詞頻統計和主題挖掘[64] , 導致研究結果難以反映政策制定者和實施者在特定時間和背景下的具體思考及決策過程, 不能很好地體現政策演變。

2 基于新詞發現的人工智能政策演化分析

本文擬通過新詞發現算法構建人工智能政策詞庫輔助分詞, 基于政策新詞發現結果對人工智能政策的創新、延續和擴散進行演化分析, 幫助政策受眾及時捕捉行業發展方向和政策支持導向, 幫助地方政策制定者及時跟進新興領域, 實現政策創新和針對性發展。研究流程如圖1 所示, 包括新詞發現算法和基于新詞發現的政策演化分析。

2.1 MFF 多特征新詞發現算法

2.1.1 算法介紹

不斷出現的技術新詞給中文分詞帶來巨大考驗,影響了分詞的準確性[65] 。為了更全面地考慮詞匯在不同維度上的特征, 捕捉更豐富的語義信息, 本文提出了一種融合多特征的新詞發現算法(MFF)。MFF 多特征包含詞的熱度、上下文關聯度、語義完整度和KL 融合度, 定義如下:

1) 熱度(Heat, H): 可以用詞頻來表示。詞頻是指某個詞匯在一個文本中出現的頻率, 在一定時間內出現的高頻詞匯可能是候選新詞[66] 。

2) 上下文關聯度(Contextual Association, CA):同一詞分開的單元在向量表示空間中顯示出高相似性, 當相連的子詞在上下文中顯示出高關聯度時,可能是潛在的新詞。

3) 語義完整度(Semantic Completeness, SC):對詞的語義完整性進行評分, 可以判斷一個詞以及其相似詞能否成為新詞。本文使用Transformer[67]進行全局和自注意力循環序列建模, 借助人工智能文獻中的關鍵詞和公開的分詞數據, 對語義完整性判斷算法進行訓練。

4) KL 融合度(KLFusion, KLF): KL 散度(Kull?back-Leibler Divergence)用于度量兩個概率分布之間的差異[68] , 而KL 融合度則是利用KL 散度對結合度[69] 和自由度[70] 進行聯合計算, 用以量化詞語的內部結構與外部環境之間的差異, 獲得更魯棒和合理的新詞發現結果, 公式如下:

2.1.2 數據實驗

1) 數據收集與處理

從政府官網和北大法律信息網(https:/ / www.pkulaw.com/ )選取標題含有“人工智能” 的政策文件, 共215 份, 中央級政策為42 項, 占比19%,地方政策173 項, 占比81%。清洗政策文本, 運用Jieba 分詞工具進行分詞, 形成政策分詞語料集。從語料集中提取500 句作為測試集, 邀請兩名專家閱讀并從中選擇新詞, 作為測試依據。

2) 政策新詞發現實驗

新詞詞庫構建流程: ①從經過預處理的政策分詞語料集中篩選出N-gram 詞(N 的范圍是2~3)作為候選新詞; ②統計并計算出MFF 多特征最佳閾值如圖2 所示; ③滿足MFF 多特征閾值的詞作為新詞以構建新詞詞庫。

新詞發現是一個復雜任務, 不同領域的語言特征、詞匯習慣以及新詞出現的頻率會影響任務的難度和算法性能表現。MFF 是無監督算法, 為了檢驗MFF 算法在新詞發現方面的有效性, 選擇平均互信息(PMI)[71] 、鄰接熵(BE)[72] 、WEBM[14] 和MWEC[45] 進行比較。其中, PMI 和BE 是兩種流行的無監督方法, WEBM 和MWEC 基于語義相似度,性能優于CRF 新詞發現算法, 已在新詞發現上取得較好效果。針對人工智能政策文本的測試集進行了一系列實驗, 結果如表1 所示。

在人工智能政策文本的測試集上, MFF 算法的P 值、R 值和F1 值均超過其他先進算法, 顯示出算法在準確捕捉新詞的同時, 可盡可能少地將非新詞誤判為新詞。需要討論的是, 本文新詞發現算法F1 值接近但未超過80%, 但優于其他先進算法, 表明MFF 算法綜合利用了熱度、上下文關聯度、語義完整度和KL 融合度等多種特征, 可以更全面地捕捉新詞的潛在特征, 提升新詞發現的質量和準確性。另外, F1 值是綜合Precision 和Recall的指標, 在評估新詞發現任務時受到多種因素的影響, 如測試集的規模、內容以及其中包含的新詞種類和數量等。已往文獻表明, 新詞發現算法在不同領域、不同測試集上F1 值在0.4~0.8 之間, 都可以證明算法的有效性[73-77] , 能夠為術語庫構建、領域情感詞典構建和輔助分詞提供有力支持。

為了評估MFF 每個特征的有效性, 本文在測試集上進行了消融實驗, 依次去除熱度(H)、上下文關聯度(CA)、KL 融合度(KLF)、語義完整度(SC)。表2 列出了不同模型在測試集上的P / R/ F1值, 結果表明: ①去除任意一個特征都會導致新詞發現效果的下降, 證明特征融合的必要性和有效性;②去除熱度特征, 新詞發現效果大幅度下降。低頻新詞的特征不明顯, 難以被挖掘, 這也是未來的研究方向; ③去除上下文關聯度特征, 新詞發現效果大幅度下降, 說明詞向量能捕捉到組合詞之間的語義關系, 具有更強的語義表示能力; ④去除KL 融合度, 新詞發現效果下降。通過KL 融合度, 均衡結合度和自由度, 捕捉詞周圍的關聯關系; ⑤去除語義完整度, 新詞發現效果下降, 說明領域知識與語義完整性特征的有效性。

3) 多領域新詞發現實驗

在評估算法性能時, 考慮到領域差異和測試集的多樣性對F1 值的影響, 通常會對多個不同領域的測試集進行評估, 以更全面地了解算法在不同場景下的表現, 并且對比不同算法在相同測試集上的表現來進行客觀的評估。因此, 將MFF 算法在已有文獻金融、體育、旅游和音樂4 個不同領域數據集進行實驗, 并與原文中WEBM、MWEC 算法的結果進行比較, 如表3 所示。

MFF 算法的F1 值在4 個數據集上的表現均優于WEBM、MWEC 算法, P 值在旅游和音樂數據集上略弱于WEBM, R 值在體育數據集上略弱于MWEC算法, 證明MFF 算法具備對多領域數據集的魯棒性和適用性。

2.2 人工智能政策新詞詞庫

2.2.1 新詞詞庫構建

詞匯作為語言的基礎單位, 是分析和理解政策變遷的重要路徑之一[78] 。利用MFF 新詞發現算法對政策語料集進行新詞發現, 構建新詞詞庫用以輔助分詞。為提升新詞詞庫構建的準確性, 在新詞發現結果的基礎上對無效詞進行過濾: ①通過語言規則剔除不符合構詞規則的新詞詞匯; ②依據政策領域多重指標混合篩選新詞詞匯[35] 。

共獲得846 個人工智能政策新詞, 形成詞庫,如表4 所示。一些新穎和熱門的合成新詞被識別了出來, 如: “元宇宙” “智能云” 等, 反映了人工智能領域的新概念和新主題。一些涉及地點的新詞也被識別, 如: “云上貴州” “之江實驗室” 等。多數政策常見的基礎詞, 如“社會治理” “隱私保護”等, 雖然被識別了出來, 但專業特征不明顯; 也有少數詞匯具有明顯的專業特征, 如: “機器人系統”“多源數據” 等。

從當前來看, 部分挖掘出的新詞不再新穎, 但在其最初出現的時候代表了人工智能技術發展的前沿領域。由于傳統分詞工具未能準確切分這些復合詞, 因而它們仍然符合本文對新詞的定義。將發現的新詞添加到詞庫, 分析政策文本中的時空特征和時序演變。

2.2.2 分詞結果對比

利用MFF 算法構建新詞詞庫用于輔助分詞,可以進一步檢驗MFF 算法的有效性。從人工智能政策語料集中隨機抽取句子作為測試集, 并進行了人工分詞確認。分詞效果通過P 值、R 值和F1 值進行衡量。如表5 所示, Jieba 代表單獨采用Jieba分詞, Jieba+MFF 表示將詞庫添加到Jieba 分詞中輔助分詞。相對于單純的Jieba 分詞模型, 添加詞庫輔助分詞能夠顯著提升分詞效果, 準確率、召回率和F1 值分別提高了22.47%、12.63%、17.89%。值得注意的是, MFF 算法的應用使得分詞F1 值達到了98.16%, 表明MFF 算法對政策分析的積極作用, 可以為政策分析提供可靠的幫助。

以2017年7月8 日國務院發布的《新一代人工智能發展規劃》中的部分內容為例, 未添加詞庫的分詞結果為: 新一代/ 人工智能/ 在/ 智能/ 制造/ 、/ 智能/ 醫療/ 、/ 智慧/ 城市/ 、/ 智能/ 農業/ 、/ 國防建設/ 等/ 領域/ 得到/ 廣泛應用/ , / 人工智能/ 核心/ 產業/ 規模/ 超過/4 000/ 億元/ , / 帶動/ 相關/ 產業/ 規模/ 超過/5/ 萬億元/ 。

添加詞庫之后的分詞結果為: 新一代人工智能/在/ 智能制造/ 、/ 智能醫療/ 、/ 智慧城市/ 、/ 智能農業/ 、/ 國防建設/ 等/ 領域/ 得到/ 廣泛應用/ , / 人工智能/ 核心產業/ 規模/ 超過/4000/ 億元/ , / 帶動/相關/ 產業/ 規模/ 超過/5/ 萬億元/ 。

在添加詞庫后, “智能制造” “智能醫療” “智慧城市” “智能農業” 等人工智能相關概念被識別了出來, 涉及新興領域、新技術、新產業等。通過這些新詞, 可以更好地理解政策文本的主題和重點, 幫助政策受眾更好地把握政策方向和內容。

2.2.3 基于新詞發現的政策關鍵詞對比

關鍵詞自動抽取技術用于抽取具有專業性、能夠反映文檔主題的詞匯或短語[79] 。利用TF-IDF進行關鍵詞提取, 結果如表6 所示。與未添加新詞詞庫的Jieba 分詞后文本提取結果相比, 多數關鍵詞得到優化, 表明新詞發現技術有助于提升關鍵詞提取的全面性和準確性。

2.3 人工智能政策新詞出現特征

2.3.1 政策新詞出現數量和頻次

新詞出現個數可以反映政策的熱度和關注點,所有新詞被提及的平均頻次(所在年份的每個新詞頻次相加/ 所在年份的新詞出現個數)則揭示了新詞在政策文本中的重要程度。如圖3 所示, 2017 年人工智能政策新詞數量顯著增加, 這可能與政策數量增長以及2017 年國務院發布《新一代人工智能發展規劃》有關。隨后, 新詞數量逐漸減少, 但依然保持著一定年出現數量, 說明國家繼續深化發展人工智能。新詞平均頻次總體呈現出波動上升的趨勢, 特別是在近幾年, 新詞的平均頻次顯著增加,反映了某些新詞在更為細分和專業化的政策文本中使用頻率較高, 被頻繁提及。結合央地政策數量來看, 體現出人工智能政策萌芽、急劇增長和平穩發展3 個階段。

新詞數量和平均頻次之間呈現出一種“反向”關系。當新詞數量較多時, 所有新詞的平均頻次較低, 表明政策關注的領域比較廣泛, 試圖全面推進不同領域的發展。當新詞個數較少時, 新詞平均頻次較高, 表明政策將重點放在少數幾個領域, 有針對性地推動相關產業和技術的發展, 以實現更加專業化和深度化的支持。

2.3.2 政策新詞時序變化

對政策文本中的詞匯進行聚類, 可以揭示出政策領域的關鍵主題和核心概念。首先, 記錄人工智能政策新詞所在的年份; 其次, 使用所在年份的政策語料訓練詞向量模型, 將這些新詞轉化為詞向量; 最后, 使用k-means 聚類算法對新詞向量進行聚類, 得出中心詞和相關詞, 聚類的主題數由輪廓系數(Silhouette Coefficient)和卡林斯基-哈拉巴斯指標(Calinski-Harabasz Criterion)確定。結果如表7 所示。

人工智能政策在不同年份聚焦的中心詞不斷變化。2009—2016 年, 政策中心詞從醫療領域擴展至公共服務和交通領域, 反映出人工智能技術的應用范圍逐步擴大。2017—2019 年, 政策進一步關注人工智能的整體發展、核心技術、社會福利和交通旅游等領域, 體現出人工智能的應用產業逐漸多元化。2020 年以后, 政策開始關注人工智能的標準化、特定區域推廣、產業升級以及算力資源等,體現出政策對于技術規范、創新生態和基礎設施建設的重視。技術和應用的成熟推動創新體系和標準體系的建設, 政策中出現了“數字創意” “試驗區”和“元宇宙” 等新詞, 強調人工智能在經濟和產業轉型中的重要作用。

2.4 基于新詞的政策演化分析

基于新詞的政策演化是指政策新詞在不同時間和語境中的創新、持續出現以及在更廣泛領域中的傳播和應用的過程。這一概念綜合了新詞的創新性、延續性和擴散性, 包括從初始創造到逐漸被采納并在不同政策文本中持續發展的過程。與簡單的變化不同, 基于新詞的政策演化更強調新詞如何在不同政策文件中的持續演進, 進而影響和塑造政策制定的語境和方向。

2.4.1 政策新詞創新與延續

新詞創新是指在某一特定年份出現的新詞, 它代表了當時政策關注的新的概念、技術或措施。新詞延續是指新詞重復出現在政策文本中, 表示新詞所代表的概念或議題在政策實踐中具有一定的延續性和影響力, 而非短暫的現象。利用TF-IDF 獲取每一年權重排名前三的新詞, 記錄出現年以及后續每一年的頻數, 繪制折線圖如圖4 所示。“輔助診斷” 自從在政策中出現就穩定存在, 說明政策一直關注人工智能技術在醫療診斷中的應用和發展。“智能汽車” “智能終端” 和“智能制造” 等一直受到政策關注, 在后續年份中得到進一步推動。“云上貴州” “傳輸設備” 和“復工復產” 是在一定的時代背景和政策環境下產生的新詞, 反映了當時的政策重點。盡管在隨后的政策文件中不再出現, 不排除其可能仍具有影響力, 可以被視為“隱性延續”。

人工智能政策中的新詞在不同年份呈現不同的創新與延續性。總體而言, 每年都有新詞出現, 政策針對特定的社會需求或技術發展做出了新的規劃和調整。大部分新詞在后續年份中都有出現, 表明政策對這些領域的關注具有一定的延續性, 反映了政策制定者對人工智能相關領域持續關注并推動政策應用落地。同時, 也有少數新詞在后續年份中逐漸減少或不再提及, 反映出政策制定者對人工智能認識的深化和注意力的轉移。

2.4.2 政策新詞擴散

詞級別的分析可以呈現具體的政策知識、信息在不同層級機構之間的擴散[80] 。政策新詞在不同地區和領域中擴散, 新的政策知識和信息也隨之傳播。新詞在政策間的流動方向, 可分為自上而下、自下而上和水平3 種。政策新詞擴散一方面可以提高政策的認知和理解, 促進政策的有效實施; 另一方面, 政策新詞擴散的方向和速度也可以反映政策的影響力和受關注程度, 有助于評估政策的實施效果和社會反響。采用新詞發現算法獲取同主題政策新詞, 篩選具有代表性的新詞, 繪制新詞時序圖,從時序和方向兩個維度研究政策新詞擴散的過程和特點。以“云計算” 和“智能汽車” 為例進行政策新詞擴散的研究, 是基于這兩個領域在當今社會中的重要性、多層次合作特點以及受到廣泛社會關注的因素, 這樣的考慮將有助于更全面地理解政策新詞擴散的機制和影響。

智能汽車在政策頒布機構間的擴散如圖5 所示。智能汽車最早出現于2016 年國家發展改革委、科技部、工業和信息化部、中央網信辦聯合頒布的《“互聯網+” 人工智能三年行動實施方案》。2017年, 智能汽車出現在國務院頒布實施的《新一代人工智能發展規劃》, 并陸續擴散至其他地方政府頒布的政策文獻中。總體上看, 智能汽車呈現“中央向地方” 的自上而下擴散; 同時, 地方政府之間存在著平行擴散現象。2017 年, 北京、上海、浙江等地相繼出臺了與智能汽車相關的政策, 后來陸續擴散到福建、廣西、江蘇等地方政府的政策中; 政策數量在不同地區之間存在差異, 部分地區在智能汽車發展上展現出更積極和突出的態勢。

圖6 顯示云計算政策的擴散過程。其最早是在2017 年天津市的人工智能政策中提出, 其后擴散到中央機構和地方政策, 呈現自下而上和地方平行擴散趨勢。這表明在云計算領域的發展上具有一定的協同性和一致性, 彼此之間借鑒、學習和共同推進。在地方政府機構頒布的政策文獻中, 關注程度和積極性也不盡相同, 上海、浙江等省市對云計算持續關注。

2.4.3 政策新詞演化實例

使用政策新詞流量刻畫政策新詞演化, 由落實中央政策(與中央政策新詞相同)、地方首創(與中央政策新詞不同)和橫向參考(與發文較早的其他省市政策新詞相同)3 個維度組成。落實中央政策反映政策的延續性和一致性, 地方首創展示政策的創新性和開拓性, 而橫向參考則體現政策制定的學習能力和優化方向。以“新一代人工智能發展規劃”為主題, 選取中央和省市政策如表8 所示, 統計3個維度的新詞數量, 如圖7 所示。

各省市政策與中央政策新詞相同的數量較高,這意味著各地在政策制定過程中更加注重對中央政策的遵循, 以確保政策的一致性和統一性。不同的個數體現了地方的政策創新和個性化調整。隨著時間的推移, 各省市政策與中央政策新詞不同的個數逐漸增加, 反映了地方政府推動人工智能發展策略的靈活性和適應性, 為人工智能在各地的應用和發展提供了更具地方特色的路徑和支持。省市政策新詞之間存在借鑒和學習的現象, 表明政策創新不僅僅局限于特定地域, 而是被其他地方借鑒和采納,產生政策的擴散和創新。

新一代人工智能發展規劃政策中新詞的演化揭示了政策垂直擴散、水平擴散和地方的適應性創新等方面的信息。各地政府在政策制定中既注重對中央政策的遵循和落實, 又依據本地的實際情況和發展需求進行個性化的調整和創新, 總體上形成了統一而靈活的人工智能政策體系。同時, 政策擴散方向也反映了中央政策的指導作用和地方政府在人工智能發展中的創新性貢獻。

3 總結與展望

由于單一特征難以全面捕捉詞匯特征和上下文語義, 本文綜合考慮了熱度、上下文關聯度、KL 融合度、語義完整度等多種特征, 提出了一種多特征融合的新詞發現算法MFF。新詞發現實驗證明該算法效果較好, 但在低頻新詞的識別方面仍有待進一步提升, 后續將進行重點研究。

在優化新詞發現算法的基礎上, 本文對人工智能政策進行了多角度分析。從新詞出現個數和新詞提及的平均頻次可以窺探人工智能政策在不同時間段對不同領域的關注程度和戰略轉變。受《新一代人工智能發展規劃》發布影響, 新詞出現數量在2017 年急劇增加。同時, 新詞平均頻次呈現波動上升的趨勢, 尤其近年來增長明顯。結合政策數量的變化, 這一趨勢反映了人工智能領域的深化發展以及國家人工智能持續的支持和關注。值得注意的是, 新詞出現個數與新詞平均頻次之間呈現出一種“反向” 關系, 折射出人工智能發展的3 個階段: 初期的萌芽階段、緊隨其后的急劇增長階段, 以及逐漸趨于平穩的發展階段。通過運用經典的k-means算法對每年的人工智能政策新詞進行聚類時序分析, 可以清晰地觀察到人工智能政策關注主題的演變。這一演變從最初的單一關注逐步拓展為多元化的關注領域, 從簡單的發展態勢逐步深入到更為復雜的層面。

新詞的涌現和傳播能夠有效反映政策創新、延續以及擴散的過程, 實現對人工智能政策的演化分析。大部分政策新詞在后續年份中持續出現, 表明政策在這些領域具有一定的延續性。同時, 少數新詞在后續年份的政策中逐漸減少或不再出現, 可能源于相關領域的變遷或其轉向隱性影響。政策新詞擴散反映政策呈現自上而下、自下而上以及水平擴散, 與之前學者以關鍵詞得出政策擴散方向一致[81] 。在同一主題政策下, 各省市的地方政策新詞呈現出顯著的差異, 體現了各地方政策關注重點的多樣性,與之前的時序分析結果一致。值得特別關注的是,大部分省市的政策新詞都源自中央政策, 表明地方政府在落實中央政策方面付出了不懈努力, 這些新詞以一種自上而下的方式垂直擴散開來。隨著時間的推移, 本文觀察到省市政策中創新的新詞逐年增加, 反映出地方政府在人工智能發展過程中采取了更加靈活的因地制宜策略。此外, 省市政策中還融合了橫向借鑒學習而來的新詞, 從而呈現出明顯的水平擴散趨勢。未來的研究可以進一步深入探討同一地方在不同時間段針對相同主題的政策, 以揭示新詞演變的趨勢和變化。這將有助于更全面地理解地方政策制定的動態過程, 以及其與中央政策的互動關系, 從而為地方政府在人工智能領域的決策提供更有深度的洞察。

基于新詞發現的政策研究為政策分析帶來了新的視角和方法, 有助于更全面地洞察政策的演化和創新, 進而擴展政策智能化治理的范圍。一方面,對人工智能政策新詞的出現特征進行了總結; 另一方面, 從人工智能政策新詞演化的角度分析了央地之間的創新、采納和借鑒現象, 揭示了政策新詞演化過程。然而, 盡管這種量化分析具有一定的優勢,但欠缺了深入的定性分析理解, 特別是在解析政策現象的深層背后因素方面。因此, 如何有效地融合定性研究方法, 以增進對政策背景、動機和影響因素的理解, 將成為未來研究的重要方向。

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 99热国产这里只有精品9九| 亚洲高清在线天堂精品| 亚洲天堂久久| 91福利国产成人精品导航| 国产欧美又粗又猛又爽老| 四虎影视库国产精品一区| 中文精品久久久久国产网址| 亚洲成年人网| 国产亚洲第一页| 日韩高清欧美| 亚洲女同一区二区| 亚洲成人动漫在线观看 | 全免费a级毛片免费看不卡| 欧美日韩免费| 在线视频精品一区| 国产乱人伦精品一区二区| 成人福利在线视频免费观看| 国产欧美精品午夜在线播放| 国产亚洲欧美在线中文bt天堂 | 国产免费久久精品99re丫丫一| 无码 在线 在线| 99热这里都是国产精品| 成人一区在线| 日韩午夜伦| 色婷婷视频在线| 亚洲va欧美ⅴa国产va影院| 国内精品91| 伊人婷婷色香五月综合缴缴情 | 亚洲精品无码日韩国产不卡| 999国产精品永久免费视频精品久久| 国产91精品久久| 亚洲第一福利视频导航| P尤物久久99国产综合精品| 欧美激情视频二区三区| 欧美成在线视频| 嫩草影院在线观看精品视频| 日韩小视频在线观看| 久久青草精品一区二区三区| 国产精品深爱在线| 婷五月综合| 99热这里只有精品国产99| 在线va视频| 在线播放91| 国产精品不卡永久免费| 香蕉99国内自产自拍视频| 伊人精品视频免费在线| 久久99精品久久久久久不卡| 91精品啪在线观看国产91九色| 亚洲精选高清无码| 欧美成人精品一级在线观看| 91精品aⅴ无码中文字字幕蜜桃| 色综合a怡红院怡红院首页| 国产成人麻豆精品| 亚洲伊人电影| 国产91在线|日本| a毛片在线免费观看| 国产成人一二三| 国产精品林美惠子在线观看| 伊人久久福利中文字幕| 思思热精品在线8| 精品撒尿视频一区二区三区| 亚洲乱码视频| 88av在线| 天堂成人在线| 国产AV无码专区亚洲A∨毛片| 高清不卡一区二区三区香蕉| 国产产在线精品亚洲aavv| 亚洲日本精品一区二区| 91美女视频在线| 青青草91视频| 噜噜噜久久| 亚洲一区二区三区中文字幕5566| 色香蕉影院| 国产综合网站| 为你提供最新久久精品久久综合| 色香蕉影院| 欧美 亚洲 日韩 国产| 欧美成人午夜视频| AV片亚洲国产男人的天堂| 国产福利免费视频| 国产女人水多毛片18| 亚洲永久色|