于 淼 孔孟蕾 郭 潔 孫藝萌
當今時代,數據作為信息型生產要素在經濟社會的發展中發揮著重要作用,數據規模呈爆炸式增長,數據濫用的現象層出不窮,數據信息安全也成為有關個人、企業、社會乃至國家亟待解決的問題。近年來,我國政府對數據安全治理問題的重視程度不斷提高,2021年出臺的《數據安全法》就數據競爭和保護等關鍵問題制定了適合我國國情和現狀的規則路徑,成為提升數據安全治理能力的一把利器,也又一次引發了學界對于數據安全治理問題的關注。
國外對于國家大數據安全及治理的研究起步較早,研究重點有數據隱私和安全、數據安全技術和系統的構建等,也形成了包含大數據發展戰略、法律制度、組織機制和安全監控在內的大數據戰略體系。學者們很早就意識到了數據安全治理的重要性。1996年,菲茨杰拉德基于一個廣泛的調查問卷,發表了基礎研究計劃的數據安全報告,提出了評估和升級數據安全措施的必要性[1];在數據安全治理技術和系統構建方面,蘭·郭和丹尼爾·朗利提出的風險數據倉庫(RDR)模型是最早的具有數據安全保障性質的計算機模型[2];特羅普和多威爾從政策治理的角度,提出政府及相關組織應提高數據安全策略標準,以加強數據安全管理[3];班薩利從管控數據風險的角度,提出應對數據進行長期監控和評估,以便更好地開展數據安全治理[4];在理論和模型構建方面,拿撒勒提出應從攻擊預防、減少漏洞和威脅發現等幾個方面著手建立動態系統模型,為相關管理人員提供數據安全治理的決策依據和建議。[5]
國內有關數據安全問題的探討尚未形成體系化的發展路線和成熟的研究成果,對數據治理標準與內容的研究尚處于起步階段。鑒于此,本文運用 可視化文獻分析(CiteSpace)文獻計量工具,選取中國知網數據庫收錄的國內有關數據安全治理的研究文獻,對該領域的研究成果進行量化分析,希望能夠借助知識圖譜梳理該研究領域的演化路徑及討論熱點,并總結領域發展特點,為研究工作的開展提供參考。
本文采用的數據庫為“中國知網”,檢索關鍵詞為“數據安全法、數據安全法律、數據安全法規”,檢索時間范圍為2003年1月至2021年12月,共檢索到文獻323篇。隨后筆者進行二次篩選,選取北大核心文獻以及中文社會科學引文索引(CSSCI)文獻。其中包含一些與檢索詞含義偏差較大的文章,筆者將進一步進行人工篩選。例如可能會檢索出“地方安全生產治理績效影響了官員晉升嗎?——基于中國省級面板數據的實證檢驗”等同時出現“數據”和“安全”等關鍵詞,但與本文研究無關的類似文章。篩選后最終作為數據源的文獻數量為318篇。
CiteSpace設計的初衷是采用知識可視化的方式幫助學者明確知識發展脈絡、把握領域發展重點。軟件能夠實現的功能較多:一是關鍵詞的共現分析,即提取文獻主題、摘要、內容等文本中的關鍵詞,并尋找各個文獻之間關鍵詞的聯系;二是聚類分析,對即將出現的關鍵詞以及關鍵詞之間的聯系按照不同的依據進行聚類,得到不同的研究子領域;三是突現分析,即識別在某一年份突然凸顯的、引用量大幅上升的新主題詞;四是研究路徑,即提取每年研究的關鍵詞并按照年份繪制關聯路徑,以發現不同年份的研究重點。
本文借助CiteSpace5.8作為文獻計量工具,了解數據安全法領域的討論熱點、研究發展路徑、主要貢獻作者等,以幫助該領域的學者總結領域發展特點。基于此,本文采用的研究路徑如下。
第一,基本文獻統計。該步驟主要統計該領域每年的發文量,結合數據統計結果與當前的經濟、政治環境,總結研究的爆發點以及背后的原因。
第二,共詞網絡與聚類分析。該部分將聚焦于學者們的具體研究內容,對關鍵詞進行詞頻統計、關聯計算、聚類計算。在詞頻分析的基礎上,CiteSpace能夠對關鍵詞進行共詞分析。共詞分析的基本原理是計算兩個詞匯在同一篇文獻中出現的次數,以測度它們之間的親疏關系。聚類分析則將學者們研究中聚焦、關聯的關鍵詞聚為一類,主要識別該領域的細分研究領域及其規模。該步驟可以對數據安全法領域的主要研究成果布局以及細分領域的組成、規模進行可視化展示。
第三,領域發展路徑分析與突現分析。該部分在共詞網絡與聚類分析的基礎上,引入時間序列,綜合分析詞匯的興起與衰落,以及關鍵詞的發展沿革。突現分析主要識別在某些年份突然出現的主題詞,以及結束的時間。CiteSpace提供突現分析(Burst Detection)的功能來探測在某一時段引用量發生較大變化的情況。
第四,主要共現作者與合作網絡分析。文章作者的共現分析與詞匯的共現分析原理大致相同,以文章作者為數據源,統計1個作者的發文頻次以及共現發文頻次,并繪制網絡。通過該部分的分析,筆者可總結該領域的主要學者、主要機構以及合作網絡情況。
由圖1可知,2015年數據安全法領域的發文量突然上升,從2014年的2篇增加到了11篇。2015年7月發布的《中華人民共和國國家安全法》提出“實現網絡和信息核心技術、關鍵基礎設施和重要領域信息系統及數據的安全可控”。此外,2015年7月,國務院辦公廳印發《關于運用大數據加強對市場主體服務和監管的若干意見》;2015年8月,國務院印發《促進大數據發展行動綱要》。故2015年是網絡安全進步的關鍵年份,其中涉及的數據安全問題引發了學者的熱烈討論,并產生了波及效應,之后相關發文數量持續上升。2021年是發文數量躍升的又一關鍵年份,《數據安全法》頒布,明確了數據、數據處理、數據安全、風險管控、懲罰措施等關鍵問題,再次引發討論熱潮。

圖1 發文數量統計(2003—2021年)
袁曾于2017年在《東方法學》發表的《人工智能有限法律人格審視》一文,引用量高達523次。文章認為人工智能具有獨立自主的行為能力,有資格享有法律權利并承擔責任義務,因此人工智能應當具有法律人格。但由于人工智能承擔行為后果的能力有限,人工智能適用特殊的法律規范與侵權責任體系安排,其具有的法律人格是有限的法律人格。[6]

圖2 共詞網絡
筆者采用關鍵詞和主題進行共詞網絡的繪制,以關鍵詞作為聚類依據,以上共詞網絡的詞匯標簽為詞頻高于10的關鍵詞。聚類共有11類結果,分別為數據主權、大數據、人臉識別、美國、隱私保護、個人數據、網絡安全、數據政策、個人信息、數據分類、人工智能,共有節點數215個,連接線數254條。排名前10的關鍵詞分別為:數據安全、大數據、信息安全、數據治理、數據主權、國家安全、隱私保護、網絡安全、數字經濟、人工智能。第0類“數據主權”與第1類“大數據”為主要的高頻詞來源類別。筆者提取出每個類別下的主要關鍵詞,如表1所示。

表1 聚類關鍵詞信息

續表1
第0類“數據主權”主要探討了大數據時代的國家數據主權問題。齊愛民、盤佳認為對大數據保護應遵循數據主權原則、數據保護原則、數據自由原則和數據安全原則等基本原則,并應在此基礎上構建數據主權和數據權法律制度[7];杜雁蕓通過對已有數據主權概念的辨別分析,從國家視角進一步界定數據主權概念,并提出應構建中國的國家數據戰略、提高對核心數據的控制能力、實現數據的自由流通與跨境管控之間的合理平衡。[8]第1類“大數據”主要探討在新技術和新平臺下,大數據在提高信息利用率的同時,帶來的諸多數據安全問題。馮志宏提出對大數據安全治理能力的提升需采用高級別的加密解密方案,綜合采用密文檢索、完善審計以及安全數據保護等技術,以防止大數據泄露[9];張濤、馬海群分析了我國大數據方面的政策主題及未來發展動向。[10]第2類“人臉識別”主要探討人臉識別技術過程中涉及的隱私侵犯與保護路徑問題。蔣潔認為人臉數據從獲取到應用的全過程中的各種違規行為侵害了目標群體的隱私權、自由權、平等權和安全利益等,亟待完善不同應用場景下人臉識別侵權風險的控制策略[11];周坤琳、李悅通過探究美國、歐盟和我國人臉識別的法律規制路徑,提出應分別從行業自律、專門立法、行政監管和司法救濟四個方面構建多維度、多主體的人臉識別法律規制機制。[12]第3類“美國”主要圍繞歐美在個人隱私及數據保護方面的相關政策規制與實踐經驗展開討論和分析,從而對我國個人隱私及數據保護提出路徑建議。黃如花、李楠從法律法規、政策和組織機構設置等視角對美國個人隱私保護實踐進行分析,提出我國應制定個人隱私保護法律法規、建立整個數據生命周期的隱私分析和審查機制、開展政府數據開放的隱私影響評估等建議。[13]第4類“隱私保護”主要探討數據保護與隱私保護機制以及背后需要遵循的規則。劉曉探討了我國大數據征信的個人敏感數據保護的困境,并對保護機制提出建議[14];梅夏英探討了數據保護的司法局限性以及公共秩序的構建,認為應在數據分享與控制中找到一個平衡點。[15]第5類“個人數據”和第8類“個人信息”主要針對個人對象進行研究,也參考美國、歐盟的個人信息保護的立法經驗。張哲、齊愛民對我國個人信息保護法域外效力制度的構建展開研究,指出應尊重他國利益并積極推動中國方案的實現[16];冉從敬、唐心宇和何夢婷創新性地將信托模式應用到個人數據產權管理中,探討了其比較優勢與應用困境。[17]第6類“網絡安全”主要聚焦于互聯網平臺上可能出現的數據安全問題。鄧若伊等對《網絡安全法》和《國家網絡空間安全戰略》做出深度解讀[18];陶源、黃濤等對網絡安全態勢感知的關鍵技術進行了研究,對其研發、建設和監管具有指導意義。[19]第7類“數據政策”從政策設計的視角探討了我國當前在數據保護制度設計方面的問題以及未來改進方向。吳楊以國家的大數據政策文本和政策行動主體為研究對象,通過文本挖掘技術分析了目前我國大數據政策設計與執行過程中存在的問題,并從政策工具與政策網絡、政策文本與政策主體、政策執行者與政策受眾、政策文本與社會現實四個層面協同運行的角度提出了完善我國大數據政策的技術路徑。[20]第9類“數據分類”主要探討數據的分類分級依據、保護手段等。陳馳、馬紅霞和趙延帥提出了一種基于分類分級的數據全生命周期安全防護體系,設計實現了數據資產安全管控平臺。[21]第10類“人工智能”主要研究在以人工智能為依托的細分研究領域內,數據安全問題應當如何處理與規制。祝高峰對人工智能領域個人信息安全的法律保護進行了探討,并建議從法律上明確權利的歸責原則和責任承擔方式,積極制定行業標準。[22]

圖3 領域發展路徑

圖4 重點作者與合作網絡
有關數據安全的討論在2003年便已經出現,但主要聚焦于個人信息安全;2014年“數據安全”這一關鍵詞被正式提出;2015年出現關鍵詞的爆發式增長。2015年有關數據安全的很多新詞匯開始出現,例如“數據主權”“數據保護”“開放數據”等。2016年開始探討“網絡安全”“數據政策”“數據共享”和“數據開放”等;2017—2019年對數據安全的探討更加深入,涉及的法律學科也更多;2020年“數字經濟”一詞正式出現;2021年對于數據安全的探討更加深入和體系化,出現了“數據分類”“數據監管”“數據治理”“算法治理”“數字貿易”等關鍵詞。
關于數據安全法的研究可以取2015年為分界點,劃分為兩大研究階段:一是2015年以前的以個人為中心的數據安全研究,其研究對象單一,研究空間較為有限;二是2015—2021年的體系化且縱深發展時期,這一時期的特點是新詞增多、詞頻增大。但當筆者進行突現分析時,發現這一階段并無關鍵詞出現,這是由于突現分析(Burst Detection)主要探測在某一時段引用量有較大變化的情況,而數據安全這一領域的探討年限較短,仍處于成長初期,故引用量沒有較大的變化。
發文量最多的作者為馬海群,數據源中有10篇該作者的文章。與馬海群構成合作網絡的有王今、張濤等人。整體而言,作者共有168位,但形成的合作網絡僅有66個,證明數據安全法領域的合作表現并不積極。
前5位的發文機構及其發文數量如表2所示。從機構之間的合作關系來看,機構多為單獨發文,無跨院校合作發文的情況。關注該領域且發文數量最多的機構是對外經濟貿易大學法學院以及西安交通大學法學院。

表2 前5位發文機構信息
總結而言,有關數據安全法領域的研究主要呈現以下特點:
一是研究處于成長初期。2021年之后是真正屬于數據安全法的舞臺,未來研究面對的環境更加復雜,技術更加豐富,研究內容自然會更加深入,研究外延將進一步擴大。
二是《數據安全法》的出臺作為該領域研究再次爆發式增長的源頭,未來的研究角度可能聚焦于對《數據安全法》的解讀與實踐方面的研究。但對于實施《數據安全法》應如何著力,存在哪些短板和困境,實踐中該如何切實加強我國數據安全治理體系建設等問題尚未有研究成果。
三是國家政策指導以及社會經濟環境會促使學者們對數字經濟與數字治理進行更加深入的研究?,F有研究為該領域的發展提供了初步思路,但仍缺乏對數據安全治理理論框架、創新體系的頂層設計。
四是從聚類結果上來看,關鍵詞屬性可以分為兩類,一類是在數據安全范圍內展開的研究,例如“數據安全”“大數據”“信息安全”“分類分級”等;另一類是數據安全與其他領域的交叉研究,例如“數字經濟”“人工智能”“網絡安全”等。筆者認為,未來研究將擴大交叉研究的廣度和深度,例如除個人數據外,就機構、政府等其他對象面臨的數據安全問題展開探討;深入研究不同數據處理技術,探討可能出現的數據安全風險與監管機制等。
五是該領域的合作潛力待開發,作者合作與機構合作未能在研究中起到有效的推動作用。故學者們應當積極交流意見、促進合作,生成具有嚴謹性、創造性和實踐性的研究成果。