胡慕海,彭春雪,田文迪,陳艷霞
文獻量化視角的國際數據安全政策領域科研知識特性研究
胡慕海1,彭春雪1,田文迪1,陳艷霞2
(1. 武漢紡織大學 管理學院,湖北 武漢 430200;2. 武漢兒童醫院 武漢市婦女兒童醫療保健中心,湖北 武漢 430019)
以文獻為知識資源和量化對象,構建表征領域科研知識特性的若干概念,包括科研知識的流動性、新穎度、關注度、橋接性和突現性,進而宏觀觀測該領域不同學科的科研知識傳播與擴散情況,并細粒度地從模塊化知識特性的視角展開系統性梳理和評價。研究表明近年來該領域知識資源日益豐富,但不同學科的知識流動性差異較大,政法學和計算機科學的知識流動強度占有絕對優勢,另外“人工智能”和“2019冠狀病毒”是新近產生的知識模塊,知識規模增長較快,而“區塊鏈”模塊則是近年來在科學研究中應用顯著增加的知識,“自動決策”模塊通過提供豐富的基礎性知識,促進了本領域研究方向的變革?;谝陨现R特性的分析,本研究最后對該領域的科研創新方向和知識資源建設提出若干建議,有利于推動我國在該領域的研究深化。
數據安全;政策;知識
數據安全政策作為確保數據被有效保護和合法利用的準則,具備了保障數據持續處于安全狀態的能力[1, 2],是實施數據安全治理的重要手段和構建治理體系的關鍵支撐,有利于規范信息處理活動,保護個人隱私權益;充分挖掘數據價值,提高企業的數據管理效率,推動各行業數字化轉型,促進數字經濟發展[3];也利于維護國家數據主權,有助于數據的安全開放共享。
國外尤其西方發達國家對于數據安全政策的研究開展較早,對醫療、金融、制造和零售等行業的數據保護,以及物聯網、人工智能等數字技術背景下的數據安全政策解讀、設計、實施、評估、改革和政策框架構建等問題較為關注[4];還有采用文獻計量的方法,總結了數據安全政策對隱私保護技術、組織措施制定或某特定領域[5],如遠程教育、區塊鏈等造成的影響;以及從技術、組織和環境層面建立分類框架,對大數據安全、隱私相關的文獻進行統計分析,產生的研究成果較為豐富。國內對數據安全政策的研究尚屬起步階段,側重對歐美發達國家政策的借鑒、評判以及對我國政策的優化建議,如從消費者隱私視角審視歐盟相關政策的治理舉措[6];通過對歐美等發達國家數據安全政策量化、對比分析,為我國提供可參考的政策工具[7],或結合知識圖譜、語義挖掘,剖析數據安全與開放政策的協同關系[8]。
總體而言,研究大多是定性、評述性的,對于支撐當前該領域研究工作的知識的特性,尤其知識的跨學科流動性,知識的主題分布,以及如何從文獻量化的視角發掘科研知識特性方面,缺乏詳細深入探討,并且從文獻計量和知識角度展開的相關研究也相對較少。本研究擬以文獻為知識資源和量化對象,基于文獻建立該領域科研知識特性的測度指標,完成當前國際數據安全政策領域的科研知識特性的系統性梳理和評價,為如何促進該領域知識資源的建設和科研創新提出建議。
基于Web of Science采集研究數據集,使用“主題”檢索并參照Zamfioroiu的采樣策略[9],選定 “data protect* OR data security”、“policy OR regulat*”為檢索詞,形成組合檢索表達式。為體現數據安全治理的當代特性,采樣時間為2011年1月1日-2021年12月31日,跨度共計11年,選取“Article”和“Review Article”類較具實質性研究的文獻,去重、勘誤后最終確定2352篇文獻作為知識源。
(1)統計分析。統計2011-2021年間數據安全政策研究領域的文獻及其引文數量,根據知識變化情況劃分不同研究階段,進一步,以學科為知識流動的測度空間,計算隸屬不同階段不同學科研究成果的被引與施引文獻數量,用圖表形式客觀展現學科知識流動規模。
(2)共被引及聚類分析。通過兩篇文獻同時被一篇或多篇論文引證的共被引關系建立共被引網絡,根據LLR算法對文獻共被引網絡聚類,形成的節點簇表征知識模塊,獲取各模塊中知識節點的平均共被引年份、共被引頻次、中心度和突現值。
(3)戰略坐標圖分析?;诠脖灰W絡和聚類分析結果,由知識節點的共被引頻次、平均共被引年份、網絡中心度和預置時間范圍內文獻被引頻次增長率構建測度知識特性指標:關注度、新穎度、橋接性和突現性,并分別作為橫縱軸繪制戰略坐標圖,考量知識模塊在研究領域中的時效性和應用特性。
考察發文數量、引文頻次(圖1)和兩者對應的擬合指數R2(0.9781和0.9536),可見兩者隨時間推進均顯著增長。2013年美國“竊聽門”事件曝光,隱私保護受到空前重視;2018年歐盟《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR)出臺;考察發現,隱私保護和GDPR相關文獻分別占次年發文總量的21%和52%,上述事件成為影響推動數據安全政策研究的重要誘因,綜上,將近十年的數據安全政策研究發展歷程分為初始期(2011-2013年)、增長期(2014-2017年)和爆發期(2018-2021年)。

圖1 各年份發表文獻數量和引文總數統計

圖2 第一階段各學科知識流動規模

圖3 第二階段各學科知識流動規模

圖4 第三階段各學科知識流動規模

計算機科學向其他學科擴散知識的強度最大,研究成果被參考的次數最多,是數據安全政策研究領域重點學科。計算機科學、電子電氣、商業與經濟在每一階段知識輸出量均大于輸入量,可見不同學科間的知識極大程度地進行了交換與滲透,促進政策研究進一步深化;政法學知識輸出量一直遠低于輸入,表明該學科研究選題豐富,但被其他學者采納的理論與方法相對來說更集中單一,這或許與其本身學科特性有關,值得注意的是,在第三階段輸出量大幅上升,成為了學術界熱門研究內容,未來或引發更大規模的知識流動。
為清晰反映數據安全政策研究知識體系的構成,構建樣本文獻的共被引網絡,采用LLR算法對網絡知識節點聚類,形成8個知識模塊,對各模塊進行時效性分析,對各模塊排名前十高被引節點文獻的摘要采用詞云描述(圖5)。

圖5 各模塊摘要詞云

從新穎度分布來看,“2019冠狀病毒”、“人工智能”、“知情同意”、“個人數據保護”是該領域研究的新興知識。“自動決策”、“區塊鏈”、“通用數據保護條例”、“醫療保健”知識新穎度落后于平均水平。從關注度分布來看,“自動決策”模塊中文獻的共被引頻次整體較高,在研究領域里具有一定的奠基作用[11],屬于基礎型知識模塊。其中,2017年Sandra Wachter對GDPR中算法自動化決策的解釋權提出質疑,并建議通過提高個人數據使用的透明度來加強隱私保護[12]。不少學者在其工作基礎上展開更深入研究,例如“Selbst AD,2017”,針對Wachter的研究結論提出相反觀點,認為解釋權在一定程度上可以保護數據主體的權利,因此存在是十分有必要的[13]。
整體來看,“人工智能”位于第一象限,具有高新穎度和高關注度,是當前數據安全政策研究中具有顯著時效性優勢的知識模塊,其中人工智能算法的發展是否會受到數據保護政策的限制是重點探討的研究課題[14]。位于第二象限的模塊“知情同意”、“2019冠狀病毒”和“個人數據保護”,具有高新穎度和低關注度,提供了關于“知情困境”以及個人隱私泄露、濫用等問題的治理知識,包括數據安全法在當前治理中存在的短板、增加數據使用透明度的路徑設計等,此類知識處于生命周期初期,有潛力成為后期研究應用中的焦點。尤其“2019冠狀病毒”的知識具備最高新穎度,主要涉及新冠肺炎病毒背景下,檢測和預防疾病過程中通信、數據科學技術大規模應用,符合新興技術發展的數據安全政策框架構建,以及個人數據與公共安全利益平衡問題研究。第三象限的“通用數據保護條例”、“醫療保健”新穎度和關注度都較低,在研究中不受到重視,是目前處于低應用價值的邊緣化知識,支撐研究的知識體系亟待發展。前者知識主題包括《通用數據保護條例》概念、定義的解讀,值得注意的是數據可遷移性這一新概念的提出,賦予了數據主體更多控制數據的權利,有潛力促進政策的創新改革[15];后者聚焦于基于物聯網技術的醫療系統中,電子健康數據共享政策設計。“區塊鏈”位于第四象限,屬于研究中長期得到應用的基礎性知識,主要涉及數據保密技術在不同行業實現政策合規需作出的調整措施,相關知識體系有所老化。

圖6 知識模塊“新鮮度-關注度”分布

橋接知識是指網絡中高中心度的文獻節點,往往與其他模塊關聯緊密,研究方向在此節點易發生明顯轉變,作為載體承接了重要的新理論、方法、技術或思想?!白詣記Q策”橋接性最高,提供了大量引導后續研究轉向的樞紐知識;其次是“2019新冠病毒”,促進了重大突發公共衛生危機事件背景下新研究分支發展。具體地,Jan Philipp Albrecht(2016)以消費者和數字技術間的信任關系為切入點,闡述GDPR對各國數據安全治理方式造成的影響及效果[16],近三年來該文獻多次與“知情同意”、“個人數據保護”模塊內的知識節點發生關聯,為之后兩模塊的創新研究提供了重要的知識支持。Barocas的研究結合大數據應用的復雜情景,審視由數據挖掘等算法技術引起的“智能困境”[17],例如在大數據分析過程中,多元、非敏感的個人數據被挖掘、整合后,可推斷出敏感信息從而造成隱私侵犯,該研究成果對后續預防大數據泄露的政策制定、機器學習的算法管控具有一定指導意義。
突顯知識存在于特定時間段內被引次數驟升的文獻中,是某一時段期被高頻引用的熱點知識;“區塊鏈”擁有最多被引突增文獻,是熱門知識高發區,這與數字加密技術的迭代更新不無關系;來自該模塊的“D.H.Paul, 2016”突現值最高,在GDPR正式頒布前,作者通過對該法案的內容分析,預測數據遷移權的提出對數據安全治理的變革有巨大推動作用[18],該權利不僅賦予數據主體控制數據的權利,未來還可能改變數字經濟的市場環境,文章在發表一年之后出現被引突增,但僅維持一年,在2018年被引情況逐漸趨冷。其次是來自“人工智能”的“V.Mayer-Schonberger,2013”,指明了政府開放數據因包含公共部門、私營部門和個人信息等重要數據,會成為未來重點治理對象[19],該成果發表2年后(2015年)開始受到大量關注,為進一步從社會層面研究數據保護相關權益提供了思路。

圖7 知識模塊“橋接性-突現性”分布
(1)知識流動強度不均衡,大部分集中于政法和計算機領域,研究側重在為政策執行提供技術層面的知識支持,與人文、工學、醫學等學科知識流動性差距較大,表明這些領域政策研究的知識產出和應用尚屬起步階段,各學科間缺乏融合和聯系,彼此分割。
(2)“人工智能”知識模塊具有高新穎度和高關注度,主要涉及算法自動化決策的合規性調整,以及科學技術發展與數據安全政策變革的利益平衡問題,有潛力發展成核心知識領域。“2019冠狀病毒”是新晉的研究主題,預示醫療健康、患者隱私數據安全治理可能成為熱門研究分支;“自動決策”作為基石模塊,為數據收集、使用和披露的操作規范化研究及自動決策程序的風險規避等問題提供了較豐富基礎性知識。
(3)“自動決策”知識模塊是促使研究方向發生轉變的關鍵知識資源,其中的高中心度知識節點與其他知識模塊發生連接和融合,對新方法、理論的產生影響較大;“區塊鏈”模塊包含最多被引突增文獻,是研究中應用熱點知識高發區。
對以上科研知識特性展開綜合比較,可以對知識資源的建設和面向科研的創新應用形成一些建議?!白詣記Q策”知識模塊具有高關注度和高橋接性,新穎度和突現性表現較平,表明該主題的歷史知識成果豐富,對早期數據安全政策研究方向的變革有一定指導作用,但知識內容相對老化,近年并未出現知識應用上的熱點,發掘研究創新點難度可能會較大,需要厘清該領域知識資源的不足,明確知識資源建設和創新研究的基本方向;“區塊鏈”有高突現性,但新穎度和橋接性均很低,可見相關知識曾經被積極應用和高度重視,但知識也是相對滯后,知識應用熱點雖多但彼此分隔,后繼乏力,可考慮從現有熱點研究中發現學術聯系,比如在跨學科,交叉研究方向上開辟新的創新思路;“人工智能”整體表現較平,研究競爭壓力較小,有潛力成長為該領域核心主題,可以考慮在現有研究成果基礎上推陳出新;“知情同意”新穎度較高、關注度不高,且突現性和橋接性均為最低,說明該新興主題尚沒有得到較多關注,相關知識尚未被積極應用,如果加強知識的創新利用,可能會產生新的研究熱點;“2019冠狀病毒”、“個人數據保護”的突現性和橋接性均不明顯,新穎度較高但關注度低,表明是新近研究熱點,但尚未形成豐富的知識資源,研究上可以認為競爭不大,且存在一些具有研究轉向特性,加強對該領域知識資源的深度應用,有可能會形成新的創新領域和前沿熱點;“通用數據保護條例”和“醫療保健”的突現性和橋接性和“2019冠狀病毒”類似,但是前兩者新穎度和關注度都不高,不是近期的研究上的知識應用熱點;知識資源不夠豐富且有所老化,需要進一步厘清該領域知識資源不能持續更新的原因,是否知識資源的不足制約了相關研究的發展。
進一步,結合典型高被引知識節點的分析,本文提出若干更具體的建議,首先重大突發公共衛生事件背景下,跨醫療、生物領域的知識創新應用。公民健康數據安全既涉及敏感的個人隱私信息,又屬于威脅國家安全的重大資源,當前跨學科知識流動性不足,亟待進一步進行學科交叉、融合的新興研究,并結合當下背景加強政策實施的案例型知識產出,以支持現實中的實操應用。其次,信息科技領域數據安全政策設計、實施和效果評價方面,通用的、范式化的方法及模型開發,尤其人工智能算法、數字保密技術的知識應用呈現碎片化特性,現有研究成果無法支撐政策構建統一的合規化標準,有必要圍繞特定政策場景深化大量理論與實踐研究,為“碎片化”的問題提供有力的知識支撐,為政策決策、評估、預測和校正等過程提供有參考意義和價值的方法指引,從而提高合規流程效率。
本文以學科為測度空間測量知識流動性,未考慮到某文獻可能屬于多個學科類別情況,其次,共被引網絡聚類的主題標簽識別可能有偏差,本文尚未驗證基于主題聚類算法進行知識模塊挖掘的有效性問題,有可能出現主題代表性偏差的問題,其次以文獻作為知識資源的量化對象,所構建的知識特性指標也有一定局限性,由此形成的知識資源建設和創新應用的建議可能也有一定片面性,未來可以考慮識別更有代表性的知識模塊主題標簽。
未來的工作考慮整合和優化主題聚類算法,進一步提升知識主題聚類效果,完善基于文獻的科研知識特性量化指標,拓展面向科研創新的知識資源,多方面挖掘不同類型的知識特征整合到知識圖譜的節點表征和節點關聯測度模型中,由此在不同知識粒度層面,建立和優化數據安全政策研究領域知識資源應用趨勢的量化預測能力。
[1] 李艷, 章時雨, 季媛媛, 等. 全球數據安全:認知、政策與實踐[J]. 信息安全與通信保密, 2021, (7):2-10.
[2] 馬海群, 徐天雪. 我國政府數據安全政策評估體系構建研究[J]. 圖書館理論與實踐, 2018, (1):1-4.
[3] Christopher K , Fred C , Orla L , et al. An unstoppable force and an immoveable object? EU data protection law and national security[J]. International Data Privacy Law, 2018, 8(1):1-3.
[4] Tamburri D A. Design principles for the General Data Protection Regulation (GDPR): A formal concept analysis and its evaluation[J]. Information Systems, 2020, 91, 101469.
[5] Dimitrova A , Brkan M. Balancing National Security and Data Protection The Role of EU and US Policy-Makers and Courts before and after the NSA Affair [J]. JCMS Journal of Common Market Studies, 2018, 56(4):751-767.
[6] 門小軍. 大數據時代歐盟數據安全政策概述[J]. 信息安全與通信保密, 2015, (6): 36-39.
[7] 馬海群, 王茜茹. 美國數據安全政策的演化路徑、特征及啟示[J]. 現代情報, 2016, 36(1):11-14.
[8] 閆倩, 馬海群. 我國開放數據政策與數據安全政策的協同探究[J]. 圖書館理論與實踐, 2018, (5):1-6.
[9] Alin Z, Bogdan I, Catalin B, et al. IoT Communication Security Issues for Companies: Challenges, Protocols and The Web of Data[J]. Proceedings of the International Conference on Business Excellence, 2020, 14(1): 1109- 1120.
[10] 夏紅玉, 胡潛, 王忠義. 基于引文重要性的知識流動主路徑分析[J]. 情報學報, 2022, 41(05): 451-462.
[11] Chen C. Science Mapping:A Systematic Review of the Literature[J]. Journalof Data&Information Science, 2017, 2(2):1-40.
[12] Wachter S , Mittelstadt B , Floridi L . Why a Right to Explanation of Automated Decision-Making Does Not Exist in the General Data Protection Regulation[J]. Social Science Electronic Publishing, 2017, 7(2): 76-99.
[13] Selbst A D , Powles J . Meaningful Information and the Right to Explanation[J]. Social Science Electronic Publish- ing, 2017, 7(4): 233-242.
[14] Maja B. Do algorithms rule the world? Algorithmic decision-making and data protection in the framework of the GDPR and beyond[J]. International Journal of Law and Information Technology, 2019, 27(2):91-121.
[15] Paul D H,Vagelis P,Gianclaudio M, et al. The right to data portability in the GDPR: Towards user-centric interoper- ability of digital services[J]. Computer Law & Security Review: The International Journal of Technology Law and Practice, 2018, 34(2):193-203.
[16] Albrecht J. How the GDPR Will Change the World[J]. European Data Protection Law Review, 2016, 2(3): 287–289.
[17] Barocas S , Selbst A D . Big Data's Disparate Impact[J]. Social Science Electronic Publishing, 2016, 104(1): 671- 732.
[18] Paul D H, Vagelis P.The new General Data Protection Regulation: Still a sound system for the protection of individuals?[J]. Computer Law & Security Review, 2016, 32(2): 179-194.
[19] Veale M, Edwards L. Clarity, Surprises, and Further Questions in the Article 29 Working Party Draft Guidance on Automated Decision-Making and Profiling[J]. LawArXiv, 2017, 34(2): 398-404.
Research on the Characteristics of Scientific Knowledge in the Field of International Data Security Policy From the Perspective of Literature Quantification
HU Mu-Hai1, PENG Chun-Xue1, TIAN Wen-Di1, CHEN Yan-Xia2
(1.School of Management, Wuhan Textile University, Wuhan Hubei 430200, China;2. Wuhan Women's and Children's Health Care Center, Wuhan Children’s Hospital, Wuhan Hubei 430019, China)
Take literature as the object of knowledge resources and quantify, this paper tries to build some concepts of characteristics of scientific research knowledge, including the scientific knowledge's liquidity, novelty, attention, bridge and emergent, and macroscopic observation the different disciplines in the field of scientific research knowledge dissemination and diffusion, and in a modular knowledge characteristics in detail to comb systematically and evaluated. Research shows that knowledge resources in this field are increasingly abundant in recent years, but there are great differences in knowledge mobility among different disciplines. Political science and law and computer science have absolute advantages in knowledge flow intensity. In addition, "artificial intelligence" and "COVID-19" are newly generated knowledge modules, and the scale of knowledge is growing rapidly. While the "blockchain" module is a significant increase in the application of knowledge in scientific research in recent years, the "automatic decision" module promotes the reform of the research direction of this field by providing rich basic knowledge. Based on the analysis of the above knowledge characteristics, this study finally puts forward some suggestions on the direction of scientific research innovation and knowledge resource construction, which is conducive to accelerating the process of scientific research in this field in China and promoting the deepening of research in this field in China.
data security; policy; knowledge
胡慕海(1976-),男,副教授,博士,研究方向:政策信息學.
湖北省教育廳科學技術研究計劃指導性項目(B2013203);湖北省普通高等學校人文社會科學重點研究基地-企業決策支持研究中心項目(DSS20200705);湖北省普通高等學校人文社會科學重點研究基地-企業決策支持研究中心項目(DSS20170303);湖北省教育科學“十二五”規劃2012年度立項課題(2012B075).
TN929.11
A
2095-414X(2022)06-0040-06