范廷鈺,袁 科
(1.河南大學國際教育學院;2.河南大學計算機與信息工程學院,河南開封 475004)
大數據與云計算等新技術融合,信息的利用率得到極大提高,同時也引發大量的信息安全事件。大數據安全問題成為大數據學術研究的熱點問題。
中國知網是國內最大的期刊全文數據庫,在影響力、內容覆蓋面、規范性、檢索途徑等方面具有明顯優勢[1]。本文以中國知網下的信息科技文獻目錄作為數據源,運用可視化數據分析工具CiteSpace,以發文量、核心作者、關鍵詞、突現詞為主題進行分析,總結我國大數據安全領域研究熱點和前沿,為學者提供參考和借鑒。
數據來源于中國知網信息科技文獻目錄,以“大數據”“信息安全”“網絡安全”“數據安全”“安全存儲”作主題詞,檢索時間為2010-2019 年,去除與研究不相符的文獻資料,最終獲取822 篇高被引文獻,將文獻以Refworks 格式導出。
本文采用的可視化工具為美國費城德雷克塞爾大學信息科學與技術學院陳超美博士基于JAVA 平臺開發的CiteSpace[2]。利用CiteSpace 將Refworks 格式文檔轉換成Web of Science(WOS)數據源導入CiteSpace 中[3]。對文獻作者、作者合作關系、關鍵詞、突現詞進行可視化分析,并制作相關知識圖譜,輔助分析我國在大數據安全研究方面的不足和可拓展的前沿領域[4]。
在進行數據分析之前,筆者對CiteSpace 的相關參數進行設置。“Time Slicing”(時間分隔)設置為2010-2019 年;“Years Per Slice”(最小統計時間)設置為1 年;“Term Source”(主題詞來源)將其下的Title(標題)、Abstract(摘要)、Author Keywords(作者關鍵詞)、Keywords Plus(拓展關鍵詞)全部勾選;“TopN%”(頻率選項)設置為20%。
一個領域的發展態勢可以從發文量的多少得以展現[5]。對2010-2019 各年發文量進行統計,發現大數據安全研究發文數量自2012 至2019 年各年發文量分別為2、25、71、111、112、144、174、183 篇,呈現逐年上升趨勢,如圖1 所示。根據圖1 將其分成兩個上升階段:第一個階段(2012-2015),自2012 年大數據在學術界引起關注后,其安全性研究也逐漸在增加,這一階段累計發表文獻209篇,占研究樣本的25.4%,平均增長率為28.1%;第二個階段(2016-2019),隨著云計算等技術的發展,大數據應用提升到新的階段[6],這一階段學者主要針對云安全以及云存儲進行探討,累計發表文獻613 篇,占研究樣本的74.6%,平均增長率為17.8%。
將“Node Types”(節點來源)設置為“Insulation”,調節Thresholds 為c(1,2,20)、cc(2,2,20)、ccv(4,3,20),得到研究機構合作共現網絡(Nodes(節點)=87,Links(連線)=14,Density(密度)=0.003 7),如圖2 所示。圖2 列出研究機構合作分布情況,圖中節點大小代表機構發文量多少,最大節點是“上海社科院信息研究所”,總計發文10 篇,其次較大的節點有“工業和信息化部賽迪智庫”“中國信息安全測評中心”和“中國電子科技集團公司第三十研究所”,發文量分別為4 篇、3 篇和3 篇,這代表目前我國在大數據安全領域研究的第一梯隊。

Fig.1 The number of articles published in the field of big data security from 2010-2019圖1 2010 -2019 年大數據安全領域逐年發文量

Fig.2 Network map of cooperation and co-occurrence of research institutions in the field of big data security圖2 大數據安全領域研究機構合作共現網絡圖譜
圖2 顯示有三組連線。第一組平均發文量最大的合作機構為“中國信息安全測評中心”與“中國移動通信集團公司”,均發文2 篇;其次的兩組分別為上海大學圖書情報檔案系和中國商飛上海飛機設計研究院;上海交通大學、中國工程院和中國科學院研究生院,合作網絡密度僅為0.003 7,表明各個機構節點之間的關系較為分散,各大機構之間尚未形成緊密的合作關系。
發文量多少在一定程度上反映學者的學術研究能力[7]。將“Node Types”(節點來源)設置為“Author”,調節Thresholds 為c(1,1,20)、cc(2,1,20)、ccv(4,3,20),得到大數據安全領域核心作者合作共現網絡圖譜(Nodes(節點)=131,Links(連線)=70,Density(密度)=0.008 2),如圖3 所示。圖3 列出部分核心作者及合作團隊的結點信息。主要合作節點(合作團隊)有張新剛、王保平團隊,合作發文3篇,韓曉露、呂欣團隊合作發文2 篇,其他作者之間單次合作較多。作者節點間合作密度較低,僅為0.008 2,表明目前相關領域科研人員比較分散,還沒有形成真正意義上的合作關系。將累計發文數位于前20 的作者制成大數據安全研究高產作者表,如表1 所示。表1 顯示2010-2019 年間,發文量為3 篇以上的作者僅有5 位,占這一領域全部作者的0.71%。由此分析大數據安全領域研究人員基數大,研究人員廣泛關注,但從人均發文量看尚沒有(中文期刊)高產量作者,表明目前這一領域的研究深度較欠缺。

Fig.3 Network map of core authors co-occurrence in the field of big data security圖3 大數據安全領域核心作者合作共現網絡圖譜

Table 1 High-yielding authors in the field of big data security表1 大數據安全領域高產作者
關鍵詞是對文獻主旨內容與作者意圖的概括,是文獻的核心和精髓[8],因此對某一領域相關文獻關鍵詞的分析,有助于挖掘該領域研究熱點[9]。將“Node Types”(節點來源)設置為“Keyword”,調節Thresholds 為c(1,1,20)、cc(3,2,20)、ccv(4,3,20),得到2010-2019 大數據安全研究主題詞圖譜(Nodes(節點)=70,Links(連線)=137,Density(密度)=0.056 7),如圖4 所示。統計圖譜中出現頻次前20 的關鍵詞,得到大數據安全領域高頻詞表,如表2 所示。
從圖4 和表2 可知,近10 年來大數據安全研究圍繞大數據(366)、信息安全(215)、大數據時代(144)、網絡安全(58)、云計算(55)等議題進行了研究。
關鍵詞出現頻次最高的是“大數據”,其相關文獻在中國知網信息科技數據庫中高達6 萬余篇。近年來,大數據隱含巨大的社會、經濟、科研價值已引起各行各業的高度重視[10],數據正逐漸成為新時代下的原始材料,服務于國家安全、醫療健康、教育改革、產品效益等諸多領域[11]。
其次,頻次出現排第二第三的分別是“信息安全”“大數據時代”。信息安全事關國家安全以及社會穩定,采取有效措施保證信息安全變得至關重要[12]。信息安全主要包括信息設備安全、數據安全、內容安全和行為安全,密碼和網絡安全是其關鍵技術[13]。

Fig.4 Co-occurrence map of keywords in the field of big data security from 2010-2019圖4 2010-2019 年大數據安全領域關鍵詞共現圖譜

Table 2 High-frequency words in the field of big data security表2 大數據安全領域高頻詞
2.5.1 研究演進
特定時期關鍵詞的爆發往往與研究人員特別關注的某一潛在話題息息相關,因此突發性檢測可用于探索新興趨勢和轉瞬潮流,利用CiteSpace 知識可視化軟件可對關鍵詞的突現性進行檢測并可視化,有助于對相關領域內出現的歷史熱點和持續時間進行分析[14]。時區視圖展示了領域文獻的增長,某一時區的文獻越多,說明這一時間段中發表的成果越多,該領域處于繁榮時期;某一時區中的文獻越少,說明這一時段中發表的成果越少,該領域處于低谷時期。通過各時間段之間的連線關系,可以看出各時間段之間的傳承關系[15]。利用CiteSpace 的“Burst”(突變系數),在Layout 中選擇TimeZone,得到2010-2019 年大數據安全研究熱點時區圖譜,如圖5 所示。

Fig.5 Time zone map of research hotspots in the field of big data security from 2010-2019圖5 2010 -2019 年大數據安全領域研究熱點時區圖譜
為進一步了解每個階段關鍵詞的突現情況,按照圖6設置關鍵詞突現系數,得到10 個在10 年間出現突變的關鍵詞,分別為開放數據、數據安全、數據處理、云安全、存儲備份、個人隱私、云存儲安全、個人信息保護、信息安全防護、防護策略,繪制出重點關鍵詞突現表,如表3 所示。這些重點關鍵詞突現情況直接反映了大數據安全領域研究趨勢的轉變。

Fig.6 Setting of keywords emergent coefficient圖6 關鍵詞突現系數設置

Table 3 Emergence of important keywords表3 重點關鍵詞突現情況
通過熱點時區圖譜和關鍵詞突現圖譜,將大數據安全領域研究演進分為4 個階段。
(1)數據安全的基礎性探討(2010-2012)。大數據出現就受到學者廣泛關注。在中國知網數據庫上,相較于21世紀初前10 年的508 篇論文,在第一階段3 年之內,累計發表大數據論文就增至1 752 篇,與此同時也帶來新的問題——數據安全性。這一時期,研究者主要從“大數據的數據結構”“數據工程”“數據處理”等方面對數據安全進行了基礎性探討。王珊等[16]針對大數據特征對數據架構進行分析,覃雄派等[17]對關系型和非關系型數據庫優劣的研究,都表明這一階段研究者對大數據的基礎特征進行了深入探討。
(2)云計算的安全性探討(2013-2015)。IBM 公司于2007 年宣布云計算計劃,經過多年的發展,云計算技術逐漸成熟。隨著云計算逐漸走向專業化、規模化,云計算領域的安全問題成為其發展的關鍵。這一階段,研究者從“云安全技術框架”“云安全標準”“云安全服務”等多個方面探討云計算的安全性。林闖等[18]對云計算安全架構和機制的評估,王于丁等[19]對云計算訪問控制機制的分析,都表明如何控制和保護信息資源不被非法獲取和使用是研究的重點方向。
(3)信息安全保護探討(2015-2016)。伴隨著大數據以及云計算技術和服務的不斷推進,全球信息安全治理體制變革逐漸完善,這一時期對信息安全進行了更為深入的探討,從“信息安全”“網絡安全”“信息安全政策”等諸多角度進行研究,由個人信息安全上升到國際間的信息安全防護。王世偉[20]闡述了“信息安全”“網絡安全”和“網絡空間安全”三者的聯系與區別,龔儉等[21]對網絡安全態勢感知分析與研究,都顯示這一階段學者對信息安全防護管理和世界網絡安全體制進行了多維度研究。
(4)信息防護策略探討(2017-2019)。最后一個大數據安全領域研究增長極為2017-2019 年。在上一階段影響下,人們對隱私保護有了越來越多的需求。隨著云計算等計算模式的廣泛應用,云平臺的可信程度面臨挑戰。在這一階段,區塊鏈技術的出現為解決分布式環境下實體間信任建立提供了新的思路和方法[22]。董貴山等[23]對區塊鏈中的隱私保護策略進行了分析,有些學者提出新的防護策略模型,如柳毅等[24]提出一種基于多層加密機制的內容中心網絡隱私保護策略,高嶺等[25]提出基于改進蟻群算法的防護策略選擇模型等。由此可見,這一階段防護策略成為學者關注熱點。
2.5.2 前沿走向
研究前沿的識別與追蹤能夠為研究者提供學科研究最新動態,預測研究領域發展,識別需要進一步探索的問題。在研究中,前沿往往采用代表該研究內容的詞匯或短語出現次數的變化進行分析[26]。根據大數據安全領域研究演進的變化規律和近5 年關鍵詞突現情況,得出以下研究前沿熱點走向。
(1)大數據信息安全防護。隨著大數據的發展,越來越多的技術如物聯網、云存儲被應用到實際生活中,生成海量數據,這些數據包含社交網絡用戶信息、購物記錄、身份特征等,通過整合這些相關數據便可獲得更有價值的個人及社會的敏感信息[27]。目前,尚不完善的信息保護與存儲方案、第三方平臺的可信程度等都存在信息泄露風險。表3 顯示在近5 年關鍵詞中,“信息安全防護”與“個人信息安全”都具有顯著的突現性。如何在大數據環境下對危險信息進行標記、在處理數據時設置嚴格的訪問控制機制,以此保護個人信息不被非法訪問和獲取,是未來大數據安全研究的重點。
(2)大數據云存儲安全。云存儲迅猛發展,用戶將文件資料存放在云端的同時也喪失了對文件的絕對控制權,從而造成隱私泄露等安全隱患[28]。為解決云存儲存在的安全問題,學者通過屬性基加密、可搜索加密等關鍵技術,改進與完善云存儲系統,為數據建立索引,提升數據可用性,為云服務提供安全高效的共享環境。在表3 中,“云存儲安全”關鍵詞在近5 年中表現出突現性。隨著技術的不斷更新與發展,越來越多的安全方案被提出,“大數據云存儲安全”研究對進一步推進大數據應用起到重要作用。
(3)大數據安全防護策略。區塊鏈等技術的推進,為無信任網絡結構提供了安全保證。與此同時,大數據將用戶的隱私信息進行匯集,使得惡意獲取用戶信息的技術門檻不斷降低[29]。因此,用戶對隱私及信息保護提出越來越多的需求。在新興技術背景下,通過應用新的網絡架構和算法模型提出了許多新的防護策略,實現數據動態存儲,從而極大增加攻擊者訪問數據的難度。表3 中,關鍵詞“防護策略”在近3 年表現出較高的突現性。通過技術的不斷創新與發展,提出更加優秀的防護策略,保證數據在高度聚合的前提下安全存儲,是未來大數據安全領域研究方向。
從大數據概念的興起,再到大數據應用以及服務的普及,大量的個人及社會信息作為數據存儲,人們對信息數據的控制權逐漸被削弱。同時,大數據領域的新技術不斷出現,帶來的安全問題也日益明顯,人們對隱私保護的需求也越來越多。如何在大數據不斷發展的背景下提出和完善更加安全的防護模型,以應對非法獲取和利用數據,是當前也是未來大數據安全領域的重要命題。
2010 -2019 年,由大數據及其相關技術所帶來的信息防護、存儲安全等相關問題一直貫穿整個大數據安全領域,研究方向也在研究進程中發生了轉變,由最初對大數據概念、存儲架構的基礎性探討,逐漸轉向對更加安全的信息防護策略研究;從云計算的基礎性結構評估,逐漸發展為應用各種加密算法及改進云存儲系統。大數據安全領域理論研究為實踐提供了標準,并且助推了更多安全系統模型與防護策略成果。
即使研究方向不斷變化,大數據安全仍是歷久常新的問題,需要綜合應用多種新技術、新架構以此應對該領域的復雜性和多變性。
通過利用CiteSpace 對大數據安全進行研究分析得到如下結論:
(1)組建聯合科研團隊,集中解決領域難題。作者合作以及機構合作的網絡密度均不高,表明國內并沒有出現真正意義上的合作團隊和機構。具有代表性的研究團隊對領域發展起到引導作用,國內稀疏的合作關系導致高質量的文章較少,阻礙了大數據安全研究發展。因此,國內大數據安全領域研究學者以及研究機構應當組建聯合科研團隊,學習和借鑒不同技術和專業思想,緊跟大數據前沿發展步伐,針對信息安全、存儲安全,結合當下的新興技術提出適用的安全問題解決方案,從而形成具有影響力的研究合作中心。
(2)緊跟領域發展,做到有所發現與創新。從研究熱點分布來看,關鍵詞出現頻次位于前三的分別是“大數據”、“信息安全”以及“大數據時代”,而近年具有較強突現性的關鍵詞出現頻次并不高,這體現出大數據領域研究發展過程中,大量的文章只側重于研究大數據的基礎部分,沒有結合大數據當前的發展進程提出解決安全問題的新思路、新方法。部分文章僅泛泛地提出了大數據中關于信息安全的問題,同質化現象嚴重。隨著研究進程的不斷推進,研究應當順應領域方向演進,從前沿角度提出更加新穎的問題和實踐方案,仍停留在基礎研究方向上對領域的發展和貢獻都是沒有意義的。
(3)開闊研究視野,拓展研究思路。大數據安全領域研究在10 年中共經歷了4 次研究方向轉變,平均每過兩年就會發生一次研究演進。這一方面表明了大數據前沿的應用技術更迭較為頻繁,隨之帶來了許多相關的安全性問題;另一方面也體現出大數據安全領域的發展與大數據實踐應用之間有著密切聯系。大數據在實際應用與服務之中離不開大數據安全領域研究成果支持,而新興的大數據相關關鍵技術又為大數據安全領域提出了新的問題和挑戰。因此,研究的視野不能只局限于安全領域的相關進展,應當主動了解學習應用于大數據領域的前沿實踐成果,從而為研究打開新的思路和方向。