999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的大數據流通共享安全方案

2020-12-10 00:38:24裴超范東媛倪明鑒
網絡空間安全 2020年10期
關鍵詞:大數據

裴超 范東媛 倪明鑒

摘? ?要:在大數據的整個生命周期中,針對數據流通共享的過程,已經有了一些安全技術進行保障,如數據加密技術、數據脫敏技術。但是,由于數據的提供方和使用方通常并不在同一系統中進行管理,存在數據資產跨域流通的情況。如何對跨域流通共享的數據資產進行確權,并對數據發生安全事件時進行泄露溯源,是大數據流通共享過程中亟需解決的安全問題。文章通過將數據加密技術、數據脫敏技術、數字水印技術和區塊鏈技術等進行結合,提出了一種體系化的安全的改進方案,能夠解決在數據跨域傳輸后,確保數據被安全合規的使用。

關鍵詞:大數據;區塊鏈;數據流通共享;模糊哈希;數據確權

中圖分類號: TP309.2? ? ? ? ? 文獻標識碼:A

1 引言

大數據時代背景下,由于供需方所有的數據資源的不均衡、數據算力的差異性,為減少數據孤島現象,將數據轉化為知識和價值,實現業務創新和增值,需要進行各方數據的流通和共享。但在此過程中,由于數據安全相關的法律法規的不健全[1]、企業數據安全風險意識缺乏和數據安全技術能力的不足,使得在進行政府與政府之間、政府與企業之間、企業與企業之間的數據流通和共享過程中,可能發生數據泄漏、數據竊取和濫用等問題,危害了國家社會利益,侵犯了公民隱私[2,3]。

為從技術層面上保障數據安全的流通和共享,促進大數據的合法合規使用,減少數據安全事件發生,傳統的數據脫敏和加解密技術的應用,能夠在防止敏感信息泄漏和數據竊取方面起到一定作用[4,5],但并不能防止數據濫用和非法傳播。通過引入數字水印技術,配合區塊鏈建設可信任的使用網絡,形成體系化的數據安全解決方案,可明顯地保障數據的安全流通和共享。

2 大數據流通共享現狀

2.1 大數據流通共享定義

大數據流通共享是指將企業、政府等信息系統中存儲的大數據作為流通和共享對象,按照數據供需各方約定的規則、協議等,將數據從數據所有方向數據需求方提供分析使用的過程[6]。數據的流通共享可使數據脫離數據所有方,從其原有場景中進入一個目的性更強的應用場景,實現數據價值的變現。因此,數據的流通共享是創造數據價值關鍵的一環,它通過變更數據原有的使用場景和使用目的,將數據從產生端轉移到使用端,實現了數據資源的優化和數據價值的釋放。

2.2 大數據流通共享方式

本文定義的流通共享分為原始數據和結果數據的流通共享。設有數據提供方S和數據需求方A、B、C,如圖1所示。S從本地數據倉庫抽取數據并傳至A、B、C對應的數據服務器DB-Sa、DB-Sb、DB-Sc中。

方式一:S對A通過直接存儲對接的形式提供原始數據,如通過FTP、HDFS,將原始數據從DB-Sa傳輸至DB-A。在此種方式下,數據通常以離線或批量的文件形式進行傳輸,有時也可以是庫對庫的直接同步傳輸。

方式二:S對B提供數據資源目錄,如數據開放平臺,B通過登錄訪問S的數據開放平臺,選擇所需的原始數據資源,并進行訪問獲取至DB-B。B獲取原始數據的方式可能是離線文件的形式,如CSV、XLS等文件,也可能是API調用的形式,查詢單條數據結果。

方式三:S對C不直接提供原始數據的傳輸,而是在內部提供數據分析平臺,由C通過數據分析平臺在S所控制的區域內,完成數據分析任務后,將分析結果取回至DB-C。

在三種數據流通方式中,方式三為結果數據的流通。對于結果數據,一般認為已脫離了原始數據所具有的表現形式,并且對特定數據需求方和特定應用具有針對性,因此從數據資產的所有權上來講,結果數據的所有權應屬于數據使用方。而方式一和方式二的情況,流通的數據為原始數據,數據的所有權屬于數據提供方。

2.3 存在的安全性問題

由于數據資產不同于其他實物資產,存在易于復制、易于傳播、易于加工等特性,從而造成了原始數據在流通共享過程中出現一些安全問題,包括數據資產確權的問題和數據泄露后溯源的問題。

(1)數據資產確權問題:由于數據采集源豐富、易于編輯的原因,使得在流通共享后無法清晰分辨數據的所有權。如S將其所有的原始數據傳輸給A后,A可以否認原始數據來自S。即使S的本地留存有數據傳輸的日志,但是中心化的記錄存在被S修改的可能,因此無法從完全合規的層面確認數據資產的所有權。

(2)數據泄露溯源問題:按照供需雙方的協議約定,數據應當限制在一定范圍內使用,并保證被有限次使用。但由于無法對需求方的使用進行安全管控,因此可能存在數據被二次售賣的情況。如A可以違背協議,將S的數據轉售給其他廠商,造成數據無法追溯。

針對上述問題,閆樹[7]等人提出將區塊鏈技術應用于數據共享,王海龍[8]等人也給出了一種基于區塊鏈的大數據確權方案,通過利用區塊鏈的防篡改特性,實現數據流通記錄的可信存證。吳健[9]等人提出通過結合區塊鏈和數字水印技術,實現了一種在版權保護場景下的應用。但是,上述方案都是基于數據的強密碼哈希的一致性保證的,一旦鏈下的數據發生微小改變,如增刪部分內容的情況,則由于哈希值的變化將造成方案中鏈上鏈下無法對數據進行追溯和確權的現象。

3 改進的流通共享方案

3.1 模糊哈希

模糊哈希算法[10,11]是一種基于數據內容的分片哈希算法(Context Trigger Piecewise Hash,CTPH),算法涉及到一個弱哈希算法和一個強哈希算法。弱哈希算法主要用于基于數據內容計算分片的大小,然后由強哈希算法對指定分片的內容進行計算,再將每片數據內容的哈希值中的部分數據拼接后,與分片大小等條件共同構成最終結果。本方案使用模糊哈希的一種實現—Ssdeep用于哈希值的計算和相似度判斷,表1為對含有10000條數據記錄的文件,分別進行了以100條記錄為單位的順序改變、記錄增加和記錄刪除的情況下與原始數據進行相似度對比的結果。

通過對數據修改前后的模糊哈希結果進行相似度對比[12~14],能夠判斷二者之間的相關性。結合區塊鏈對于數據的安全保護特性及相關方案[22,23],將模糊哈希算法在區塊鏈中進行應用,能夠彌補現有基于區塊鏈技術的數據流通共享方案中只能對數據進行確定性對比的不足。

3.2 改進方案

針對上述兩個問題,提出了一種基于區塊鏈技術的面向大數據的改進的流通共享方案。如圖2所示,方案以區塊鏈技術Hyperledger Fabric構建底層可信聯盟鏈網絡,數據供需方作為網絡中的節點,把相關信息形成區塊交易進行申請和提交,包括對區塊進行驗證及更新本地賬本數據。方案中設有數據監管方角色的節點,對供需方之間的活動進行監管和公證。

方案中的數據傳輸分為鏈上和鏈下兩部分。鏈上依賴于區塊鏈的安全特性,提供數據信息的可信記錄、查詢和追溯,鏈下將依據供需雙方的約定將數據從提供方發送至需求方。為了實現數據的安全流通和共享[15],鏈下傳輸的數據將采用加密[16,17]或脫敏[18,19]技術進行處理。同時,為解決數據的確權和溯源的問題,采用數字水印技術[20,21]將數據的供需雙方的身份信息嵌入原始數據中,實現用戶身份和數據資產的關聯。通過水印提取并還原用戶身份信息,能夠達到了對數據所有權和使用權的鑒別,以及對數據使用的追溯。

3.3 方案過程

3.2.1 前提條件

方案中需要的前提條件說明有二點。

(1)設有區塊鏈網絡BNet,數據提供方S、數據需求方A和數據監管方R分別作為網絡的節點,負責維護區塊鏈網絡及賬本,各方相應的身份標識及公私鑰表示為(SID,S-pubkey,S-prikey)、(AID,A-pubkey,A-prikey)和(RID,R-pubkey,R-prikey)。網絡節點Po負責根據共識算法,對交易數據統一打包成區塊并加入賬本。

(2)S建有數據資源目錄提供外部查詢訪問,并將與需求方的數據服務器地址、傳輸任務的啟動方式、傳輸形式等信息,編寫為鏈上的智能合約。

3.2.2 具體過程

數據流通共享方案大體分為數據申請、申請受理、登記上鏈、流通和共享、確權和溯源五個階段,具體過程描述有五方面。

(1)數據申請

①A通過S公開的數據資源目錄,查詢需要使用的數據情況,獲取如數據唯一標識dID、數據名稱dName等信息。

②A向S提出需求申請單,申請參數為(req、A-sig)。其中,req由需求的數據唯一標識dID、數據名稱dName、申請時間timestamp等組成,A-sig為A使用A-prikey對req計算的簽名。

(2)申請受理

①S接收到需求申請單(req、A-sig)后,使用A-pubkey對A-sig進行驗證,如驗證不通過則拒絕。

②S從申請參數req中提取dID和dName,檢索本地數倉中相應的數據D。S將SID和AID的身份信息通過無損壓縮算法、水印生成算法計算出水印Watermark,并通過水印加注算法,將其注入檢索出的數據中并生成新數據D。

③使用確定性密碼哈希算法和模糊哈希算法分別計算D的確定性哈希值DetHash和模糊哈希值FuzzyHash。S生成需求受理數據〔(req、A-sig),Watermark,DetHash,FuzzyHash〕,并經S-prikey計算簽名值S-sig,構成需求受理單〔(req、A-sig),Watermark,DetHash,FuzzyHash,S-sig〕,然后發送給R請求背書。

R使用A的公鑰A-pubkey和S的公鑰S-pubkey,驗證需求受理單中A-sig和S-sig,如驗證不通過則拒絕背書。否則R使用R-prikey對需求受理單進行簽名背書,并形成交易提議發送給S,由其決定是否受理A的數據需求申請。

(3)登記上鏈

①S接收A的數據需求申請后,將經R背書的交易提議結果發送給區塊鏈網絡節點Po。

②Po對提交的交易驗證其中R的簽名,按照約定的共識算法,將交易數據統一打包成區塊Block-n,并廣播給網絡中其他相關節點,如節點Ps和Pa。

③Ps和Pa按相同方式處理接收到的區塊,包括驗證交易的簽名、R的背書,區塊數據的完整性等。確認無誤后將區塊更新到本地賬本中,完成S到A的數據流通共享受理信息的上鏈。

(4)流通和共享

①S和A獲取更新的賬本數據后,通過智能合約分別啟動服務器Svr-S上的數據發送服務和Svr-A上的數據接收服務。

②當需提供隱私的數據使用時,Svr-S對數據進行去脫敏處理,再注入數字水印Watermark后發送至Svr-A;當需提供保密的數據使用時,Svr-S對數據注入數字水印Watermark后,再加密發送至Svr-A。

③Srv-A接收完數據后計算其確定性哈希值,并與區塊鏈賬本中相應的DetHash進行對比,若驗證一致則進行數據使用,否則要求S重傳數據。

(5)確權和溯源

①S對疑似數據進行確定性哈希值的計算,并對比鏈上賬本中保存的DetHash,若對比一致則跳轉至下一步。否則對該疑似數據進行模糊哈希值的計算,并對比賬本中保存的FuzzyHash的相似度。當相似度大于預設的閾值時則認為數據疑似為己方數據并跳轉至下一步,否則結束本過程。

②S對該數據進行水印檢測和提取,并對比鏈上賬本中保存的Watermark,通過對水印數據使用解壓縮算法恢復數據提供方和使用方的身份信息,以此判定數據的所有權和使用權。若水印對比失敗或身份恢復失敗,則無法認定對數據的權屬并結束本過程。

至此,本文提出的安全的數據流通共享方案流程結束。

4 安全性分析

在本方案中,鏈上數據存儲的內容主要包括用于標識數據的編號、名稱、大小等數據元信息,通過采用密碼學強哈希算法以及模糊哈希算法計算所得的確定性哈希值和模糊哈希值,以及通過使用可逆的無損壓縮算法和水印生成算法計算所得的水印數據。

鏈下傳輸數據通過采用不可逆的脫敏算法對敏感數據進行去隱私化處理,實現對敏感信息的保護,同時也可對加注水印后的數據,采用加密算法或安全的通信協議,實現對數據的保密傳輸,防止數據傳輸和存儲過程中的數據泄露。供需雙方可通過對比鏈上數據的確定性哈希值的一致性,判斷傳輸數據的完整性。

通過將數據供需雙方的身份信息變換處理為水印數據,并嵌入待傳輸的數據中,當產生確權糾紛時,數據提供方可通過提取水印數據對比鏈上數據的一致性后還原出供需雙方的身份信息,進而證明數據的所有權和使用權,以此解決數據確權糾紛的問題。同時,本方案由于對模糊哈希算法的應用,使得當鏈下數據發生變動時,提供方仍可通過計算數據的模糊哈希值進行數據內容的相似性對比,在數據水印還原失敗的情況下確定對其權屬。

整個方案過程中,需求申請數據和申請受理數據分別被需求方和提供方進行各自的簽名后發送,且受理數據被作為交易再次由數據監管方進行背書。區塊鏈中的打包節點將驗證各簽名或背書后,打包成區塊再由各節點驗證并加入區塊鏈賬本中。整個數據流通共享的過程,每次數據的關鍵交互都伴有數據簽名,實現了傳輸數據的不可否認性。

5 結束語

本文提出的改進的大數據流通共享安全方案,通過基于區塊鏈技術建設的基礎網絡,實現了數據提供方和需求方的可信關聯,監管方作為區塊鏈網絡的背書節點,實現對數據流通共享活動的監管和證明。本方案在隱私和保密的要求下,通過引入了模糊哈希算法,增加對比鏈上鏈下模糊哈希值的相似度的處理,相比于僅使用確定性哈希值進行一致性校驗,能夠實現當鏈下數據發生修改時,溯源至鏈上對應數據的區塊交易,進一步解決了數據確權問題,包括數據的所有權和使用權易。

參考文獻

[1] 張博卿,王超.我國大數據安全問題及對策建議研究[J].網絡空間安全,2019,10(8):1-.

[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(001):146-169.

[3] Mehmood A, Natgunanathan I, Xiang Y, et al. Protection of Big Data Privacy[J]. IEEE Access, 2016,4:1821-1834.

[4] Ahmad N. Restrictions on cryptography in India - A case study of encryption and privacy[J].Computer law & security report, 2009,25(2):173-180.

[5] Gai K, Qiu M, Zhao H. Privacy-Preserving Data Encryption Strategy for Big Data in Mobile Cloud Computing[J]. IEEE Transactions on Big Data, 2017.

[6] 中國信息通信研究院云計算與大數據研究所.數據流通關鍵技術白皮書(1.0版)[M].2018.

[7] 閆樹,卿蘇德,魏凱.專題:區塊鏈與數據共享—區塊鏈在數據流通中的應用[J].大數據,2018.

[8] 王海龍,田有亮,尹鑫.基于區塊鏈的大數據確權方案[J].計算機科學,2018.

[9] 吳健,高力,朱靜寧.基于區塊鏈技術的數字版權保護[J].廣播電視信息,2016.

[10] Jesse Kornblum. Identifying almost identical files using context triggered piecewise hashing[J]. Digital Investigation, 2006,3(supp-S):91-97.

[11] Seo K, Lim K, Choi J, et al. Detecting Similar Files Based on Hash and Statistical Analysis for Digital Forensic Investigation[C]. Computer Science and its Applications, 2009.

[12] Frank Breitinger, Vassil Roussev. Automated evaluation of approximate matching algorithms on real data[J]. Digital investigation, 2014.

[13] 邸宏宇,張靜,于毅,王連印.一種基于改進模糊哈希的文件比較算法研究[J].信息網絡安全,2016(11):12-18.

[14] Winter C, Schneider M, Yannikos Y. F2S2: Fast forensic similarity search through indexing piecewise hash signatures[J]. Digital investigation, 2013.

[15] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報, 2014(01):246-258.

[16] Cheng H, Wang W, Rong C, et al. Privacy protection beyond encryption for cloud big data[C].international conference on information technology, 2014.

[17] Abdullah Al Mamun, Khaled Salah, Somaya Almaadeed, et al. BigCrypt for big data encryption[C].Fourth International Conference on Software Defined Systems. IEEE, 2017.

[18] 喬宏明,梁奐.運營商面向大數據應用的數據脫敏方法探討[J].移動通信,2015,000(013):17-20,24.

[19] 陳天瑩,陳劍鋒.大數據環境下的智能數據脫敏系統[J].通信技術,2016(7):915-922.

[20] Sion R, Atallah M J, Prabhakar S, et al. Rights protection for relational data[J].IEEE Transactions on Knowledge and Data Engineering,2005,16(12):1509-1525.

[21] Yong Zhao, Xiamu Niu, Dongning Zhao. A method of protecting relational databases copyright with cloud watermark[J]. International Journal of Information Technology, 2007.

[22] Zyskind G, Nathan O, Pentland A, et al. Decentralizing Privacy: Using Blockchain to Protect Personal Data[C]. IEEE symposium on security and privacy, 2015.

[23] Yue L, Junqin H, Shengzhi Q, et al. Big Data Model of Security Sharing Based on Blockchain[C]. 2017 3rd International Conference on Big Data Computing and Communications (BIGCOM), 2017.

作者簡介:

裴超(1986-),男,漢族,河南新鄉人,中國人民大學信息學院,在讀碩士,中國聯通大數據有限公司,高級工程師;主要研究方向和關注領域:密碼學、數據安全、網絡與信息安全、芯片安全。

范東媛(1992-),女,漢族,河北衡水人,北京郵電大學,碩士,中國聯通大數據有限公司,工程師;主要研究方向和關注領域:大數據安全、數據安全管理。

倪明鑒(1987-),男,漢族,北京人,北京大學軟件與微電子學院,博士,中國聯通大數據有限公司,高級工程師;主要研究方向和關注領域:人工智能、5G通信系統、數據安全。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 在线免费a视频| 一级毛片不卡片免费观看| 午夜视频免费一区二区在线看| 米奇精品一区二区三区| 青青青国产免费线在| 免费人成又黄又爽的视频网站| 天天色天天综合网| 久久久91人妻无码精品蜜桃HD| 国产精品女主播| 在线欧美日韩| 大香网伊人久久综合网2020| 日本三区视频| 中文字幕一区二区视频| 国产精品无码久久久久AV| 成人在线综合| a级毛片免费看| 中文精品久久久久国产网址| 不卡视频国产| 国产第一页屁屁影院| 91麻豆精品国产高清在线| 国产浮力第一页永久地址| 午夜啪啪福利| 国产精品区视频中文字幕| 久久这里只有精品国产99| 久久永久视频| 国产在线无码av完整版在线观看| 国产女人综合久久精品视| 国产在线精彩视频论坛| 美女黄网十八禁免费看| 日韩精品免费一线在线观看| 亚洲男人的天堂久久香蕉| 国禁国产you女视频网站| 国产网站黄| 99青青青精品视频在线| 白丝美女办公室高潮喷水视频| 激情在线网| 国产视频一二三区| 在线观看91精品国产剧情免费| 国产在线观看91精品| 伊人成人在线| 亚洲另类国产欧美一区二区| 亚洲第一区在线| 亚洲欧美成人综合| 伊人无码视屏| 欧美a√在线| 欧美色综合网站| 99久久人妻精品免费二区| 亚洲动漫h| 国产综合亚洲欧洲区精品无码| 国产精品蜜芽在线观看| 国产成+人+综合+亚洲欧美| 欧美精品1区| 欧美精品另类| 狠狠躁天天躁夜夜躁婷婷| 国产日本欧美在线观看| 日韩高清欧美| m男亚洲一区中文字幕| 亚洲人成影院午夜网站| 欧美成a人片在线观看| 伊人五月丁香综合AⅤ| 美臀人妻中出中文字幕在线| 亚洲人成网站在线观看播放不卡| 国产va在线| 亚洲中文字幕在线精品一区| 中文字幕精品一区二区三区视频| 久久黄色视频影| 精品国产99久久| 国产情精品嫩草影院88av| 日韩无码视频专区| 精品人妻无码中字系列| 国产白浆在线| 天堂成人在线| 2020精品极品国产色在线观看| 红杏AV在线无码| 91最新精品视频发布页| 国产亚洲高清视频| 成人精品在线观看| 久久综合干| 精品久久久久久成人AV| 亚洲自拍另类| 露脸一二三区国语对白| 免费在线色|