支鳳穩 云仲倫 張閃閃


DOI.10.3969/j.issn.1008-0821.2021.12.007
[中圖分類號]G203 [文獻標識碼]A [文章編號]1008-0821(2021)12-0069-10
科學數據是大數據時代最基本、最活躍的科技資源,也是科研活動的重要輸入和產出,更是科技創新的基礎性戰略資源和核心驅動要素。只有開放共享、廣泛傳播才能使其價值最大化,可見,開放共享是實現科學數據自身潛在價值的根本途徑,也是順應科研范式轉變的必然要求。大數據時代,數據驅動研究成為一種趨勢,科學研究越來越依賴大量、系統、高可信度的數據,進而發展出第4種科研范式——數據密集型范式。由于大數據集很難獨立生成,將科學研究過程中產生的科學數據進行開放共享,符合所有供資機構、科學機構和研究界各方的利益。決策者、出版機構和資助機構也強烈認為,共享數據對科研人員非常重要,有利于科學的發展。個體科研人員在科學數據開放共享中起到關鍵作用,他們既是科研數據產出的重要力量,又是其使用者和受益者,異質科研群體間多源異構數據聚合將有效釋放科學數據的潛在價值,打破數據壁壘,連接數據孤島,實現協同效應。我國《科學數據管理辦法》明確提出,支持科研人員整理發表產權清晰、準確完整、共享價值高的科學數據。美國國家科學基金會也要求研究人員,在合理時間向公眾分享研究中產生的科學數據,并鼓勵和促進此類共享。
個人科學數據是指個體科研人員或個體科研團隊在自身科學研究活動產生的,并用于科學研究活動的研究數據及與之相關聯的個人身份數據。其關鍵在于數據主體的可識別性,也就是說,可以據此判斷數據的來源與歸屬,明確數據主體的相對數據所有權和使用權。然而,不是所有個人身份數據都屬于個人科學數據,需要根據其產生過程及使用目的加以判斷,如征信、醫療等領域通常存有大量原始身份數據,若其用于科學研究活動并與研究數據相關,則可作為個人科學數據支撐研究成果。個人科學數據共享是指個體科研人員(團隊)作為數據主體,將自身占有的具有科學價值和使用價值的原始數據及其衍生數據,賦權給對此成果有所需求的其他個體科研人員(團隊)瀏覽、使用的行為。與組織機構問的科學數據共享不同,個人科學數據共享更強調個體問的行為交互,共享的科學數據類型多種多樣,質量高低不一,共享次數更為頻繁,動態伸縮性更強,更依賴于高可信度的共享環境。然而,目前還存在數據易用性差、數據安全性低、用戶隱私被泄露等問題,數據共享的風險遠遠高于預期收益,信任體系無法建立,導致數據貢獻者共享意愿降低、共享效率低下等后果。
區塊鏈技術的發展給個人科學數據共享提供了新的選擇。2019年10月24日,習近平總書記指出,要發揮區塊鏈技術在促進數據共享、優化業務流程、提升協同效率、構建可信體系等方面的作用,探索利用區塊鏈技術的數據共享模式,實現數據跨部門、跨區域共同維護和利用。區塊鏈作為一種確保透明度、可追溯性和安全性的分布式數字賬本技術,所有區塊節點共享相同的數據,保證了數據有效性和安全性,為個體或組織創造一個可信的空間,解決了科學數據可信問題,有助于構建一個完善的共享數據信任體系。
在此背景下,本研究以區塊鏈技術為視角,憑借其具有的不可篡改性、可追溯性、去中心化等特點,探索構建基于區塊鏈技術的個人科學數據共享新模式,以實現區塊鏈技術賦能與個人科學數據共享的結合,引入SQL數據庫,解決科學數據存儲問題:應用智能合約和共識機制,解決個體間信任基礎薄弱問題:利用萬能數據結構表技術,解決數據可用和孤島問題:通過加密算法和授權共識技術,解決數據安全及隱私保護問題。希望本研究能為實現科學數據共享中各主體的高效互動、促進個人科學數據共享利用提供新的思考,同時為后續學者進行更深入研究提供理論參考。
1相關研究述評
1.1個人科學數據共享的相關研究
個人科學數據共享屬于科學數據共享的子領域,雖然鮮有學者專門對此進行探討,但不少有關個人數據與科學數據共享的研究,均已涉及相關論述。①在個人數據概念與類型方面,黃國彬等認為,個人數據的核心在于數據的主體識別性、構成內容的豐富性及個人數據產生與應用的場景性,并歸納出14種個人數據的基本類型;Zliobaite Ⅰ等認為,個人數據為識別型數據,指已識別或可識別的數據主體相關的任何信息。②在個人數據管理與共享方面,Anciaux N等提出個人數據管理系統應考慮功能和安全要求的結合,明確權責分擔與權益維護:針對集中數據存儲和管理更容易喪失個人數據所有權和濫用個人資料問題,PattanaikⅤ等提出基于Web瀏覽器的對等數據共享框架。③在科學數據共享方面,鄔金鳴等對人口健康科學數據中個人敏感信息做出范圍界定;傅天珍等發現,影響個體科研人員共享科學數據的因素一般有個人利益權衡、開放獲取的壓力、技術與標準問題、文化與法律因素、利他心理因素;盛小平等通過分析GDPR相關規定,為我國科學數據共享過程中個人數據保護提供了參考。
1.2區塊鏈應用于科學數據共享的相關研究
已有學者關注到區塊鏈技術在科學數據共享實踐中的應用。①在科研方面,郝世博等從主體、客體、功能3個角度說明區塊鏈應用于科學數據共享的適用性,并嘗試從技術維度改善參與者的信任危機與共享障礙:王倩等基于區塊鏈技術和演化博弈理論,分析科技服務機構數據共享的策略,在此基礎上構建了面向共享策略的智能合約激勵機制。②在醫療領域,黃茂漢基于區塊鏈技術構建一個疫情防控情報系統模型,旨在對疫情實時情況、疫苗研發進展、患者信息等進行數據共享;Kuo TT等開發了3種基于區塊鏈的分布式方法,可供相關機構共享基因一藥物相互作用的患者記錄:Balistri E等提出了BlockHealth解決方案,以實現不同公司間個人健康數據的共享。③針對數據安全,王繼業等提出基于區塊鏈技術作為動力支持的數據安全共享網絡體系,改善互信環境:張利華等設計一種基于區塊鏈的微電網數據安全共享方案,在保護用戶用電隱私的同時,促進了用戶數據的安全共享。
1.3研究評論
通過文獻梳理發現,相關研究成果在不斷積累,為本研究提供了重要的理論基礎與實踐證據。從研究內容來看:在個人科學數據共享研究中,學者們越來越重視個體用戶在數據共享中的作用,研究聚焦于數據分類、治理形態、共享意愿影響因素、共享路徑等:在基于區塊鏈的科學數據共享研究中,學者們主要在數據溯源、數據存證、數據共享模型、數據隱私保護等領域不斷探索。從研究邏輯來看:現有研究主要是基于科學數據共享現存問題及區塊鏈優勢,搭建基于區塊鏈技術的科學數據互信共享模式、數據安全共享平臺等;也有不少研究是根據近年來政府發文及出臺的相關政策,提出區塊鏈技術的相應對策方案。然而,區塊鏈在科學數據共享領域應用的研究起步不久,學術界對其在子領域個人科學數據共享中應用的探討更少,現有研究大多關注到了區塊鏈的優勢,而對以區塊鏈用作數據存儲帶來的系統吞吐率降低、處理響應延遲高、共享周期長等問題的考慮不足,這也再次確認本研究的必要性。
2現有科學數據共享模式問題分析
現有研究更多以中心化共享模式為視角,科學數據中心成為促進科學數據開放共享的重要載體,通過對有意愿參與科學數據共享個人主體的數據采集,將采集數據集中存儲管理并進行共享,主要存在數據確權、數據安全、隱私保護、基礎設施不匹配、數據近似化和激勵機制等問題。
2.1數據確權問題
科學數據作為基礎生產資料和個人最重要的知識資產,具有相對稀缺性,其重要性愈加顯現。顯然,科研人員不可能輕易共享其核心科學數據使用權與所有權,如果需要現有數據成果以支撐研究觀點或推進研究進程,但限于時間、能力、環境條件等多重因素無法及時獲取,就有可能將個人的部分科學數據進行開放共享,以交換所需科學數據。科學數據本身具有可復制性,在共享中易被竊取,可能造成數據貢獻者自身產權受侵犯。科學數據共享的核心問題歸根到底是數據所有權和使用權的分離,在集中式開放平臺規則下,確權成本過高,主客體數據權利劃分困難,導致數據歸屬未在理論上形成統一認識,且數據權屬相關法規界定模糊。數據所有權的難以界定會給數據共享參與主體帶來誤會及糾紛,長此惡性循環,阻礙科學數據的共享流通。
2.2數據安全問題
中心化管理賦予平臺運營者過多權力,使之可以通過私下串通數據貢獻者或數據使用者中一方,操作超出用戶最初授權范圍,以套取另一方利益。中心化設置權限的數據共享模式將海量科學數據進行大規模整合并存儲,很容易造成集中攻破、數據篡改、后臺操縱等問題,威脅共享生態,而平臺管理規范的紕漏導致數據使用邊界模糊,增加了數據誤用、數據濫用等多重風險。現有大部分共享平臺可追溯性差,在數據泄露后,參與用戶也很難追究。不同于分布式系統架構,集中式系統更容易導致單點故障,使數據被竊。再加上不規范的管制,在網絡環境中各種應用系統易發生撞庫,上傳的科學數據將面臨泄露的風險。出于數據安全的顧慮,更多的個體科研人員反而不愿意將科學數據進行共享。
2.3隱私保護問題
科學數據共享與隱私保護尚未實現協同,科學數據共享常伴有用戶信息收集與傳輸,一旦缺乏相應管制,傳輸失控導致數據外流,將造成大量隱私泄露。諸如在醫療、征信等領域,存有海量未經修飾的原始敏感數據。科學數據共享雖可進行匿名分享,但若在共享過程中因操作不當或被蓄意攻擊致使個人用戶信息數據泄露,則個人隱私權就會遭受嚴重侵害。此外,隨著大數據與云計算的高速發展,共享平臺信息資源自動化獲取程度不斷提高,多源用戶信息的交叉比對、整合連接次數日益增長,洞察用戶行為從而構建用戶畫像,以此識別出相關的個人隱私數據,加重了隱私泄露風險。
2.4基礎設施不匹配問題
在數據驅動研究背景下,核心數據需要通過多種途徑和來源獲取,隨著同一數據集中平臺的數據貢獻者和使用者人數的上升,集中平臺的數據也在隨之增長,但由于每個貢獻者都有一套自己的數據標準,且在技術水平、算法工具上也存在差距,導致使用者在提取來自不同貢獻者的數據時存在數據偏差,從而產生大量成本。在傳統數據共享中,若想解決數據偏差問題,需要在共享過程中投入大量資源對現有數據進行改造、對接,加大了數據共享的難度,使共享周期延長。
2.5數據近似化問題
個體科研人員處理數據時,會依照個人需求、問題難易程度、繁瑣程度等對數據進行過濾和選擇,以保持個人集中的注意力和問題的基本解決。但由于傳統數據共享模式中數據確權、數據安全、隱私保護等問題的存在,手握核心數據的數據所有者不愿意進行數據共享,核心的、高價值含量的數據得不到及時公開,用戶共享的科學數據隨著時間的推移趨于近似,徒增巨大成本,且拖慢該領域的整體科研進度,久而久之導致領域內共享數據單一化、繭房化。而在數據共享平臺之間,也會因所共享的科學數據質量水平、實質內容不同逐漸“巴爾干化”,遏制了科學數據流通、共享效率。
2.6激勵機制問題
在信息不對稱情況下,大多數傳統科學數據共享模式未將科學數據質量等指標納入評價機制,科學數據集缺少數據引用等量化指標,激勵政策未落實,難以衡量每個數據貢獻者的實際貢獻所占比例,出現參與數據共享的貢獻者提供的科學數據無論質量好壞、內容多少,所得到的收益都大體相同的情況,使那些原本共享了高質量、高稀缺性數據的貢獻者感到心理不平衡,最終很可能導致越來越多的數據貢獻者分享較少或者直接不分享核心科學數據,使科學數據共享行為失去意義。
3基于區塊鏈的個人科學數據共享模式構建
區塊鏈是一種基于加密技術和分布式共識機制的新興交互模式,通過鏈式結構實現區塊數據存儲、加密算法保障數據安全、智能合約部署以及區塊讀取。它不僅能為特定用戶群提供信任服務的基礎設施,還可通過加密算法優化數據公開透明實現路徑,它象征了與先前不同的數據歸屬權,可以很好地改善傳統數據共享模式的問題,天然適用于個人科學數據共享領域。本部分將構建基于區塊鏈的個人科學數據共享模式,并分析其流程與特點。
3.1模式架構模型
為實現數據完整、來源可追溯,建立信任體系,防止數據隱私泄露,最終促進大數據環境下個人科學數據安全共享。本研究借助SQL Sever數據庫(以下簡稱“SQL數據庫”)和萬能數據結構表理論,嘗試構建了基于區塊鏈的個人數據共享模式架構模型,如圖1所示。
該模型共涉及6部分:區塊鏈、SQL數據庫、智能合約、用戶本地數據終端、點對點數據傳輸網絡以及用戶實體。其中,用戶實體包括數據貢獻者和數據使用者,數據貢獻者是指科研數據的供給側,可以是元數據生產者,也可以是和生產者達成某種協議后準允再分享的數據擁有者;對科學數據具有使用意愿的需求側稱為數據使用者;在同一共享過程中的所有用戶稱為共享參與者。該模型結合了區塊鏈、智能合約和點對點傳輸網絡,并通過加密算法實現保護共享科學數據隱私,以大數據視角下科研人員個人科學數據共享為應用場景,構建Fabric環境,引入SQL數據庫實現分布式存儲,基于萬能數據結構表數據庫理論,其中原始科學數據存儲在用戶個人數據終端中,所需共享的科學數據經萬能數據結構表規范數據標準化后加密處理,存儲至SQL數據庫中,其存儲日志、地址等元數據記錄在Fabric上,以達到數據脫鏈存儲的目的,解決了區塊鏈存儲容量有限帶來的交易處理速度緩慢、共識效率低等問題,有利于科學數據的可用性開發和重復應用。個體科研人員以此方式進行科學數據共享,相應數據經智能合約處理后返回,共享其處理后的數據結果,原始數據不對外公開,實現了數據的可用不可見,避免數據資產泄露的同時保證了共享的安全性,以建立起信任體系,推動科學數據有效聚合,挖掘科學數據的潛在價值。
3.2模式具體流程
模型中所涉及的具體操作流程如下:
1)生成節點,完成身份匿名,數據使用者上傳數據需求至智能合約,由智能合約發布需求信息,同時索引數據庫中已存儲數據信息,進行對應需求匹配。
2)匹配成功后反饋配對信息至參與者,數據使用者向數據貢獻者申請所需科學數據信息,由數據貢獻者按其需求上傳數據,經自適應萬能數據結構表對上傳數據標準化后,進行加密算法處理形成數據密文,通過哈希算法得到概要。
3)待數據使用者確認概要信息即所需,數據密文上傳智能合約,處理后自動上傳至SQL數據庫并返回哈希值,智能合約頒發密鑰和哈希值給數據貢獻者,同時記錄操作日志到數據貢獻者個人數據終端,存儲信息、概要、哈希值等相關信息記錄做上鏈留痕處理。
4)數據貢獻者授權數據使用者,驗證數據使用者身份后調用智能合約,告知數據使用者共享數據存儲地址,滿足共享條件后數據使用者獲取密鑰通過驗證并觸發智能合約,同時更新個人數據終端相關數據屬性,并再次上鏈留痕。
5)數據使用者利用密鑰獲得共享科學數據處理結果,針對此次交互過程進行反饋并達成共識,完成共享后生成交易日志操作記錄于鏈上,更新個人科學數據集引用量信息,對應用戶成為區塊鏈上的節點并建立連接。
綜上,科學數據共享全程由共享參與者直接參與,每一環節均具自主權,整體流程公開透明,數據記錄可追溯,不可篡改。
3.3模式特點分析
相比傳統的中心化科學數據共享模式,本研究構建的基于區塊鏈的個人數據共享模式,具有共享參與者自主性,共享科學數據的完整性、標準化、可追溯性與安全性更強的特點,具體如下:
3.3.1自主性
本研究構建的去中心化的共享模式中,每個用戶均有機會參與記賬,充分保障了每個用戶的權益,最大限度地避免由中心化體系所帶來的主導權問題。在多個個體用戶共同搭建的數據共享平臺中,共享成功率和用戶數量大多成反比關系,該平臺的主導權往往會隨著個體用戶數量的增加而越難界定。個體用戶問的關系大多數呈對等關系,任何一方在數據共享過程中進行主導都會引起其他參與者的爭議或不滿。而分布式數據存儲使原來中心化角色權力分散化,任何一個用戶個體無法控制整體科學數據共享進程走向,權限變更需要每一個參與者共同表態來決定最終結果。通過調動每個參與者的參與度來提升平臺的可信賴性,實現個體用戶間點對點交互,也有利于提升參與者問數據共享成功率。
3.3.2數據完整性
傳統科學數據共享模式無法保證科學數據確權以及其完整性,導致參與者問不斷出現信任危機,信任成本不斷上升,從而導致科學數據的低流通性和低共享性。而區塊鏈技術可以給科學數據貼上“防偽標識”,強化技術保護,保證科學數據在共享過程中不可篡改,以確定科學數據的準確來源和可靠性。參與者雙方或多方需嚴格遵守操作規程,若在共享過程中途發生科學數據內容的增減、修改,經過參與者協商和表決后,獲得大多數甚至全部參與者的一致認可,即完成“共識過程”,才可執行后續操作。
3.3.3數據標準化
該模式采用萬能數據結構表存儲數據,因此所有數據結構保證了高度一致性。運用簡單的技術實現結構化大數據的高效處理,從根本上解決了數據異構問題,通過對數據和數據結構的優化而大幅提高結構化數據的處理性能。進一步規范了科學數據共享規則,有助于實現數據的互聯共通,保證所需數據的真實性與可用性,解決個體用戶數據挖掘困難的問題,減少或避免了歧義產生。
3.3.4可追溯性
整個共享過程中,參與者的身份信息呈匿名狀態,使用者無法知道是誰共享了科學數據,共享者也無法知道是誰對這些科學數據有哪些特定需求。但共享行為是任何人都可以看到的,且無法修改刪除,每一次共享過程都是可追溯的,科學數據發生多少次交互共享,都應具備明確的記錄,以明確數據源,即數據生產者的身份,保證參與者權益的同時也減少了科學數據的丟失率。參與者間達成共識后,通過特定算法產生的密鑰實現科學數據的共享傳遞。
3.3.5安全性
模型綜合使用加密算法、智能合約、點對點傳輸網絡等以保證安全性。共享科學數據經加密處理后存儲數據密文,在未經授權情況下無法解碼,防止數據隱私泄露。參與者使用獨特的身份編碼序列進行匿名廣播,保證個人隱私安全。數據使用者在滿足共享條件并驗證身份后,向數據共享者申請才可獲授權,獲取處理結果而不對外公開原始密文,使用戶在共享過程中得到了全方位的保護,數據加密篩選、加密計算,以及可用不可見也使得攻擊者無法從共享的過程中獲取任何規定外的信息。這樣不僅可以保護數據貢獻者的知識產權,其他參與者的數據安全性和隱私問題也能夠得到解決。
4基于區塊鏈的個人科學數據共享模式實現
根據上述模型,將針對數據存儲、智能合約、數據標準化、共識機制以及數據加密5個技術進行逐一介紹。
4.1區塊鏈與SQL數據庫結合實現分布式數據存儲
將區塊鏈當成數據庫使用,就會發現區塊鏈只有創建和讀取功能,沒有修改和刪除功能,所要求的日志完整化、不可篡改性以提供信任、安全的前提,并不是說其數據不可改動。隨著區塊鏈中數據存儲容量的遞增,區塊中交易處理速度變慢、網絡阻塞、共識效率低、匹配遲緩等問題涌現,雖然可以采取輕節點方案、異同步技術等措施解決上述問題,但忽視了區塊鏈的可運維性和實用性。按照既定規則執行的那些可留痕、可追溯、可復核等正常或應急操作,其最終操作結果應寫在真正的數據庫中,并非區塊鏈。區塊鏈應作為數據庫的高可靠性的前置。區塊鏈的設計首要目的是安全,數據庫的首要目的是效率,區塊鏈技術與數據庫相結合即可形成優勢互補。區塊鏈和數據庫有兩種契合方式,其一是把區塊鏈作為引擎接人到數據庫中,相當于從底層改造存儲引擎實現去中心化的數據庫:其二是以區塊鏈為主體,借鑒數據庫算法,將其翻譯為智能合約代碼,以提升易用性。就目前已有研究分析,除去如用戶資產概況、智能合約等較為重要的信息,其余數據均采取分布式存儲的措施,不做上鏈處理。
此外,區塊鏈作為鏈式結構,每個節點獨立存在且高度自治,但節點問仍存在直接或間接影響,通過網絡呈非線性因果關系。在遇到問題需要對數據進行溯源或沖正時,利用改進Chain SQL技術,將SQL數據庫的操作記錄各個節點共識之后,記錄到區塊鏈上,如果共識執行失敗或不通過,SQL數據庫執行回滾操作,定位該問題在區塊鏈上的特定位置,在此進行重演;若需對數據進行沖正,在區塊鏈上增加一條或若干條指令即可處理問題,這樣不僅使數據庫的高可用架構大大簡化,還可將此數據修正處理進行留痕記錄。區塊鏈與SQL數據庫的結合,通過多點架設、提供冗余等,提供高效的調取架構設置,以提高業務吞吐量以及數據存儲量,實現分布式存儲。基于此,解決了由于區塊鏈的冗余特性限制了數據儲存的問題,以及傳統數據共享模式無法建立信任體系、去中心化的難題。
4.2基于SQL的智能合約激勵共享參與主體
區塊鏈技術可有效解決主體間互信問題,并通過智能合約自動執行激勵過程,保證數據共享過程的有效性和安全性。在個人科學數據共享過程中,不同科學領域下的科研人員對共享科學數據處理的邏輯不同,可通過算法編輯不同的智能合約以實現不同的需求。智能合約可以完成共享參與用戶個人身份加密、發布需求信息、交易流轉等所有關鍵節點需求,其優勢如下:第一,高透明性,智能合約允許合約中相關條款與要求對所有關聯方具有完全可見性與可訪問性,且條款內容無法更改。第二,高安全性,智能合約采用高級別的數據加密算法,節點在建立連接過程中生成臨時會話密鑰,保證數據傳輸安全性的同時也防止了數據源泄漏。第三,存儲備份,區塊鏈環境的不可改變性,保證了任何用戶都無法修改已批準的溯源記錄,共享過程中的所有重要細節都會被智能合約以日志的形式記錄下來,具有可溯源性。第四,永久性,智能合約一旦運行,鏈上的所有節點須共同維護,保證鏈在合約在,具有相對永久運行性。
同時,智能合約支持SQL,利用SQL語句實現信息匹配與數據索引功能,當數據使用者在特定情況下需要某些特定的科學數據以滿足需求時,使用邏輯表達式或函數將需求表達出來,并提醒智能合約發布需求信息,根據SQL數據庫中已登記存儲的數據信息進行數據篩選,逐一匹配:若數據庫中未存在所需數據時,則對外公布需求信息,同時反饋至數據使用者進行需求信息完善。實現數據使用者對需求科學數據概要的在線查詢,幫助鏈上對數據庫中存儲信息的索引調用,加速與目標科學數據貢獻者的匹配進度,使得共享過程更具效率。
4.3萬能數據結構表實現數據標準化
萬能數據結構表不僅作為一種表,同時也作為一門新興理論——獨立數據庫理論,在關系數據庫理論基礎上進行革新,使存儲數據的數據結構完全相同,且保證了數據完整性。目前可采用關系數據庫系統ORACAL、DB2、SQL Server、Access等來實現“萬能數據結構表”。區別于關系數據庫,獨立數據庫中的數據要求可以獨立地、完整地表達其含義。下面以征信、醫療領域產生并用于科學研究活動的個人身份數據為例來說明,如表1所示,以縱向表N(或N+M)項記錄存儲一個事件的數據信息,無須借助數據庫、App或其他任何事物,保證數據特征屬性一致。其中各字段代表含義,ID為各項記錄獨有編號:事物代號為一個獨立事件獨有編碼,數據庫中完整數據為記錄,性質名稱表述完整數據為事件,一個事件的信息由若干條擁有相同事物代號的記錄組成:事物屬性即事物的特征:事物屬性值、超長屬性值為事物的特征值:單位代表事物屬性值的單位:附件用來存放圖象、附件等不適合轉換為字符型數據的數據:時間為每一個事物的特征寫入數據庫時的時間,由系統自動生成。
獨立數據庫相當于一種數據優化技術,以關系數據庫理論為基礎,在關系數據庫中亦可實現,只需在關系數據庫中建立一張或多張結構相同的萬能數據結構表即可。不可避免地,為保證數據的完整性與標準化,其占用空間內存相對較大,僅僅運用區塊鏈技術無法實現,因此將區塊鏈技術與SQL數據庫相結合也是對此的絕佳選擇。
4.4加密算法實現數據“可用不可見”
區塊鏈技術可實現數據安全共享流通,做到數據的“可用不可見”。數據使用者上傳至區塊鏈中的數據篩選條件一般較為簡單,直接上傳該條件很容易造成數據參與者雙方的隱私泄露。如攻擊者獲取了這些條件的內容,很容易就可以推斷出使用者的數據需求,從而可能推斷出使用者經常出沒的領域范圍,一旦發生數據共享,那么雙方的數據很可能會遭受劫持。因此,為了保證共享參與者的隱私和利益,還應在模型中對篩選條件進行函數加密,且同時進行需求匹配。基于哈希運算與非對稱性同態加密算法,上傳數據以密文發送至SQL數據庫存儲日志記錄添加到智能合約中,同步記錄源至區塊鏈,智能合約將數據密文自動上傳至SQL數據庫并反饋對應數據密文檔案哈希值生成Token,在區塊鏈進行留痕記錄。隨后,數據使用者需使用數據貢獻者頒發的Token,用其作為授權令牌在SQL數據庫中獲取對應科學數據密文,對該部分數據進行解碼,獲取所需科學數據信息處理結果,實現點對點傳輸。
上述情境在傳統共享模式中很難實現,其自身機制導致數據“可用必可見”。通過區塊鏈技術中的隱私算法,分布式執行既定邏輯運算,使數據可在“密室”中進行共享,但也存在存量數據利用率低、更加偏于云計算、很難支持系統數據訓練學習等問題。個體用戶問數據共享時,更多使用的是個人終端,增強了個人終端安全性,以避免數據泄露,進一步實現數據的不可見性。科學數據經過加密算法和數據變形在一定程度上完成了脫敏,最大限度保證個人數據隱私安全,實現數據“可用不可見”。
4.5共識機制控制數據調用規模
共識機制作為區塊鏈去中心化的關鍵,無論是在公有鏈、聯盟鏈還是私有鏈中,都承擔著重要角色。當前,數據共享環境需要具有更高數據吞吐量的可伸縮框架,以滿足對用戶應用系統和流數據的處理。基于區塊鏈的共享模式利用智能合約協定可執行程序后,按照參與者協議中制定的條件進行狀態轉換,在一定時間內每個參與者按照協議狀態達成一致性。當協議中條件發生變化時,通過共識算法在全體參與者問進行共識過程,記錄結果并重新擬定協議狀態,如共享過程中僅存在兩位參與者時,數據貢獻者具有最高話語權。數據貢獻者可通過智能合約擁有數據共享程度選擇權,設置共享科學數據使用授權,因此,在特定時間段內進行核心數據共享時,數據貢獻者不需全盤托出,待數據使用者滿足合約中約定的使用要求后,將數據使用者所需要的部分數據處理結果共享即可。該過程亦被稱為數據篩選,數據使用者可以將自己的科學數據需求整理成一個邏輯表達或是函數存放到區塊鏈中,以供數據參與者對號完成交互過程。因科學數據在未成規模時不具有價值性,而在有協作需要時,經過雙方或多方協商調取所需數據進行共享,既能滿足數據使用者需求,又保證了數據貢獻者的數據隱私安全與個人權益,從而提高協同效率。
5總結和展望
大數據時代,快捷有效的大數據挖掘與交叉識別技術可以在個人科學數據共享過程中抓取大量的個人隱私數據。然而,大多共享參與主體缺乏隱私保護自覺,對共享平臺的傳播性質缺乏正確的認知,如何在保證個人隱私與數據安全的同時,有效促進科學數據共享是一個值得研究但頗具挑戰性的問題。針對傳統中心化科學數據共享模式存在的問題,本研究借助區塊鏈技術、sQL數據庫和萬能數據結構表,構建基于區塊鏈的個人科學數據共享模式架構模型,介紹該模式的流程與特點,并對其實現的關鍵技術與機制進行了具體深入的論述,對于促進個人科學數據共享實踐與后續深入研究具有一定的參考意義。
當前,個人科學數據共享備受推崇,也飽受爭議。盡管鼓勵性或強制性數據共享政策相繼出臺,但生產或擁有數據的個體科研人員(團隊)的認知、意愿和行為依然是共享科學數據的關鍵所在。科研人員需要認識到科學數據共享的重要價值,在高自由性數據生態鏈下,明確界定自身需求,盡量降低共享成本,提高共享效率,從而更好地享受數據共享帶來的“紅利”。同時,區塊鏈一旦交易,其記錄不可撤銷,訪問控制權限更新延遲,還應熟知模式平臺下操縱實現功能,界定自身持有的敏感數據,簽訂權責明晰的合同,以保護數據安全和主體權益。最后,日志公開性易產生安全風險,應加強防范意識,保持良好的自我感知,維護本地數據終端,警惕網絡挾持與駭客攻擊。
相比中心化科學數據共享模式,本研究提出的分布式科學數據共享模式具備更強的隱私保護能力和數據流通能力,具有巨大的研究前景和發展前景。但本研究模型僅利用區塊鏈技術進行初步搭建架構,具體技術實現及共享科學數據的隱私分級、總體與個人數據的結合、潛在關聯數據的發現,需要未來研究攻關突破。本研究仍處于理論探索階段,個人科學數據共享還需要結合具體學科領域、數據內容與類型、元數據標準、個人共享意愿等,模式是否真正適合,有待于后續研究進行仿真或未來實踐檢驗。此外,未來研究可積極深入探索區塊鏈技術在個人科學數據共享中的可應用場景,精確把握用戶數據需求,以實現區塊鏈技術與實踐的最佳結合。
(責任編輯:孫國雷)