宋俊典,戴炳榮,2,蔣麗雯,趙 堯,李 超,王曉強
(1.上海計算機軟件技術開發中心,上海 201112; 2.上海海事大學 信息工程學院,上海 201306;3.南京航空航天大學 計算機科學與技術學院,南京 210016; 4.綠地金融投資控股集團有限公司 運營技術部,上海 200023)
業務的數據化和數據的業務化,是當前各行業、各領域數據應用創新的重點和趨勢。在當前大數據環境下,數據日益成為企業基礎設施的一部分,成為了戰略資源,如何更好地把數據資源進行變現,產生更大的價值是企業共同的關注點。數據治理的概念應運而生,通過數據治理,建立數據應用策略、挖掘未被滿足的需求以及解決潛在安全問題等,使數據的采集、管護、存儲、訪問以及使用策略均實現標準化,滿足各個部門和崗位的不同需求。另一方面,數據治理能平衡不同部門之間存在沖突的需求,在安全性與訪問需求之間進行協調,確保高效安全的數據管理策略,從而為企業帶來更大的數據變現價值。數據治理已廣泛應用于證券、銀行、國資等行業,并體現了良好的應用效果。
在大數據環境下,在尋求新技術來支撐大數據的應用、獲取更大應用價值的同時,數據開放與隱私保護、數據應用創新與風險合規等已成為當前數據治理領域面臨的巨大挑戰,有效的數據治理模型構建和治理方法流程成為研究者關注的熱點和重點[1]。更加深入的分析可知,業務流程交互及數據融合的迫切需求統一底層數據的標準規范、實現數據的安全可信和可控,底層數據源復雜分散,數據海量且缺乏統一標準等問題逐漸凸顯。技術和實現層面,數據治理及數據標準化都是基于傳統的元數據管理理念,聚焦從源頭解決“數據孤島”的問題,然而在實際應用過程中,不同應用系統數據源的差異、業務應用的需求不同,使得研發有效高效的數據標準管理工具,可信的數據共享發布規則變得十分困難[2]。
近年來,區塊鏈技術以其去中心化、去信任、不可篡改以及可追溯特性在多方協作、多主體等行業領域具有天然的應用場景,通過一系列技術的組合和模式的創新,為相關行業及領域的業務流程優化、數據交換共享等提供了良好的解決方案[3]。針對數據治理領域中涉及的多部門協作、流程的復雜多樣、追溯成本高等問題,區塊鏈可在其中發揮重要的作用。
本文結合區塊鏈去中心化、鏈式存儲和智能合約等技術的研究,提出基于區塊鏈的數據治理協同方法,為數據標準的制定管理、監督維護提供了可行的解決方案。結合去中心化的思想,將數據標準的構建過程開放給各個參與者;通過鏈式存儲的機制實現數據的可追溯性,保證數據的安全可信。在具體實現過程中,使用智能合約技術代替傳統的人工審核機制,按既定的協同規則,觸發自動化腳本代碼,高效地實現數據標準管理維護的高效性。
在數據戰略、組織和架構的保障下,數據治理應用的基礎是數據的標準化。數據標準化指的是對分散在各系統中的數據作出數據命名、數據定義、數據類型、賦值規則、科學流程等方面的統一。通過開展數據治理應用,進行數據標準共建,可以確保數據的優質性,維持數據模型的一致性,提高實際應用場景下數據管理的高效性,保障數據的開放、共享和安全,從而提升行業的數據應用水平。
數據治理的目標主要有四點:戰略一致、風險可控、運營合規和價值實現。治理保障分為內外部環境和促成因素兩大部分。治理域主要包括戰略、組織、架構、元數據管理、主數據管理、數據生命周期管理、數據質量管理、數據安全與合規、數據應用與服務創新。
當前在數據治理過程中,數據標準的制定大多都基于元數據管理,利用中心化的方法實現其開發、候選、批準、駁回、歸檔等構建工作,數據標準的制定過程相對封閉和壟斷,維護工作量巨大,且建設周期長,缺乏有效的多方參與機制。文獻[4]引入行動者網絡理論分析數據治理框架中的人與非人因素及其關系,構建了大數據治理行動者網絡,并利用Petri網對數據治理實施過程進行抽象建模,從而能夠推動數據標準化的實施。文獻[5]通過大數據平臺和信息架構來實現大數據與企業數據的靈活集成,結合企業數據的獲取、存儲、組織和分析作出科學決策,以實現企業大數據治理。文獻[6]從利益相關者視角分析了大數據環境中個人隱私治理問題,提出多元主體協同治理機制,為平衡數據挖掘和隱私保護提供參考。以上的數據治理模型及框架雖然提到了數據標準化的構建方法,但基本上還是在相對封閉和固定的流程中實現開發、候選、批準等構建工作,構建周期較長,交互工作繁瑣,不能很好地高效、安全完成數據標準制定開發。如何在多方參與、多方協作的環境下,高效安全地完成數據標準的制定、開發及共享應用等成為數據標準化工作的重點,也是實施數據治理應用的基礎。

圖1 大數據環境下數據治理框架
區塊鏈技術是利用塊鏈式數據結構來驗證與存儲數據、利用分布式節點共識算法來生成和更新數據、利用密碼學的方式保證數據傳輸和訪問安全、利用自動化腳本代碼組成的智能合約來編程和操作數據的一種全新的分布式基礎架構與計算范式[7]。區塊鏈核心技術包括分布式賬本、加密算法、共識機制等,作為一個獨立的技術解決方案,其應用已經從單一的數字貨幣延伸到經濟社會的各個領域,具有顯著的應用優勢:去中心化的分布式結構應用于現實中可節省大量的中介成本,不可篡改的時間戳特征可解決數據追蹤與信息防偽問題,安全的可信機制可解決當前信任成本問題,靈活的可編程特性可幫助快速達成業務結果[8]。
區塊的結構如圖2所示,主要包含兩個部分:區塊頭和存在區塊中交易。區塊頭包括了版本號、前個區塊哈希值、默克爾根、時間戳、難度值和隨機數[9]。

圖2 區塊結構
版本號 存儲區塊鏈系統和協議的相關版本號。
前個區塊哈希值 記錄前一個區塊的哈希值。根據父區塊哈希值,所有的區塊可以連接在一起形成區塊鏈。
默克爾根 區塊鏈中默克爾樹根的哈希值能夠用于快速檢查當前區塊中所有存儲事務的正確性。
時間戳 以年月日小時和秒記錄區塊生產時間。
難度值 工作量證明算法要解決的目標難度值。
隨機數 記錄當前的工作量證明算法的解決方案。
另一部分為存儲在當前區塊中的所有交易信息,這一塊的設計可根據不同的應用場景和目的進行調整和改變。
以太坊的出現標志著區塊鏈發展到了新的階段,使區塊鏈真正具有了圖靈完備的特性,為智能合約的實現提供了良好的載體,衍生出了多領域的應用[10]。
如圖3所示為以太坊的交易示意圖,其中交易中每一塊的含義如下所示。
From 來自用戶控制的賬戶的簽名,從而授權交易;
To 交易的接受者,可以是用戶的地址或合約的地址;
Data 包括創建新合約的合約代碼或合約的執行說明;
Gas Price 當前使用以太幣購買燃料的轉換率;
Total Price 交易可消耗的最大燃料;
Nonce 記錄賬戶交易次數的一個計數器。
以太坊中大約每15 s便會創建一個區塊,能夠更好地為開發者提供區塊鏈應用的各種部署和測試,方便開發者進行系統驗證和實現。

圖3 以太坊交易結構
區塊鏈技術為數據治理模型及數據標準的構建提供了新的思路和方法。區塊鏈技術能讓參與者以多中心化的方式參與數據標準的制定和維護[11]。在區塊鏈社區的對等網絡中,是一個分布式集體運作的端對端自組織網絡,利用密碼學原理讓所有參與節點集體維護一套能記錄時間先后的、可信任的數據庫。通過共識機制,區塊鏈能保持完整性、連續性和一致性,即使部分參與節點作惡也無法篡改區塊鏈中已形成的標準數據[12]。因此,本文基于區塊鏈技術研究,從數據標準模型結構及流程、數據標準共享和訪問控制、數據更新和智能合約方面論述數據治理協同模型的形成和應用。首先,數據共享程度越高,則數據標準發展水平越高。訪問控制指將所有數據信息標識出來、劃分起來、組織起來、托管起來的一套方法,有助于促進數據標準共享的可持續發展[12]。其次,智能合約作為區塊鏈數據庫上的一個觸發器,能夠高效地進行數據讀取和更新。最后通過區塊鏈權限管理的激勵制度,增強數據治理落地的積極性,增加各部門及用戶黏性,解決“數據孤島”問題,實現數據標準互聯、互通、互信。
通過對大數據環境下的數據治理需求分析可知,數據標準化、數據質量管理、數據安全與合規等問題是數據治理面臨的首要挑戰。數據標準化層面包括元數據管理和主數據管理,從基礎上保障數據的一致性、規范性和完整性,提升數據質量。區塊鏈的分布式賬本特性能夠保障數據安全和共享,加密機制保證了參與方及用戶的隱私,共識機制能夠保證多方協作環境下的高效意見達成。基于區塊鏈的數據治理協同模型如圖4所示。

圖4 基于區塊鏈的治理協同模型
數據治理主要包括數據標準化、數據質量管理、數據安全合規等方面,通過三者的協同治理,最終達到戰略一致、風險可控、運營合規、價值實現的治理目標。在大數據治理過程中,戰略一致應滿足組織持續發展的需要,大數據既是組織的價值來源,也是風險來源,有效的大數據治理能夠避免決策失敗和經濟損失,降低合規風險;同時組織的運營應符合國內外法律法規和行業相關規范,運營合規可以幫助組織有效地提升自身信譽,增強在不同監管環境下的生存能力和競爭力,最終通過大數據與業務的融合實現保證數據價值實現。
治理目標的實現主要基于區塊鏈分布式賬本、加密算法、共識機制特性,通過治理模型結構和方法流程、數據共享和訪問控制、數據更新和智能合約三個方面來實現。本文提出基于區塊鏈的數據標準構建模型,利用區塊鏈技術數據公開透明、可追溯的思想,實現行業標準庫鏈每條記錄從后向前有序鏈接,具有安全穩定、無法篡改以及可追溯的特點。行業標準庫鏈網絡是由加入的各個節點(即注冊用戶)共同構建的端到端分布式網絡,需要全部節點共同維護,通過建立基于規則的數據和標準化智能合約,能夠利用互聯網獲取的外部數據以及讀取區塊鏈自身存儲的內部數據,實現復雜的業務邏輯,最終構建形成數據標準化的應用方案,實現數據治理的重要目標。
區塊鏈作為比特幣等加密貨幣存儲數據的一種獨特方式,是一種自引用的數據結構,常用來存儲大量交易信息。本文在綜合考慮數據標準管理模型的基礎上提出基于區塊鏈的數據標準管理方法,利用區塊鏈技術其數據公開透明、可追溯的產品架構設計思想,實現了每條記錄從后向前的有序鏈接,具有安全穩定、無法篡改、方便溯源的特點。具體結構模型如圖5所示。

圖5 基于區塊鏈的多方協作數據標準共建
整個模型分兩個階段:第一階段在鏈外,主要由身份認證模塊、權限管理模塊、監督管理模塊組成,主要負責驗證用戶狀態,給予用戶獎勵以及監管用戶行為;第二階段在鏈內,主要由行業標準庫鏈組成,其中包括各個行業標準庫鏈,此模塊負責存儲和讀取行業標準庫鏈的數據信息。用戶通過身份認證模塊驗證成為注冊用戶,注冊用戶通過調用智能合約進行階段一和階段二之間的交互,涉及的用戶行為及功能模塊解釋如下。
身份認證模塊 用戶必須調用身份認證模塊的注冊功能檢驗其是否成功注冊成為注冊用戶,通過返回狀態確定用戶身份。返回狀態包括“注冊成功”和“注冊失敗”。“注冊成功”表明該用戶成功注冊為注冊用戶,可見其相關的注冊信息、積分信息和監管信息等。用戶提交的注冊信息不完整或信息已有重復,則表明“注冊失敗”。
權限管理模塊 在用戶成為注冊用戶后,調用權限管理模塊為其反饋該注冊用戶的積分擁有情況。積分信息是注冊用戶用來交換整個行業標準庫鏈開放情況的數字媒介,積分決定了注冊用戶對行業標準庫鏈內數據信息的使用范圍。
監督管理模塊 監督管理模塊主要有安全維護和行為監察的作用。安全維護指的是實時防止黑客攻擊,保證整個網絡中所有節點(即注冊用戶)及各個功能模塊安全、穩定、有序運行。行為監察指的是對注冊用戶的行為進行檢測,并且能及時將監督信息反饋給注冊用戶從而防止注冊用戶作惡,保證行業標準庫鏈中的數據質量。監督信息是注冊用戶行為監察的具體反饋信息,即通知注冊用戶當前違規行為和警告情況,并幫助權限管理模塊決定注冊用戶的權限。
行業標準庫鏈 各個行業標準庫鏈(如圖5所示的行業標準庫鏈1~n)分別對應存儲該行業的數據標準庫,數據標準庫具體指的是標準用詞(即利用命名規則生成的所有標準項目名,如實體名、實體的屬性名、表名、列名、域名等)。每個行業標準庫鏈都由眾多區塊從后向前有序連接而成。新的區塊經過共識算法驗證,通過后鏈接至標準庫鏈,標準庫鏈高度加一。這種方式保證了每個區塊指向前一個區塊,形成一個巨大的穩定的行業標準庫鏈,同時也保證了整個流程的公開透明,讓數據標準庫的信息更加權威。
基于區塊鏈的行業數據標準共建管理算法和過程如下。
步驟1 用戶提交注冊申請,通過身份認證模塊,驗證其身份可獲得相應的返回狀態。“注冊成功”則成為注冊用戶,反之則“注冊失敗”。
步驟2 注冊用戶通過權限管理模塊擁有相應的積分信息。
步驟3 注冊用戶通過監督管理模塊擁有相應的監管信息。
步驟5 數據標準庫鏈借助智能合約自動完成相應操作。
數據標準化需要遵循一定的標準化原則,標準化原則可以最大限度改善數據質量、保證標準化實現、形成數據共享機制。基于區塊鏈的行業數據標準共建方法,統一了數據標準的規則,統一了數據查詢接口,可以實時數據共享。通過權限管理的激勵制度,增強用戶黏性,消除“數據孤島”問題,實現數據標準互聯、互通、互信。
數據共享指在不同地方,使用不同計算機、不同系統的用戶能夠讀取他人數據并進行各種操作運算和分析。行業標準庫鏈集實現數據標準庫的共享,充分使用已有數據資源,減少資料收集、數據采集的重復勞動,而把精力重點放在數據標準完善或有針對性的個性化使用中。訪問控制指將所有數據信息標識出來、劃分起來、組織起來、托管起來的一套方法,只需提供一個簡單的、唯一的接口,便可決定參與者是否擁有對數據信息的讀取或寫入的權限。訪問控制有助于促進數據標準共享的可持續發展。數據標準共享模型如圖6所示。
行業標準庫鏈集由若干個行業標準庫鏈(如圖6所示的行業標準庫鏈1~n)組成。所有注冊用戶即注冊用戶集(如圖6所示的注冊用戶1~m)通過調用智能合約可對行業標準庫鏈集進行寫入和讀取操作,并由智能合約返回給注冊用戶相關反饋信息。寫入操作指的是注冊用戶從選擇行業、提交申請,到成功驗證“合法”備選用詞的過程。讀取操作指的是注冊用戶查看行業標準庫鏈集中各個行業標準庫的操作。查看標準用詞數量的多少取決于注冊用戶擁有的積分情況。用戶注冊成功后可以查看通用標準庫。通用標準庫通過調用智能合約的計數模塊形成,其中包含統計頻率較高的標準用詞。

圖6 行業數據標準共享示意圖
每個注冊用戶都有查看通用標準庫的權限,但查看具體行業的數據標準庫則需要通過扣除積分的行為來實現。積分的獲取通過該注冊用戶上傳excel文件,并為標準庫的完善所作出的貢獻而定,積分的獎懲規則如表1所示。
整理完整的excel文件指的是經過轉換管理過程數據有效性較高的文件,注冊用戶上傳數據有效性較高的文件可獲得積分獎勵;上傳數據有效性較低的文件(即質量較差的excel文件)將被扣除積分作為警告。上傳的excel文件中,通過調用智能合約驗證判定其中備選用詞的質量。驗證反饋信息為“合法”的備選用詞,則予以積分獎勵肯定該用戶對擴展行業標準庫的貢獻;為 “同義”的備選用詞,也予以積分獎勵肯定該用戶對提煉通用標準庫的貢獻;為杜絕注冊用戶反復上傳相同excel文件,對“重復”的備選用詞不進行積分上的獎懲;為“缺損”“無效”的備選用詞,將進行積分扣除警告該用戶改善上傳文件中數據的質量。
數據共享程度越高,則數據標準發展水平越高。訪問控制管理,旨在于助力形成數據共享的氛圍。通過用戶管理以及注冊用戶的獎懲機制,既能激勵用戶主動分享所屬行業的相關數據信息,又能防止注冊用戶通過大量上傳低質量或重復文件惡意賺取積分,從而降低行業標準庫的權威性。
行業標準庫鏈網絡是由加入的各個節點(即注冊用戶)共同構建的端到端分布式網絡,需要全部節點共同維護。區塊鏈是一個不可更改的分布式數據庫,智能合約是數據庫上的一個觸發器。通過建立基于規則的數據和標準化智能合約,能夠利用互聯網獲取的外部數據以及讀取區塊鏈自身存儲的內部數據,實現復雜的業務邏輯。每個注冊用戶節點提交更新數據以及調用智能合約自動化驗證模型如圖7所示。

圖7 基于區塊鏈的自動化驗證流程
注冊用戶進行數據標準申請時,先預選待更新信息的所屬行業。再將整理完整的excel文件上傳,經過轉換管理成為統一標準格式的備選用語。依次通過智能合約的驗證模塊,判斷其中的備選用詞是否已經在行業標準庫鏈上的行業標準庫中存在,是否有同義,是否有缺損,是否無效以及是否驗證通過為合法。驗證后自動將驗證反饋信息填入備注欄中,用戶可以在申請頁面刷新查看。驗證反饋信息為“合法”的備選用詞,則可記載于區塊上,為“重復”“缺損”“同義”或“無效”則不被記載于區塊上。計數模塊調用讀取模塊,再對“合法”“重復”和“同義”的備選用詞進行比對,執行計數后調用寫入模塊,最后將“合法”的備用詞寫入行業標準庫鏈中。涉及的用戶行為及功能模塊解釋如下。
創新是企業發展的關鍵,是企業的第一驅動力。而核心能力是一種與眾不同的能力,它不是企業中某一種具體的能力或優勢,而是一種將多種優勢進行整合后形成的能力,它為企業帶來長期持續的競爭優勢并使其獲取超額利潤,且一旦形成,便具有相對穩定性,不易失去。企業核心能力是指在企業發展過程中整合能力已經達成重要共識的能力,唯有如此才能培育出屬于本企業的持續競爭力,也才能提高企業的綜合能力,從而奠定企業更堅實的技術和管理基礎。
Excel文件 注冊用戶選擇需要申請成為標準用語的數據表(僅包含表頭,不需要具體的值),整理完善至excel文件中。
選擇行業 由于行業標準庫是根據不同行業作細分采集,因此注冊用戶在上傳之前,必須預先選擇待提交的excel文件所屬的行業,才能較好地對該行業數據標準的完善作貢獻,增加注冊用戶申請的標準用語驗證通過率。
轉換管理 excel文件的數據內容可能會有重復項、規格不統一、空值、需要丟棄的亂碼等問題。轉換管理旨在于ETL(Extract Transform Load)的過程,即將數據從來源端經過抽取(extract)、轉換(transform)、加載(load),形成統一格式的備選用詞。
驗證模塊 驗證模塊是指對統一格式后的備選用詞依次調用智能合約進行比對和驗證,即將備選用詞和行業標準庫鏈中的標準用語進行文本分析和比對,驗證該備選用詞是否能夠寫入標準庫中。如果在已存標準用語中有一模一樣的備選用詞則判定“重復”;有意思相近的備選用詞則判定“相近”;語義不完備的備選用詞則被判定“缺損”;毫無意義的備選用詞則被判定為“無效”。只有語義完備且對比已存標準用語,無重復、非近義、有意義的備選用詞才能通過驗證判定“合法”,成為標準用語寫入行業標準庫鏈中。
計數模塊 在驗證模塊中,通過驗證的“合法”備選用詞計數加一。被判定“重復”和“同義”的備選用詞,都將對該行業標準庫鏈中已存標準用詞(即被“重復”/“同義”的標準用詞)計數加一。通過計數模塊可以高效完整地統計適用于全行業的通用標準用詞,為后期權限管理和訪問控制提供依據。
讀取模塊 執行讀取行業標準庫鏈中標準用詞信息的操作,協助計數模塊進行比對操作。
寫入模塊 執行將“合法”的備選用詞寫入行業標準庫鏈的操作。
行業標準庫鏈 細分領域下,某一行業的標準用詞集。
智能合約程序代替傳統的人工審核機制,是一個可自動執行的計算機程序,同時也是一個系統的具體參與者。本文提出的方法旨在減少數據標準化過程中不必要的人工干預,保證系統按照事先商定好的規則絕對可信地執行審核操作,實現數據標準維護的高效性和客觀性。
本文基于某證券公司大數據風控管理平臺作了實驗對比和分析,該平臺包含四個應用系統,分別為信用風險、市場風險、操作風險、非現場監控等風控系統,四個風控系統共計3 073張數據庫表,經數據標準化后共計10 281個數據字段。本實驗通過傳統數據標準管理系統與基于區塊鏈的數據標準管理系統進行了標準用語申請的比對和分析,區塊鏈環境采用以太坊平臺搭建,部署了4個節點,設定區塊難度值,使得區塊出塊時間與以太坊公鏈大致相同,均為13.55 s。實驗結果表明,本文提出的模型和方法能夠高效、安全地對數據標準進行管理,減少過度的人為干預,提高行業數據標準制定、監督維護的效率。
傳統模型和方法中備選用詞申請成為標準用語的時間如式(1)所示:

(1)
T為備選用詞申請成為標準用語所用的時間。傳統模型中,用戶逐個提交備選用詞申請標準用詞,需人工審核(即人工檢閱通過后反饋是否通過)。在這個過程中,用戶提交后得到反饋的時間主要取決于參與審核人員的工作時間。因此可分兩種情況,情況一(最短用時):用戶提交申請,審核人員立即查看,此時審核人員審查所用時間為t1,提交后馬上被人工審核的備選用詞數量為n1;情況二(較長用時),審核人員非即刻查看,此種情況備選用詞梳理為n2,此時審核所費時間為t2(t2呈指數分布),根據公司對審核人員的要求,標準用語申請提交后三個小時內內基本會得到處理,因此本文得出t2的概率密度函數為:f(t)=e-(0.08t-0.08)。
本文提出的模型中備選用詞申請成為標準用語的時間如式(2)所示:
T=(n3+n4)×t3+n3×t3+(?n3/(tx×t4)+1」)×t4
(2)
T為備選用詞申請成為標準用語所用的時間。區塊鏈模型中,注冊用戶可通過上傳excel文件的方式批量提交備選用詞申請標準用詞,通過調用智能合約進行備選用詞的驗證。在這個過程中,注冊用戶提交后得到驗證反饋信息的時間主要取決于讀取智能合約以及寫入區塊鏈的時間。根據驗證反饋信息,注冊用戶提交的備選用詞可被分為兩類:可被存入區塊鏈的備選用詞(即驗證反饋信息為“合法”的備選用詞)和不被存入區塊鏈的備選用詞(即驗證反饋信息為“無效”、“同義”和“重復”和“缺損”的備選用詞),其數量分別用n3、n4表示。首先所有被提交的備選用詞(即n3+n4)需要依次調用智能合約進行驗證對比,然后符合要求的n3數量的標準用語需要再次調研智能合約寫入區塊鏈中,設調用一次智能合約所用時間為t3。考慮到以太坊的每秒并發數為tx,區塊的生成時間為t4。綜合以上條件,備選用詞申請成為標準用語的時間如式(2)所示。
根據市面上已有的數據標準管理系統,經實際操作估算,兩種模型n1和n2以及n3和n4的數量均占總審核備選用詞數量的50%。傳統模型中t1為1 min(根據實驗監測得到),t2取時間指數函數的積分;本文以太坊區塊鏈環境智能合約調用平均時間t3為0.012 s(根據實驗監測得到),t4為13.55 s(當前以太坊一個區塊生成的平均時間)。經過實驗測算得到兩種模型所用的審核時間對比如圖8所示。

圖8 備選用語審核時間對比
由圖8所示,用戶申請相同數量備選用詞,區塊鏈模型所用的審核時間明顯比傳統模型所用時間短,且申請的備選用詞數量越多,兩者耗時差距越明顯。區塊鏈模型在申請驗證過程中時間效率顯然優于傳統模型。
從商業角度來看,不同于區塊鏈模型的機器驗證方式,傳統模型的人工審核模式不僅放大了審查人員的權威性,更在系統維護、數據維護和數據擴展等方面存在巨大劣勢。兩者進一步對比如表2所示。

表2 傳統模型與區塊鏈模型對比
人為作惡是指黑客破壞整個網絡、篡改數據或用戶通過不良行為自己牟利,直接或間接地對現有數據標準體系進行破壞和影響。本文所提出的基于區塊鏈的行業數據標準共建模型,在抵御人為作惡保障網絡及信息安全方面具有以下3個方面的優勢。
1)利用分布式數據存儲和數據共享模式,有效防止單點攻擊。
本模型不同于由大型企業、銀行機構、政府部門等第三方實體主導的,用中心化服務器存儲數據的信息化系統,基于區塊鏈的數據存儲本質上是一種多中心、分布式結構。在區塊鏈社區的對等網絡中,區塊鏈技術利用節點間端到端的通信方式,不僅解決了分布式數據存儲問題,也解決了存儲時的分布式一致性問題。
模式對比圖如圖9所示,區塊鏈的數據共享模式可取代傳統模式下中心化服務器,形成一個特有的、多中心、分布式數據庫。每個節點的數據都相同,這意味著攻擊者攻擊任意單個節點都不會影響整個系統的數據安全,不會形成單點故障。
2)利用密碼學的相關原理進行數據驗證,數據可靠不能篡改。
本文提出的模型利用數字簽名技術保證用戶在注冊成功后無法被惡意實體假冒,有效杜絕惡意實體擾亂注冊用戶秩序的潛在危險。寫入區塊鏈的數據經過共識機制已被全部節點驗證通過,惡意實體無法通過攻破所有節點掌控整個區塊鏈網絡,更無法篡改鏈上數據。
3)通過業務方法平衡鏈上和鏈下的數據,用戶行為可被審計。
在真實業務場景下,用戶登記體系不完備,導致了數據的來源、流轉過程不透明,數據采集質量不可控,也使得數據標準化的制定混亂。本文通過業務方法來平衡并保證兩者的數據一致性以確保信息安全。區塊鏈上的數據,即行業標準庫鏈內數據信息在計算以及結果輸出的每一步記錄都會被留存在區塊鏈上,因此具有可追溯特性;區塊鏈下的數據,即用戶的注冊信息是監管模塊對其進行監管的追責依據。通過業務方法結合鏈上鏈下數據,可實現對不良數據和不良用戶行為的雙重審計。

圖9 單點攻擊下傳統模式與區塊鏈模式對比
本文提出的基于區塊鏈的數據治理協同模型以及多方協作行業數據標準共建方法,解決了當前數據標準的產生和利用只能停留在封閉環境之內的兩難境地,為數據治理模型的應用及多方協作的數據標準共建提供了可行的路徑。該模型的價值在于利用區塊鏈技術和智能合約技術充分匯聚行業多方資源,實現數據治理價值以及高效安全的數據標準加載、融合及開放。仿真實驗也表明本文提出的方法的高效性和安全性。在未來工作中,本研究將開展進一步實驗,從而幫助完善基于區塊鏈的數據治理協同方法實施細則,并開展多方協作行業數據標準共建模型的深入應用。