趙婧帆,潘利民,黃永剛,史寶林
(河北北方學院附屬第一醫院,河北張家口 075000)
隨著科學技術發展水平的提升,科研誠信已成為了熱點問題。加強科研誠信的建設,對于科技發展和保障社會公平正義具有重要的意義。隨著科研數據量的快速增長,對其進行深入地分析不僅要針對現有數據,還需對未來快速增長的數據也進行準確可靠的預測。而區塊鏈技術,恰好適合解決此類數據交互問題。
區塊鏈也被稱為分布式賬本,其是一個防篡改的附加數據交易列表,并對這些交易使用密碼學進行鏈接和保護。同時,區塊鏈技術去中心化的組織模式,也保證了數據交互不會被篡改。因此,該文基于科研數據的建模,使用區塊鏈技術研究了科研誠信數據的分析與評估問題。
為了對科研數據進行評估,該文提出了一個誠信模型,其涉及相似性、可信度與最終聲譽的測量。該模型根據事件進行更新,相似性測量依賴近鄰數據的相關度量測。最終聲譽通常使用一般聲譽和基于近鄰數據的聲譽來評估可信度值。
該文使用皮爾遜相關系數量測兩個數據之間的相關性[1]。數據u和數據k之間的相關性PCu,k可由式(1)得出:

可信度量化了數據與其鄰近數據之間的關系[3]。若數據u對于鄰近數據k的分析結果影響增大,則u在k中的可信度增加[4]。數據u和k之間的可信度Tu,k的計算如式(2)所示:

式中,nu,k表示由k傳遞給u的數據分析結果;Nu,k表示k被選為u的鄰近數據的次數。
可信度是基于單一數據個體的科研數據可靠性量測指標,此外還使用最終聲譽來量測總體數據的可靠性[5]。為此,該文采用了一般數據聲譽和基于鄰近數據的聲譽兩種不同數據的綜合建模方法。
一般數據聲譽采用數據本身的平均可信度來量化數據聲譽。數據u在系統中的一般數據聲譽Ru如式(3)所示:

式中,Tu,k可由式(2)得出,而U表示整體數據。
基于鄰近數據的聲譽使用數據與其鄰近數據間的成對可信度來量化數據的聲譽。數據k包含數據u的基于鄰近數據的聲譽Ru,k可由式(4)得出:

其中,t代表u和k之間的共同鄰近數據;Tu,t是數據u和t之間的成對可信度;n是u和k之間的鄰近數據總數[6-8]。
從式(1)-(4)可以看出,任何一個數據的鄰近數據均會對算法產生重大影響。該文使用k-NN(k-Nearest Neighboors)算法,對科研數據進行在線聚類[9],并為每個傳入的評級事件近乎實時地進行預測與模型更新。同時為了識別近鄰數據,采用皮爾遜相關算法確定數據間的相關性,以檢測最近的鄰近數據。而聚類生成數據用于支持以下兩種分析方法[10]:
1)使用式(1)來計算采用多標準評級的ru,i,然后通過式(5)確定數據u對特征i評分ru,i的預測。

式(5)中,*表示內積運算。
2)基于信任的數據分析方法。首先使用式(3)計算數據k被識別為數據u鄰近數據的次數。式(6)定義了數據u的n個臨近數據的可信度Tu,k為數據u對特征i的評級預測

為確保數據分析的安全性,該文使用區塊鏈技術,用于實現數據文件跟蹤、驗證與歷史跟蹤的流程。所使用的區塊鏈系統如圖1 所示[11-12]。

圖1 系統框架
該系統支持現有存儲基礎架構中的數據保留、歸檔、文件驗證和歷史跟蹤,并可監視由用戶注釋的文件或指示是否可以更改以及何時更改[13]。此外,該系統在區塊鏈上還能夠自動生成與部署這些智能合約,并提供審計功能和對存儲在區塊鏈上的元數據的安全訪問。系統的主要功能包括存在證明、文件驗證和歷史跟蹤。
該節使用區塊鏈技術監控文件的工作流程如圖2 所示,其包括以下步驟[14]:

圖2 區塊鏈注釋監控流程
1)用戶對文件進行注釋,以便進行長期文件跟蹤。
2)根據文件跟蹤模板,自動生成該文件的專用智能合約。
3)將生成的文件追蹤合約提交至區塊鏈。
4)成功部署到區塊鏈后,返回唯一的智能合約地址,并將其作為元數據附加到存儲系統的文件中,同時關聯智能合約和文件。
5)使用加密單向散列函數計算文件散列。
6)將所有數據解析為對應的文件合約。
7)系統收到數據并將其寫入區塊鏈。
8)若存在某個文件的其他隊列交易,系統將把所有交易按照時間順序提交到區塊鏈。
驗證跟蹤文件的工作流程如圖3 所示[15]。

圖3 驗證文件工作流程
驗證文件的工作流程如下:
1)用戶從文件系統中請求訪問一個文件。
2)系統根據元數據附加的智能合約地址來加載相應的文件跟蹤合約。
3)系統從加載的文件跟蹤合約中尋找最后一個已知的哈希值。
4)智能合約驗證功能在區塊鏈的最新副本上進行本地執行,獲取存儲在區塊鏈上的最后一個已知哈希值。
5)計算存儲系統中存儲文件版本的哈希值。
6)當前產生的哈希值與存儲在智能合約中的最后一個值進行相互比較;若兩個值匹配,則認定文件一致[16]。
7)系統允許用戶加載驗證文件。
此外,系統允許用戶根據存儲在區塊鏈網絡上的真實情況驗證其本地文件副本,且無需接觸遠程文件。
通過使用專用智能合約將包括存儲系統維護等附加屬性(例如所有者、時間戳及URI)的文件哈希存儲在區塊鏈上,從而能夠確定文件的更改時間。若存儲的文件被修改,則包括新文件哈希在內的更新文件屬性將被附加到智能合約上,并存儲于區塊鏈網絡中。而一旦交易被確認,便可唯一確定網絡中的所有操作記錄,這是因為區塊鏈上的交易無法修改或刪除。此外,文件歷史追蹤還能夠在無任何第三方干擾的情況下完成。
驗證實驗均采用節點集群,且每個節點都配備了一個四核Intel Xeon CPU,16 GBRAM 和三個1 TB的7 200 RPM 機械數據存儲磁盤,且所有節點均通過單個交換機與一個千兆以太網相連。同時,節點內運行Linux 操作系統和Java1.8.0 軟件語言。
為了對文中設計的技術進行研究,通過使用KNN算法預測評分,并評估該方法的預測及準確性。首先通過使用基于區塊鏈的科研數據分析算法,在不同的數據近鄰分類策略下,分別計算數據分析的召回率、目標召回率以及均方根誤差,結果如表1 所示。其中,較低的均方根誤差和較高的分類值(召回率和目標召回率)均可體現出算法具有較為理想的分析準確度。

表1 分析結果對比
從表1 可以看出,隨著近鄰數據個數的增加,算法對于數據分析的準確度逐漸上升,且均方根誤差持續減小。
科研數據分析技術的優劣不僅取決于對數據的分析質量,還取決于分析技術的正式運行情況,因此,該文還對科研數據寫入及驗證文件的響應時間進行了測試。實驗在Linux 操作系統下生成固定大小(64~8 192 MB)的隨機文件,其寫入時間的測試如圖4所示。

圖4 文件寫入時間測試
如圖4 所示,科研文件大小均在1 024 MB 以內時,收集元數據以及發送和確認合約交易的平均響應時間為48.5 s,且寫入響應時間大致相同,因此與文件大小關系并不明顯。此外還可以發現,寫入時間的最大值和最小值相差較大,分別為45.590 s 和125.843 s。這是因為交易確認占用了大部分響應時間,故測試網絡在考慮效率的情況下應該將大型文件進行延遲處理。
圖5 為系統驗證不同大小文件響應時間的實驗結果。在使用區塊鏈技術讀取文件之前,對文件進行了50 次修改,以生成相應文件跟蹤合約內的數據。當文件較小時(小于1 024 MB),與寫入響應時間相比,驗證的耗時較少,且均在20 s 以內。原因是檢索文件哈希智能合約的執行可在本地完成,所以無需在區塊鏈網絡上進行任何交易。

圖5 驗證響應時間實驗
該文采用Gas 來衡量創建及修改單個文件的成本。Gas 是區塊鏈技術中使用的特殊單位名稱,其用于衡量一個動作或一組動作需要執行的工作量。實驗時,首先生成一個1 024 MB 的文件;然后將文件加載到系統中,并重復10 次上述兩個步驟,以覆蓋系統的文件,即可以保證系統的數據安全可靠。在系統安全的前提下對文件的操作成本統計如下:當一個創建文件在部署相應的智能合約時,第一步需要花費147 060 Gas,且之后的每次修改均會持續花費132 060 Gas,這是因在測試網絡上執行的操作數量完全相同。需要強調的是,測試網中的文件操作Gas 消耗量可能與公共網絡上有所不同。因此,在公共網絡上使用區塊鏈分析技術時,不僅需要考慮到文件操作的成本,還應分析需要跟蹤文件的成本及數量。
針對科研誠信數據的分析與評估問題,該文使用多種評價指標建立了一個誠信模型。同時為保證科研數據文件跟蹤、驗證和歷史追蹤的可靠性,利用區塊鏈技術建立了數據分析方法,并通過實驗驗證了該技術的可靠性。更廣泛的科研誠信數據具有大時間跨度的特點,且基于多種語言載體,其具有異常細節難以全面量化的問題,這將是未來研究的重點。