胡祥科 陳靜
摘要:該文結合水電工程檔案管理的特點,研究了如何將區塊鏈應用在水電工程電子檔案管理中,以實現電子檔案的防偽存證和可追溯性,同時提出通過對水電工程電子檔案設計全局唯一編碼,并結合倒排索引構建技術,提升電子檔案的追溯、查詢效率的可行路徑,以供檔案管理人員參考。
關鍵詞:區塊鏈應用 水電工程檔案 計算機應用
水電工程建設屬于大型工程項目建設范疇,其建設周期長、工程規模大,涉及參建方、關聯方眾多,形成的檔案文件類型復雜,具體表現為來源廣、數量大、類型多、多方審簽、傳播周期鏈條長等特點。如何保障全過程電子檔案的真實有效、防止人為篡改,成為當前亟待解決的問題。
區塊鏈技術由中本聰在2009年提出,是新一代信息技術的重要推動力,它利用了存儲、密碼學、點對點網絡及共識算法等四大基礎技術,具有去中心化、可追溯以及不可篡改等三大特性,可以用來解決信任及安全問題。在該技術背景下,可將區塊鏈應用到水電工程電子檔案的管理中,達到電子檔案的可追溯和防偽效果,并輔助使用其他技術手段提升電子檔案的查詢利用效率。
當前,水電工程建設形成的電子檔案由相關業務信息系統形成、分發和傳遞,并由專用的檔案管理信息系統進行長期管理,電子檔案的“四性”保障(即真實性、完整性、可用性和安全性)主要依賴于數字認證技術(即電子簽名)。由于該項技術重度依賴服務提供方,在服務時效、信息權威以及數據安全性方面存在可能的風險。此外,所有電子檔案的存儲一般是基于中心數據庫實現的,而由于水電工程檔案的傳播周期和鏈條路徑較長,一旦發生數據庫級別的篡改,難以保證檔案絕對安全,且很難追溯電子檔案的修改和流轉過程,因此便無法保障其真實性、時序性和有效性。
另外,當前對電子檔案的檢索大多通過建立索引的方式進行以提升效率,一般采用的是正向索引方式,而一旦涉及數量龐大的水電工程電子檔案時,采用此方法將極大影響檢索效率。
圍繞上述問題,本文擬通過引入區塊鏈技術,構建水電工程電子檔案區塊鏈系統,利用其去中心化、可追溯以及不可篡改等特性并輔助倒排索引技術,解決當前水電工程電子檔案管理中所遇到的問題。
(一)區塊鏈系統節點搭建
水電工程建設過程中涉及眾多業務子系統,這里以工程管理系統、招投標系統、施工管理系統、智能建造系統為例,在區塊鏈系統框架下,每個業務子系統均關聯若干區塊鏈節點(見圖1)。每個節點都能接受該子系統工程電子檔案的操作請求(如上傳、審簽、流轉、移交、使用等),所涉及的工程電子檔案通過區塊鏈實現上鏈、發布、驗證、共識。
上述區塊鏈節點圖中,每個業務子系統均是一個去中心化的、點對點區塊鏈節點組成的網絡結構。節點中的數據和狀態是由其所在網絡中所有節點共同維護的,每一個節點都能對外提供服務,同樣也能從其他節點請求服務。即使某一節點出現故障,只要還有正常運行的節點,該業務子系統就可以照常運行。
業務子系統中的各區塊鏈節點是對等的,每一個節點存儲的數據都是一致的,即便出現突發情況導致部分節點中的數據丟失,但只要還有一個節點有效,就能確保歷史數據完好,避免單點故障帶來的服務不可用和數據缺失等問題,極大提升了系統可靠性和穩定性。
(二)確定全局唯一編碼標識并建立倒排索引
在本區塊鏈系統中,通過引入全局唯一編碼標識的方式對每份電子檔案進行編碼,編碼規則為“全宗號-類別號-項目號-業務系統編號-流水號-時間戳”。該編碼將貫穿整套系統,具有唯一性和全局性,可作為后期查詢檢索的編號標識。
在確認全局編碼標識后,本系統將建立電子檔案的倒排索引。而傳統正向索引技術主要是建立檔案與關鍵詞的映射關系,將檔案ID或者標題作為文檔唯一標識Key,例如“檔案A”“檔案B”“檔案C”中包含水電工程這個關鍵詞,其對應的正向索引為:{“檔案A”:“水電工程”、“檔案B”:“水電工程”、“檔案C”:“水電工程”}。利用通過此種方式建立的映射關系,在對“水電工程”這個關鍵詞進行檢索查詢時,需逐一從每份檔案中進行全文檢索,此舉將影響檢索效率。
本區塊鏈系統應用倒排索引技術建立檔案與關鍵詞的映射關系,即將檔案內容關鍵詞或者屬性作為文檔唯一標識Key。仍以上述為例,采用倒排索引建立的映射關系為:{“水電工程”:“檔案A”,“檔案B”,“檔案C”},后期通過“水電工程”關鍵詞檢索時,只需要查詢一次就可以得到所有包含該關鍵詞的檔案信息,從而有效提升檢索效率。
(三)水電工程電子檔案上鏈
1.利用SHA-512算法為每個電子檔案生成可標識該檔案的哈希指紋,其中半結構化、非結構化的檔案可通過電子檔案的元數據生成。
2.將電子檔案的元數據、哈希指紋進行上鏈,并生成操作記錄。這里的操作記錄包括發起方、接收方、操作的方法(如上傳、修改等)、電子檔案的相關參數(如全局唯一標識、元數據、哈希指紋等)、操作的時間戳以及操作發起方生成的數字簽名。
3.將業務系統中一個周期(如1個月)的操作記錄形成區塊,并進行區塊的鏈式記錄,其中區塊的存儲結構和每個區塊存放的數據如圖2所示。

如圖2所示,區塊中的每一次操作都會進行哈希函數運算,往上相鄰的葉子節點將再次進行哈希函數運算,得到的哈希函數運算結果作為這兩個葉子節點的父節點,依次往上,最后一次哈希函數運算的父節點就是操作的根哈希節點。
若區塊中的某個操作被惡意篡改,該操作對應的葉子節點哈希運算結果會發生變化,并向上逐一傳遞到父節點和根節點。操作根節點的哈希運算結果實際上是包含了所有葉子節點的哈希運算過程,一旦出現篡改,能快速定位有問題的操作節點。
通過構建水電工程電子檔案的區塊鏈系統,可將區塊鏈的防偽存證和可追溯的特性應用到檔案管理中,同時依托倒排索引技術,可有效提升檔案數據檢索利用效率。具體應用場景如下所述。
(一)防偽存證應用
1.數據發送:操作發起方(如某個業務子系統)將電子檔案和生成的哈希指紋發送到接收方(另一個業務子系統)。
2.身份驗證:每個操作均由操作發起方的私鑰進行數字簽名,接收方通過操作發起方的公鑰進行解密來對該簽名進行驗證,如果驗證通過,則證明該操作確實是由操作發起方發起。
3.防偽驗證:接收方獲取該電子檔案,利用SHA-512算法生成該檔案的哈希指紋,與發送方的哈希指紋進行比對,如果一致則證明該電子文檔未被篡改,否則不予接收。
(二)溯源應用
針對水電工程檔案數據的傳播周期鏈條長等特點,系統中所有操作均通過區塊進行鏈式存儲記錄,當需要對某份電子檔案進行追溯時,通過全局唯一編碼標識檢索查詢,可將存放在區塊中的所有操作進行遍歷,并將遍歷結果形成鏈式的記錄。
由于所有數據全部記錄在區塊鏈存儲系統上,且為去中心化的存儲方式,節點中的數據是按時間先后順序串聯存儲的,將前一時間段的數據指紋與后一時間段的數據整合在一起,這樣后一時間段的數據永遠都會包含前一時間段的數據指紋,形成了一條由數據指紋串聯的信息鏈條。
如果要非法修改中間某一時間段的數據,依照哈希算法原理,對應的數據指紋將會改變。因此,必須修改后續的每一個時間段的數據,否則數據鏈條就會在修改這一刻斷掉,不再具備可追溯性。同時,為避免非法入侵修改相關記錄,可通過容錯PBFT共識算法防止篡改。

(三)檢索應用
針對水電工程形成的電子檔案數據量較大的特點,當涉及檢索應用時,傳統做法是通過檢索關鍵詞進行匹配,并反饋檢索結果。本應用前期建立了倒排索引,當輸入檢索關鍵詞時,可直接通過建立好的倒排索引進行關鍵詞匹配,當查詢到匹配的關鍵詞后,其所對應的電子檔案以列表的形式依次串聯,可第一時間獲取到所需的電子檔案列表,將結果反饋給用戶,此舉將有效提升檔案數據利用效率,并可節約大量的計算資源。
將區塊鏈技術應用到水電工程電子檔案管理后,可降低傳統以數字證書認證方式為主的第三方依賴,通過構建鏈式區塊的存儲方式,可做到電子檔案的防篡改和全過程溯源,所有鏈式操作均不可抵賴,極大提升了電子檔案的安全性。另外,通過引入全局編碼標識并利用倒排索引技術,有效提升了水電工程電子檔案數據的查詢、檢索、利用效率。作為新興技術,區塊鏈在檔案行業應用尚處于探索階段,檔案工作者應以需求為導向,兼顧技術與管理間的融合,持續不斷探索,以找到最適合的實施路徑。
參考文獻:
[1]賈寧霄,馮敏,黃博豪.基于區塊鏈技術的水利工程智慧化建管研究[J].人民長江,2021,52(增2):312-315.
[2]駱建珍,楊安榮,馬來娣.電子檔案“四性”檢測要求及其實現方法[J].浙江檔案,2017(12):27-30.
[3]黃文燕.區塊鏈技術在電子檔案管理領域的應用探析[J].北京檔案,2021(7):25-27.
[4]楊偉華,汪輝,劉武念.區塊鏈技術在工程項目管理中的應用構想[J].建筑經濟,2020,41(S1):141-143.
作者單位:1.中國長江三峽集團有限公司檔案中心2.中國長江三峽集團有限公司科學技術研究院