吳功才/杭州職業技術學院信息工程學院
關鍵字:檔案管理;數字化;區塊鏈;數據安全
據教育部官網2019年教育統計數據顯示,全國共有普通高等院校2688所,初高中學校7.7萬所,小學16.6萬所,共計在校生人數為2.428億人[1]。檔案是學生學籍和成績的證明,學生一人一檔,檔案數量巨大,數據安全性要求高。2017年,國家檔案局正式將“區塊鏈技術在電子檔案管理中的應用”列入科技項目選題指南[2]。2019年10月24日,習近平總書記在中央政治局第十八次集體學習時強調,“要把區塊鏈作為核心技術自主創新重要突破口,加快推動區塊鏈技術和產業創新發展”[3]。近年來,如何有效的將區塊鏈技術融入到檔案管理工作中去成為了研究熱點。本文研究的就是如何使用當前大熱的區塊鏈技術來安全、快速、有效的管理學生信息檔案。
最初,學生的檔案都是使用紙質來記錄和保存的,紙質檔案具有管理效率低下、不易保存、不易調轉的缺點。從20世紀90年代開始,美國最早開始了對檔案館的數字化研究[4]。20世紀90年代末,我國國家檔案局提出了建設數字檔案館的設想,致力于將紙質檔案、音頻、視頻等材料數字化,實現檔案的快速查詢,永久存儲和數據共享[5]。學生檔案的數字化便于存儲照片、音頻、視頻等多媒體檔案,也便于檔案管理信息系統的開發、應用以及檔案數據在互聯網的在線預覽、調轉和分享,極大的提高了學生檔案管理工作的效率。
但是,數字化檔案數據容易被不留痕的篡改,給不法分子或者心術不正的檔案管理工作人員留有較大的作案空間。重慶某職業學院原某領導借向主管單位移送個人檔案之機,篡改、偽造個人檔案資料32處。數字化檔案數據容易受到的網絡黑客的竊取,而且網絡黑客可能來之世界各地,令人防不勝防。檔案數據聚集的數字化檔案管理中心一旦遇到系統、存儲介質等軟硬件的故障或者電力供應故障,可能會造成難以預料的檔案數據丟失、破損。傳統的檔案認證方式繁瑣導致用戶體驗度極差,檔案信息過度分享,導致隱私泄露問題嚴重[6]。數字化檔案諸多的缺陷,都給區塊鏈技術在檔案管理中的應用提供了巨大研究動力和應用空間。
區塊鏈是一種利用鏈式數據結構來識別、傳播和記載數據信息,利用分布式結點共識機制來更新數據的一種對等網絡基礎架構。區塊鏈網絡融合了分布式數據存儲、非對稱加密技術、共識算法、智能合約等多項技術,實現了去中心化管理、數據不可篡改、數據變更必留痕、數據必唯一等特性。
相較于其他的數據信息,學生檔案數據特征明顯:學生檔案數據量龐大、檔案數據變更頻繁、檔案調轉頻繁、不能隨意篡改、檔案數據的保密性要求高。下面對學生檔案管理的需求、常規檔案管理系統(MIS)技術性能及區塊鏈技術性能從多個角度做一個對比,具體如表1。

表1:區塊鏈技術適用性分析表
傳統的常規檔案管理信息系統(MIS)重在檔案信息的存儲、查詢、業務管理等基本功能,而對檔案數據的篡改可追溯性、數據的保密性、檔案調轉的安全性和保密性等就顯得無能為力。從上表可以看出,區塊鏈技術可以滿足學生檔案數據管理的大容量、分布式存儲、變更可追溯、冗余性好、數據完整性、唯一性和保密性等多方面的需求,是一種匹配度極高的技術解決方案。區塊鏈數據雖然說是不能篡改的,但是可以通過添加新區塊來達到更改數據的效果。區塊鏈可以通過本文后續提到的零知識證明、安全多方計算等方式來確保區塊數據的保密性。2018 年R3 和CryptoBLK 共建聯盟鏈Voltron 項目,將原本紙質信用文檔的信用驗證程序從5—10 天減少到不到24 小時。相信區塊鏈技術在學生數字化檔案管理的應用也將極大的提升學生檔案的管理效率。
第一,數字簽名技術確保“你的檔案能夠安全的調轉到目的地”。基于區塊鏈技術的檔案管理平臺對學生檔案進行調轉等操作時,會對檔案數據進行數字簽名,數字簽名技術能夠保證待調轉的檔案數據的保密性和完整性。數字簽名技術主要應用了哈希算法和非對稱加密算法。哈希算法可以將任意長度的源消息壓縮到某一固定長度的消息摘要。哈希算法具有輸入敏感性(如果輸入的源信息被輕微修改,輸出的消息摘要就會有很明顯的變化)和不可逆性(給定任意的消息摘要,在有限時間內很難逆推出源消息)。非對稱加密算法使用了公鑰和私鑰兩個不同的密碼,顧名為“非對稱”,用私鑰加密的數據可以用公鑰解密,反之亦然。私鑰須由擁有者私密保存,而公鑰則可以對外公開。假如:中學A 要將一份學生檔案調轉到大學B,首先對學生檔案(DOC)進行哈希運算生成信息摘要(IA),之后大學B 通過查看IA有否更改就可以驗證DOC 的數據是否完整;通過使用大學B 的公鑰對學生檔案(DOC)和加密摘要(PIA)進行加密,保證檔案數據的完整性和保密性,具體流程如圖1。

圖1:數字簽名及檔案安全調轉流程圖
第二,哈希算法+時間戳驗證“你的檔案是正版的”。哈希算法是密碼學里的一個重要算法,也是區塊鏈的核心技術。形象的說,哈希算法可以將學生的檔案數據裝在一個盒里,然后在貼上一個封條,這樣一旦有人打開盒子修改數據了馬上就會被發現,從而保證了檔案數據的完整性,即“這個檔案數據就是原來的數據!”。區塊鏈中的每個區塊一經創建都會被加上一個時間戳,并和區塊數據一起作哈希運算(保證時間戳不被修改),從而申明一個事實“我是最原始正版檔案,我不是復制品!”。哈希算法+時間戳完美確保了學生檔案數據的原始性和唯一性。
第三,智能合約制定“檔案的操作規范”。在中心化的檔案信息管理系統(MIS)中,數據操作的安全性、完整性和保密性在很大程度上取決于檔案管理員的職業水準和職業操守。一旦檔案管理員出于某種目的誤操作、泄露了檔案數據將會造成難易預計的損失。智能合約就是為了避免在區塊鏈中出現上述情形而設計的。智能合約是可以在區塊鏈上自動執行的特殊程序,其特點是程序代碼以及數據均存儲于鏈上,因此擁有防篡改性強、去中心化程度高等特點[7]。智能合約可以是一個區塊檔案數據讀取操作的約定、一個用戶權限等級驗證的約定、一個檔案調轉操作的約定等。總之,對區塊檔案數據的規范操作都可以在區塊鏈設計之初事先定義成智能合約,而智能合約之外的操作請求是不會得到許可的,智能合約準確、嚴格的規范了檔案數據的操作流程。
第四,分布式賬本+共識算法避免“管理員說了算”的中心化操作風險。在學生檔案區塊網絡中,區塊鏈分布式賬本的內容即為學生的檔案數據。分布賬本技術就是將區塊數據復制出多個副本,并分發到網絡的不同節點中存儲,這樣一個副本的數據被篡改了可以快速的被檢測發現。共識算法是區塊鏈中的一種防止分布式服務資源被濫用、拒絕服務攻擊的機制。區塊鏈通過共識算法(而不是指定某個節點、某個管理員賬號)來確定某次操作(例如:生成新檔案數據區塊的操作或檔案數據調轉操作,其實就是一個智能合約的操作)具體由哪一個節點實施,并且可以斷定某個節點是否是實施了惡意操作的節點,從而較好的防范了中心節點的惡意操作!分布式賬本+共識算法很好的杜絕了類似于中心數據庫檔案數據易被惡意篡改、管理員操作權限過大等“管理員說了算”現象的發生。
區塊鏈系統根據應用場景和用戶需求的不同,技術應用的類型一般分為公有鏈、聯盟鏈、私有鏈[8]。聯盟鏈是在節點規模、交易速度、中心化程度介于公有鏈和私有鏈之間的一種區塊鏈形式。聯盟鏈是國內采取較多的一種形式,其建立通常是為了服務某一特定領域或達成某一特定目的[9]。本文建議采用聯盟鏈的方式組建學生檔案區塊鏈網絡,具體的區塊網絡架構下圖2。聯盟鏈中的每個節點就是不同院校的區塊網絡專用服務器(Block-chain Server,簡稱BCS)。學校原先的檔案信息管理系統(MIS 系統)服務器提供檔案信息的采集、審核服務,同時也作為區塊網絡的代理服務器(Block-chain Proxy Server,簡稱BCPS)。BCPS 可以通過向BCS 提交“檔案操作智能合約”,實現對區塊網絡中檔案數據的規范操作。

圖2:學生檔案區塊網絡的架構圖
區塊網絡的學生檔案數據安全主要體現在檔案數據的完整性、唯一性、保密性三個方面。區塊鏈最原始的設計是確保數據的完整性和唯一性,其哈希算法和時間戳技術對數據提供了很好的完整性 和唯一性保護,但并沒有在數據的保密性方面有太多的考慮。學生檔案區塊網絡的數據在檔案調轉操作過程中是受到非對稱加密算法的保密性保護的,但是區塊網絡的數據通常是在非加密的狀態下被分布式存儲的,所以具有一定的數據保密性安全隱患。當然我們可以通過增加對稱或非對稱密碼算法對鏈上數據進行加密實現數據的加密存儲,但是加密后的區塊數據也對后續數據交易或操作中的共識算法和智能合約的實施造成一定的障礙,這也是阻礙區塊鏈技術在檔案數據、征信數據等私密數據應用領域廣泛應用的重要因素。
所幸的是,目前出現了一些新的、可行的區塊數據保密方式:零知識證明、環簽名、安全多方計算和同態加密。零知識證明能夠在不向驗證者提供任何有用的信息的情況下,使驗證者相信某個論斷是正確的。環簽名可以在隱藏交易發送人的前提下,實現區塊鏈上的數據交易。零知識證明和環簽名可以在確保學生檔案數據所有權信息私密性的前提下,實現共識算法的安全實施。安全多方計算是解決一組互不信任的參與方之間保護隱私的協同計算問題的良好途徑。采用安全多方計算技術來設計和實現智能合約的安全執行被認為是最具潛力的解決方案之一[10]。同態加密提供了一種對加密數據進行處理的功能。安全多方計算和同態加密可以在保證學生檔案數據私密性的前提下,安全的實施智能合約的相關操作。