錢秀芳



摘要:檔案具有歷史記錄性,有重要的憑證價值,檔案的數(shù)字化為長期保存和開發(fā)利用提供了解決方案,但是在傳統(tǒng)的中心化檔案管理模式下,電子檔案的真實性、安全性問題不容忽視。文章分析總結(jié)區(qū)塊鏈技術(shù)在保證檔案的真實性、降低檔案歸檔成本和防篡改等方面的優(yōu)勢,探究基于區(qū)塊鏈技術(shù)的高校檔案管理模式,以期對區(qū)塊鏈技術(shù)全面應(yīng)用于檔案部門有所幫助。
關(guān)鍵詞:高校檔案管理;中心化;區(qū)塊鏈;防篡改
檔案是人們在各種社會活動中直接形成的數(shù)據(jù)記錄,能夠還原真實的歷史,具備重要的保存與參考價值,并且擁有法律效力[1],因此保證檔案的完整性和真實性十分重要。目前我國檔案的保存形式主要是以紙質(zhì)檔案和電子檔案相結(jié)合的形式存在,隨著信息技術(shù)的不斷發(fā)展,為解決紙質(zhì)檔案不易保存、管理低效等問題,檔案數(shù)字化應(yīng)運而生。
一、我國的檔案數(shù)字化進程
20世紀(jì)90年代末,國家檔案局提出了構(gòu)建數(shù)字檔案館的規(guī)劃,指出實現(xiàn)各類檔案的數(shù)字化,以期達到檔案的長期存儲、高效共享和快捷查詢等目標(biāo)[2][3]。在2000年12月通過的《全國檔案事業(yè)發(fā)展“十五”計劃》中提出要加快現(xiàn)有檔案的數(shù)字化進程。2014年國家檔案局《數(shù)字檔案室建設(shè)指南》中明確提出了數(shù)字檔案室的建設(shè)原則及內(nèi)容[4]。2017年南京市建鄴區(qū)建成全國首家集中式示范數(shù)字檔案室[5]。如今數(shù)字檔案的相關(guān)規(guī)范標(biāo)準(zhǔn)已日趨完善,大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等新技術(shù)正逐步應(yīng)用到數(shù)字檔案館的建設(shè)中。在推進檔案數(shù)字化的進程中也出現(xiàn)了許多新問題,如王卓在2019年提出大數(shù)據(jù)時代數(shù)字檔案信息的安全風(fēng)險以及防范策略[6],檔案界給予了高度關(guān)注。
二、高校檔案數(shù)字化帶來的問題
檔案數(shù)字化改變了高校檔案工作的局面,極大地提高了工作效率,檔案的宣傳、編研、開發(fā)等工作成果初步展現(xiàn)。同時,數(shù)字檔案的真實性、安全性等問題時有顯現(xiàn)。
1.數(shù)字檔案高度易變
檔案形成過程包括諸多環(huán)節(jié),需要多部門人員共同配合,數(shù)字檔案在收集、存儲、傳輸和處理等過程中存在不確定性。以高??蒲袡n案為例,檔案涉及教師個人科研信息提交、學(xué)院科研管理人員審核、學(xué)??萍疾块T各科室(項目科、成果科等)的管理人員審核和確認(rèn)以及相應(yīng)檔案管理人員的歸檔,因此過程中很容易出現(xiàn)數(shù)據(jù)誤差、丟失或損壞的問題。
2.數(shù)字檔案易被篡改
現(xiàn)有的數(shù)字檔案保護方案大多是通過數(shù)字水印和數(shù)字簽名等技術(shù)實現(xiàn),這些保護技術(shù)防篡改能力弱,而且在檔案遭到篡改或破壞后一般難以恢復(fù)。
現(xiàn)有模式下,保障數(shù)字檔案的真實性和原始性前提是出于對檔案館人員和各類檔案收集人員的絕對信任,一旦出現(xiàn)中心系統(tǒng)數(shù)據(jù)庫遭入侵,或管理員被脅迫或收買,檔案數(shù)據(jù)的真實性將蕩然無存[7]。以高校人事檔案為例,重慶安全技術(shù)職業(yè)學(xué)院原黨委副書記、院長杜曉陽借向主管單位移送個人檔案之機,篡改、偽造個人檔案資料32處。
3.數(shù)字檔案存儲成本高
檔案館為了保證檔案的可靠性,需要存儲多個檔案數(shù)據(jù)的副本,因此存儲性能會有所降低。另外,由于部分檔案涉及的部門較多,檔案信息的存儲存在大量相同信息,導(dǎo)致大量的數(shù)據(jù)冗余。還要考慮數(shù)據(jù)存儲的電腦出現(xiàn)設(shè)備老化、系統(tǒng)缺陷、網(wǎng)絡(luò)攻擊等情況。為了保證檔案存儲性能,需要購買高性能和大容量存儲設(shè)備,這樣就大大增加了檔案存儲的運行和維護成本。
三、檔案管理去中心化
檔案管理不僅具有很強的專業(yè)性,而且還具有保密性強的特點,這就要求檔案人員必須具備高度的責(zé)任感,才能保證檔案的安全和完整[8]。目前我國檔案管理都是遵從中心化原則,檔案數(shù)據(jù)的真實性完全建立在對檔案管理人員和中心數(shù)據(jù)庫完全信任的基礎(chǔ)上。
高校檔案目前都是由單一機構(gòu)來管理和維護的,而高校檔案數(shù)據(jù)并不是由檔案管理人員產(chǎn)生的,其涉及學(xué)校里面的每一個人。檔案數(shù)據(jù)的收集又需要多個部門協(xié)作完成,因此在填寫、收集數(shù)據(jù)的過程中很容易出錯,檔案數(shù)據(jù)庫中的數(shù)據(jù)并不能保證完全真實可信。檔案管理員并不能獨立驗證檔案系統(tǒng)中信息的真實性,如果檔案數(shù)據(jù)被惡意篡改,用戶和檔案管理機構(gòu)很難察覺。這些不能保證真實的檔案就不具備還原真實歷史的作用以及保存與參考價值。
傳統(tǒng)中心化的數(shù)據(jù)庫因無法解決多方互信問題,使得每個參與方都需要獨立維護一套保存自己業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫,這些數(shù)據(jù)庫實際上是一座座信息孤島[9]。以學(xué)生檔案為例,學(xué)生的黨員發(fā)展信息由學(xué)校組織部保存,學(xué)生成績檔案由教務(wù)部門保存,學(xué)生日常信息由學(xué)工部門管理,而學(xué)生的科研檔案由學(xué)校科研部門管理。另外,中心化架構(gòu)存在著天然的不平等性,因此檔案管理的去中心化是必然趨勢。
四、區(qū)塊鏈技術(shù)方興未艾
區(qū)塊鏈(blockchain)是一種去中心化、不可篡改、可追溯、多方節(jié)點共同維護的分布式數(shù)據(jù)庫,每筆交易需要全網(wǎng)大多數(shù)節(jié)點達成共識后,才能存儲到區(qū)塊鏈中[10],能夠很好地解決中心化管理中數(shù)字檔案產(chǎn)生的問題。區(qū)塊鏈包含五層核心架構(gòu),如圖1所示。
在高校區(qū)塊鏈檔案系統(tǒng)中的角色按功能可分為兩類,分別為參與節(jié)點(檔案數(shù)據(jù)產(chǎn)生人員)和維護節(jié)點(檔案數(shù)據(jù)驗證人員)。參與節(jié)點包括學(xué)生、教師等,該類節(jié)點進行信息交互,用戶在客戶端節(jié)點發(fā)起數(shù)據(jù)修改、增加請求,并廣播到網(wǎng)絡(luò)。維護節(jié)點就是檔案數(shù)據(jù)真實性驗證人員,該類節(jié)點用于驗證用戶請求,并最終把檔案數(shù)據(jù)上傳到區(qū)塊鏈中,是區(qū)塊鏈檔案系統(tǒng)中的核心角色[11]。以高校二級學(xué)院為例,具體角色分類如圖2所示。以教師科研檔案為例,由于國家重點實驗室開放課題并不是由直屬部門直接統(tǒng)一申報和下達,因此這類項目成果就需要教師個人去申請?zhí)砑?,然后由維護節(jié)點中的科研管理人員去審核真實性,最后由節(jié)點投票決定是否上傳到區(qū)塊鏈中。
五、區(qū)塊鏈在高校檔案管理中的應(yīng)用探討
1.檔案數(shù)據(jù)真實性高
如前所述,中心化管理模式下,檔案不是由檔案管理員形成,產(chǎn)生檔案的個人又無權(quán)錄入或隨時查看自己的檔案信息,因此檔案的真實性和完整性很難驗證。以高校教師的個人科研檔案為例,在傳統(tǒng)管理模式下教師在填寫數(shù)據(jù)時,只會選擇性地填寫學(xué)校和個人認(rèn)為比較重要的科研數(shù)據(jù),過程中還可能存在著填寫錯誤的情況。比如教師個人在填寫自己某年發(fā)表的論文情況時,把某篇CSSCI擴展論文填寫成CSSCI源刊,如果審核人員不專業(yè)、不認(rèn)真,該教師的個人檔案里就會保存錯誤的信息。

區(qū)塊鏈技術(shù)應(yīng)用于高校檔案管理后,高校教師可以方便快捷地查看個人檔案,一旦發(fā)現(xiàn)檔案中的錯誤可以向區(qū)塊鏈中的節(jié)點申請修改。修改的信息需要經(jīng)過大多數(shù)節(jié)點投票通過后才能寫入?yún)^(qū)塊鏈,寫入的檔案信息上會有時間戳,申請修改檔案的人都會經(jīng)過實名認(rèn)證,修改前后的檔案信息都會被保存,因此修改的檔案可以被追溯。由于區(qū)塊鏈技術(shù)是采用分布式數(shù)據(jù)存儲管理和P2P網(wǎng)絡(luò),寫入?yún)^(qū)塊的檔案信息會在區(qū)塊鏈中的每個節(jié)點存儲相同的檔案信息,這樣可以達到去除檔案管理中心化的目的。這種分布式檔案存儲模式可以避免因某個節(jié)點受到攻擊,影響整個檔案數(shù)據(jù)的真實性。區(qū)塊鏈中的共識算法又增加了系統(tǒng)信息的可信性,同時保證了所有節(jié)點間的數(shù)據(jù)信息一致性。正是由于區(qū)塊鏈的去中心化、不可偽造、全程留痕、可以追溯的特點,能夠保證檔案的真實可靠[12]。
2.檔案數(shù)據(jù)安全性高
區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu)如表1所示。哈希算法是一個函數(shù),將任意長度的數(shù)據(jù)輸入都會被映射為固定長度的字符串。同時,它也是一個單向函數(shù),由輸入信息可以輕易地算出哈希值,卻無法由哈希值逆向推出原數(shù)據(jù)信息[13]。
一個優(yōu)秀的哈希算法具備正向快速、輸入敏感、逆向困難、強抗碰撞等特征。以高校檔案管理為例,正向快速指是當(dāng)輸入檔案數(shù)據(jù)時能夠快速地產(chǎn)生哈希值;當(dāng)檔案數(shù)據(jù)中某一個字符輸入錯誤,得到的哈希值會和正確輸入數(shù)據(jù)所生成的哈希值有極大的不同;逆向困難指根據(jù)哈希值很難在短時間內(nèi)算出輸入信息;強抗碰撞指輸入不同的檔案數(shù)據(jù)不可能產(chǎn)生相同的哈希值。
每個區(qū)塊頭包含了上一個區(qū)塊數(shù)據(jù)的哈希值,這些哈希層層嵌套,最終將所有區(qū)塊串聯(lián)起來形成區(qū)塊鏈。區(qū)塊鏈里包含了自該鏈誕生以來所有的檔案記錄,因此,要篡改一份檔案,意味著它之后的所有區(qū)塊的父區(qū)塊哈希全部要篡改一遍,這幾乎是一個不可能完成的任務(wù)。因此區(qū)塊鏈檔案數(shù)據(jù)被泄露,泄露的也只是檔案的哈希值,數(shù)據(jù)獲得者無法獲得具體的檔案信息。
在基于區(qū)塊鏈技術(shù)的分布式檔案存儲方式中,所有參與節(jié)點都可以保存一份相同的檔案數(shù)據(jù),新加入的參與方可以下載完全一致的檔案并驗證檔案的正確性[14]。這種方式降低了傳統(tǒng)集中檔案存儲中檔案人員的多副本數(shù)據(jù)維護成本,同時參與方也可以通過訪問本地檔案數(shù)據(jù)來提高訪問效率。在區(qū)塊鏈系統(tǒng)中,檔案錄入采用數(shù)字簽名和加密算法處理,從而提高了檔案系統(tǒng)中數(shù)據(jù)的安全性。區(qū)塊鏈中的數(shù)字簽名是通過非對稱加密來實現(xiàn)的,用戶將私鑰保存在自己手中,將自己的公鑰分發(fā)到網(wǎng)絡(luò)節(jié)點上。用戶使用私鑰生成簽名,其余節(jié)點可使用公鑰驗證簽名的正確性。相反,如果沒有私鑰,用戶無法偽造簽名[15][16]。通過數(shù)字簽名來保證檔案的實名寫入,不可偽造。區(qū)塊之間通過哈希值串聯(lián)的數(shù)據(jù)關(guān)聯(lián)方式和基于共識算法確認(rèn)區(qū)塊數(shù)據(jù)的寫入機制,能夠保證區(qū)塊鏈上的數(shù)據(jù)不能被篡改[17]?!胺来鄹摹辈⒉坏扔诓辉试S編輯區(qū)塊鏈系統(tǒng)上記錄的內(nèi)容,只是整個編輯的過程被以類似“日志”的形式完整記錄了下來,這個“日志”是不能被修改的。通過在智能合約上存儲檔案的修改記錄和歷史檔案,可以實現(xiàn)對修改操作人和歷史檔案的追溯,從而保證了檔案的安全性。
3.檔案數(shù)據(jù)形成成本低
傳統(tǒng)的檔案收集需要冗長的歸檔審查、確認(rèn)、檔案數(shù)據(jù)信息核對,而基于區(qū)塊鏈技術(shù)的高校檔案管理可以大大簡化流程。以高校學(xué)生檔案為例,涉及學(xué)生成績檔案方面,只要學(xué)生本人、任課教師、班主任、輔導(dǎo)員、教學(xué)院長和教務(wù)處在各自節(jié)點投票確認(rèn),學(xué)生成績便可歸檔(寫入?yún)^(qū)塊鏈中)。檔案被存儲在多方共同維護的多個節(jié)點上,節(jié)點按照嚴(yán)格的規(guī)則和共識進行維護與添加,從而實現(xiàn)了多方間的檔案信息共享和監(jiān)督,避免了煩瑣的人工對賬,提高了業(yè)務(wù)處理效率,降低了人力成本[18]。

高校均采用教育網(wǎng),因此高校區(qū)塊鏈網(wǎng)絡(luò)環(huán)境是安全可信的,所以共識算法可以采用結(jié)合可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)的軟硬件結(jié)合的共識算法。另外,采用可信執(zhí)行環(huán)境的共識算法可以與現(xiàn)有檔案管理系統(tǒng)并存,因此節(jié)約了資源成本。
*本文系江蘇省高校社科基金一般項目“大數(shù)據(jù)環(huán)境下高校圖書館數(shù)字資源的知識發(fā)現(xiàn)及個性化知識服務(wù)研究”(項目編號:2017SJB1748)階段性研究成果。
注釋與參考文獻
[1][2][4][7]譚海波,周桐,趙赫,趙哲,王衛(wèi)東,張中賢,盛念祖,李曉風(fēng).基于區(qū)塊鏈的檔案數(shù)據(jù)保護與共享方法[J].軟件學(xué)報,2019(9):2620-2635.
[3]史志偉.循序漸進穩(wěn)步進取——談山東數(shù)字檔案館(室)建設(shè)[J].山東檔案,2013(3):10-11.
[5]沈夢瀅.鎮(zhèn)江市檔案局圓滿完成2017年度省級數(shù)字檔案館(室)創(chuàng)建工作[J].檔案與建設(shè), 2018(1):95.
[6]王卓.大數(shù)據(jù)時代數(shù)字檔案信息安全風(fēng)險分析及防范策略[J].中國檔案, 2019(9):74-75.
[8]韋衛(wèi).加強檔案管理建設(shè),促進學(xué)校持續(xù)發(fā)展——淺談新形勢下技師學(xué)院檔案管理現(xiàn)狀及規(guī)范化、信息化建設(shè)[J].檔案學(xué)研究,2017(S2):117-123.
[9]Morkunas VJ,Paschen J,Boon E. How blockchain technologies impact your business model[J]. Business Horizons 2019,62(3):295-306.
[10][14]邵奇峰,張召,朱燕超,周傲英.企業(yè)級區(qū)塊鏈技術(shù)綜述[J].軟件學(xué)報,2019(9):2571-2592.
[11][15]蔡曉晴,鄧堯,張亮,史久琛,陳全,鄭文立,劉志強,龍宇,王堃,李超,過敏意.區(qū)塊鏈原理及其核心技術(shù)[J].計算機學(xué)報,2019(115):1-51.
[12]張倩.數(shù)字檔案在線利用避偽防護技術(shù)應(yīng)用研究[J].檔案與建設(shè),2007(11):21-24.
[13]王秀利,江曉舟,李洋.應(yīng)用區(qū)塊鏈的數(shù)據(jù)訪問控制與共享模型[J].軟件學(xué)報,2019(6):1661-1669.
[16]袁勇,王飛躍.區(qū)塊鏈技術(shù)發(fā)展現(xiàn)狀與展望[J].自動化學(xué)報,2016(4): 481-494.
[17]于戈,聶鐵錚,李曉華,張巖峰,申德榮,鮑玉斌.區(qū)塊鏈系統(tǒng)中的分布式數(shù)據(jù)管理技術(shù)——挑戰(zhàn)與展望[J].計算機學(xué)報,2019(116):1-28.
[18]邵奇峰,金澈清,張召,錢衛(wèi)寧,周傲英.區(qū)塊鏈技術(shù):架構(gòu)及進展[J].計算機學(xué)報,2018(5):3-22.