丁海斌 楊昱
關鍵詞:電子檔案;檔案存儲;檔案備份;質性分析;光盤;云計算;區塊鏈;標準規范
近年來,隨著信息化技術的不斷發展,檔案工作面臨著革命性的挑戰與機遇,具體體現在檔案的生成、存儲、傳遞、利用與開發等各個方面。正如《“十四五”全國檔案事業發展規劃》中指出的:“新一代信息技術廣泛應用,檔案工作環境、對象、內容發生巨大變化,迫切要求創新檔案工作理念、方法、模式,加快全面數字轉型和智能升級。”[1]其中,海量電子檔案的生成及檔案安全的需要,給檔案的存儲和備份工作帶來了極大的挑戰。目前,我國對電子檔案的存儲與備份這一課題已進行了二十多年的研究工作,特別是近幾年來,形成了較大的研究規模,取得了豐碩的成果。但學界忽視了對相關研究成果的總結與反思,使得針對目前的成果,尚未有文章進行系統的總結,缺乏對不足的反思和對未來研究的展望。
本文將基于已形成的相關文獻從文獻計量學的角度切入,通過文獻計量軟件對當前相關文獻進行較系統的定量分析,并加以定性分析,梳理目前學界對電子檔案存儲與備份這一課題的研究脈絡,并總結目前取得的主要研究成果和尚存的不足。
1 研究要素的計量分析
1.1 數據來源與研究方法。本文的數據來源為CNKI數據庫,在檢索過程中以“檔案+存儲+備份”作為主題詞進行高級檢索,時間限制為1998年1月1日至2023年4月1日。經過篩選,共得到1968篇主題文獻。
本文在這里主要采用文獻計量學的方法,通過CNKI數據庫可視化分析總結發文年份,同時對關鍵詞進行關鍵詞共現、關鍵詞突現,時間共現和作者共現以及知識圖譜分析,揭示國內檔案存儲與備份的研究現狀和研究熱點問題。
1.2 我國檔案存儲與備份研究現狀的多角度分析
1.2.1 發文時間分布。基于CNKI檢索可獲得有關檔案存儲和備份這一課題的發文量情況。從總體上來看,呈現出先上升后下降的趨勢。學界對這一問題的研究自1998年開始,到2008年相關文獻量呈緩慢上升的趨勢;而2008年至2014年發文量則增長迅速;2015年至2017年相關文獻發文量雖呈下降趨勢,但總體上一直保持著較高的數值;2017年至今相關文獻的發文量下降趨勢顯著。對此,可以關注到幾個關鍵的時間節點:
第一階段是該課題研究的開始時間,即1998年。1998年全德敏在《四川檔案》上發表的《淺談計算機檔案文件的保存》一文[2],是目前在CNKI數據庫中檢索到的關鍵詞為“檔案、存儲、備份”的最早的文獻,其主要介紹了對計算機軟盤和計算機硬盤中存儲的檔案文件如何進行載體和數據的保存。由此可以看出,對于檔案存儲與備份這一問題的研究之初,主要是從載體介質上切入的,這個時間節點發生在我國檔案信息化的初期,符合我國檔案工作信息化發展的需要。
第二階段是2008年至2014年,這一時期關于電子檔案存儲與備份這一問題的研究文獻數量快速增長,主要有自然災害頻發、電子檔案快速增長、電子信息安全廣泛關注等三個原因。[3,4]
第三階段是2015年至2017年,該問題的討論熱度雖然仍處于高位運行,但疲態已現,熱點不再,進入下降通道。根據對相關文獻的研究,筆者認為有成果應用初現成效、云計算等技術應用初探、研究范圍擴大等三個原因。[5,6]而2015年到2017年國內新研究熱點的出現,很明顯借鑒了國外的相關研究。
第四階段是2017年至今。檔案存儲與備份這一主題的文獻發文量明顯下降。根據文獻老化規律,該主體發文量的下降有技術已經逐漸成熟、研究逐漸被包含在其他的課題之中、研究進入瓶頸時期等三個主要原因。[7,8]
1.2.2 關鍵詞分布。通過對關鍵詞的共現分析,得到關鍵詞的詞頻以及中心性。研究發現,與檔案存儲與備份相關性最強的兩個關鍵詞為“檔案管理”和“電子檔案”,分別出現了197次與162次。這說明“檔案存儲與備份”這一主題主要是在“檔案管理”和“電子檔案”范疇內進行研究的,其實質是“電子檔案”的問題,特別是檔案管理中的檔案信息的安全性和可靠性問題。
次高頻詞有“電子文件”“數字檔案”“檔案”“異地備份”“數字化”“檔案數據”“大數據”“管理”“信息化”“云存儲”“云計算”等等,次高頻詞共獻有交叉性和多元性[9,10]、熱詞性、關聯性等三個特點。
在交叉性和多元性方面,缺乏統一名詞、用語多元、交叉混亂恰恰是事物新生階段的特有現象,說明了人們正試圖在事物多變的表象中,慢慢靠近事物的本質。而“電子時代下新生的檔案”也是這個道理。
在熱詞性方面,出現了現階段熱門的研究領域相關的詞語。例如“云計算”“云存儲”等,這也成為研究檔案存儲與備份這一課題的新熱點,體現出伴隨著計算機領域中“云”的興起和發展,“檔案”與“云”的結合成為必然,“云計算”已經滲透到檔案工作中來,“檔案云”的研究迫在眉睫。[11 ]
在關聯性方面,多個關鍵詞之間均有十分密切的聯系。在關鍵詞聚類中,兩個主題在同一篇文獻中出現的次數越多,則兩個關鍵詞之間的距離越近,按照高頻詞之間的距離遠近劃分為不同的研究子領域,形成了一個一個的類團。[12]通過分析可以發現,各個關鍵詞之間交織十分密集,這說明在該領域下目前研究處于一個學科之間相互交融、技術之間相互共享、資源之間相互穿插的過程。
通過突現詞檢測,可以分析出有關檔案存儲與備份這一主題的研究熱點和關注側重點。以2015年為時間節點,在2015年之前存儲方式和備份手段是該領域研究的重心,這一時段側重強調檔案存儲與備份的技術指導;而2015年之后,“大數據”“數字化”“數據安全”“數據管理”等詞的突現,表明了在此之后,在大數據背景下生成的海量電子檔案數據的安全性已成為檔案存儲與備份過程中攻克的重點和難點。王善柏在《檔案數字資源長期存儲介質》一文中談道:“數字檔案安全面臨著人為因素和載體本身因素兩方面風險。”[13]其中“存儲載體”“信息系統”體現了載體與管理系統的要素,或者說技術層面的安全性研究;而“管理模式”“策略”則體現了人為因素方面的安全性研究。同時正如王平、安亞翔在《大數據時代的檔案信息平臺建設》一文中所說:“檔案信息化管理正在進入大數據時代。如何應對大數據時代對海量檔案信息收、存、管、用的需求,實現對檔案大數據的長期保存和高效利用是一個重要的課題。”[14]在這一時期,關于檔案存儲與備份的研究整體滑向如何對海量電子檔案數據收集、存儲、管理和利用。
分析發現大多數關鍵詞的產生相對聚集且時間較為靠前,例如“信息安全”“異地備份”“檔案管理”等,均在2012年之前產生,而“存儲技術”“數字資源”“安全風險”“功能建模”等詞則出現時間較晚,這表明在該課題的研究過程中,研究的重心逐漸從體量較大的課題逐步過渡到體量較小的課題,從較表面的問題向較深入、具體、功能性強的問題過渡。同時,也可以發現,早期詞匯的出現十分密集,而伴隨著時間的增長,新詞匯出現的概率相對減少。這一方面表示檔案存儲與備份這一主題的研究已相對成熟,并已經形成了特定的術語團和研究范式;同時,新的相關術語出現減少,也說明該問題的研究目前發展到了一個瓶頸,需要著手尋找新的突破點。
結合三方面的總結,對于我國檔案存儲與備份關鍵詞的分析,基本可以尋覓到此前的研究熱點、研究視角和發展走向,并呈現出熱點聚集性、視角與詞匯多元性、方向固定性等特點。
1.2.3 作者分布情況。作者分布情況和高頻作者群體分析也是信息分布和信息評價研究的重要指標,對作者分布可視化研究可以概括出該課題目前的研究深度與廣度且具有三個明顯的特點。
一是這一課題下涉及的發文作者十分廣泛,但作者與作者之間關聯性較低,沒有形成大的聚合群體,且多數作者對相關問題的研究的追蹤性較差,沒有形成系統性研究。導致這一情況的主要原因是檔案存儲與備份這一課題的跨學科性較強,且不同的學科領域對該問題的分析角度和研究側重點不同。例如在檔案學視角下,檔案存儲與備份研究的側重點多為“電子檔案管理策略”“管理體系構建”“可行性方案”等,偏向于從總體的角度研究管理策略;而在計算機科學的視角下,則更多是從微觀角度研究數據庫具體運營的算法、備份技術等問題。這一問題的研究,究其根本是用檔案學的管理理論來不斷追蹤計算機科學在數據存儲過程中的新問題和新方案。而二者都精通的學者或研究團隊目前數量相對較少,所以尚未形成規模較大的聚合群體和追蹤性較強的研究項目。
二是絕大多數作者的發文量在2篇以下,相關文獻發文沒有形成高產作者群,只有少數作者在該領域貢獻較明顯。這與多數作者的來源機構相關,除部分高校學者外,該領域文獻作者的所屬機構多為具體的業務機構、行政部門以及企業相關部門。不同的單位來源導致作者們工作內容有一定的屏障,問題的聚焦更偏重于特定情況,這類文章相對來講很難做到持續發文。除此之外,分散在各個單位的檔案工作人員和技術人員,投入在文獻寫作上的精力也十分有限。
三是涉及的投稿期刊十分廣泛,主要包括檔案學相關刊物、計算機科學相關刊物,而這些刊物的影響因子大小差異較大。在對該課題文獻的來源分析過程中發現,絕大多數是核心期刊偏向于檔案學方面的期刊,例如檔案學通訊、北京檔案、檔案與建設等。計算機科學方面的刊物則涉及面很廣,但影響因子相對較低。這與課題本身的命名和側重點有很大關系。此外,還有許多文獻為碩士論文和博士論文,這也說明了越來越多的青年學者在關注這一命題。
2 基本成果及研究不足
2.1 取得的基本成果概述。基于對已有文獻的分析,筆者認為目前學界對電子檔案存儲與備份問題已取得了較多成果。
一是提出了不斷總結目前電子檔案存儲備份的方式方法:不同的學者通過比較冷備份、溫備份和熱備份的特點,從而分析總結不同的應用場景對不同檔案備份方式的選擇;除此之外,相關文獻也對于備份工作的步驟流程進行了概括與總結。在電子檔案存儲備份方式上,異地異質檔案備份這一問題形成了研究熱點。[15-22]二是積極探索了電子檔案存儲與備份的技術手段:從脫機備份研究到云服務器信息共享與備份,從傳統硬盤到如今使用的高性能藍光光盤等。[23-26]但作為一種存儲的外存載體,藍光光盤的磨損和存儲年限、數據遷移的速度和接觸設備問題、庫房空間預算和具體各單位使用藍光光盤的成本預算等問題,都需要進一步討論。對集成電子檔案數據載體討論,筆者對相關文獻進行了篩選和比較,發現學者對集成電子檔案數據的存儲與備份問題研究的焦點主要集中在兩個領域——區塊鏈技術的應用和云技術的運用。
二者的發文數量都較多,并都得出了相應的成果。如何將區塊鏈技術與電子檔案存儲的真實需求更緊密地匹配、解決區塊鏈技術在電子檔案管理與存在中適用性問題,仍是該課題研究的重中之重。除了區塊鏈技術的應用研究,云技術在電子檔案存儲與備份中的應用也廣受學者關注。[27-29]如何將云技術與電子檔案存儲備份問題具體落實在業務工作和現實檔案管理工作中,是我們進一步研究該問題的思路。現已有大量相關文獻對電子檔案存儲與備份的手段進行了介紹。同時發現了電子檔案存儲與備份的一系列關鍵問題。現有文獻中已有大量文獻對電子檔案存儲與備份中存在的安全問題、存儲容量問題,以及電子檔案存儲與備份等內容進行了分析并取得了相應的成果。
三是對目前已出臺的電子檔案存儲與備份規范與標準進行了討論,并通過解讀和分析,提出了相關意見和建議。[30,31]對新出臺的《電子檔案管理系統通用功能要求》(GB/T 39784—2021),目前學界的相關研究和解讀較少,有待學者進一步分析和解讀。
2.2 研究的不足和研究的方向。基于對研究現狀的考察,筆者認為仍有一些不足需要改進。
一是目前的研究還沒有完全解決電子檔案存儲與備份這一研究的主要矛盾,即如何建立檔案信息安全與信息高效管理與利用之間的聯系。在今后的研究中,我們應該更多地從檔案管理者和檔案利用者的角度出發,從存儲與管理、利用的關系出發,認真思考“什么樣的存儲方式與備份方式能最大程度地使管理者和利用者受益”或者“什么樣的存儲備份方式能最大程度地滿足管理者和利用者的雙重需求”。
二是電子檔案存儲與備份研究應該進一步與實踐相結合,對實踐中出現的具體問題進行更多的針對性研究。例如在具體的業務工作中,電子檔案備份過程中的水印備份問題;異地備份中的數據傳輸安全隔離和應急處理;云環境下電子檔案備份的邏輯路徑研究等。對于電子檔案存儲與備份這一課題,我們的研究不能僅僅進行單薄的理論論述,更應該扎根實踐,尤其是將研究的重點聚焦于目前技術先進、實踐能力強的企業和單位,從具體的實踐中不斷獲取靈感和研究思路,再進一步完善理論。同時研究過程中要更加重視理論與技術的結合,多使用實踐數據,用數據支撐理論,用數據說話,這樣才能真正地去解決實踐中存在的問題。
三是電子檔案存儲與備份問題的研究仍需要不斷細化和深入。檔案界的學術研究普遍缺乏“問到底”精神,作為一種應用性學科,卻普遍缺乏深入實踐、實事求是的學術態度。這一點在本問題上亦有表現,目前對本問題的研究仍然較為空泛,從關鍵詞中我們可以看出現階段的研究存在著針對性不足、實證研究不深入的缺點。例如電子檔案存儲與備份在設備選擇、管理模式現狀上的實證性的成本分析、耐用性對比、自動存儲過程中的智能設備介入、備份過程中的智能化數據監測。真正隱藏在社會實踐活動第一線中的針對性問題仍需要我們去深度關注,切實解決。
四是電子檔案存儲與備份問題的研究應對接新技術的發展。該問題探討的重難點是在檔案存儲與備份的過程中如何對新技術進行配對與應用,這包括以下具體環節:第一,選擇和構建什么樣的數據庫結構才能更好地滿足對檔案原文和元數據裝載的同時兼容不同的系統和安裝環境;第二,選擇什么樣的信道和系統環境才能滿足海量數據的流暢傳輸和閱讀;第三,如何更好地處理檔案存儲格式問題,如非結構化數據的存儲問題以及移動過程中的格式兼容問題;第四,選擇什么樣的技術手段可以更好地對備份數據進行數據溯源和風險監測以及如何與主服務器構建風險預警;第五,選擇什么樣的技術能更好地解決電子檔案熱備份中宕機等數據安全隱患問題。就目前而言,計算機領域的相關技術已經較為成熟,所以上述問題的關鍵在于檔案工作者提出什么樣的備份需求,以及如何尋找相關的技術支持。
五是相關標準、規范的制訂與完善方面,目前尚有不足。第一是對已有的相關政策法規解讀仍不充分。例如,如何理解“異質備份”這個概念,是物理介質的不同,還是不同的版式格式?以前對“異質備份”的認識尚停留在傳統紙質檔案和電子檔案的區分,而目前單軌制運行下是否要對“異質”進行新的界定?第二是對現存實際問題仍沒有歸納上升到政策法律的層次。例如,檔案系統的開發方對系統尚存的風險的責任歸屬問題;或是檔案外包工作的格式管理規范和行業標準的制定問題等。相關問題尚需在實踐過程中進一步發現和處理。
六是該問題的研究本身沒有形成一個完整的專題研究,課題的后續追蹤性也相對較差。究其原因是檔案學學者和技術人員直接的交流密切程度不夠。這需要檔案學學者與相關技術人員深度交流并保持長期合作,并不斷關注和追蹤實踐過程中的新問題,進而推動理論研究,并繼續指導新的實踐。隨著大數據時代的到來,檔案存儲與備份過程中已出現了諸多尚未解決的問題。例如,如何實現備份數據零丟失,數據傳輸靈活安全;不同網絡環境下的多接口和多類型數據備份;檔案數據共享與保密的更好結合;數據后臺如何合理分區保障數據安全等。這些問題隨著海量數據的不斷生成和數字化辦公而亟待解決。這就要求相關學者對這一系列問題進行更深入的研究,以滿足現實生產生活的需要。
3 結語
事物總是以螺旋式的狀態不斷上升和發展的,而就目前來看,檔案存儲與備份這一研究課題從產生到發展,符合事物發展的總體規律。通過對相關文獻的分析,可以總結并提出以下幾點建議:一是加強學科之間的相互交融,尤其是加強檔案管理理論研究領域與技術領域、實操領域之間的聯系。在研究問題的過程中,切實深入到具體的實踐過程中去,深入地結合當前最新的信息技術解決檔案工作的實踐問題。二是在研究問題過程中進一步加強專業特色,不論是原理闡釋還是技能闡釋,都應該更多地體現本領域的研究特色,我們不排斥移植和借鑒,但它們一定要服從檔案工作的實踐。三是研究要著眼未來,要有前瞻性,不能只是跟在實踐身后跑,要在不脫離現實的前提下,適當引領實踐。既要對相關法律法規和政策行業規范進行更深入的解讀,又要密切關注最新的技術發展,使檔案事業健康、積極地發展,跟上社會發展的步伐,不拖時代發展的后腿。
(作者單位:1.廣西民族大學管理學院、廣西數字檔案管理研究所 丁海斌,博士,教授,博士生導師;2.廣西民族大學管理學院 楊昱,碩士研究生 來稿日期:2023-09-06)