羅靜
摘要:本文對大數據與檔案資料的關系作出了詳細的分析,剖析了大數據技術對檔案管理工作發展的意義,并展望了大數據背景下的檔案管理工作的主要發展方向。
關鍵詞:檔案管理;大數據;數據安全;數字檔案館
半個世紀以來,隨著計算機技術的發展,不僅人們的生活方式發生巨大的改變,信息的大量產生和積累也引發了深刻的變革。隨著數據信息大發展,移動互聯、社交網絡、電子商務等極大的擴展了互聯網的邊界和應用范圍,互聯網、物聯網、金融、電信等都在大量產生和我們息息相關的數據:全球美妙發送290萬封電子郵件,每天有2.8萬小時的視頻上傳到Youtube,亞馬遜每天產生630萬筆訂單。人類產生的數據量正在成指數級增長,而最近兩年產生的數據量可以相當于之前人類社會產生的全部數據量。這些我們創造的信息背后產生的數據已經遠遠超出了目前人力能處理的范疇,大數據時代已經到來。
一、大數據與檔案管理的關系:
檔案管理工作主要包括對檔案的收集、整理、保管、鑒定、統計和提供利用的活動。隨著社會的發展,信息化水平和管理水平的提高,檔案管理的內容和范圍也在不斷增加。檔案管理和大數據分析同樣包含了對信息的收集、整理、分析和利用,有許多相似之處,“大數據技術”的發展也必將推動檔案管理技術的發展和改變。但他們之間也有著明確的不同之處:
1)信息數量:目前,單個檔案館數據資源總量多在GB級,與“大數據”中PB和TB級別的數據量相距甚遠,而檔案信息中被數字化,可公開利用的檔案信息更是少了許多,但是各檔案館累計的檔案資源信息是龐大的。2020年,各級國家檔案館館藏將達到6億多卷。而檔案數據廣泛存在于政府、企業、金融、教育等各行業的檔案保存機構中。隨著數字檔案資源建設戰略的不斷推進,檔案信息的資源整合必將成為發展趨勢,要處理這些海量檔案資源,勢必需要借助大數據技術。
2)信息來源:檔案數據的來源主要是在政府機關、集團企業、金融、通信、建筑、房產、教育、軍工、法院等行業產生的,包括文檔、設計圖、照片、錄音材料、視頻、GIS信息、水文氣象信息等。這些數據之間又存在一定的關聯性,如城市建設的平面圖、設計圖可以和GIS數據信息關聯,同時還可以關聯政府建設規劃文件、批復與施工文件等。數據內容明確有效,并有相關企業或機關背書。
3)信息結構:檔案數據以結構化數據為主,多數檔案數據來源明確、內容明晰。而“大數據”則以非結構化數據為主,大量包括網頁、音視頻等非結構化數據,而且數據內容和結構還不斷變化,如交易信息類別更加明確、采集用戶交易后的反饋等。當然,檔案數據目前也越來越多的包含了表格、網頁、音視頻、圖像等非結構化數據。面對快速增長的非結構化數據,大數據技術的發展也為檔案工作提供了有效的參考目標和大量的可用工具。
“大數據技術”的發展對檔案管理工作有著十分重要的意義,為檔案管理工作提供了信息化、規模化的重要參考及大量的實用工具。而檔案信息的成熟管理制度和數據的完整有效也同樣對“大數據”的分析使用有著極為的作用:
1)檔案資料是許多“大數據”分析的重要基礎數據:如對消費習慣、消費層次的分析離不開政府人口檔案的支持:公開檔案資料可以提供人口基數、收入比例、年齡層次等重要的基礎數據,與企業的消費信息“大數據”一起,能夠更精確的分析出某個區域人群的消費習慣,為企業提供更精準、高效的決策支持。反過來,這些分析結果也可以成為企業檔案數據,為政府檔案提供有效的補充,進一步完善檔案材料的完整性和有效性;
2)檔案資料成熟的分級管理和保密制度對“大數據”的濫用、用戶隱私的侵犯有著一定的制約作用:如政府檔案公開的統計信息可有效協助企業的“大數據”分析,但涉及個人身份、工作信息或保密性質的檔案信息則不流出檔案管理規定范圍,避免被濫用;另外,如運營商等涉及大量用戶數據的企業檔案資料如果嚴格執行檔案資料的分級和保密制度,區分公開數據及保密數據,利用成熟的檔案資料管理和保密規定,就可避免資料信息在企業甚至個人間非法流轉,某種程度上限制“大數據”對安全和個人隱私的嚴重侵犯。
二、檔案管理信息化的發展與現狀:
隨著網絡和信息技術快速發展,檔案工作也在面臨一場深刻變革。為滿足大數據時代政府、高校、企業等對檔案工作的更高要求,檔案工作必須要應勢而動、乘勢而為,加快轉型升級,逐步實現以信息化為核心的檔案管理現代化。
根據國家電子政務、電子商務以及大數據、云計算、人工智能等發展規劃,檔案管理工作必需進一步推進信息數字化、數據交互等方面建設,現以信息化為核心的檔案管理現代化。
在2017年,我國檔案信息化建設明顯加快。目前,全國已有16家單位的數字檔案館系統通過了國家示范數字檔案館測試,4家單位通過了國家示范數字檔案室評價。在檔案數字化建設方面,中國第一歷史檔案館、中國第二歷史檔案館數字化工作成效顯著,各級檔案館數字檔案資源的比例均有大幅提高,全國數字化檔案資源達2243萬GB,數字化全文識別取得重要進展。
但是,仍有不少省級檔案部門沒有按計劃接入國家電子政務內網,仍有很多信息系統在‘孤立運行。下一步,要逐步實現檔案部門與其他部門之間的互聯互通,逐步實現由政務信息的互通到業務數據的互通再到檔案數據的互通,最終實現對包括政務信息、業務數據等在內的各類電子文件的在線歸檔、在線移交接收、在線利用,徹底打破檔案部門“信息孤島”的狀態。
三、大數據背景下的檔案管理工作:
隨著社會的發展和技術的更新,檔案管理工作還存在許多問題,需要不斷的改進和發展才能滿足政府、高校、企業和個人等對數據、安全等各方面的要求,便利人民的生活,保護人民的權益。
1)進一步促進檔案的信息化和數字化:目前各級數字檔案館多從自身檔案建設需求出發,尚未形成統一的管理標準和規范制度,檔案信息資源的種類、格式、存儲形式有較大區別,使資源整合難度較大。另一方面,數字檔案館提供的信息資源多為政府公文、法律規章、館藏目錄等,形式單一,目錄層級較為簡單,開放的檔案資源的價值不大,可用性不高。而無論是以前積累的紙質的資料以及很多檔案管理機構不斷增加的線下資料,都急需進一步加強數字化進度,提高數字檔案的比例和數據的完整性,并制定多種查詢方式,提升信息的使用效率;
2)檔案信息的整合和互聯互通:各地區、各部門檔案信息各自為政,建設水平、數據標準各異,導致各種 “數字鴻溝”的出現,信息共享的門檻較高,信息跨庫檢索難度較大,嚴重影響了信息的利用價值。這個問題需要主管部門和各級檔案管理機構合作,逐步建立信息的交互接口和標準,消除“信息孤島”,加強信息流通。
3)檔案信息的分析利用:隨著檔案信息的數字化水平提高和信息互通的的加強,大量的檔案信息可以利用“大數據”分析的思路進一步分析整合,獲取以前面對零散的檔案信息難以獲得的決策或統計信息,有效提高決策分析的效率和準確性。
4)加強檔案信息的分級與安全機制:
隨著檔案的信息化發展,數字檔案館的運行,網絡環境的開放性對檔案的安全保密性形成一定沖擊,以前有效的檔案管理、保密制度可能在新的環境下難以滿足安全要求。檔案資源如何在公共開放的數字環境中保障其真實可靠,加強信息的分級和查詢接口的安全,是檔案資料今后必須解決的重要問題。
參考文獻:
[1]大數據帶給圖書館的影響與挑戰《圖書與情報》2012(5)。
[2]大數據背景下的檔案行業發展 《中國檔案》2015(6)。