■陳健民
(福建水利電力職業技術學院,福建 永安 366000)
大數據技術蓬勃發展,對社會各行業造成了不同程度的沖擊。其中,“檔案管理”作為一項數據管理工作、知識管理工作,在大數據影響下發生了深刻的變化。對于檔案管理工作者而言,這種變化既是一個嚴峻的挑戰,同時也是一個大幅度提升檔案管理水準的契機。“除了上帝,任何人都必須用數據說話”,這句話被檔案管理業界高度認同,在大數據時代,數據、信息從一種單純的處理對象,上升為一種影響人們生活的重要資源,我們必須在深刻理解檔案管理內涵、大數據特征的基礎上,采取行之有效的措施,才可應對大數據規模效應給檔案管理帶來的管理挑戰、分析挑戰、儲存挑戰。
數據處理、數據收集是大數據的主要特征,在大數據時代到來前,有關于“數據處理”的相關技術就得到了人們的廣泛關注,其技術方法也相對成熟,知識管理者、營銷人員、信息管理者將數據背后隱藏的內涵作為指導決策、預測未來的重要前提。而在信息技術快速發展的背景下,數據處理、數據收集水平顯著提升,同時物聯網、云技術的成熟,讓各行業數據的增長量躍升到一個新的量級,人們能夠將各種非結構化數據、結構化數據整合起來進行分析,最終得出可有效支持決策的分析結果[1]。數據挖掘是大數據時代應運而生的一門“新學科”,它本身是人工智能、統計學、信息技術的整合。現代化的檔案管理,倡導通過檔案管理來為組織機構提供可靠的數據,業界常采用“去粗取精”的辦法,摒棄檔案信息數據中零碎的、不完整的信息,在檔案使用過程中,僅調用此前篩選接受的信息數據,該種檔案管理方法的確能夠為組織機構或者檔案查閱者提供一定的便利,但是從長遠來看,“去粗取精”的方法去除了諸多有價值的信息數據。大數據技術的發展,為檔案信息數據中零碎的、非結構化的、不完善的數據提供了應用基礎,因此我們可窺見大數據時代背景下,檔案管理工作的變化趨勢,以“數據分析、數據價值挖掘”最為明顯[2]。
信息技術對檔案管理產生的影響深刻且長遠。目前我國各地檔案館主要以“檔案數字化、檔案電子化”為主要特征,就國家檔案館館藏檔案而言,2011-2018年間,館藏檔案卷數快速增長,且預計到2020年,國家檔案館的館藏會增加至6億余卷。同時,隨著檔案數字化工作的不斷推進,各地檔案館、單位檔案管理部門將會形成規模龐大的數字檔案資源庫,圖標檔案、電子文件檔案、聲像檔案等還會涵蓋檔案訪問日志、檔案瀏覽軌跡等數據內容。這就為檔案管理和大數據的整合奠定了重要的“數據基礎”,有利于檔案管理人員去挖掘檔案的潛在價值[3]。
統計技術、在線分析處理技術、數據檢索技術、機器學習技術、專家系統技術的發展,提高了人們對數據的整合、探索、保存能力,檔案管理工作者所面臨的檔案管理數據來源呈現出多樣化的發展趨勢,加之移動終端設備的快速發展,讓數據的產生也體現出多樣化的發展趨勢[4][5]。由此我們可了解到,在大數據時代背景下,檔案管理將會面對不同種類的數據信息,檔案分布呈現出結構化信息、非結構化信息相互融合的發展態勢,最終形成分布廣泛的檔案體系。
大數據的確為檔案管理工作指出了新的發展道路,但是大數據技術和檔案管理的相互整合,的確存在較大的挑戰。當下,廣大從業者必須要解決傳統檔案管理和大數據的整合,如何實現檔案歸檔、檔案分類和數據挖掘、數據分析的無縫整合是一個極大的挑戰,尤其是在不同檔案資料分析模型構件方面,存在較為明顯的技術瓶頸。
眾所周知,傳統的檔案管理工作模式中,檔案管理工作人員的主要職能是收集檔案、分類檔案、檔案歸檔、檔案調用,雖然許多從業者在積極倡導,檔案管理工作應該挖掘檔案的潛在價值,并實現“知識管理”的轉型。但在大數據時代,檔案管理工作必須具備的職能不僅僅局限在檔案保存、調用等方面,同時還要在大數據技術的應用下,在確保數據安全的前提下,對信息數據進行全面、有效的處理,全面體現出檔案管理的潛在價值[6]。
大數據時代,檔案信息數據已轉變成了一種可影響人們生活、工作的基礎性資源,檔案信息數據價值的提升,帶來了此前不存在的“安全問題”。從現階段我國大數據技術的應用上來看,數據信息安全方面缺少相應的法律法規,也缺少一個行之有效的監管機制,若盲目應用大數據技術改變檔案管理工作,必然會出現信息安全隱患。
決策樹算法是一種相對常見的數據挖掘技術,可根據檔案數據中的每一條記錄,為記錄分配相應的屬性標簽,并將部分數據內容節選為訓練數據,在數據挖掘、分析的過程中,就可根據屬性找到輸出屬性、輸入屬性之間的對應關系。目前,決策樹算法已經在各行業得到應用,部分銀行用決策樹算法進行客戶管理,部分企業用決策樹算法進行供應商管理,在預測客戶行為、客戶需求方面體現出較高的準確性。檔案管理工作就可整合決策樹算法,根據檔案數據資料中的詳細數據條目進行定義,通過分析數據之間的關聯,就可挖掘檔案數據的隱含價值。
聚類算法可估計數據庫內不同數據的屬性,根據數據之間的相似度,將屬性相似的數據進行歸集。聚類算法的技術要求相對較低,所以應用較為廣泛、應用方法相對成熟。在檔案管理工作中,檔案數據以“多樣、多層次”為主要特征,難以根據某一個“定義”對檔案進行歸集,所以各地檔案館或者企業單位的檔案管理部門,常根據檔案的性質(影像檔案、文字檔案、合同檔案)對檔案進行分類,從客觀的角度來看,該種分類方法并不能體現出檔案的性質、屬性。采用聚類算法,就可根據檔案的深層次關聯對檔案進行區分,從而為檔案的價值挖掘奠定堅實基礎[7]。
關聯規則是針對數據庫存中一類可挖掘的數據進行歸類,根據數據的多個變量取值存在的規律性,將不同的數據進行有效關聯,從而體現出數據之間的發生規律,這種規律長久以來都被用于輔助決策。20世紀90年代,美國沃爾瑪超市管理人員分析銷售數據時就發現了數據之間的關聯,即“啤酒”與“尿布”兩件看上去毫無關系的商品,會經常出現在同一個購物籃中,且大多出現在年輕的父親身上。經過分析,原因是美國家庭往往是母親在家看護嬰兒,父親外出購物,所以在購買尿布的同時,就會為自己購買啤酒,沃爾瑪利用該關聯,將尿布和啤酒兩個毫無關聯的商品擺放在一起,讓男性能夠快速地完成購物,沃爾瑪商品售賣量也因此大幅度提升[8]。
上述幾種算法是檔案管理用于解讀檔案信息數據的基本工具,目前有關大數據的數據挖掘方法層出不窮,從業者應不拘泥于某一種特殊的技術方法,而是要綜合利用多種方法來處理結構化數據、非結構化數據,這樣才能夠對檔案進行合理的區分、定位、關聯。
數據資源是大數據技術發揮作用的基礎,同時“數據、信息”也是檔案管理工作的主要對象,其完善性、完備性是保證檔案管理工作可持續發展的關鍵要素。在大數據背景下,務必要進一步增強檔案資源的建設力度,目前各地檔案館、單位檔案管理部門都已經實現了檔案管理的信息化、電子化,檔案管理工作人員面對著海量的結構化數據、非結構化數據,為給大數據技術的應用奠定基礎,需要進一步提高資源收集水平,將各種數據整合在檔案數據庫中。
“服務功能”是檔案管理工作亟需強化的重要元素。目前各地檔案館、單位檔案管理部門儲存的數據并沒有明確顯示出其應用價值,必須要以“數據分析、數據挖掘”為基礎,建立起完善的服務體系,在服務內容上實現有效創新。檔案數據資源務必要盡可能地進行分析、挖掘,并充分體現檔案數據資源的價值。目前,云計算技術已經相對成熟,檔案管理工作人員應根據服務要求、檔案管理工作實際情況,靈活選擇合理的“云部署方案”,合理選擇私有云、公有云來彌補檔案管理工作的計算能力、儲存能力,從而為檔案使用者提供更加寬泛、多元的服務。
一是應該構建起完善的“IAM身份訪問管理系統”,實現統一檔案訪問身份認證、權限控制,達到檔案數據資料安全集成管理的目標,以有效應對檔案管理可能出現的安全問題;二是要提高檔案數據節點和各種應用程序節點之間的有效保護,可應用SSL安全套階層協議層來實現加密;三是應該根據大數據整合檔案管理工作的需求,構建一個完善的制度體系,同時遵循ISO27001信息安全技術標準,完善檔案數據的共享制度、保密制度、審計制度,確定檔案的傳播范圍、加密層級,確定檔案關鍵信息的識別機制。
綜上所述,大數據對檔案管理工作產生了深刻的影響,廣大從業者應該采取合理的方式方法,促進檔案管理工作在大數據時代做出有效的改變,實現檔案數據資料的科學整合、有效分析,并創建出新的服務功能,構建起完善的安全保障體系。