胡瀟瀟
(山東行政學院組織人事處,濟南 250014)
大數據時代下高校檔案管理實施策略研究
胡瀟瀟
(山東行政學院組織人事處,濟南250014)
大數據時代的到來,給高等院校檔案信息管理帶來了巨大的機遇和挑戰。依據大數據技術,分析高校檔案信息管理的現狀,闡述大數據技術的基本特點和高校在檔案管理方面利用大數據技術對檔案進行信息的收集、整理以及數據挖掘的策略,建立以大數據、云存儲技術為基礎的高校檔案信息管理中心的實施方案,探討高校檔案信息管理利用大數據技術的前景和發展方向。
大數據;檔案管理;云存儲;檔案信息管理中心
隨著信息時代的迅速發展,人們的生活和思維方式伴隨著大數據時代的到來而改變著。近年來,隨著社交網絡、物聯網、移動互聯網、云計算等技術的發展而產生了大數據這個新的科技名詞,大數據在學術、商業、科技等許多領域都得到了廣泛的應用。面對當下大數據技術的應用,高等院校檔案信息管理工作如何與“大數據”有機結合,大大提升檔案的利用價值,為工作提供更多更好的信息和方便,是值得我們研究的一個重要課題。
“大數據(Big Data)”是由IT行業首先引發的網絡技術革命,它的概念是由美國的麥肯錫公司最先提出來的,美國計算機研究機構Garther認為“大數據”的定義應為以虛擬化、分布式的海量存儲技術為依托,實現信息的實時擷取、管理、處理的新型信息技術。根據Garther預測,大數據將在2020年成為現代信息技術的引領者,全世界的大數據容量將達到35ZB~40ZB。大數據技術不但可以存儲、處理結構型與關系型信息,還可以存儲非結構型與非關系型信息,并且傳輸速度更快、使用價值更高。大數據最主要的特點是4V特性,首先是數據量(Volumes)大,數據量遠遠超過了傳統意義上的數據庫,達到了PB量級;其次是指數據類別(Variety)多樣,和傳統意義的結構化數據不同,大數據來自多種數據源,包括音頻、視頻、圖片、網頁等的結構化數據、非結構化數據和半結構化數據;再是數據處理速度(Velocity)快,大數據使用云計算的手段來快速處理海量的信息,與傳統的數據管理相比,最顯著的區別在于可以實時提取需要的數據信息,實現高效、實用、便捷和共享;最后是數據真實性(Veracity)高,由于大數據的數據源往往是來源于最原始的業務活動,因此它受人為干擾的因素就比傳統的結構化數據小得多,其真實性相對來說就比較高,更有利用的價值。
大數據時代的到來,影響并改變著我們的世界,有學者對大數據與檔案管理做過系統的研究,提出檔案館需要融入智慧城市,需要大數據技術的支持,檔案工作已不能滿足于紙質的工作,需要進一步引進電子化、數字化程序,從而掌握數據背后的信息處理和數據儲存的知識;還有學者雖指出大數據使檔案管理面臨從紙質化轉為數字化的挑戰,但都沒有涉及具體的實施意見。本文將大數據與高等院校檔案信息管理工作相結合,針對檔案數據的存儲與備份,從通過大數據進行全過程控制、構建新的檔案收集、對檔案信息數字化管理建立新平臺的建議等方面,結合工作實際,將諸多觀點綜合提煉,對高等院校檔案數據信息管理工作作了進一步的探究與思考。
(一)檔案數據信息量巨大,查找利用難
在大數據時代背景下,高等院校里的各項工作時時刻刻都在產生著大量的數據信息,包括圖片數據、網頁數據、視頻數據、音頻數據、文本文件,等等。這些都屬于檔案管理的數據信息收集范圍,信息量巨大。然而各個高等院校現在使用的檔案管理信息系統多數為C/S或B/S的單一服務器系統架構形式,最多能做磁帶或者光盤的備份。隨著檔案信息資源數據存儲量的不斷增大,如果在不引入云存儲技術或者服務器集群的前提下,就可能引起磁盤物理存儲容量不足,從而導致檔案信息數據庫的崩潰。面臨這些巨量且復雜的數據,如何進行高效的管理是一個難題,我們越來越認識到對所產生的大量數據進行有效、高質量管理的重要性、迫切性和必要性,而檔案信息數字化管理尤其重要。隨著檔案數量的不斷增多,在查找、利用中很難實現需求的即時性、多樣化和高效化。因此,在了解目前檔案管理現狀的同時,發現檔案管理所存在的問題,把大數據充分地利用到工作中,實現最佳的工作方法和效果。
(二)檔案數據多源異構,系統處理難
高等院校內部的檔案資源數據來源廣泛,種類繁雜,包含了高校內部的教學、科研、后勤等日常活動諸多業務,各部門的業務不同,產生的檔案數據信息也各不相同。據相關資料記載,2012年以來,像表格、文檔、音頻、視頻、網頁等這種非機構化的電子文件所產生的數據信息,在整個校園網數據信息中,占85%以上。在紙質檔案時期,所有信息是以“份”、“卷”等進行管理,對存儲的地點、環境、空間都有要求,查詢材料也有局限性,由于檔案材料紙質管理時代的不穩定性,會出現部分資料不能有效保存,進而導致查檔時遇到困難,耽誤正常工作。隨著時代的變遷,檔案管理慢慢由紙質進化到數字管理,所有格式不同、內容各異的紙質信息都逐步轉換成數據信息,這每一份數據信息都是一個重要的數據源,而且各個數據源的結構也不盡相同,構成了檔案數據多源異構的現象,而現有正在使用的檔案管理系統在處理這些不同數據時就顯得力不從心。
(三)檔案數據需求多樣化,工作管理難
在大數據的引領下,高等院校各部門、各業務系統,既是檔案數據信息的生產者,也是檔案數據信息的使用者,都在利用檔案數據信息來指導、規劃、管理教學、科研、校園文化等各個方面的工作。使用者的不盡相同,對各種類型檔案材料的需求也不盡相同,而現有檔案管理體系已經不能滿足當前工作的需求。對于這種多樣化的需求,需要建立一個高科技平臺做支撐,而大數據時代就為高等院校多樣化的檔案管理提供了一個新平臺,使傳統紙質檔案文件中的“卷、宗”管理升級到數字檔案下的“關鍵詞、對象、字段”的精細管理,讓傳統的紙質檔案管理發生翻天覆地的變化,使管理的手段不斷創新、業務不斷豐富。
(一)建立高校檔案信息管理中心,設置系統總體架構
如何利用大數據信息量巨大、處理快捷、數據類型多樣的特性,與我們傳統的檔案管理工作有機結合是一個重要課題。在大數據技術支持下,對還在使用紙質管理的高校檔案信息進行重新規劃,建設以大數據、云存儲技術為支撐的高校檔案信息管理中心,是當前最主要和最迫切的任務。檔案信息管理中心是檔案數據處理加工和數據分析應用的中心,在總體框架建設上要依托內外網隔離的網絡架構,構建資源整合、互聯互通、資源共享的統一檔案數據中心資源庫,構建完善的底層支撐平臺。系統設計按一個基礎支撐環境、兩個保障體系、五個核心數據庫、四大應用系統和一個頂層綜合平臺的架構進行(系統總體架構圖見圖1)。
基礎支撐環境為高校檔案信息管理中心建設和部署提供基礎設置,包括機房運行環境、校園網、互聯網、移動網絡等;檔案標準規范體系是建立檔案信息管理中心的基礎,大數據的數據格式、來源雜亂無章,如何提取、挖掘出有用的信息為我所用,必須依據一定的規則和規范進行數據清洗和提取,因此建立一套檔案標準規范體系是我們檔案信息管理中心的前提;檔案信息安全體系則是高校檔案信息管理中心建設的安全基礎和重要保證。
核心數據庫包括元數據庫、原始數據庫、綜合應用數據庫、主題專題數據庫以及共享發布數據庫,通過合理規劃數據庫,對上層應用提供持續的數據服務支撐,同時還滿足高并發處理的性能需求。
檔案數據應用系統是基礎性的應用系統,主要包括檔案數據云服務系統、數據決策支持系統、綜合分析系統和檔案數據查詢系統四個方面。
頂層綜合平臺是面向院校各部門、各個業務系統、各用戶提供綜合性檔案信息數據服務的高級應用系統,包括智能門戶系統和移動應用服務系統。
(二)規范高校檔案信息管理中心業務流程
如圖2所示,高校檔案信息管理中心的數據采集主要有兩個途徑,一個是以檔案標準規范體系為基礎,通過ETL(抽取、轉換、加載)數據過濾器將院校的歷史檔案數據、各業務系統實時產生的數據和互聯網相關數據加載到我們的檔案信息中心核心數據庫中;另一個途徑是檔案管理人員通過手持終端或者電腦客戶端,依據一定的數據審核關系直接進行檔案信息的錄入。檔案信息中心的核心數據庫是我們一切應用的基礎,它對用戶提供檔案數據綜合查詢、檔案云服務系統、數據決策系統和綜合分析系統服務。
(三)加強高校檔案信息管理關鍵技術的應用
1.檔案信息管理中大數據的收集。在檔案信息的收集過程中,為了進一步加強檔案材料收集的實效性,可以利用大數據的Hadoop,HDFS功能,利用分布式客戶端的功能對數據進行收集;在抽取、轉換、加載的過程中,利用分布式文件系統(DFS)和MAP技術,將相關數據上傳到分布式服務器中,以確保在對海量的數據進行抽取時的速度和安全。
2.檔案信息管理中大數據的存儲。由于檔案信息量大,數據規模龐大,結構復雜,因此必須構建分布式存儲信息系統,改變現在以結構化為主體的單一存儲方案,對結構松散、沒有模式的半結構化數據改為采用面向文檔的分布式key/value存儲引擎來解決,在存儲過程中,要方便增加節點,實現穩步處理,對非結構化數據采用分布式文件系統進行存儲。對大量的系統碎片數據進行分類、聚類和相關性分析,并且通過SQL等技術的“數據壓縮、信息抽取”等方式進行系統碎片識別,增大加強檔案信息管理時識別的針對性和可操作性。
3.檔案信息管理中大數據的開發利用。傳統意義中的檔案信息管理一直保留在檔案材料的目錄管理、材料分類、材料歸檔、材料存儲和簡單的數據統計查詢階段,而大數據時代檔案信息管理的重要信息則利用大數據的RDBMS、HBASE數據分析與預測技術,可以實現非結構數據與結構數據的信息分類、信息聚類,通過SAAS、SOA“云服務器”與電腦、手機平臺的聯動,使高校檔案信息的使用者能夠實時地利用檔案信息路徑,快捷、方便地獲取自己需要的信息。

圖1 高校檔案信息管理中心系統總體架構圖

圖2 高校檔案信息管理中心業務流程
隨著時代變遷,人類在科學技術方面不斷發展進步,無論是檔案材料的本身還是檔案信息管理工作自身的特點,都在發生著令人矚目的巨大變化。大數據時代給檔案信息管理工作帶來了新的挑戰和改變。
首先,檔案在其定義上的變化。和傳統的紙質檔案卷冊不同,未來的工作中,檔案是指所有有保存價值的視頻、音頻、文件、數據信息以及網絡信息。如何使用和利用大數據,在大數據的使用中得到什么,這些基本條件都要處理好,否則就會用大量的時間來分析數據,給我們的工作帶來不便。確定目標后,再利用大數據工具對檔案進行數據管理。
其次,檔案在其服務中的變化。在大數據時代中,檔案服務會朝著開放性、先進性和多元化方向發展,檔案服務以客戶個性化的需求為導向,提供網絡化、智慧型的服務。檔案信息中蘊藏著巨大的知識寶藏,正確利用大數據的服務,可以在信息管理上獲得巨大的突破,使檔案管理中的知識寶藏真正得到挖掘和利用。
最后,檔案信息管理技術手段的變化。在大數據時代,檔案信息管理將是利用數據過濾器、網絡爬蟲等先進技術在云平臺上建設檔案信息系統核心數據庫,并在此基礎上安排精通檔案信息管理的專業人員與大數據開發公司合作,對各種檔案數據資源進行挖掘,取得決策支持,用技術手段構建各類信息服務子系統,從而全面實現技術手段向知識應用的轉變。
[1]尹寶君.大數據時代檔案管理中新媒體與傳統紙媒的融合研究[J].蘭臺世界,2015(07).
[2]陳明潔.大數據時代對檔案現代化影響和要求[J].檔案管理,2013(06).
[3]李小晨.大數據時代背景下的檔案管理探討[J].云南檔案,2013(08).
[4]劉文照.大數據時代檔案管理模式的轉換與創新[J].辦公室業務,2015(20).
[5]蘭祝剛.大數據時代下的檔案工作[J].中國檔案,2014(06).
[6]施永利.大數據時代背景下的檔案利用服務研討[J].商,2012(11).
編輯:鹿風芍
G271
A
2095-7238(2016)06-0119-04
10.3969/J.ISSN.2095-7238.2016.06.022
2016-09-12