尹 蕾
(咸寧廣播電視臺 湖北 咸寧 437000)
利用大數據技術,可以對當前信息化時代中產生的各項數據進行存儲和收集,同時有望實現檔案資源的擴展以及統一使用。基于此,也可以進一步提升對檔案資源的使用效率。其中,較為關鍵的是怎樣利用科學有效的方法實施平臺的構建,同時完成對數據資源采集、清洗和整合等任務。
隨著數據技術以及信息技術的不斷優化與發展,人們進入了信息時代。大數據的快速發展,促使大部分行業與學科發生了巨大的變化,同時也為科學的發展與創新打下了堅實的基礎。隨著檔案不斷向信息化、數字化方向發展,同時在社會對檔案數據種類、數量以及質量迫切需求的影響下,致使信息時代下大數據檔案管理成為當前檔案界重點關注的問題[1]。通過對大量的文獻報道進行翻閱,得出大數據檔案是指在現有軟件工具無法在有效地時間內對大量檔案數據進行采集、整理與上傳,進而所衍生的新型檔案管理技術,與傳統數據檔案相比,具有更全面的優勢。
利用大數據技術可以對豐富的信息數據進行儲存和處理,有望實現檔案資源的統一管理[2]。對檔案大數據平臺的構建需要考慮異構、開放、移動、協同和融合等方面的特點,從客戶實際需求出發,對各種資源進行整合,從而保證客戶可以在安全的網絡環境中,對信息以及網絡平臺進行合理利用。對檔案大數據系統的構建工作,要以改善服務器容量為前提,并以減少資金投入和對成本的維護功能等為依據,對系統進行設計。以客戶實際需要為基礎,進行使用流程的設計,其具體流程主要包括檔案的數據采集層、數據存儲層、數據轉換層、數據互聯層和數據管理層等5個層面的內容。
大數據背景下的檔案,與以往的檔案有顯著差異,其具有多元化的形式表現。利用質量較高的檔案中數據和信息獲取途徑,既可以通過現存局域網中結構化數據獲取信息來源,同時還可以以網絡交互、傳感器、RFID射頻及B/S移動輸入等途徑進行非結構化數據信息的獲取,并完成對信息數據的采集、變更和處理等目的。利用影像識別技術能夠獲取相關動態數據。通過將掃描、攝影等輸入到計算機中,可以進行紙質文檔的獲取,并將半結構和結構化數據進行實際例證。相關工作人員可以通過這種方式,對原始數據進行查找,防止出現重復錄入的現象,造成資源的浪費[3]。具體實施方法:(1)以文檔一體化為基礎,建立相關電子檔案管理平臺,強化對電子檔案的接收和管理力度;(2)創建可以對業務數據庫進行采集和管理的平臺,從而實現對數據進行長期集中管理;(3)創建對媒體信息采集管理的平臺,完成對網絡中媒體信息的智能化采集和管理,并可以實現對文檔的自動歸類功能;(4)以城市記憶理念為依據,創建對數字相關資源的采集和整理平臺。按照相應計劃實現對資源的整合和收集工作。
數據存儲層能夠對各種異構數據源進行存儲,對數據進行存儲的形式主要有:(1)將結構化數據存儲在不同類型的數據庫中;(2)將半結構或者非結構化數據以文件的形式進行存儲。其中,檔案的數字化在大數據源中起非常重要的作用[4]。在進行這項工作的過程中,同時要將檔案數字化成果服務體系和相關電子文檔進行優化,從而保證大數據處理工作能夠順利實施。
以數據過濾和清洗原則為依據,對采集到的數據源可用性進行探討和分析。通過對數據的過濾和清洗,能夠獲得更實用的數據整合資源,防止產生數據資源在傳播過程中出現擁堵的情況。云計算可以作為分布式檔案數據源的轉換層。其強大的數據傳輸和存儲能力,能夠在大數據之間進行交互,從而生成方法庫、只是庫等多維數據的模型。數據轉換層以不同數據類型為依據,可以利用RDB至RDF映射技術(RDB2RDF)和數據語義標注標簽對數據實施 RDF標注兩種形式對數據進行轉換[5]。
檔案數據的互聯、整合功能主要針對廣域網、局域網以及個人網等方面,其主要公式是把采集層已經處理好的數據通過安全、有效和快速的手段,傳輸到上層結構,同時依據大數據的交互功能實現數據之間的共享。檔案數據共聯主要由控制系統、運行引擎等組成。其中,控制系統可以利用調度、轉換以及功能等進行文檔數據的搜索工作。運行引擎是對數據中的引擎以及任務引擎等進行整合,完成分布式系統的構建,并且可以對PB級的結構與非結構化數據或信息進行更加有效的分析。
檔案數據管理層面主要包括數據共享、維護和分析等,在數據服務中起關鍵作用。利用多維分析以及相關查詢工具和數據挖掘等,能夠完成系統中的人機交互界面設置,進而實現對頁面更加美觀的設計,從而完成系統登錄、進入、存貯、查詢以及操作等相關的作用。
安全管理指的是利用組織—項目—用戶等各個層級的管理,是一項較為完善的用戶管理流程,能夠使系統中用戶的不同需求得到有效管理。根據不同用戶進行系統中角色的定位,將用戶角色與系統中訪問權限進行相互聯系。針對不同需求用戶設置相應訪問權限,從而保證用戶之間不被打擾,以及出現越權訪問的現象,使系統和用戶的安全都能夠得到保障。設置多級別的管理員角色,并且提供多種訪問Portal及權限。通過多狀態管理功能,使系統可以對較大范圍的用戶生命周期管理需要得到滿足。組織管理員生命周期具體見圖1。在用戶管理中主要包括退出、登錄、凍結、激活共4種管理操作功能,這些內容中,項目并不存在凍結的狀態。組織管理員對自己的項目資產有分配和使用的權利。

圖1 用戶管理圖
在模塊化系統架構的基礎上,對檔案信息平臺管理系統進行構建,以不同用戶的需求為依據,對各版塊中的功能進行組合運用。設置只針對客戶需求的入口(Portal)。在進行系統構建工作中,利用模塊的形式,更有利于使系統優化和升級。在進行系統功能開發中,添加一些新的功能,無需對原有系統進行更改。在對系統進行升級時,只需要對相應系統模塊進行升級,并不需要進行其他操作。而這些功能對用戶要保持透明公開,所以不會對用戶的系統訪問造成不利影響,只會對系統相關服務造成短暫中斷,見圖2。管理系統在分區共享存儲的基礎上,為系統存儲提供解決方案。根據快照與遠程復制技術,對數據進行連續復制與快速復制,明確最佳的復原時間目標(PTO)與復原點目標(RPO)。通過先進的增量備份技術對網絡寬帶的占用率進行有效降低,并與快照技術緊密結合連續地保護了數據安全,防止各種錯誤對系統造成損壞。針對整個系統中所有關鍵數據的安全性采取了分布式數據庫技術,提高了系統能夠及時地響應所有用戶的請求,實現了多用戶一體化并發且不少于1萬個。對于保護用戶的隱私安全,可以通過國產保密平臺的個人密鑰、加密證書和卡以及基于國產保密平臺防火墻系統的軟件和技術,從而建立起一套基于信息平臺的云安全解決方案,對互聯網網絡層與大量數據庫層的安全性進行了保障[6-7]。

圖2 OSGi模塊化規范
對檔案大數據系統進行構建是一項長期持久的工作,同時在技術以及非技術方面,同樣面臨諸多困難,怎樣利用科學、合理的手段設計出符合現代社會要求的高智能檔案大數據系統框架,是現階段檔案部門相關人員急需解決的難題。通過科學、合理的檔案大數據系統構建,必定能夠使用戶獲得全新的體驗,從而為人類進步以及實現國家的現代化建設提供更多的幫助。