王 平 安亞翔
(1.江蘇省檔案館,江蘇南京,210008;2.南京軍區空軍司令部直工處,江蘇南京,210018)
“大數據”已越來越成為社會各界一個時髦的詞匯。2012年《紐約時報》的一篇專欄中寫到,“‘大數據’時代已經降臨”。在維基百科中“大數據”(Big data)指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理,并整理成為人類所能解讀的信息。根據互聯網數據中心的資料,2012年全球的數據總量為2.7ZB。到目前為止,人類生產的所有印刷材料的總數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB。全球知名研究機構IDC預測,2020年,全球數據規模將達到40ZB。
毋庸置疑,這些數據中部分最終將做為檔案進入各級數字檔案館中進行存儲、管理和利用,并通過各種網絡平臺提供公共檔案信息服務和共享利用。
對于檔案大數據的特點,可以分 別 用 Volume、Variety、Value、Velocity這4個V開頭的英文單詞來概括。
第一,檔案數據體量巨大(Volume)。隨著館藏檔案數字化率不斷提高和電子檔案的采集歸檔,各個數字檔案館的數據容量將逐步從TB級別躍升到PB乃至EB級別。
第二,檔案數據類型繁多(Variety)。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,越來越多的非結構化數據的產生給所有廠商都提出了挑戰。拜互聯網和通信技術近年來迅猛發展所賜,如今的數據類型早已不是單一的文本形式,網絡日志、音頻、視頻、圖片、地理位置信息等多類型的數據對數據處理能力提出了更高的要求。
第三,檔案數據價值密度低(Value)。價值密度的高低與數據總量的大小成反比。以視頻為例,一部一小時的視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據背景下亟待解決的難題。
挖掘大數據的價值類似沙里淘金,從海量數據中挖掘稀疏但珍貴的信息。
第四,需對檔案數據進行快速查詢利用(Velocity)。根據IDC的一份名為“數字宇宙”的報告,預計到2020年全球數據使用量將會達到35.2ZB。在如此海量的數據面前,處理數據的效率就是信息平臺的生命。
對于檔案大數據應用而言,要能在10秒鐘內形成答案。實時處理的要求,是區別大數據引用和傳統數據倉庫技術、商業智能技術的關鍵差別之一。
檔案信息化管理也正在進入大數據時代。如何滿足大數據時代對數字檔案的收、存、管、用的需求,特別實現是“大數據”檔案的長期保存和高效利用是一個重要的課題。
隨著信息技術發展速度越來越快,數字化檔案數量不斷翻番,檔案數據除了包括各類結構化的檔案目錄外,還包括大量非結構化的檔案數字化原文和電子檔案數據的優化存儲。利用存儲基礎設施提供的強大功能存放數據,實現長期保存,讓數據能夠被高效使用。
檔案大數據存儲平臺建設首要工作是對現有的存儲資源進行整合,建立以檔案數據為中心,分布處理、集中管理的存儲體系,最大限度地發揮整個存儲系統的性能。檔案大數據存儲平臺應能達到如下的功能要求:
(1)檔案大數據應統一集中存儲。
(2)存儲系統應具有高容量和高穩定性。
(3)存儲系統應具有良好的性能。
(4)存儲系統應支持管理員對存儲空間的靈活分配和配置。
(5)存儲系統應具有高度的安全性和完善的權限控制。
(6)存儲系統應具有高可靠性和安全性。
(7)存儲系統應支持多種協議、操作系統、數據庫系統。
(8)存儲系統可進行高效的靈活管理。
(9)存儲系統應具有模塊化設計并支持熱插拔。
(10)存儲系統具有卷復制和拷貝等的高級存儲功能。
傳統的存儲系統大致可以分成三種類型:
(1)依 附 存 儲 系 統(Direct Attached Storage,DAS):又稱為以服務器為中心的存儲體系。其特征為存儲設備是通用服務器的一部分,該服務器同時提供應用程序的運行。數據的輸入/輸出由服務器負責,數據訪問與操作系統、文件系統和服務程序緊密相關。當用戶數量增加或服務器正在提供服務時,響應會變慢。在網絡帶寬足夠的情況下,服務器本身成為數據輸入/輸出的瓶頸。當前絕大多數存儲系統都屬于這種類型。
(2)網絡依附存儲系統(Network Attached Storage,NAS):這種存儲方式多采用專用數據服務器。該服務器不再承擔應用服務,稱之為“瘦服務器”(Thin Server)。數據服務器通過局域網的接口與應用服務器連接。NAS也是一種集中化數據存儲形式,便于維護和管理。
(3)存儲區域網絡(Storage Area Network,SAN):采用高速數據連接通道——光纖通道(Fiber Channel,FC)連接服務器和存儲系統。從結構上看,服務器和數據存儲系統相互獨立。將設備連接到FC集線器或交換機上,便于擴展系統規模。在SAN中,所有的存儲設備和存儲數據均可采用中心化管理,使得整個存儲系統具有可伸縮性。并且,可以通過存儲設備的集群方式達到高可用度。
傳統存儲解決方案的弊病很多,這些弊病多由異構存儲和SAN孤島造成。異構存儲是指不同的存儲有不同的底層架構、不同的管理界面、功能、性能以及運維升級的操作。為了將檔案數據從一種存儲陣列移植到另一種存儲陣列,可能因需要專業化服務,而花費額外的高昂費用,增加數字檔案館的IT運維成本。另一方面,多種存儲系統共存使得數字檔案館需要聘用非常專業的技術人員對這些系統進行管理,人員成本又成了一個難以解決的問題。
為了實現檔案大數據存儲平臺的功能需要采用全新的技術解決方案,確保檔案大數據的長期安全保存。
2.1 虛擬化存儲:軟件定義的檔案數據存儲系統
為了解決異構存儲和SAN孤島帶來的高成本、低效率問題,必須設計一個新的技術再造新的規范,很明顯存儲虛擬化就是這個技術。簡單來說,存儲虛擬化的基本思路是將底層的硬件設備池化,形成多個不同容量、不同性能的存儲資源池。而上層的服務器系統管理程序所看到的也是這些存儲資源池。
存儲虛擬化優勢包括四個方面:
第一,整合異構存儲,降低運維成本。整合異構存儲是存儲虛擬化的首要任務,所有存儲設備將不再被貼上供應商的標簽,企業也不會被一家或者幾家廠商綁架。因為存儲虛擬化方案中,底層的硬件設備相對上層應用來說是完全透明的。
第二,消除存儲孤島,提高系統靈活性。由于所有的存儲資源都被虛擬化了,所以數據的遷移和管理都變成了虛擬機之間的交流,即便是更改存儲基礎設施,也不影響連續存取數據。為應用程序提供的數據連續可用性可以幫助用戶避免因故障時間而造成的影響和成本的增加。
第三,將合適的資源分配給合適的任務負載。在檔案數據中心中,存儲資源的種類可能是多樣的,如果是閃存與磁盤并存的系統,存儲虛擬化將需要完成分層存儲的功能。即是說閃存資源將優先提供給關鍵業務的虛擬機,而低速磁盤則更多的用于備份或者歸檔。
第四,簡潔的操作界面,降低系統管理成本。由于底層硬件資源被上層的虛擬化軟件接管,應用存儲資源與供應商不再有直接的聯系,那么操作界面很容易被簡化。單一的管理界面通過對整個存儲庫進行集中存儲管理,可以幫助IT管理員提高生產力。系統管理員只需學習一個界面,就可以完成大多數存儲運維和升級工作。
總的來說,存儲虛擬化的優勢在于上層應用不用再考慮底層硬件的細節,應用面對的只是一個個容量和性能不盡相同的存儲資源池,可以說資源利用率能夠提高、存儲成本能夠降低也都是源于存儲虛擬化這個特點。無疑存儲虛擬化顛覆了依賴于供應商的存儲解決方案,而顛覆的結果就是給數字檔案館存儲的成本和資源利用率確定了一個新的標準。
存儲虛擬化也面臨著各種挑戰,從它能解決的問題來看,異構存儲意味著有大量的數據已經存放在這些異構存儲平臺上,而且多年的積累意味著使用存儲虛擬化雖然能夠管理不同品牌的硬件,但是首先需要將原有數據進行整理和部署,改變意味著風險,如果原有系統尚能滿足需求,相信存儲虛擬化對其并沒有多少吸引力。存儲虛擬化要取代傳統的存儲解決方案必須保證數據能安全地完成從傳統系統向新系統的遷移。
在基礎存儲架構實現虛擬化的基礎上,為保證高可用、高可靠和經濟性,檔案大數據存儲平臺可采用分布式存儲的方式來存儲數據,分布式存儲系統本身采用冗余存儲的方式來保證存儲數據的可靠性,即為同一份數據存儲多個副本。
分布式存儲與傳統的存儲設備相比不僅僅是一個硬件,而是一個網絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網、客戶端程序等多個部分組成的復雜系統。各部分以存儲設備為核心,通過應用軟件來對外提供數據存儲和業務訪問服務。
分布式存儲不但有效地解決了存儲系統性能的問題,大大地降低了大型存儲系統的成本,還將存儲可靠性提升到系統設計層面;同時,還將實際的物理存儲設備與存儲的邏輯表示分離開來,實現了事實的存儲虛擬化。
分布式存儲系統具有以下特點:
(1)并行存儲系統中存儲虛擬化,能夠支持無縫的海量擴展;
(2)并行存儲系統的性能擴展能夠隨著容量的擴展而擴展;
(3)并行存儲中數據保護技術保障用戶數據的安全;
(4)非結構化并行存儲的可靠性和安全性。
分布式非結構化并行存儲系統是目前海量信息處理環境下理想的存儲解決方案,它從架構設計上很好地解決了存儲系統的容量擴展和性能擴展問題。分布式非結構化并行存儲系統采用新型的副本技術替代了原有的RAID技術,不但保證了數據的安全,還提高了數據恢復的效率,將可靠性和可維護性有機地結合在一起。
非結構化并行存儲系統主要由索引服務器集群和存儲服務器集群組成,其軟件部件對應用表現為一個文件系統,圖1給出了非結構化并行存儲系統的架構,它采用業界主流的控制路徑和數據路徑分離的設計理念。

圖1非結構化并行存儲系統
非結構化并行存儲系統具備高可用和快速恢復能力。本著“將磁盤、服務器和網絡等設備失效作為常態考慮”的理念,系統中所有部件都有冗余配置,并通過數據冗余提供高可靠性。每一份元數據都有其副本數據,主從數據之間通過分布式日志系統保證它們之間的一致性。平時只有主副本數據提供訪問,當主副本數據所在節點失效后,訪問自動切換到從副本數據上。索引服務器分組使用的模式可以避免擴大了的系統帶來的開銷增長。數據同樣提供多副本,只要有一個副本可以提供服務,系統即可用。
根據部件失效造成的影響范圍,圖2給出了存儲系統可能面臨失效的示意圖。網絡多通道技術自動屏蔽單一網絡通道的故障。當磁盤失效時,某些數據副本受損,降低了數據的可用性。系統自動偵測到故障后,自動進行數據修復,將受損數據系統中剩余空間進行重建。索引服務器能提供所有文件的分布信息,使修復并行化,大大減少了修復的時間,降低了修復期間受損數據進一步丟失副本的可能。
采用上述技術路線,可以構建可擴展、高可靠、有效處理海量元數據和數據的存儲系統。
數字檔案館現在的存儲系統多以熱數據為目標進行設計,一般采用高速磁盤及磁盤陣列作為存儲介質。雖然磁介質能夠保持數據一直在線,且提高數據響應速度,但同時也帶來能耗巨大、電磁敏感、存儲壽命短等諸多問題,難以適應檔案大數據長期、安全穩定保存的要求。

圖2存儲系統故障分類
隨著大數據時代的到來,冷存儲成為現如今的熱門課題。冷存儲是指大容量、低功耗、低成本的數據存儲,需要解決關鍵設備、工藝、數據存儲中心管理和數據傳輸等核心技術難題。
與磁電存儲介質相比,光存儲介質具有低能耗、抵抗海嘯颶風等自然災害、抗電磁干擾、抗人為數據刪改的優點,特別適合作為冷數據的存儲介質。由于檔案數據價值密度低的特點,檔案部門應特別注重安全、節能和長壽命信息存儲技術的研發和應用。
數字檔案館除了保證檔案大數據的長期保存外,實現檔案大數據的快速、“智慧”利用也是一個重要的任務。所謂的“智慧”利用,就是在浩瀚的數據之海中挖掘出有用的信息,改變目前“數據十分豐富,而信息相當貧乏”的現狀。要實現“智慧”的檔案利用就必須建立強有力的數據分析工具,對檔案大數據進行數據挖掘、分析和推薦。沒有強有力的檔案大數據挖掘利用平臺,大數據就可能成為一堆無價值的數據“垃圾”。
對非結構化大數據進行深度數據挖掘及分析處理,涉及大量、復雜、長時間的計算過程,并且會涉及到與結構化數據的組合分析,需要建立專門的數據挖掘利用系統來實現。對于檔案大數據挖掘利用系統而言,要能夠像百度那樣高效、快速地給出人們想要的結果。要做到這一點,除了研制高效的數據挖掘算法外,還需要建立專門的檔案大數據挖掘利用支撐平臺。
目前,數據挖掘的一個成熟、高性能、高可靠、高性價比的支持平臺是通過對開源的Hadoop架構進行針對性的優化來實現的。Hadoop主要有以下幾個優點:
高可靠性:Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性:Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性:Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此其處理速度非常快。
高容錯性:Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
通過對開源的Hadoop進行優化,使其作為海量數據存儲分析平臺的數據挖掘子系統,能夠很好地與結構化、非結構化數據處理子系統結合,形成面對海量結構化數據、非結構化數據檢索、分析處理與深度挖掘的一體化解決方案。
Hadoop系統主要部分是模擬Google的GFS和MapReduce框架完成的,圖3顯示了Hadoop的體系結構。
圖4給出了基于Hadoop技術的非結構化數據處理子系統架構。它從邏輯上分為硬件層、存儲層和計算層,對上支持各種業務模型。
存儲層解決各種類型數據的存儲問題。上層業務的數據可以分解為:結構化數據、文本(包括網頁)、圖片、影像、XML文件以及索引文件等。結構化程度高、事務性強、需要反復操作的數據仍然保存在關系數據庫里,網頁信息等可以保存在NoSQL存儲系統中。大量小圖片、XML文件等可以保存在分布式存儲系統中。為了提高檢索效率,各種索引以特有的格式分散保存。
計算層負責將存儲層中管理的數據轉化成上層應用所需要的數據集。這些轉化包括基本的數據存取,如基于唯一性的關鍵字獲取屬性值或內容;通過關鍵字快速檢索某一應用的數據,或者整合多個系統的檢索結果呈現給用戶;分別快速從大規模的文件數據或數據庫中分析出感興趣的信息。
基于Hadoop技術的非結構化數據處理子系統還提供通過統計分析,不斷改進業務水平的能力。通過用戶行為統計分析,可以得到用戶的使用喜好,向某些人群推送特定內容,提高用戶粘性。另外對系統負載、不同區域的特征分析,都可以改進服務質量,也可以對系統的升級、維護提出預警。
安全管理的基礎是一套完善的用戶管理流程,通過組織—項目—用戶不同層次的管理,滿足檔案信息平臺對用戶實行有效管理的需求。對用戶進行分類,并分別賦予不同的系統角色,通過用戶角色與系統權限的關聯,使不同的用戶擁有不同的系統權限,進而保證滿足各種用戶的需求的同時,使用戶之間不會相互干擾,也不會對系統進行越權訪問,以保證系統及用戶的安全。提供超級運營管理員、運營管理員、超級運維管理員、運維管理員、組織管理員、項目成員共六種不同的角色,并分別提供不同的訪問Portal及權限。
實現對用戶的多狀態管理功能,以滿足系統對大規模用戶生命周期管理的需求。組織管理員生命周期如圖5所示。
用戶管理定義了注冊、注銷、退出、登錄、凍結共5種狀態屬性,為管理員定義了注冊、注銷、退出、登錄、凍結、激活共6種管理操作功能。其中項目成員沒有凍結狀態。
注冊狀態:新注冊、未被管理員激活的系統用戶處于注冊狀態。
退出狀態:被管理員激活的系統用戶默認處于退出狀態;系統用戶在登錄狀態下選擇退出后處于退出狀態。
登錄狀態:被管理員激活的系統用戶選擇登錄后處于登錄狀態。
凍結狀態:被管理員暫時性凍結的系統用戶處于凍結狀態。
注銷狀態:被管理員注銷的系統用戶處于注銷狀態。
運維管理員、運營管理員有權限管理屬于自己的管理對象。組織管理員有權限管理屬于自己的項目、項目資產、項目成員。項目成員有權限使用分配給自己的項目資產。
只有超級運維管理員有權限管理其他的運維管理員生命周期;只有超級運營管理員有權限管理其他的運營管理員生命周期;運營管理員有權限管理(由系統)分配給自己的組織管理員。
對用戶身份的管理需要基于硬件設備實現,防止口令泄露、遺忘等造成的安全隱患,同時提供用戶身份認證、操作系統用戶身份認證、LDAP(輕量目錄訪問協議)用戶身份認證等多種認證方式。這些方式可靈活設置,自由組合,以滿足管理員對用戶管理的多種需求。管理員可以對合法注冊的系統用戶進行多種管理設置,如用戶角色修改、用戶密碼修改、用戶認證方式修改、用戶有效性設置等操作。

圖3 Hadoop的體系結構

圖4基于Hadoop技術的非結構化數據處理子系統架構

圖5用戶管理

圖6 OSGi模塊化規范
系統提供對所有系統用戶的統計信息,包括用戶數量、用戶狀態、用戶行為等統計信息。
檔案信息平臺管理系統基于模塊化的系統架構,針對不同用戶的需求,靈活組合各種功能模塊以提供不同的功能。基于定制的用戶入口(Portal)為不同的用戶提供豐富的系統訪問體驗。模塊化的系統架構也方便對系統進行升級。當系統添加新功能時,只需將新的功能模塊添加到系統中,而無需對系統已有功能進行改動。當系統改進某項功能時,也只需將相應的功能模塊進行升級即可。這些過程對用戶是透明的,因此不會影響用戶對系統的正常訪問,或只會造成系統相關服務秒級的短暫中斷。系統的模塊化架構應遵循動態模型系統技術規范OSGi。如圖6所示。
管理系統基于分區共享存儲,可提供系統級的存儲災備方案。遠程或本地災難備份/恢復解決方案支持在檔案數據中心與災備中心之間通過IP網絡對關鍵業務數據進行策略性增量復制,實現數據的異地備份,并在發生意外災難時對數據進行快速恢復,確保業務持續性。結合快照和遠程復制技術,實現連續的數據復制和快速的數據恢復,確保最優的復原時間目標(RTO)和復原點目標(RPO)。基于增量備份技術有效地減少對廣域網帶寬的占用,同時結合快照技術,實現數據的連續保護,避免各種軟錯誤導致的系統故障。分布式數據庫技術保障系統關鍵數據不丟失,提高系統響應用戶請求的速度,支持多用戶并發,并發用戶數不少于10000個。
采用基于可信平臺的個人密鑰、加密卡、基于國產可控平臺的防火墻系統等產品與技術,構成信息平臺的云安全方案,可以實現從網絡層到數據層的真正安全。基于個人密鑰實現用戶身份認證管理,使用戶身份與設備關聯,提供多種不同安全級別的管理,為系統提供了更高的用戶身份有效性保障,同時對系統中的各種資源與用戶進行加密綁定,滿足用戶對資源訪問不同安全級別的需求。基于加密卡實現用戶數據與系統數據的加密功能,設置不同級別、多種類型的安全策略,最大程度的保證數據安全性。基于過程可控平臺的防火墻系統,從系統入口處抵御系統外的各種風險,為系統整體性安全保駕護航。
作為大數據應用工具的Hadoop,在數據安全設計和防護功能上存在著訪問控制較弱、無合規性設計、無數據加密、策略管理較弱等一系列的安全問題。
構建Hadoop的安全模型可采用分層方式進行。在最外層必須進行良好的訪問控制,確保只有相關權限的人才可訪問Hadoop數據;第二層是網絡威脅防御,設定相關機制,防止網絡受到入侵;第三層是應用層程序升級,確保沒有漏洞;第四層是數據保密,防止數據被竊取;第五層是保證數據的完整性,使數據不會受到篡改。
[1]謝波,齊麗華.江蘇省數字檔案館建設理論與實踐[M].河海大學出版社,2014.
[2]范承工,周寶曜,劉偉.大數據:戰略·技術·實踐[M].電子工業出版社,2013.
[3]石峻峰,周俐霞,付雙雙.大數據時代數字檔案資源管理研究現狀與趨勢分析[J].信息安全與通訊保密,2014(09).
[4]李小平.終端安全風險管理[M].機械工業出版社,2012.