劉 瀚
(西京學院商貿技術系,陜西 西安 710123)
大數據時代數據封存系統設計與研究
劉 瀚
(西京學院商貿技術系,陜西 西安 710123)
為了克服光盤數據封存系統在大數據時代的種種局限,通過網絡傳輸實現數據自動封存、實時封存、批量封存的功能,研發基于硬盤存儲的軟硬件一體化數據封存系統勢在必行。文章從彩票行業的具體應用需求出發,重點圍繞數據封存系統的通用性、安全性、可擴展性進行設計,并運用大規模并行處理和無共享架構等技術加以實現。給出了完整的產品解決方案,其測試產品滿足了彩票行業對數據封存的苛刻要求,因此具有可行性。
數據封存;信息安全;彩票;大規模并行處理;無共享架構
數據封存系統是基于專用硬件的為用戶提供聯網使用的、長期安全存儲的數據存儲設備。封存中的數據具有不可更改的特點,適合于需要長期保存且不允許修改和刪除的數據存儲應用。近年來,數據封存系統的應用領域越來越多,如彩票業、衛生醫療、公檢法司、教育系統、檔案信息化建設、證書存儲查詢等,每時每刻產生大量的重要數據,迫切需要一個有足夠安全保障、高效率低成本的數據封存解決方案。以往采用的光盤刻錄方式,已經無法適應需求。基于硬盤存儲的數據封存系統,具有速度快、容量大、成本低,易于保存、存儲介質壽命長、對保管環境無特殊要求等優勢,必然成為數據封存的主流方案。
財政部條法司在2012年公布了《彩票管理條例實施細則》[1],首次明確彩票銷售原始數據也要封存,且保存期限自封存之日起不得少于60個月。為了保證彩民參與開獎的安全和公平,在《彩票管理條例》[2]第22條中明確規定,彩票發行機構、彩票銷售機構應當確保彩票銷售數據的完整、準確和安全。當期彩票銷售數據封存后至開獎活動結束前,不得查閱、變更或刪除。總之,國家對數據封存提出了四點具體要求,一是封存的強制性,二是即時封存,三是不得變更,四是保存期限至少5年。傳統的光盤刻錄已經無法滿足這種需要。比如無法對即開型彩票進行即時封存,或實現成本極其高昂[3]。
為了適應大數據時代的需要,克服傳統方式的種種弊端,基于硬盤存儲的安全、可靠的封裝系統應運而生。數據封存系統作為軟硬件一體化設備應至少滿足以下需求:
⑴ 無論是外部接入還是人員登錄,接入系統都需要進行身份認證;
⑵ 只提供數據寫入、查詢,不能對數據進行修改和刪除;
⑶ 系統無法感染病毒或者被入侵;
⑷ 數據網絡傳輸過程安全與可靠;
⑸ 在性能允許的情況下,并發支持多個封存任務;
⑹ 數據存儲可靠性高、容量大,介質易于更換和保存;
⑺ 提供安全可靠的系統維護方式;
⑻ 適用范圍廣,支持多行業多領域的廣泛應用;
⑼ 性能高,配置靈活,易于擴展。
安全性保障是數據封存系統的核心要求,因此系統設計首重安全性,其次兼顧通用性、可擴展性和易用性。
⑴ 限制設備接入方式;
⑵ 外部接入須身份驗證;
⑶ 只提供數據寫入、追加和查詢;
⑷ 支持日志查詢;
⑸ 網絡傳輸過程加密;
⑹ 提供數據完整性校驗;
⑺ 數據存儲加密;
⑻ 支持多任務調度和自動管理;
⑼ 支持多機數據同步;
⑽ 支持并機擴展性能;
⑾ 支持數據硬盤熱插拔;
⑿ 提供數字證書管理;
⒀ 提供用于二次開發的動態鏈接庫。
⑴ 對文件系統進行修改,去除文件刪除和修改的底層支持;
⑵ 禁用USB設備,去除對USB設備的支持,包括驅動程序;
⑶禁用PS2接口,去除對PS2的支持,包括驅動程序;⑷ 僅保留對網卡和串口設備的支持;
⑸ 禁用圖形界面,僅支持字符命令行模式;
⑹ 精簡操作系統的軟件包,僅支持必要的外部命令;
⑺ 定制兩個shell,分別是用戶模式和工程模式;用戶模式僅能運行幾個必需的腳本,工程模式保留對系統的必要底層操作;
⑻ 對外部終端的訪問記錄詳細的日志;
⑼ 優化操作系統做最大化精簡,一次性燒入EPROM中,避免人為或病毒修改操作系統。
⑴ 默認提供基于Webservice協議傳輸數據流的API接口;
⑵ 默認提供基于FTP協議的文件傳輸服務;
⑶ 對網絡傳輸協議提供SSL雙向加密認證,在日志中記錄外部終端的身份;
⑷ 通過對用戶名和密碼、license的授權,實現外部接入的身份認證;
⑸ 自帶證書中心,能夠為外接終端生成密鑰對,終端只有安裝了生成的密鑰對,才能訪問系統,以便識別和記錄終端身份。
⑴ 外部接口只有兩個千兆網卡和一個串口,沒有鍵盤和鼠標以及USB接口;
⑵ 終端可通過兩個網卡訪問系統,實際使用一個,另一個作為備份。串口支持RS232,可以通過串口登錄系統的用戶模式或工程模式;這兩個模式均為命令模式,其中用戶模式只有少數命令,包括網卡設置、日志查看等;工程模式不公開,用于廠家維護。
⑴ 硬盤采用RAID10,提供鏡像磁盤功能,在硬件層面確保數據讀寫的可靠性;
⑵ 對完成寫入的數據文件進行MD5校驗,并保存到特定文件中,用于文件完整性校驗;
⑶ 在文件系統級別提供128位對稱加解密,寫入前加密,讀取后解密。
⑴ 支持多種網絡傳輸協議,除了Webservice和FTP外,可擴展支持其他協議;
⑵ 支持主備模式,一臺主機可以另行配置一臺或以上備機,提供更高的可靠性;
⑶ 支持多設備并機部署,能夠滿足高吞吐量的數據插入和查詢操作。
⑴ 通過串口的運行維護命令,實現對于系統的基本參數設置;
⑵ 對于每次的文件操作進行日志記錄,使得文件和數據操作有跡可查;并且對日志記錄進行加密,保證日志數據的安全性;
⑶ 對系統運行過程中的各種異常提供告警接口,提供資源告警、系統運行告警和數據異常告警。
定制服務器設備,電源、網卡等硬件采用雙備份,機箱前后面板加鎖。提供兩種型號的服務器,分別提供2T和6T的存儲容量。2T版本支持20000條/秒的處理能力,6T版本支持40000條/秒的處理能力。部分存儲采用IO性能極高的固態硬盤,保證數據的突發讀寫能力。
如圖1所示,數據保護系統由數據接入、調度中心、數據存儲、數據加解密、數據應用和系統維護等部分組成。

圖1 系統整體結構圖
系統采用大規模并行處理[4]和無共享架構[5]來實現數據封存系統的可擴展性。如圖2所示。

圖2 系統技術架構圖
如圖3所示,調度中心節點負責實現:①建立與客戶端的連接和管理;②數據和任務的分發;③寫入、查詢的解析并形成執行計劃;④執行計劃向存儲節點的分發;⑤收集存儲節點的執行結果;⑥只存儲數據字典和元數據。數據存儲節點負責實現:①業務數據的存儲和存取;②用戶查詢的執行。

圖3 調度中心節點和數據存儲節點
封存系統采用MPP/無共享架構,有如下優勢:①最易于擴展;②具有自動化的并行處理機制;③數據分布在所有并行節點上,I/O處理最優化;④所有節點并行工作,完全無共享,無I/O沖突;⑤增加節點可實現線性擴展存儲容量及工作性能;⑥對用戶透明。
安全性是數據封存系統最基本的特性,我們在以下五個級別上來實現安全性。
⑴ 硬件級別:只提供網口和串口,屏蔽其他接口方式。串口主要傳輸系統的配置數據信息及可信任的客戶端證書;網口主要傳輸系統的業務數據信息;實現控制與業務相分離的模式。
⑵ 操作系統級別:安裝定制的專用嵌入式系統,該系統僅支持定制的命令和操作;并且不支持鍵盤、鼠標、USB等接口,僅保留對網卡和串口設備的支持。
⑶ 應用級別:對網絡傳輸提供SSL雙向加密認證,日志中記錄外部主機的身份。對客戶端的接入及網絡傳輸提供SSL雙向加密認證,以對稱密碼技術和公開密碼技術相結合,實現數據傳輸過程中的機密性、完整性和認證性。采用串口通訊方式傳輸并配置客戶端證書。
⑷ 數據級別:為保證數據文件的完整性,對完成寫入的數據文件進行多級校驗,文件校驗采用SHA算法。
系統同時對存儲數據進行加密,采用可選的128位分組對稱加密算法。數據與日志采用不同的加密方式。
⑸ 容災級別:為了提高數據的安全性和可靠性,系統能夠提供在線容災功能。系統設計采用分布式集群架構,系統主節點采用雙機冗余熱備方式,數據記錄節點采用分布式集群方式,支持雙機備份。當硬件發生故障后,可以從另外節點進行恢復。系統支持異地分布式多級存儲結構。
存儲容量2T版本的數據封存系統已通過性能及穩定性測試。在60Mbits/s的流量下,目前已穩定運行72小時(程序終止原因為程序升級更新)。經過性能優化后,該版本的數據封存系統目前實際處理能力為200Mbits/s,遠遠超過某省級彩票機構20000條/s記錄處理能力的要求。
隨著大數據時代來臨,政府和企、事業單位每天都有大量的原始數據需要封存。基于硬盤存儲技術的數據封存系統為我們提供了一個高效率低成本的一體化解決方案。采用的操作系統定制、信息安全協議、硬盤存儲及軟件開發技術成熟、可靠,完美實現了系統的通用性、安全性和可擴展性。其可行性已經得到實際驗證,能夠適應我國大數據時代對數據封存的要求,極具推廣價值。
[1]財政部,民政部,國家體育總局.彩票管理條例實施細則[Z].中華人民共和國國務院,2012.
[2]中華人民共和國國務院.彩票管理條例[Z].中華人民共和國國務院,2009.
[3]譚小地.大數據時代的光存儲技術[J].紅外與激光工程,2016.9.
[4]何秉姣,童小念,舒萬能,喻成.并行處理技術研究[R].全國第18屆計算機技術與應用(CACIS)學術會議,2007.8.
[5]趙卓峰,魏文飛,馬強.基于無共享架構的海量感知數據實時處理系統[J].微電子學與計算機,2012.9.
Design and research of data archiving system in big data age
Liu Han
(Department of business technology,Xijing University,Xi'an,Shannxi 710123,China)
In order to overcome the limitations of CD data archiving system in the age of big data,it is imperative to realize the functions of automatic data archiving,real-time archiving,bulk archiving through the network transmission,to research and develop the data archiving system with hard disk storage based and hardware and software integrated.In this paper,starting from the specific requirements of lottery industry,the data archiving system is designed with the focus on the universality,security and scalability,and realized by using several technologies such as MPP (massively parallel processing)and SNA (shared-nothing architecture)etc.A complete solution is provided,and its testing products meet the stringent requirements of the lottery industry for data archiving,so it is feasible.
data archiving;information security;lottery;massively parallel processing;shared-nothing architecture
TP309
A
1006-8228(2017)10-01-04
2017-09-08
劉瀚(1969-),男,陜西西安人,碩士研究生,工程師,主要研究方向:計算機應用技術。
10.16644/j.cnki.cn33-1094/tp.2017.10.001