朱洪斌,胡珊珊
(1. 揚州萬方電子技術有限責任公司,江蘇 揚州 225000;2. 南京郵電大學通達學院,江蘇 揚州 225000)
隨著信息化技術的迅猛發展,信息系統數據趨于多樣化、多元化、海量化,且具備空間結構化特性,適用于關聯分析。因此,需要有特殊架構的預處理、存儲、管理、計算、服務等相應方法來解決大數據的有效使用問題。同時,隨著國產化自主可控進程的深入推進,我國高度重視關乎國家命脈的關鍵領域的信息安全,要求涉及國家信息安全的核心領域信息系統采用國產化設備。面向信息系統應用需要研制的國產大數據機,符合國家信息安全政策導向,從CPU芯片、服務器硬件到操作系統、基礎支撐軟件和大數據軟件都實現了完全國產化[1-2],推動了自主可控技術的發展,提高了大數據處理能力。
在采用自主可控軟硬件搭建國產大數據平臺,對信息系統中多源、異構、海量、遞增的數據進行存儲及處理時,亟待解決的問題如下:
(1)構建自主可控、高可靠、高性能、可擴展的大數據處理平臺;
(2)建立統一、高效、協同、精確的查詢機制,實現數據的快速查詢與檢索;
(3)設計簡潔交互和直觀可視化的管理系統,實現對大數據集群的監控與運維。
我國的信息系統經研究過多年發展和積累,已經從跟蹤效仿國外技術,進入既引進吸收、又自主創新的復合型發展階段,很多研究成果已經廣泛運用于軍事和民用諸多場景之中。而隨著信息系統復雜度的日益提升,每天會產生大量的信息數據,給信息系統的運維管理帶來困難。
信息系統中對數據處理的要求主要有:(1)針對情報、遙感、氣象、指揮[3]等信息系統應用場景,需要處理復雜、多樣、海量特點的數據,例如在遙感數據方面,高分辨率、高動態的新型衛星傳感器具有波段數量多、光譜分辨率高、重訪周期短、單位時間內獲取的數據量龐大等特點。(2)針對辦公、監測、指揮等信息系統應用場景,需要保證數據處理的實時性和可靠性,并結合數據挖掘與智能分析,提供高效存儲與檢索、可視化分析、推薦排序和按需彈性擴展等功能。
傳統的數據存儲管理架構已無法滿足上述信息系統數據處理要求,需要根據實際業務、技術、定制、安全和自主可控等需求,依托云計算大數據應用成果,研究滿足信息系統數據應用需要的大數據處理平臺,提升應用效能。
當前國家對信息安全[4]有著迫切的形勢要求,大數據處理技術的相關軟硬件的國產化具有戰略意義。
Hadoop、Spark等大數據技術作為典型大數據軟件[5],目前已在國產申威平臺完成了對應的生態系統源碼編譯、移植、適配及優化,為國產大數據平臺打下支撐。利用申威虛擬化技術擴充集群規模,基于Ceph、HDFS構建分布式文件系統,實現海量存儲,使用MapReduce、Spark框架實現分布式并行處理,使用Hbase、MongoDB實現數據文件存儲[6],采用主從備份架構實現系統高可用,為國產申威大數據處理系統提供分布式計算、分布式存儲能力以及內存計算,為上層應用系統提供數據庫、數據倉庫支撐。
國產大數據平臺主要基于云計算虛擬化技術,充分發揮CPU能力,提升集群規模,實現底層的分布式存儲和計算,使用戶在開發大數據應用時無需關心底層硬件、虛擬化狀態以及分布式計算的實現等細節。同時,在集群上進行了重要組件的適配和優化,將檢索查詢、圖算、機器學習、數據挖掘、實時數據處理等模型統一到一個基礎平臺下,并以一致的接口API公開,提供各類業務應用信息引接,多源數據處理的國產大數據平臺服務,并能提供各類大數據處理、分析工具,對各類業務信息、多源數據做分析、提取,為輔助決策系統提供有效支撐,如圖1所示。

圖1 大數據平臺基礎架構
國產大數據平臺提供大數據計算框架、數據倉庫、數據庫、集群管理監控等功能模塊,并提供API接口方便用戶構建分布式計算應用。針對不同的應用場景,如存儲、離線計算、分析挖掘等,能夠有針對性地對配置進行優化,具備高度的可定制性和擴展性。
根據行業應用特征對國產申威大數據機進行定制優化,如JVM優化、數據壓縮傳輸、參數自動調優。要充分考慮申威機器特點,需盡量避免和Java、CPU交互過多等。
(1) 針對國產平臺下Hadoop集群固有的任務級調度分配方法在運行中存在的負載分布不均的現象,以節點當前的負載狀態作為參考標準,評價節點計算資源的利用程度,根據評價值再對節點運行任務的數量進行調整,使集群資源維持在一個高效利用的狀態。
(2) 大數據系統中,好的壓縮算法可以有效降低存儲開銷及傳輸時間,而分布式計算的場景各不相同(如存儲、計算等),要注意選擇最優的壓縮算法。壓縮比率大會導致性能下降,數據規模大會占用大量CPU資源。
(3) 將一臺國產大數據機(宿主機+3虛擬機)視為一備份規模,避免數據塊的備份在這四節點中多次備份而形成的數據丟失風險(節點宕機、電源故障等情況)。
國產申威大數據機設計用于云計算集群節點,基于面向服務器應用的16核國產高性能SW1610 CPU,支持擴展64GB內存,擁有全千兆互聯網口,數據存儲容量不低于20TB,具備高性能、高可靠性、高集成度和低功耗特性。
測試使用的硬件環境為1臺國產大數據機服務器,虛擬機全開共4節點,單服務器配置如表1所示。
測試2TB交通卡口數據,約1億條,申威平臺下的MySQL與大數據平臺的查詢時間如表2所示。

表2 測試結果
測試結果顯示,在數據量達到億級別時,在國產平臺上,大數據平臺的查詢性能和穩定性遠高于MySQL。同時,申威平臺下的大數據平臺在優化后,性能已經接近同等配置的X86服務器,能夠滿足實際應用中對海量數據的存取要求。
國產大數據平臺以申威大數據機作為基礎硬件,通過虛擬化為大數據處理提供資源池,形成大數據處理集群,軟件在集群上進行了充分的適配和優化,具有高集成度、高處理能力、高可靠和高安全等特性。基于國產大數據平臺,現有的一些基于Hadoop和HBase開發的程序可以更加簡單地遷移到國產服務器系統上,為解決信息系統數據的分布式存儲與計算提供了自主可控的軟硬件支撐。