滕長青
(黑龍江省電信公司,哈爾濱 150000)
目前,大數據作為最先進的計算機應用技術之一,已經得到了許多學者的研究和追蹤,并且在應用中引入了很多先進技術,比如企業服務總線、MapReduce、虛擬化和人工智能等,這些都可以提高大數據在能源、金融、工業、教育、旅游、軍事、航天等領域的普及性,大數據已經上升到了國家戰略,也得到了國家法律政策、經濟政策、人力政策的支撐,因此未來將會實現多平臺建設,進一步提高大數據服務能力[1]。
大數據平臺已經在許多領域得到廣泛應用,取得了顯著的成效。大數據平臺建設包括以下幾個關鍵組成部分,分別是選擇平臺操作系統、構建Hadoop 集群、數據整合和預處理、數據存儲、數據挖掘和分析,進一步提高了大數據應用效能[2]。
(1)選擇平臺操作系統。目前常用的操作系統包括RedHat、Centos 或者Debian,這些都可以作為底層平臺操作工具,具有較強的可擴展性,能夠支持數據處理。
(2)搭建Hadoop 集群。Hadoop 是一個軟件平臺,其可以運行大數據處理軟件,最核心的技術為MapReduce,能夠將大量的計算機組成一個集群,實現海量數據分布式計算。Hadoop 吸引了很多商業公司研發和設計,已經構建了各種開源組件,包括Sqoop、Hbase、和Spark 等。
(3)數據整合和預處理。大數據集成的資源非常多,比如文件日志、關系數據、對象數據等,這些有結構性數據也有非結構性數據,因此在把數據整合在一起時需要進行預處理,以便能夠利用企業服務總線進行通信傳輸,提高數據的一致性和可靠性。數據預處理可以利用Impala、SparkSQL 和HiveSQL 等工具[3]。
(4)數據存儲。大數據平臺最重要的功能就是存儲。數據存儲可利用HBase 和Kudu 等存儲管理工具,建立一個生態存儲圈,不斷地提高大數據平臺的存儲和管理水平,還可以降低訪問延遲,提高數據分析能力。
(5)數據挖掘和分析。大數據存儲的資源非常多,這些資源通常是無序的、雜亂的,雖然采取了一定的組織原則,但是人們利用數據也非常復雜,因此引入數據挖掘和分析功能,可以提高數據利用的時效,縮短數據處理時間。數據挖掘和分析引入了人工智能技術,比如BP 神經網絡、貝葉斯算法、支持向量機和K-means 算法等。
企業服務總線能夠支持大數據平臺實現對異構系統的兼容,這也是實現數據共享的重要功能。企業服務總線支持異構環境中的服務和消息,基于事件進行有效的交互處理,能夠跨系統實現數據集成,利用各種通信傳輸協議實現服務功能。企業服務總線也是一個組件,可以利用可視化裝配技術,實現大數據平臺的消息加載、傳輸和交互。
MapReduce 是一個為大數據平臺提供并行處理的計算模型,更適用于集群平臺高性能計算,允許數以億計的節點進行分布式集群,可以實現分布式操作服務。MapReduce 提供一個龐大的、設計精良的并行計算軟件,自動化地完成計算任務,分配大數據存儲空間資源,實現數據分布存儲、通信和容錯處理。MapReduce 能夠提供一個簡單的、便捷的程序設計方法,更有利于程序員進行編程和處理。
虛擬化技術包括軟件虛擬化和硬件虛擬化。大數據平臺引入的虛擬化技術多屬于硬件虛擬化技術,能夠引入輪轉方法、分片方法和多任務操作處理方法進行操作,實現對存儲空間、CPU、通信帶寬的利用,進一步提高計算機硬件設備的共享服務能力。虛擬化可以共享和擴展物理存儲空間,確保多用戶共享CPU 或通信帶寬資源,基于按需服務機制實現大數據平臺操作。虛擬化已經成為大數據平臺的發展方向,引入了很多的虛擬化工具,最常用的工具為VirtualBox、XenServer、OpenVZ 和CloudStack 等,提升了大數據平臺的資源利用率。
人工智能可以輔助大數據平臺實現數據分析和挖掘功能,也是提升大數據利用效率的重要技術。人工智能可以實現文本數據、圖像數據、視頻數據處理,進一步提高數據組織和發現能力,同時將結果輸出到顯示器上,實現可視化的操作服務。人工智能也是當前計算機重要技術之一,提高大數據平臺服務處理效能,保證大數據平臺的處理速度和自動化水平。
大數據平臺作為一種數據存儲、管理、共享和服務場所,未來將會引入更加先進的技術,比如深度學習、虛擬現實、增強現實等,提高各類型數據組織和處理能力,進一步改進數據操作服務性能,具有重要的作用和意義。