李 浩
(中國電子科技集團公司第三十九研究所,陜西 西安 710065)
目前,云計算技術是國際網(wǎng)絡產(chǎn)業(yè)中的熱門技術之一,其誕生標志著以低成本為核心的超級計算機服務的時代已經(jīng)來臨。云計算技術全面構建了新一代互聯(lián)網(wǎng)計算資源,為互聯(lián)網(wǎng)上的大部分高層數(shù)據(jù)處理系統(tǒng)提供必要的支持,不論是大數(shù)據(jù)和人工智能,還是其他各種應用,都離不開云計算所提供的基礎建設。對職業(yè)人員而言,核心是理解云計算技術,文章將以通俗的語言剖析云計算技術及其業(yè)務形態(tài),并簡要介紹了云計算和大數(shù)據(jù)、人工智能之間的聯(lián)系,以期幫助讀者理解云計算技術下大數(shù)據(jù)分析平臺的具體設計。
大數(shù)據(jù)是抽象概念,并沒有完整定義。目前,有關網(wǎng)站對大數(shù)據(jù)的定義為一個用于數(shù)據(jù)采集、管理以及處理,并分析數(shù)據(jù)集的軟件。與曾經(jīng)的“海量”數(shù)據(jù)相比,如今的數(shù)據(jù)流量已經(jīng)以幾何級數(shù)的速度增加,并融合了采集、分類、處理等多元操作,使得人們可以從中發(fā)現(xiàn)更多的內(nèi)在信息。大數(shù)據(jù)具有以下特征。
(1)大容量。隨著大數(shù)據(jù)的發(fā)展,目前企業(yè)數(shù)據(jù)規(guī)模已經(jīng)接近艾字節(jié)(Exabyte,EB)級數(shù)量。
(2)多元化類型。過去常常使用結構化數(shù)據(jù),其在存儲上有一些優(yōu)點。例如:組件程序之間可以更好的協(xié)同工作,共享同一個文件夾;數(shù)據(jù)可以通過磁盤文件系統(tǒng)統(tǒng)一管理。目前,圖像和視頻等數(shù)據(jù)正逐步發(fā)展為非結構特點[1]。同時,由于數(shù)據(jù)種類的差異,處理信息的技巧有了更高的要求。
(3)價值密度過低。多數(shù)數(shù)據(jù)具有較高的固有價值,而大數(shù)據(jù)本身并不具有較高的價值密度,因此處理海量信息可以得到更多具有實際作用的數(shù)據(jù)。
(4)高速化。與傳統(tǒng)的數(shù)據(jù)挖掘方法相比,大數(shù)據(jù)技術對數(shù)據(jù)的處理要求更高,因此處理數(shù)據(jù)的效率對決策效果產(chǎn)生直接影響。具體應用時,應該基于數(shù)據(jù)的特征選擇處理形式,或有效整合各種數(shù)據(jù),顯示對應的結果。
此外,云計算的顯著特征是規(guī)模龐大、虛擬化以及可擴展。其服務種類包括以下3 項:一是可以在服務結束后,打包各種基本的資源,如Amazon EC2/S3 云服務、硬件設備等,并將基礎設施提供給用戶使用;二是能夠將抽象的信息物質化,為使用者創(chuàng)造一個類似于谷歌Enjine 軟件的運行平臺;三是針對性的軟件,例如Salesforce online CRM 軟件可以包裝一些特殊的功能。
對于云計算機理而言,可以使用Web Services 作為使用者互動界面的存取界面,實時獲取使用者的需求;使用服務目錄作為使用者的服務清單。該系統(tǒng)的管理接口可以有效調度現(xiàn)有的資源,確保網(wǎng)絡的負荷平衡[2]。
設計研發(fā)大數(shù)據(jù)分析平臺的過程中,首先要考慮的是如何有效地存儲數(shù)據(jù)。由于大數(shù)據(jù)技術的特性,需要以分布式的體系架構為基礎,構建一個能夠滿足用戶多元化、個性化需求的分析平臺,從而實現(xiàn)數(shù)據(jù)采集與處理的多樣性。構建分布式文件系統(tǒng)時,除利用好系統(tǒng)中已有的各種資源之外,可以利用其他的一些可靠方式來檢測數(shù)據(jù)信息,以便能夠滿足用戶多元化的要求。由于大數(shù)據(jù)中存在大量的信息數(shù)據(jù)以及各種形式的文件圖片,且大量的信息存量都屬于半結構、非結構類型,為有效地處理這些信息數(shù)據(jù),需要構建一個性能可靠的存儲模塊。目前,相關行業(yè)還沒有標準化描述鍵值、圖表類型的數(shù)據(jù)存儲,因此此處構建的存儲模型包含了該類型的數(shù)據(jù)存儲,用數(shù)據(jù)庫的方法管理鍵值和圖表數(shù)據(jù),從而滿足現(xiàn)代的互聯(lián)網(wǎng)技術的要求。同時,與常規(guī)方式的數(shù)據(jù)庫建設相比,該模型省去了申請應用過程,有著顯著的優(yōu)點。
互聯(lián)網(wǎng)技術快速發(fā)展的背景下,將會產(chǎn)生越來越多的匯集數(shù)據(jù),因此要想提高數(shù)據(jù)采集和存儲的效率,就必須高效跟進數(shù)據(jù)發(fā)展。使用遠程內(nèi)存訪問協(xié)議技術,可以明顯提高數(shù)據(jù)計算的效率和品質,同時可以有效處理存儲需求耗費過大的問題。滿足應具備規(guī)范的數(shù)據(jù)采集方法比較豐富,通過構建數(shù)據(jù)流處理系統(tǒng),可以提高數(shù)據(jù)采集的效能,從而有效減少成本,最大限度地體現(xiàn)信息的價值[3]。
大數(shù)據(jù)分析平臺集云計算、分布式、存儲等多種能力于一身,提高了信息數(shù)據(jù)的處理速度和質量。云計算數(shù)據(jù)處理一體化平臺的體系架構分為3 部分:一是頂層,其作用是接口子系統(tǒng)處理工作流;二是中層,其作用是數(shù)據(jù)預處理;三是數(shù)據(jù)中心層,其作用是數(shù)據(jù)存儲。
一個Segment 主機通常會有多個節(jié)點,采用互聯(lián)網(wǎng)技術整合、連接Segment 主機、Master 主機以及相應的數(shù)據(jù)庫。整個系統(tǒng)的運作中,各存儲節(jié)點沒有發(fā)生任何的數(shù)據(jù)交互,相應的工作狀況也通常獨立,因此只能利用Master 的有關功能,讓整個Segment 主機與其數(shù)據(jù)庫之間建立起信息交流,且所有的應用程序都要利用Master 主機設定的權限,順利存取有關數(shù)據(jù)信息。各節(jié)點在Segment 服務器中的運轉有著同樣的工作任務,通過網(wǎng)絡媒介將各節(jié)點高效地聯(lián)系在一起,從而構成一個完整的服務器系統(tǒng)。
非交互的信息平臺體系結構中,為使該體系能夠在線操作數(shù)據(jù),需要對數(shù)據(jù)庫、主機存儲區(qū)域網(wǎng)絡(Storage Area Network,SAN)/共享硬盤、硬盤SAN/網(wǎng)狀通道(Fibre Channel,F(xiàn)C)網(wǎng)絡進行特殊設計。該設計方式適合于小型的信息數(shù)據(jù)查詢。在非交互數(shù)據(jù)平臺的運作體制下,可以將客戶的信息詢問要求劃分為多個過程,并在一個完整的簇中進行統(tǒng)一的分析和計算,客戶的所有信息和數(shù)據(jù)要求都可以在基于因特網(wǎng)的高帶寬運作體制中迅速地得到滿足。該架構不僅結構簡單,而且獨立節(jié)點和硬盤之間都有一條可以讓所有節(jié)點單獨工作的高速信道,為高效、高質量地處理數(shù)據(jù)提供強大的數(shù)據(jù)支撐和安全保障。完全共享性架構如圖1 所示。

圖1 完全共享性架構
基礎設施即服務模式(Infrastructure as a Service,IaaS)中,用戶不必為其所需要的基礎設備支付高昂的費用,可以以租賃的形式,利用云計算服務商提供的服務器、存儲資源、網(wǎng)絡資源等,自行設定操作系統(tǒng)以及安裝運行軟件。此外,IaaS 云具有以下7 項基礎特性。
(1)資源抽象。資源抽象模式可以高效地分配和管理網(wǎng)絡中的資源流向。
(2)資源監(jiān)控。監(jiān)測整個網(wǎng)絡資源,可以確保網(wǎng)絡底層的設備高效運轉。
(3)負載管理。控制申請負載,不僅可以提高應用程序對緊急事件的反應能力,而且可以提高系統(tǒng)資源的利用率。
(4)數(shù)據(jù)管理。云計算中,IaaS 模式最根本的需求就是數(shù)據(jù)的完整性、可靠性以及可管理性。
(5)資源部署。將資源從創(chuàng)造到利用的全部過程實現(xiàn)自動化。
(6)安全管理。IaaS 安全管理的首要目的就是要確保合法存取、保留IaaS 架構及其所提供的資源。
(7)計費管理。基于精細的收費管理方式,方便用戶更加靈活地應用資源[4]。
該項技術的原則是通過使用多層次的分類方式,管理隸屬于平臺的身份信息,加密信息權限的接入設定。當數(shù)據(jù)操作員存取使用者的信息時,該技術可以使系統(tǒng)自適應記錄,并快速處理。工作人員可以解析操作痕跡,以確保使用者在存取數(shù)據(jù)時的安全。
訪問安全技術的存儲審計通常包含2 項流程:一是在訪問接入用戶大數(shù)據(jù)平臺前,必須進行接入認證,即一般性證書頒發(fā)機構(Certificate Authority,CA)認證技術,該技術是較核心的網(wǎng)絡信息保護部分,只有經(jīng)過認證的訪問者才可以使用該架構系統(tǒng);二是進入該平臺的安全體系后,使用者需要通過認證進入監(jiān)測模塊,平臺系統(tǒng)以用戶的身份和授權的有關情況為依據(jù)作出響應,確定用戶能否獲得某種資源。進入監(jiān)測模塊也具有多元的認證方法。其中,雙因子主要指利用加密和數(shù)字證書、數(shù)字簽名、指紋虹膜等特性中的2 項相融合的方法,來完成對用戶的身份認證方法,是目前最簡單、最容易實現(xiàn)的一種身份認證技術。
本系統(tǒng)采用口令機制實現(xiàn)對技術的授權與登錄操作,并通過雙因子身份認證登錄大數(shù)據(jù)分析平臺。同時,以計算機網(wǎng)絡作為中介的新型互聯(lián)網(wǎng)技術,利用數(shù)據(jù)行為審核分析機制,分析用戶的接入紀錄和權限,并利用數(shù)據(jù)庫審計的方法,高效地即時記錄互聯(lián)網(wǎng)上的數(shù)據(jù)庫活動,進而提升數(shù)據(jù)庫的運行行為的規(guī)范化以及審核工作的整體性。此外,功能完善的數(shù)據(jù)庫信息系統(tǒng)在遇到風險異常的情況下,會自動開啟告警,并迅速地阻斷危險行動。通過數(shù)據(jù)庫審計,可以從內(nèi)部和外部2 方面強化對數(shù)據(jù)庫網(wǎng)絡信息的行為記錄,從而更好地提高數(shù)據(jù)庫信息資產(chǎn)的安全性,該行為機理是對審計用戶進行數(shù)據(jù)訪問與解析的一種有效方式。
在云計算融合于大數(shù)據(jù)分析平臺應用階段,Master 主機將保存最原始的信息,每個節(jié)點上的Segment 主機功能是保存用戶圖片,通過鏡像技術處理多個差異性Segment主機,進而保存鏡像數(shù)據(jù)。因此,如果Segment 服務器在運行過程中發(fā)生故障,那么負責鏡像數(shù)據(jù)保存的Segment 服務器可以將自己保存的鏡像數(shù)據(jù)恢復到原來的數(shù)據(jù)庫系統(tǒng)中,從而有效保障數(shù)據(jù)安全[5]。
為保障平臺的安全穩(wěn)定運行,服務器的選擇應當標準。為保證系統(tǒng)的運轉效果,本次設計使用的是X86 的公開結構個人計算機(Personal Computer,PC)服務器。該服務器有著十分顯著的優(yōu)點,不僅可以迅速、安全地分布存儲數(shù)據(jù),而且可以高效、穩(wěn)定地統(tǒng)一處理海量數(shù)據(jù),甚至能夠出色解決復雜棘手的輸入/輸出(Input/Output,I/O)問題。
可以通過利用外部表進行比較簡單的處理來更新數(shù)據(jù)流結構化查詢語言(Structured Query Language,SQL),該處理具有很大的優(yōu)勢,可以進行平行加載,加載的最高速度通??梢赃_到4.5 TB/h。
隨著我國互聯(lián)網(wǎng)信息技術的飛速發(fā)展,大數(shù)據(jù)技術已經(jīng)在各產(chǎn)業(yè)領域得到了廣泛應用,而隨著新技術和新方案的不斷涌現(xiàn),以大數(shù)據(jù)為中心的制造服務也不斷推向市場。文章分析闡述了云計算技術構建的大數(shù)據(jù)分析平臺的可用性,嘗試建立了一套分析平臺,該平臺可以有效、精準地處理結構復雜、關聯(lián)度高的信息數(shù)據(jù),同時該設計方式可以很好地處理拍字節(jié)(Petabytes,PB)級的數(shù)據(jù),為提高信息資料的處理效率和準確度提供了有力的保障,對建設基于云計算的大數(shù)據(jù)分析平臺的企業(yè)而言是一個極佳選擇。