張俊雷,曾祥昱,張海龍
(中國石油天然氣股份有限公司吉林石化數據中心分公司,吉林 吉林市 132000)
伴隨著互聯網技術、物聯網技術、5G 通信技術和智能終端設備等日益普及,多元化的數據呈現出幾何式的增長,每個人和機構隨時都能產生大量的數據。大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要經過新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。目前,人類已經步入大數據時代,大數據中蘊含著大量的有用信息,具有非常重要的戰略價值。若能從大數據中提取出有效信息,會對產業的發展起到巨大的推動作用[2]。大數據中心是指對大數據進行統計、分析和處理的中心機構。云計算是指能通過網絡云將巨大的數據計算處理程序分解成無數個小程序,通過多部服務器組成系統處理和分析這些小程序并將得到的結果返回給用戶的一種分布式計算。通過云計算,大數據的處理僅需幾秒鐘就可以完成。在大數據中心應用云計算,能有效提高大數據中心的運算能力和分析能力,對大數據中心建設具有重要意義。
按照不同的服務對象,云計算可以分為公有云計算、私有云計算以及混合云計算。公有云計算指的是互聯網環境下的云計算;私有云計算指的是含政府、企業、高校等在內的私有環境下的云計算;混合云計算則指的是混合了公有云計算與私有云計算的云計算服務,在混合云計算下借助數據共享、應用程序等實現了公有云與私有云的混合。
云計算能夠充分提高共享資源、重復利用資源的使用效率,由此實現IT 資源的按需分配,如資源的高度整合技術、智能決策技術、資源的虛擬化技術等。云計算的關鍵技術對基于私有云的大數據中心建設意義重大。虛擬化的技術核心是直接或間接的虛擬計算機硬件、底層設備,也就是虛擬抽象操作系統與硬件平臺[3]。借助虛擬化技術能夠使資源的利用率以及數據的整合效率得到大幅度提高。
大數據中心建設的一個核心問題是,大數據中心需要基于需求訪問計算機、計算機存儲系統,同時根據需求向實際應用進行自由轉換。云計算的關鍵就是能夠有效整合大量離散的服務器資源及計算機資源,從而使高效計算得以實現。事實上,大數據中心現階段向著動態的云計算中心進行演化,通過演化,能實現高效集中管理數據與應用,同時能夠基于云的方式直接交付各種應用。大數據中心能提供全面的SaaS 服務。因此,在大數據中心的建設過程中云計算的應用可以確保數據的安全性、可靠性,使用戶能夠輕松共享數據資源,同時降低客戶端的需求等[4]。云計算對大數據中心的建設具有非常重要的意義。
基于傳統信息技術的數據中心建設耗能巨大,能源的消耗會有大量的熱量產生,而一旦散熱不及時,就會使數據中心處于較高的溫度下,進而影響大數據中心的整體性能[5]。在大數據中心建設中應用云計算,可以提高大數據中心數據處理能力的同時,還能有效降低大數據中心的維護成本與能源消耗,降低大數據中心在運行過程中所產生的熱量,實現節能減排,保障大數據中心的安全性。
“三網融合”是指有效整合互聯網、通信網絡、有線電視網絡等。在不同通信網絡中應用云計算,能確保不同通信信道的使用效率實現最大化,進而基于統一的通信協議執行通信運營商的多通道傳輸業務,提高通信協議的兼容性,由此有助于不同通信網絡之間的資源共享,加快“三網融合”的實現進程。
傳統的大數據中心無法采用智能化的數據處理方式,無法從大數據中滿足用戶對個性化、多元化的需求。云計算具有較高的數據分析和處理能力,能夠對大數據進行自動化與智能化的處理,不但能夠滿足用戶的需求,也可以極大提高數據的處理效率。
在大數據中心建設中應用云計算是指按照云計算的運算需求,基于虛擬化技術對大數據中心的硬件系統與軟件系統進行設計,以實現在大數據中心中應用云計算的能力。基于云計算的大數據中心建設包括虛擬計算、虛擬存儲、虛擬網絡以及虛擬服務與安全等部分。基于云計算的大數據中心,任何部分涉及的資源都能夠從實際需求出發進行動態的調整[6]。借助于對云計算支持的操作系統對大數據中心信息架構進行構建,可以使大數據中心實施的效率得到提高,有助于大數據中心的擴展。同時基于云計算的大數據中心可降低運維成本,共享虛擬資源,提升大數據中心利用效率、安全性與靈活性等。
大數據中心的虛擬計算指的是把互聯網、服務器、存儲系統等物理資源向超級計算機進行虛擬,把每一個單一性能模塊都向虛擬的整體性能進行轉化,使物理設備整合性與實用性得到提高。服務器虛擬化通過VMware 軟件,可實現在服務器等硬件設備上的運行,由此在一個綜合平臺上可以滿足計算、存儲等操作,從而通過虛擬軟件功能確保不停機,保證應用系統的實時性;通過用戶坐標系統(User Coordinate System,UCS)可以取代人工計算;通過無狀態計算技術,可以使物理設備的遷移更加方便,提升大數據中心的靈活性。
存儲數據的關鍵是使架構的網絡化存儲得到實現,進而使數據統一存儲得以實現,這一數據存儲的關鍵問題可以通過虛擬存儲技術得到解決。虛擬存儲技術的實質就是借助網絡協議構建能夠支持數據、數據塊以及文件等的網絡存儲結構,構建的網絡存儲結構供服務器使用。虛擬存儲一方面使大數據中心的存儲容量得到提升,以此提高大數據中心的工作效率,使數據的存儲方式更加靈活,確保服務器的虛擬化,另一方面使大數據中心性能的瓶頸問題得到解決,實現整體存儲服務。
在應用虛擬存儲時,算法是至關重要的,常用的算法包括最近最少使用(Least Recently Used,LRU)、最佳生產技術(Optimized Production Technology,OPT)、先進先出(First Input First Output,FIFO)、最不經常使用(Least Frequently Used,LFU)等。任何一種算法均存在優點與不足,以LRU 算法為例進行說明。
對傳統的LRU 算法而言,其思路為先刪除和節點具有最近的距離同時又在很長時間內沒有被使用的頁面,實際操作就是在棧里放入一個初始化的頁面號,如果存在新的訪問,那么進入棧頂的是新訪問指向的頁面號,進入棧底是沒有被訪問到的頁面號,在不斷增加新訪問過程中,因為容量不足,就會刪除掉位于棧最下面的頁面號[7]。對傳統的LRU 算法而言,其存在以下不足。一是因為任何訪問均會導致鏈表的變動或是棧的變動,所以并發訪問的實現存在很大的困難;二是傳統的LRU 算法并不能夠準確地對棧底最近被訪問的頁面進行衡量,一旦存在特殊操作就會出現頁面的重復性訪問或者是突發性頁面訪問,就會影響準確性。基于此,要對LUR 算法進行改進。改進的LUR 算法中把經常訪問的頁面標記成“熱點頁面”,把不經常訪問的頁面標記成“冰點頁面”,通常對“熱點頁面”與“冰點頁面”進行劃分的訪問次數不小于2。改進之后,一方面能夠對具有訪問次數比較多的頁面進行保留,另一方面能夠對頁面訪問速度較少的頁面進行刪除,由此使準確率提高。
虛擬網絡的關鍵是把各種形態分散的網絡進行統一,通過技術手段使網絡的速度更快,減少網絡延時,方便網絡的管理等。與此同時,虛擬網絡可以降低大數據中心建設的網絡成本,實現對大數據中心網絡結構的優化。虛擬設備系統技術、覆蓋傳輸虛擬技術、虛擬端口通道技術等都屬于虛擬網絡技術的范疇。
基于云計算的大數據中心網絡架構、硬件均存在著不同程度的虛擬。因此,基于傳統方案的安全架構存在安全漏洞,使大數據中心運行效率與性能都受到影響。基于云計算的大數據中心建設,在技術方面需要確保數據安全可靠,采用可靠的容災技術與數據刪除技術;在服務器與應用程序方面,需要提高自動化水平來保證安全。
基于云計算的大數據中心建設能夠對硬件資源進行充分利用,提高硬件資源的應用效率,降低硬件投資成本;在大數據中心建設中應用云計算技術,在備份數據、刪除數據、更新數據、架構整個應用系統等方面都非常高效,由此使大數據中心的性能得到極大提升。