柳秀清
(西寧市教育科學研究院,青海西寧 810000)
云計算是一項在科技時代的影響下形成的新技術,它能夠儲存海量的數據,為用戶提供按需分配的計算能力,改變用戶使用計算機的方式。云計算的核心是為用戶提供海量的數據儲存和高效率的計算,使用戶能夠方便的管理數據和資源,合理進行資源分配。云計算需要許多其他技術的配合,云計算的海量分布式儲存能夠為用戶提供長期保存數據服務,其數據管理和并行計算的能力都是為用戶提供了巨大的方便,加快了經濟的發展。
在20世紀60年代的時候,麥卡錫就提出“將計算能力作為一種像水和電一樣的公用事業提供給用戶”的理念,被人們認為是云計算的思想起源。網格計算、公用計算、虛擬化技術、SOA、SaaS應用為云計算提供了有力支持,云計算這種新興的資源使用和交付模式漸漸被人們所熟知。云計算的出現為信息時代的各行業發展創造了廣闊的前景。云計算顛覆以往的行業模式,被看作第三次IT浪潮,為中國的戰略性新興產業注入了新的活力,加快了現代社會發展的腳步。在未來,云計算必將使人們的生產和生活方式發生巨大的改變,成為全社會關注的焦點[1]。
數據管理技術具體指對數據進行收集、組織、存儲、加工和利用等一系列活動過程的總和,數據管理技術主要的發展階段有以下幾個。
在計算機尚未問世之前,人們利用紙張記錄、利用計算工具進行計算,通過這些常用的手段對數據進行記錄、存儲和分析,大部分的數據管理都是依靠人工而得到的。20世紀50年代中期,科學計算可以開始依靠計算機,但是直接存取設備并沒有研究出來,只能依靠紙帶、卡片、磁帶等將數據進行存儲,當時的計算機沒有操作系統,各種軟件更是沒有,只能以批量處理的方式對數據進行簡單處理。
計算機系統在20世紀60年代左右才開始出現,軟件和硬件隨之迅速發展起來,磁盤、磁鼓等可以進行直接存取的設備被廣泛使用,這一時期主要是將計算機中的數據進行組織,組成獨立的被命名的文件,通過文件名對數據進行訪問,存取文件中的記錄。文件系統中的數據能夠在計算機上長期保存,并且可以反復處理,方便了人們對數據進行查詢、修改與刪除等操作。遺憾的是,文件系統在記錄內做到了結構化,但文件在整體上看并沒有結構,整個系統缺少靈活性,其內部儲存的數據只能與特定的程序相對應,數據無法做到獨立,不能與其他用戶共享,同時冗余度大,十分不利于管理和維護。
計算機的性能從20世紀60年代后期開始,有了巨大的提升,大容量磁盤開始出現病得到了廣泛應用,存儲容量有了很大的提高,并且價格降低,為數據庫的出現提供了條件。數據庫滿足了實際應用中多用戶、多程序共享數據的需要,使有限的數據能夠在更多的程序上發揮價值,數據的利用率大大提高,解決了文件系統管理數據的短板。數據庫的特點是,數據不再僅僅只針對特定的一個應用,可以面向全組織,在整體上具有結構性,能夠共享,進行統一的控制,冗余度減少,在一定程度上應用程序和數據可以存在獨立性[2]。
云計算能夠對海量的數據進行分析,數據管理技術能夠對大量的數據進行管理。目前云計算的數據管理技術主要有亞馬遜的 Dynamo,Google的 GFS、Big Table、Map Reduce。
Dynamo存儲系統的適應度非常高,這項技術只支持底層技術,不能在外網體現,并且融合了數據庫和DHT的特點,便于存儲,保護數據的安全。Dynamo技術能夠均勻的將數據存儲于環內,且每個節點互通,可以在環內自由轉發數據,具有很高的靈活性,同時節點相互之間進行故障探測,有很強大自我管理能力,故障率非常低。Dynamo技術最主要的優點是,能夠提供三個參數,分別是副本的個數、數據讀取后的成功性和一致性、成功記錄的個數,它能夠記錄不同版本的數據,并加以分析、處理,對數據進行有效的整合利用。
客戶端、主服務器、數據塊服務器是GFS的三個技術節點,客戶端專門用于客戶訪問程序,直接運用庫存數據,不需要特定的文件系統規范,用戶訪問程序時庫函數可以直接向程序提供數據,并將GFS和庫直接相連;主服務器是GFS技術系統控制著整個系統的運行,同時將數據保存,是系統中唯一的管理節點;數據塊服務器可以有很多個,其數量直接體現GFS系統的存儲能力,文件被分成數據塊,每個的大小為64 MB,有對應的編碼。
Big Table技術將所有數據看作一個整體,對其進行分析,自動生成一個巨大的表格,它能夠對海量的數據進行存儲和分析,很多產業都用它對數據模型比較大的應用進行設計。Big Table是由時間節點和行列關鍵字組成,數據在單元格中形成字符串,將所需保存的頁面內容存儲下來,如果文檔內部有一列標題和文本,可以將對應文檔進行快速定位,還可以在文檔內生成超鏈接,隨意修改文檔內容,便于工作。
Map Reduce技術的特點是能夠將云端的數據高效利用,在Map Reduce中,所有操作都被抽象為兩種操作,map和reduce。通過map函,可以對任務進行分解,從而使其適合在單個節點上進行計算,最終處理的結果形成一個“值/對”集。reduce函數運用預先制定的規則,將map運算得到的“值/對”集進行歸并,最終得到結果。Map Reduce技術的最大優點在于可以按照需要對海量異構數據進行處理,允許多個節點靈活調度,實現了計算和存儲資源的最優化管理[3]。
云數據管理技術運用了分布式系統,GFS技術在組織管理中最為常用,可以在普通硬件中有效完成組織管理,在云計算技術中,GFS技術可以提供容錯功能,提高了高效性和可靠度,從而使數據并行問題變得更加簡單。GFS技術可以形成大型的存儲模塊,將云計算的海量數據有組織的存儲起來,便于云數據管理技術的操作,同時為用戶訪問提供專業的接口,與云數據相連接。
云計算中,云數據的集合管理至關重要。云計算的數據具有動態化、海量性的特點,在分布式數據分析的過程中需要注意數據的集合管理。Big Table技術能夠直接對海量數據進行處理,提高云數據的集合管理質量。集合管理保證數據以集合的方式運行,有效提高了云計算的水平。
分布處理能夠發現數據的可應用價值,為云計算提供了數據挖掘的有效途經。在云數據管理中,利用分布處理技術可以實現數據信息的自動分解,通過映射、化簡處理,利用節點位置將數據有效存儲起來,將云數據合理分配。用戶可以自由使用數據,提高數據處理水平[4]。
云數據管理的數據處理,是根據云計算的目標挖掘相關數據信息,為用戶提供有用的數據,之后由用戶選取數據內容。在數據處理的過程中,采用多種方式,從而能夠挖掘到更多的有用數據,云數據管理需要做到理解數據、滿足云計算的應用需求,數據處理及時準確。
云計算的出現讓人們眼前一亮,基于云計算的數據管理技術定會為科研的進步、經濟的發展、社會的管理提供巨大的便利。學校的教學信息比較雜亂、碎片化,同時又存在連續性,具有多維度,在數據管理過程中費時費力,錯誤率也比較高。而云數據管理技術能夠有效地解決這樣的問題,教學任務、授課內容、學生信息等所有的教學信息都可以存儲在云端,利用云計算的數據管理系統,對數據進行綜合分析,針對具體問題迅速地給出數據。
為迎合大數據時代的社會發展形勢,學校進行數據管理需要構建“大數據”管理思維,擺脫傳統學校數據管理對于紙質文檔管理形式的依賴,完善相關資料的數據管理路徑,完善學校各級管理單位的數據管理體制,將數據管理納入學校行政管理范疇內,構建多層次的數據管理體系,建立與數據管理相適應的管理平臺,云計算會將學校的數據管理環境大幅放開,重視數據網絡安全問題,也是學校數據管理工作重點,通過云計算提升學校數據管理工作效率。
基于云計算的數據管理技術能夠對海量的不確定性數據進行存儲、分析和處理,有著非常鮮明的特點,大大提高了計算機技術的發展空間。因此,提高人們對云計算下數據管理技術的認識,將云數據管理技術廣泛應用起來,有利于社會經濟的飛速發展。