毛文彬
摘 要:隨著云計算、物聯網等信息技術的飛速發展,異構數據源越來越多,數據信息量在飛速增長,數據的類型也復雜多樣,不僅使得信息系統規模日益龐大,也導致海量非結構化數據管理復雜、異構數據存儲利用率低下、資源不易擴展等問題。
關鍵詞:大數據;云存儲
1 大數據的特點及存儲要求
海量非確定性異構數據產生的原因復雜多樣,在應用中也具有新的特點:隨著各種應用規模及領域的擴大,數據量會呈現爆炸性增長及海量數據存儲的趨勢和特點;在非確定數據的典型應用中數據源很多,數據種類也繁多,數據資源具有異構性特點;數據還呈現數據塊大小、數據類型和數據訪問方式等不確定的特點;云計算、物聯網等應用的不斷豐富,數據產生、應用、訪問方式十分復雜,還使得數據具有時效性和空間性,高頻度訪問和高并發的特點。
非確定數據應用中的海量數據對數據的存儲體系結構帶來了很大的挑戰。首先,海量數據的組織必然采用分布式數據組織與管理策略,這需要實現適合于非確定數據應用的(元)數據和數據組織方式;其次,由于海量數據是通過持續增長積累而成,而積累的過程需要很長的時間,因此需要存儲支持可保證規模與性能同時擴展的存儲組織模式以及相應的索引機制。
針對海量不確定性數據,使用基于傳統的信息存儲結構和對象查詢方法的實際運行效率呈現下降趨勢,因此必須采用新的元數據組織結構和查詢方法來提高效率,為用戶提供高性能的多并發數據查詢服務。
由于在分布式環境中,數據源分布在不同的網絡結點,這就存在網絡傳輸性能低的問題。而各個數據源有很強的自治性,它們可以自治地改變自身的結構和更新數據,這就會給數據集成系統的一致性帶來了困難。由于數據存在非確定性,針對海量非確定性異構數據的集成工作將變得更為復雜,可以采用分布式并行處理技術實現計算資源和存儲資源的全局最優化的管理。
數據的海量性、非確定性以及異構性為傳統的數據挖掘算法提出了挑戰。由于數據的異構、海量、分布性和決策控制的實時性,需要調整數據挖掘引擎的布局及多引擎的調度策略。結構化或者非結構化數據都涉及數據的存儲、管理(索引、并發、一致性、查詢等)等,這是因為用戶對大數據使用方面的要求(對海量非結構化數據查詢仍然要準確和快速),導致對數據邏輯結構和物理存儲方式的新要求。
2 面向大數據的分布式系統關鍵技術
2.1 分布式文件管理技術
在大數據應用過程中,傳統的數據存儲和管理技術已經無法滿足需求,因此,諸多科學工作者對其文件管理技術進行了研究。2010年,馮幼樂等人在文件管理系統中提出了CEPH動態元數據管理技術,該方法可以有效地改進異構元數據服務器和網絡延遲較大時存在的問題,提高文件管理系統的使用范圍和性能。方君等人詳細的分析了國外分布式文件系統的研究和應用現狀,開發設計了一個較好的分布式文件系統K-DFS,該系統可以解決大數據中多存儲節點訪問和同步的問題,實現負載均衡,避免部分數據集中于少量存儲服務器中,使用冗余存儲技術,保障遠程文件的安全性,防止存儲節點因宕機導致文件丟失,更好的提高了文件系統的高安全性,并且該系統已經在金融數據分析、電信數據分析和網絡電商數據分析中得到了廣泛的使用。目前,文件系統已經在實際應用中得到了廣泛的發展和進步,尤其是具有海量用戶和數據存儲訪問的互聯網企業中,比如Google提出了GFS文件管理系統,該系統集成數據文件地管理、存儲和應用,并且構建過程中服務器較為廉價,同時具有極強的可擴展性,數據被存儲于不同的服務器中,通過關聯鏈接、分塊存儲、追加更新等技術保障文件管理系統的正常運行和傳輸,同時引入了緩沖層、內存加載部分元數據等新理念,提升了文件管理系統存儲和讀取的效率,促進大數據文件管理步入集群管理階段,有效的提高了分布式文件管理系統的應用效能。
2.2 分布式數據處理技術
大數據應用系統中,信息處理方式包括兩種,分別是批處理方式和流處理方式。批處理方式是指將待處理的邏輯事務執行存儲操作之后,再對其實施業務處理操作,因此批處理方式可以使用某種分割方式,將數據分割為不同的數據塊,這些數據庫邏輯獨立,其可以在不同的終端上操作執行,增強了大數據系統中共享服務資源的優勢,淡化了數據之間的關聯關系,有效的提升了數據的集群性、可調度性,目前,批處理方式應用的難點和關鍵是數據的分割、分發和實時處理。流處理方式將用戶需要的海量數據看做是一個不間斷的數據流,數據流可以實時的進入大數據應用系統中,并且能夠得到快速的響應和反饋,獲得數據處理的結果,該分布式數據處理方式極大的提高了系統的實時性,已經在許多金融數據挖掘、電信數據挖掘過程中得到了廣泛的應用。
2.3 分布式數據庫技術
傳統的數據庫技術通常采用關系型數據庫管理系統,該數據庫在大數據處理過程中存在多樣性弱、規模性小、處理過程邏輯關聯性強等弱點,提出在大數據應用系統中采用分布式數據庫管理技術,實現大數據的易用性和易擴充性,同時增強分布式數據庫管理能力。目前,分布式數據庫管理技術已經得到了廣泛的研究和應用,Bigtable技術在實施操作和管理過程中,將數據訪問信息作為字符串進行管理,并且其不直接解釋字符串的含義,使得分布式數據具有半結構化或者結構化特征,可以提高數據庫存儲類型,比如視頻數據、圖像數據、文本數據等,同樣大大地簡化了數據庫管理系統操作方法。
Dynamo技術在分布式數據庫應用過程中,采用分布式哈希表、鍵值存儲和向量時鐘等關鍵技術,實現大數據庫管理系統的高效運行和管理,推動了關系型數據庫的前進和發展。隨著智能技術的發展,分布式數據庫引入了模式識別、機器學習、神經網絡等算法,有效的促進了數據一致性、業務處理快速化。
3 云存儲在大數據存儲中的應用
針對數據的飛速發展和數據安全要求的不斷提高,如何建立安全、性價比高的存儲成為業界的普遍需求。云存儲成為首要選擇,因為它能夠根據所需容量大小對用戶進行定制,用戶不需要進行硬件的管理維護,縮減了用戶成本和人力投入。而且云存儲具有易擴容、易管理、價格低、數據安全、服務不中斷等優點。
3.1 大規模級別存儲系統的構建
大規模的存儲需要跨數據中心,跨城市、省、甚至國家進行存儲設備、存儲數據、存儲服務的組織和管理,并支持跨域的訪問、備份、容災等功能。同時大規模的存儲要求存儲提供不同等級的管理和服務權限,并按照區域、級別分配不同的權限。系統對資源的訪問必須經過嚴格的權限控制。只有用戶確認共享的資源才能被其他用戶或業務進行訪問,即使是被授權的訪問也會根據不同的權限控制方式受到訪問權限控制。
云存儲就是將不同種類的存儲設備協調起來進行工作。這些存儲設備使用的存儲介質也是多種多樣的,而且隨著技術的發展,設備種類和存儲介質種類會越來越多,如何調度這些設備和存儲介質協調工作,需要在云存儲管理軟件上考慮和優化,以保證組織好的資源被高效利用。
3.2 存儲設備在線擴展和收縮
在存儲設備的使用過程中,會遇到調整存儲資源池的需求,要求存儲資源池根據業務的需求增加或者減少存儲設備。在調整的過程中,業務不能被中斷,也不能使上層業務感受存儲資源池的變化,同時被裁剪設備的數據要在較短的時間內在其他設備上恢復、備份,并在較短的時間內完成增加存儲設備和原有存儲你設備的數據均衡。
云存儲系統要優化和調整數據組織和管理方法,即使存儲規模增加后,性能要隨之線性增加。數據變得龐大后,元數據管理要考慮中心化或多節點方式,以降低元數據管理對整個系統讀寫性能的影響。對于熱點數據支持自動的多副本復制,則會在多個存儲節點提供讀能力,以降低硬盤、網口、處理器對性能能力的限制。采用多級緩存技術,熱點數據則會先讀入智能加速卡,并由智能加速卡對外提供讀服務,在寫數據時,也是先寫入到智能加速卡,由加速卡組織分發到存儲設備上。
4 結語
隨著互聯網、移動互聯網、物聯網的發展,“大數據”逐漸成為發展的趨勢,數據產生的原因復雜多樣,在應用中也具有新的特點。隨著各種應用規模的擴大,數據量會呈現爆炸性增長的趨勢及海量數據存儲的特點。新業務環境和應用場景對海量云存儲需求越來越迫切,這需要海量存儲平臺打破原有的框架,改變組網和管理方式,滿足業務需求。
[參考文獻]
[1]王珊,王會舉,覃雄派,周烜.架構大數據:挑戰、現狀與展望[J].計算機學報.2011(10).
[2]覃雄派,王會舉,杜小勇,王珊.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報.2012(01).
[3]姜奇平.大數據與信息社會的意義結構[J].互聯網周刊.2012(12).