申劍
摘要:隨著社會的發展,大數據時代終于到來,在大數據的幫助下,社會生活都得到了極大的優勢和幫助。而眾多的數據信息需要有科學的存儲技術作為支撐,通過各種先進的方式進行存儲與獲取,從而更好地處理和分析大數據帶來的多樣信息資源。大數據的來源是各種各樣的,比如大數據有不同的頻率和量,大數據的速度類型與真實性也各不相同。需要我們在存儲大數據的過程中,涉及到更多方面的維度,從而更好地治理大數據,保證大數據的安全性。構建合適的大數據分類模型需要更完備的解決對策,結合重多因素進行處理與分類。
關鍵詞:大數據;存儲技術;分類模型構建
在大數據時代下,在不同的渠道中得到的原始數據往往沒有一致性,而且數據的結構比較混雜,數據的量也在不斷地增長,導致單機系統的性能不穩定逐漸下降,不斷提升硬件配置無法保證數據的增長速度。導致傳統的大數據存儲技術沒有可行性。大數據技術是通過非傳統工具進行的對大量數據展開結構化處理,并構建半結構化和非結構化的數據模型,從而保證其分析和預測的數據結果更加準確,有更完善的存儲技術,本文針對大數據存儲技術的分類模型構建進行了分析探討。
一、大數據概述
大數據的數量非常巨大,而且比較難以收集和處理,有很難分析的數據集。在傳統基礎設施中無法得到長期的保存,企業中IT基礎設施的規模也比較龐大,因此,業內對大數據分類存儲技術的應用有非常的期望,其中的商業信息積累越多其帶來的價值就會越大。因此,需要技術人員把數據帶來的價值挖掘出來。在大數據存儲分類模型構建技術的增長下,逐漸產生了很多獨特的架構,也加快了大數據的存儲和計算技術的發展。處理大數據存儲需求是一個比較新的挑戰。往往大數據的硬件發展需要軟件推動。因此,我們可以明顯的分析出,大數據存儲分類模型應用的需求正在影響數據的存儲和基礎設施發展。然而在不同的角度出發,這對于存儲商與其他的IT基礎設施廠商也是一個新的機遇。隨著大數據的存儲結構化和非結構化,大數據的數量有了持續性的增長,分析數據的來源也會更加多樣化。在這之前,人們對于存儲系統的設計并不能滿足大數據應用的要求。存儲商意識到后,就會修改存儲系統的架構設計,從而更好地適應新的要求。
二、大數據存儲技術分類模型構建意義
大數據存儲技術是大數據領域的另一個關鍵數據,人們利用分布式存儲代替集中式存儲,用更廉價的機器代替之前昂貴的機器,讓海量存儲的成本大大降低。從Bigtable開始各式各樣的存儲引擎如雨后春筍興起,以下就是幾個極具代表性的大數據存儲引擎。
大數據存儲的目的是要利用大數據存儲器將收集到的數據有效存儲起來,建立一個比較完善的數據庫,再通過大數據的管理與調用,從而保證大數據得到存儲和管理。大數據存儲技術的研究重點是大數據的結構化、半結構化和非結構化的大數據,從而展開管理和處理。讓大數據實現存儲表示,可以有可靠的處理與有效的傳輸等等。從而對大量的文件進行存儲和管理,把小文件有效存儲和索引管理,讓系統有可擴展的可靠性。Web 數據可以滿足大數據的存儲,使大數據處理技術有更加廣泛的了解和應用,并開發出更多的大數據開源工具。大數據存儲技術是大數據領域的關鍵數據,可以用分布式存儲技術代替集中式存儲方法,用價格低的機器取代價格高的機器,存儲成本就會降低。除此之外,使用LSM技術,還可以讓數據性能得到大幅度的提高。
三、大數據分類模型構建建設方案
互聯網領域中包含了大量的數據,而且業務要求的時效有較高的要求,很多都是實時要求。互聯網行業帶來的業務有比較頻繁的變化,和傳統行業不同的是,使用自頂向下的方法可以建立永久的數據倉庫,新的業務也可以在短時間內融入到數據庫中,老業務方便從現有的數據庫中下線。
1.數據庫的分類模型構建架構
數據源是數據的主要來源,互聯網公司的數據來源于公司不斷擴張的規模,會有遞增的趨勢,也會有不同的業務源。數據系統的數據表往往會單獨存儲一份,稱之為ODS層,是維度建模生成的事實表與維度表層加工數據的來源,也是ODS層存儲歷史增量的數據或全量數據。數據倉庫匯總層是數據倉庫的主題內容。DWD和DWS層的數據是ODS層轉換加載生成的,它們往往是維度建模理論構建成的,通過一致性維度保證子主題有一致的維度。把DWD和DWS的明細數據進行匯總,再把結果同步到DWS數據庫的各個應用當中。數據采集的任務是將數據從數據源中清洗或存儲。首先做sdk埋點,再實時采集訪問數據,簡單清洗之后存入hdfs。數據存儲是在企業擴張規模之后,大公司產生的數據數量可以達到PB級,以往的數據庫無法滿足其存儲要求。在離線計算的過程中,并沒有較高的實時性要求,Hive一般是首先選擇的方法,有比較豐富的數據類型與內置函數。ORC/PARQUET文件存儲格式的壓縮比比較高,比較適合SQL支持,Hive基于結構化數據基礎上,會比MapReduce的統計分析更加高效,SQL能夠完成需求,開發MR要上百行的代碼。在實時計算的過程中,flink是比較好的選擇,目前基本上都是支持java的。數據同步是不同數據存儲系統間進行數據遷移的,hdfs上的業務與應用往往會由于效率低的原因無法從HDFS上直接獲得數據,需要把hdfs上的數據統一匯總,然后才可以有數據同步,Sqoop往往很繁重,需要啟動MapReduce訪問業務數據庫。HBASE的數據往往是添加式,對頻繁改動的數據有多個副本,無法合理維護數據。
2.維度建模
維度建模是用于分析型數據庫和數據集市建模的一種方法。往往會涉及到維度和事實。維度是維度建模過程的基礎,在維度建模時要把度量作為事實,把環境作為維度,維度可以分析事實中的多樣環境。在分析交易的過程中,要通過買家和賣家等維度,對交易的環境進行描述。事實是數據存儲分類模型構建的核心,會圍繞業務的過程進行設計,獲取描述業務過程,從而表達業務的過程,包括引用的維度的度量。事實表中用來記錄表達的業務細節是粒度。粒度一般有兩種表述方式,維度屬性組合表示細節的程度和具體業務的含義。
維度建模包括星形模式,是星形模式中比較常用的建模方式,星形模式的維度建模由事實表與維表組成,維表只與事實表有關系,和維表之間并沒有一定的關聯。而維表的主碼都是單列,而且主碼會放置于事實表當中,是兩邊連接的外碼。事實表圍繞核心呈現星形的分布方式,雪花模式是星形模式的擴展,維表可以向外連接多個子維表。星形模式當中維表的雪花模式比較大,不滿足規范化的設計要求。雪花模型相是把星形模式的大維表拆分為小維表,從而可以滿足規范化的設計要求。這種模式在實際應用過程中并不多見,往往會導致開發有比較大的難度,數據也會比較冗余。星座模式是星型模式的擴展,維度空間內的事實表并非一個,維表可以被多個事實表用到。在業務后期的發展階段,大部分數據分類模型構建都會用星座模式。
結語:
綜上所述,大數據存儲與管理的技術對整個大數據系統都至關重要,數據存儲與管理的好壞直接影響了整個大數據系統的性能表現。大數據存儲技術分類模型構建是綜合性的技術。如果該企業有比較復雜的業務時,需要專門團隊和專業業務人員進行共同合作,從而才可以完成。因此,構建優秀的大數據存儲技術分類模型構建一定要有堅實的數據倉庫,也要有建模的技術,同時還要對現實業務進行清晰透徹的理解和分析。除此之外,大數據分類模型的架構并非技術越多越好的,而是要能夠滿足相關的需求,將其化繁為簡形成一個穩定的模式。
參考文獻:
[1]陳良臣.大數據存儲安全的關鍵技術研究[J].集成電路應用,2021,38(11):46-47.
[2]汪洋.大數據時代計算機軟件技術應用研究[J].智慧中國,2021(10):88-89.
[3]趙蓮蓮,張蕊.大數據背景下計算機信息技術的應用[J].黑龍江科學,2021,12(20):96-97.
[4]張宇宏,張俊玲,楊延嵩.大數據存儲技術分類模型構建[C]//中國計算機用戶協會網絡應用分會2020年第二十四屆網絡新技術與應用年會論文集.[出版者不詳],2020:32-36.
[5]史虹,鄧紅霞,曹曉葉.采用云計算的數據挖掘技術可視化教學與實驗方案[J].實驗室研究與探索.2021(01):89-90