王艷 蔣義然 盧秀麗
摘 要:隨著現代經濟社會實力的不斷增加,我國現代化信息技術也在迅速的發展著,主要的應用是大數據分析與計算體系架構。其中可以分為大數據分析和大數據計算兩大類。大數據分析能夠從眾多的數據信息中尋找到有用的信息,是挖掘信息的最主要的方式。
關鍵詞:大數據分析;大數據計算;架構
1 大數據分析
1.1 大數據分析基本概念
大數據分析是指對海量的數據進行分析。大數據分析是運用云計算等先進網絡和計算設備搜集、記錄、分析和預測超大規模群集現象的現代統計方法。大數據分析主要是通過高效的算法和模式分析大數據,并挖掘大數據潛藏的巨大價值。常見的大數據分析方法主要有BloomFilter、Hashing、索引、并行計算和Trie樹等。大數據分析的數據源除了傳統的結構化數據,還包括半結構化和非結構化數據。針對不同的數據源采用數據抽取、統計分析及數據挖掘等多個步驟進行分析與處理,以快速挖掘出有用信息,洞悉出數據價值。
1.2 大數據分析的基礎
Hadoop能有效地處理海量的數據,并具有存儲的能力。同時,它可以整合多臺計算機的資源,提供數據分散運算,在極短的時間內完成運算工作,自動保留數據副本,提高數據的可靠性和延展性。Hadoop分布式文件系統(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式計算處理架構(MapReduce)為Hadoop架構的兩個核心部分。Hadoop分
布式文件系統可對數據進行切割并制作副本備份,然后分散存儲于不同的計算機或服務器上,實現對數據的迅速存取。還可備份于不同的硬件,以防止數據損壞。Hadoop分布式計算處理架構即MapReduce,由Map和Reduce構成。對數據進行分散計算是Map的主要作用。整合Map計算后的結果并提供分布式的數據平行處理分析,是Reduce的主要作用。除了兩個核心部分,根據Hadoop所延伸的其他項目,現已發展成為一個生態系統。該部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大數據計算平臺現狀及存在的問題
大數據產品的主要的運作方式就是建立大數據計算平臺,大數據計算平臺主要以云計算作為硬件基礎,并將其處理能力作為總體服務框架,并對大數據進行實時計算的過程。大數據計算平臺能夠對不同種類的數據進行收集、分析、計算、存儲、處理等處理,這就使得各大企業都需要其應用,能夠對企業的內部產品進行相應的檢驗,并組為技術基礎,能夠處理相關的數據處理問題。但是在實際應用中,大數據計算平臺還存著較多的問題,主要有以下幾個方面:
2.1 平臺研發需要交叉學科知識
在進行設計大數據計算平臺時,需要參考的知識方面涉及較多。大數據計算平臺在實際應用中,所計算的數據較多,需要提高大數據的處理能力,并降低自身能源的損耗、還需要增加企業平臺自身的安全性和隱私性。所以在大數據計算平臺研發時,需要交叉學科知識共同應用,進而對其進行創新和發展。
2.2 平臺研發人才缺乏
在大數據的使用中,但是由于大數據是新出的行業,主要的研發人才還沒有及時的到位,并且相關的企業也并不重視大數據計算平臺研發,這就導致平臺的研發嚴重的缺乏人才。在
企業中,實際應用平臺搭建不完善,不能承擔大數據計算平臺的使用,所以無法對有關的項目進行處理;大數據技術還處在發展階段,很多軟件都是開源的,所以在進行應用時缺乏相關的安全性。
2.3 技術環境不統一
目前大數據技術開發的環境主要集中在GitHub為主的開源社區內,其余的開發環境都是小眾的,所以這就使得大數據計算平臺開發環境不統一。雖然可以根據用戶的實際使用情況進行選擇不同的平臺,但是在開發應用中,卻無形的提升了研發成本。
3 大數據計算體系架構
3.1 大數據計算系統大數據計算系統主要采用的設計方案較多,其中所涉及的技術有軟件分層化、技術復雜化等,還依賴于較多的實際應用。但是在實際的系統建設中,主要分為三個基礎系統,分別是數據存儲系統、數據分析系統和數據分析系統。大數據的計算不僅涉及到算法的應用,還應用了較多的數據分析技術。
3.2 大數據計算采用的方法和技術在大數據計算中所采用的方法主要是計算機科學計算法和數學統計法,在這其中還應用數據模型計算法、數據處理法、數據安全、算法優化法、數據讀取和數據建模等方法。并且在大數據計算中采用了智能學習方法,能夠在對數據進行處理的過程中,加強對數據的處理能力,進而提升數據結果的準確性。
3.3 大數據計算總體架構在進行鋪設大數據計算總體架構時,主要是將數據儲存系統、數據分析系統和數據計算系統集合在一起,然后對數據進行整體的處理。數據儲存系統主要對數據進行收集、分析、和建模,然后對處理的結果進行存儲。而且在數據儲存系統中還能對數據進行清洗建模、數據操作的操作。數據分析系統主要包括三維建模、數據模型和算法優化方式,為大數據計算提供了數據分析能力和實際使用能力。數據計算系統主要能夠對數據進行計算,處理和分析,保證處理數據準確性。
3.4 大數據的采集在構建大數據計算體系時,需要對大數據進行收集,對數據的收集不僅僅是來源于實際的數據,還包括結構化數據和非結構化的數據。由于數據的具有非結構化的特點,所以在進行處理時,大數據的存儲系統比傳統的數據存儲要更加的復雜。并且在大數據計算體系中,能夠構建大數據采集于建模、分布式數據庫等方式來提高數據處理能力。在進行數據處理時,還需要在相關的數據庫中添加多余的一項存儲庫,能將處理后的數據進行儲存,方便后期對其調用。在構建大數據計算體系中,需要按照標準進行搭建系統,首先先建立數據層,對數據進行收集和建模,然后是建立分布式文件處理系統用來處理數據的采取,并對數據進行轉化,使其被系統所是識別。在最上層需要建立分布式數據庫,可以對數據記性存儲管理,能夠確保數據處理的穩定性。
4 結語
大數據分析是找出隱藏于數據信息中有用信息的主要方式,是挖掘有用價值信息的主要途徑,通過分析挖掘出有用信息,為科學決策提供依據。當前,大數據計算遇到了前所未有的挑戰,傳統的計算理論已經不再適用于海量數據的大入系統,政府要投入一定的資金予以支持,以此更好地保障圖書館收支平衡。
參考文獻
[1]陸杉,陳宇斌.供應鏈中大數據分析應用研究綜述[J].商業經濟與管理,2018(09):27-35.
[2]拉瑪莫哈那勞·哥達吉利.人工智能=大數據分析+機器學習+云計算[J].重慶與世界,2018(18):33-34.
[3]龍虎.大數據分析與計算體系架構研究[J].信息與電腦(理論版),2018(18):130-131+138.