胡勇 內蒙古科技大學
大數據處理系統的研究進展與展望
胡勇 內蒙古科技大學
隨著計算機技術發展與計算機應用普及,數據如果對其加以利用就可以將其變為有效的資源,從而產生價值增值。數據分析與利用技術正是基于此種情況發展起來的,大數據技術的應用對社會生活的多個方面都產生了影響,已經是當下社會發展的熱點。本文就大數據處理系統的研究進展與展望作簡要闡述。
大數據處理系統 研究進展 展望
移動互聯網,移動設備,物聯網發展產生了大量數據,如何對大量數據加以利用,找到其中有價值的數據,從而為社會發展帶來積極影響,是數據分析工作者需要面對的問題。由于數據量大,因此其潛藏的價值量大,要實現對大量數據的有效利用,就需要通過一定技術,從海量數據中準確定位有價值的數據,提升工作效率,并以此推動社會向前發展。
大數據并不是近年發展的新事物,早在四十多年前,智利政府就實施了一項計劃,將各地工廠的數據傳輸到運營中心,通過對其中某些領域數據進行分析,以此來對生產活動開展情況實施監督,對經濟發展情況進行預估。該模式與當下大數據模式相似。由于當時的技術條件無法為工作開展有效的服務,因此工作開展的效果也不是特別明顯。后來有科學家在研究工作首次提出了大數據這一概念,在當前對于大數據其定義也不相同。數據量需要達到一定的規模,并且利用傳統方法無法對其進行有效管理與利用。在發展的過程中逐漸變成了一個十分寬泛的概念,包含了數據采集,歸納,整理,分析等一系列環節,以及工作開展所應用到的手段,技術與方法。
大數據處理系統類別非常多,因此其分類方法也比較多,未能得出統一公認的方法。比如可以從數據類型與負載類型兩個角度對其進行分類。
從負載類型方面對其進行分類,可以將系統分為流式計算,批處理,交互式查詢。批處理重點在于系統數據處理的量,而流計算則注重于產品時效性,能夠在較短時間內完成工作。
從數據類型方面來分,系統能夠提供表,圖,集合,矩陣不同數據抽象,通常情況下一個編程框架只能夠解決某一類型問題,不具有普通適用性。對編程框架進行分類,批處理能夠有效適用于多種數據類型,其研究領域也最為寬泛。交互式處理則主要針對關系型數據。
某些編程框架可以將其歸結到數據流模型,該模型利用有向無環圖表達計算,頂點表示計算任務,數據依賴則利用邊來表示。
實際式作中通常會有大規模圖計算分析的需求,比如互聯網網頁所形成的圖,頂點規模可以達到千億級別,針對此類型分析和挖掘工作須借助于大規模集群才能夠有效完成。圖數據結構不規則,由此會導致其訪問的局部性差,現實工作中許多圖都與冪律分布相符合,頂點分布不均勻,通過邊與其它頂點發生聯系的頂點非常少,導致數據圖難以切分均勻,從而會導致機器負載不均,風絡通信開銷量大等問題,對計算機整體運行效率造成嚴重影響。
大圖分割作為圖計算基礎性問題,圖數據切分可以應用兩種方法,切點與切邊。采用第一種方法,切割線只能通過圖的頂點,如果利用該方法將頂點切割成兩份,則意味著頂點會出現在兩臺機器上,并且是同時的,機器間的網絡通信量會明顯減少。由于算法迭代需要持續對圖頂點值進行更新,頂點數據進行一致性維護會對通信開銷造成影響。如果利用切邊法,則只能通過圖的邊。
大數據時代,受到處理器與內存條件限制,傳統單版機器算法無法對海量數據進行處理,分布式機器學習就成為了研究領域關注的重點,機器學習算法應用的是迭代計算,從而在巨大參數空間中尋找到最優解,但是其計算特點會對機器學習帶來嚴重挑戰。主要體現在并發問任務存在并且數量眾多時,由于其它影響因素存在,執行速度會產生影響,負載不均衡會導致其影響到整體工作效率。
大規模深度學習在實際工作中應用取得了巨大成功,尤其是在圖像識別與語音識別方面,深度學習通過深層神經網絡對大腦工作原理進行模擬,其組成包括了輸入層,隱含層,輸出層。
大數據處理系統研究工作雖然已經取得了一定成果,但是仍然存在許多方面需要進一步探索,技術還未能達到成熟階段。在未來發展過程中,大數據處理系統研究工作要關注的重點問題包括,異構硬件平臺,串行代碼自動化并行,現有的編程框架提供了標準數據操作接口,程序員編寫接口,底層系統執行代碼,與傳統編程方式存在較大差異。大數據處理技術多樣豐富,但是也對實際應用工作帶來了一定難度,全能通用型計算框架基本不存在,因此需要多種編程框架協同工作才能有效完成任務。
大數據處理正處于快速發展過程中,并且其應用于生活實際產生了巨大的價值。大數據處理系統與處理技術一樣處于發展的過程,雖然已經取得了一定成果,但是在未來仍然需要結合到實現情況變化解決不斷出現的新問題。
[1]王鵬;張利.大數據處理系統的研究進展與展望[J].高技術通訊,2015(Z1)
[2]李曉飛.基于云計算技術的大數據處理系統的研究[J].長春工程學院學報(自然科學版),2014(01)