吳卉男
(貴州師范大學數學與計算機科學學院 貴州 貴陽 550001)
大數據系統和分析技術綜述
吳卉男
(貴州師范大學數學與計算機科學學院 貴州 貴陽 550001)
本文以大數據時代為背景,對大數據處理系統與大數據分析進行了有效闡述,并在此基礎上梳理了當前大數據計算面臨的問題,最后提出了相應的解決對策,旨在為提升大數據計算效率,增強系統有效性提供相應地借鑒與參考。
大數據;數據分析;深度學習
1.1 批量數據處理系統
大數據處理系統的最主要的任務就是根據大批數據分析適合的模式,并得出相關的明確含義,制定相應的策略,最后制定出科學有效的應對措施,實現特定的業務目標。大數據通常來源于互聯網、云計算等網絡平臺,可以有效解決上述平臺中出現的若干問題,并提出新的問題。對于企業來說,他們可以通過處理過程中所產生的數據進行惡意軟件或者是網絡攻擊的識別,進而可以有效判斷某些外來的信息是否為安全產品。
1.2 交互式數據處理系統
同非交互式的數據處理相比較而言,交互式數據處理具有更為靈活和直觀的特點,該系統與相關的工作人員可以通過人機對話的方式進行輸入,系統便可以自動進行數據或者信息的提示,并指導操作人員按照要求一步一步進行操作,直至最終獲得有效的處理結果。這種處理方式的使用可以方便系統中的應用信息進行有效及時的處理,便于交互方式的繼續進行。
2.1 深度學習
在大數據分析過程中,最為關鍵的問題就是如何有效地表達、解釋以及學習數據,無論何種形式的數據都具有很多種數據的表達方式,最為主要的方式就是相對比較簡單的模型,這種模型還處在低級階段,不能有效地帶來良好的學習效果。為此,深度學習應運而生。深度學習就是根據層次的構架中針對對象在不同階層上的表達來解決相對較為抽象的問題。深度學習起源于20世紀80年代,近幾年來深度學習無論是在圖像、語音還是在語言的理解等應用領域中均取得了許多有效的進展。2009年,微軟研究院的Dahl等人首次在關于語音的處理中使用了這一深度神經網絡,這一網絡使得語音在被識別過程中的正確率明顯提升,這便使語音的處理成為了在深度學習的相關應用中最為成熟的一個應用。
2.2 知識計算
以大數據為基礎的知識計算是進行大數據分析的一個基礎環節。知識計算在世界范圍內的工業界來說是一個十分關鍵的研究熱點。從目前來看,國內外共建立起了50多種相關的知識庫,有效的應用系統更是建立了上百種,其中,代表性的知識庫或應用系統有KnowItAll,TextRunner,NELL,Probase,Satori以及一些基于維基百科等在線百科知識構建的知識庫,如DBpedia。隨著大數據信息的逐步發展,針對較大規模網頁信息中所包括的知識,自動地構建知識庫這種方式已經得到越來越多人的重視與認可。面對海量知識建庫,需要根據不同信息領域及其不同需要建立各種知識間的相互融合,這是當親應該解決的主要問題之一。
3.1 數據復雜性挑戰
隨著大數據的不斷涌現,人們在計算過程中遇到了以往所不曾出現的問題,即大規模樣本的出現,這一現象的出現導致人民也面臨越來越復雜的數據對象。正如前所述,大數據的重要特征就是數據的類型和模式具有更多的多樣性,聯系也較為復雜,數據的質量顯得良莠不齊,這便造成數據在理解、計算與表達上面臨了相當大的困難,傳統的全量數據模式下計算的復雜性與難度增大,語義的分析與情感的體會也變得非常復雜。然而,目前人們對于數據中所蘊含的物理意義相對缺乏,加上相關知識的匱乏,這在一定程度上影響了計算機模型的設計與制作。
因此,將大數據的復雜本性定量化,有效研究數據所包含的內在問題是當前我們在計算機模型的設計上應該著重解決的重要問題。通過這一問題的有效解決可以在一定程度上幫助人們理解復雜的大數據模型,了解其所具有的本質特征,進而更好的獲得抽象化的知識信息。由此可見,我們應該不斷完善多模式關聯之下的數據分析理論與模型,梳理好各個數據之間存在的內部聯系,對復雜的模型系統進行有效的解析,有效降低其原理的復雜程度,使之逐漸轉變為大數據的堅實基礎。
3.2 計算復雜性的挑戰
眾所周知,大數據具有規模大、速度快、結構多樣等特點,這一特點使得以往的機器學習、信息搜索以及數據收集得不到當前大數據的有效支持,尤其是大數據在面對小樣本的數據處理時,不能夠進行全局式的數據分析與計算,因而需要在計算時適時脫離傳統計算的束縛。在進行大數據的求解過程中,要求我們對它的可計算性進行有效的評估,對計算方法進行有效的確認,并對價值驅動在特定領域的應用給予一定支持,這是當前的核心問題。但當前大數據的樣本較多、結構較為復雜、分布極不均衡,這在為大數據的研究工作提供了機遇的同時也帶來了一定的挑戰。
因此,應將目光放眼于大數據的生命周期,在大數據自身的復雜性特征的基礎之上,對以數據為中心的相關的計算模式進行有效的探究,合理改善守舊得數據計算模式,建立起更為規范化的推送式的數據模式,對大數據的相關理論進行深入研究,摒棄傳統計算理念,不斷探索充足的數據,按簡約的方式研究局部計算的相近辦法,建立起牢固的不依賴于全量數據的較為新式的數據計算理論基礎。
3.3 系統復雜性的挑戰
當前,有效支持大數據研究的平臺是針對不同數據類型的大數據的處理系統。這一數據處理的大平臺在面臨數據較大、結構較為復雜的情況下也會存在計算周期長、難度較高的問題。這一問題不僅給大數據處理系統的整體結構、計算機構以及計算方式提供更加嚴峻的挑戰,同時也在數據處理系統的運行速度及其耗能方面都造成了巨大的挑戰,對其處理系統的要求也更為苛刻,這些問題是解決大數據處理應面臨的重要問題,也是該系統進行設計與優化的最根本的準則,更是系統進行優化與處理的有效基礎,因而,這是大數據處理中必須解決的關鍵性問題。
因此,必要充分了解大數據處理系統存在的復雜性難題,針對大數據在價值上的洗屬性以及局面訪問較弱這一特點的基礎之上,有效整合大數據的處理與存儲系統構架,嚴格執行大數據的感知與計算準則,在其系統機構方面、性能評估方面以及數據的處理方面開展具有針對性的深入研究,以便形成高效率、低能耗的大數據處理系統。
[1]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述[J]. 軟件學報,2014,09:1889-1908.
[2]曹軍威,袁仲達,明陽陽,張華贏. 能源互聯網大數據分析技術綜述[J]. 南方電網技術,2015,11:1-12.
Review of big data system and analysis technology
WU Hui-nan. Guizhou Normal University Institute of Science in Mathematics with Computer Science, Guizhou Province, Guiyang 550001, China
This paper with big data era as the background, the big data processing system and data analysis techniques and effectively, and on the basis of combing the current big data calculation problems, and puts forward the corresponding countermeasures, so as to improve the data offer reference for computational efficiency and enhance the system effectiveness.
Large data; Data analysis; Deep learning
G250.74
A
1009-5624-(2016)03-0002-03