劉承良
(湖南電子科技職業學院,長沙 410000)
網絡大數據的現狀與展望
劉承良
(湖南電子科技職業學院,長沙 410000)
網絡大數據的形成和擴大給IT構架和計算能力提出了更高要求,網絡大數據的發展為人們深度挖掘大數據功能和價值帶來了重大機遇,因此加強大數據可續研究,總結網絡大數據發展規律,結合定性、定量分析方法全面研究網絡大數據的復雜性具有重大意義。本文就網絡大數據的發展現狀進行分析,有針對性地探討網絡大數據帶來的機遇與挑戰,并對網絡空間感知以及網絡大數據存儲管理等主要問題展開詳細論述,最后展望網絡大數據的發展前景。
網絡大數據;現狀;存儲;科技;展望
近年來我科學技術高速發展,互聯網科技、云技術、IT通信技術等迅猛發展,給各行業領域帶來了重要影響。但與此同時數據的快速發展也成為行業領域應用科學技術過程中的挑戰。信息時代高速發展背景下,我國已步入大數據發展階段,大數據的發展應用給人們帶來了較多積極影響,對企業發展運作等也起到了關鍵作用。網絡大數據給社會發展和人們生產生活帶來機遇和挑戰,因此加強大數據研究至關重要。本文首先論述對網絡大數據研究的必要性,其次對網絡大數據發展現狀展開詳細論述,最后展望大數據發展前景,實現大數據時代發展與科技的有機結合,促進網絡大數據規模進一步擴大,以給人們帶來更大的便利。
網絡大數據應用廣泛,無論是經濟發展領域還是軍事、文化發展領域,網絡大數據都發揮著重要作用。加強網絡大數據研究對維護國家網絡空間數字主權,保證經濟、文化穩定持續發展,提高國民經濟競爭力,實現科技突破等都有著至關重要的作用。無論是直接影響還是間接影響,加強網絡大數據研究十分必要。
1.1加強網絡大數據研究,實現網絡空間數字主權保護
近年來我國已步入信息化時代,國家綜合實力的競爭也包括信息時代下網絡大數據的規模及運用能力的競爭。我國大數據規模發展逐漸壯大,且對大數據的運用和管理能力也逐漸提高,這使我國掌握了網絡空間數字主權,即作為一個發展大國重要的博弈空間。若我國網絡大數據應用落后,就會直接影響我國占領產業戰略制高點,出現網絡空間發展不足的情況,影響國家數據使用安全。就2013年3月美國投資啟動的“大數據研究和發展計劃”來看,美國政府加大對大數據的重視和研究,并強調“大數據的應用關系到美國國家安全,對科學技術發展進程有著直接影響,同時對教育改革等領域都有一定影響”。這說明網絡大數據已上升到國家意志領域,對國家信息安全、經濟發展、社會穩定等都有著關聯影響。
1.2網絡大數據與國民經濟核心產業有著直接關聯
“人、機、物”三元世界的交互發展產生了大量數據,為充分實現對網絡大數據的感知和利用,國民經濟發展過程中要有效解決對大規模數據的測量和應用,以促進經濟發展中各行業數字化和信息化,解決行業發展過程中出現的網絡大數據爆炸阻礙。因此加強網絡大數據研究,解決大數據基本共性問題十分重要。例如,針對非結構化數據的統一表示和分析,現階段尚未采取有效的工具和手段,而通過對大數據問題的研究分析,能夠增強企業處理網絡大數據的能力,使企業更全面認識大數據處理的成本,促進企業進一步實現數字化。這也是網絡大數據研究的重要意義,有助于促進新一代信息技術融合,推動信息產業經濟增長值高速發展,是各行業提升綜合實力的新動力。
1.3網絡大數據研究與新興產業發展相關聯
信息時代背景下在科學技術上實現網絡大數據技術研究突破,能促進數據服務以及數據材料等相關戰略性新興產業的興起與發展。實現網絡大數據的技術研究和科技突破,能使人們更清楚地認識數據交互連接的復雜問題,并準確把握數據冗余與缺失等不確定性特性,以更好地實現對高速增長數據的駕馭。對大數據不確定性和涌現性的把握,能使大數據應用者從數據中挖掘到實際需求信息,實現對網絡數據的充分利用。網絡大數據并非行業發展過程中的副產品,而是行業發展各環節的關鍵紐帶,其能夠通過網絡數據信息的分析和把握,提高行業生產效率,實現對成本的有效控制,同時,在大數據驅動下,能促使數據能源、數據制造等戰略性新興產業的崛起與發展。
2.1網絡大數據特點
網絡大數據主要是指“人、機、物”三元世界在網絡空間交互過程中產生的大量數據,可通過互聯網進行查詢使用,即稱為網絡大數據。據IDC報告發布,根據近年來大數據增長形勢來看,到2020年將實現35 ZB。IBM針對網絡大數據特點來看,主要包括大量化、多樣化、快速化3個明顯特點。
在信息化時代背景下網絡空間數據增長迅猛,數據集合規模已實現從GB到PB的飛躍,網絡大數據則需要通過ZB表示。在未來網絡大數據的發展中還將實現近50倍的增長,服務器數量也將實現近相同數量的增長,以滿足大數據存儲。網絡大數據的類型多樣化,例如結構化數據、非結構化數據等。在互聯網時代背景下網絡大數據越來越呈現非結構化數據增長,據相關調查統計,在2012年底非結構化數據在網絡數據總量中占77%左右。這種類型結構數據的產生與社交網絡以及傳感器技術的發展有著直接聯系。另外,網絡大數據還具有快速化特點,其突發涌現狀態演變使人們對數據的評估和預測難度加大。大數據一般情況下以數據流形式快速產生,且具有動態變化性特征,大數據的時效性要求用戶必須準確掌握網絡大數據數據流才能更好地利用這些數據。
2.2網絡大數據的感知問題
網絡大數據自身具有跨媒體關聯特點,且能夠實現多主體互動,這給大數據的感知與獲取帶來一定問題。按照網絡空問中數據的蘊藏深度,整個網絡空間可劃分為Surface Web和Deep Web,或稱作Hidden Web。Surface Web是指Web中通過超鏈接可被傳統搜索引擎獲取到的靜態頁面,而Deep Web則由Web中可在線訪問的數據庫組成。Deep Web的數據隱藏在Web數據庫提供的查詢接口后面,只有通過向查詢接口提交查詢才能獲得。與Surface Web相比,Deep Web所包含的信息更豐富。同時,Deep Web具有規模大、實時動態變化、異構性、分布性以及訪問方式特殊等特點。為充分利用Deep Web中的數據資源,需要充分獲取Deep Web中高質量的數據并予以集成,整個集成過程可分為數據獲取、數據抽取和數據整合3個環節。
2.3網絡大數據挑戰
網絡大數據在開發與應用過程中正面臨著諸多挑戰,這與用戶需求的提高有著直接關系。目前就網絡大數據發展形勢來看,其主要面臨的挑戰包括大數據的復雜性、不確定性以及涌現性。
網絡大數據的復雜性使其諸多環節操作運行難度增加,包括數據存儲、數據分析處理以及數據深度挖掘等。大數據的復雜性又包括其類型的復雜,如社交網絡與傳統文本數據的相互發展,使其類型更加豐富;數據結構復雜,包括移動技術以及社交技術發展下形成的結構數據流以及非結構化數據流,具體形式包括文本、圖像等,這給網絡大數據管理與分析帶來了難度。大數據的不確定性包括自身以及模型的不確定,這給大數據建模帶來較大困難,使用戶不能充分利用其自身價值,既是對數據資源的浪費,同時也無法全面滿足用戶需求。另外,網絡大數據還面臨著涌現性帶來的挑戰。這主要是指網絡大數據與其他數據之間存在的本質上的區別,也是網絡大數據的關鍵性特點。大數據的涌現性直接給用戶以及相關研究人員增加數據駕馭難度,使之無法準確實現對大數據的測量和預測,包括大數據的數據結構、功能等。
2.4網絡大數據分布式數據存儲問題
就目前網絡大數據處理規模以及存儲形式來看,已實現從TB級到PB、EB級的轉變。在實現等級上升后,為更好地實現對數據存儲成本的控制,實現計算資源優化利用,以及提高系統整體的并發吞吐率,要積極探究出更加有效的存儲模式,實現目前網絡大數據分布式數據存儲方式。Google公司提出的GFS、MapReduce、BigTable等技術是分布式數據處理技術的具體實現,是Google搜索引擎系統的3大核心技術。此后,Apache軟件基金會推出開放源碼的Hadoop和HBase系統,實現了MapReduce編程模型、分布式文件系統和分布式數據庫。Hadoop系統在Yahoo、IBM、百度、Facebook等公司得到了大量應用和快速發展,但作為新興的技術體系,分布式數據處理技術在支持大規模網絡信息處理及應用等大數據計算應用能力方面還存在很多不足。
分布式數據存儲是網絡大數據應用的一個重要環節。但之前的研究工作仍存在一些局限性。針對海量數據存儲和處理所面臨的數據總量超大規模、處理速度要求高和數據類型異質多樣等難題,需要開發支持擴展度高、深度處理的PB級以上分布式數據存儲框架,同時需要研究適應數據布局分布的存儲結構優化方法,以提高網絡大數據存儲和處理效率,降低系統建設成本,從而實現高效、高可用的網絡大數據分布式存儲。
網絡大數據對各行業領域發展都有著積極影響,對數據庫建設以及知識工程建設等有著推動作用,且被廣泛開發和應用。但大數據的海量規模以及復雜性等自身特征,直接給大數據開發和應用帶來一定阻礙,使各領域研究很難直接進行應用。因此,加強對網絡大數據的研究和開發,形成相對統一的標準進行大數據研究至關重要。
網絡大數據深度研究與開發對多行業領域發展都有著積極影響,針對現階段大數據面臨的機遇和挑戰,要加強大數據與科技融合,對大數據復雜性、涌現性以及不確定性等特性實現整合優化,促進網絡大數據規模進一步擴大發展。
3.1網絡大數據實現大規模發展趨勢
就目前網絡大數據時代發展來看,發展速度快、結構復雜程度加大。原有的Hadoop技術無法滿足大數據時代的發展需求。在信息化、數字化發展潮流下,大數據規模將進一步擴大,且數據類型和復雜程度將進一步加大。為適應該發展趨勢,要不斷加強創新研究,例如對全球著名的分布式數據庫Spanner的研究利用。在今后的大數據研究應用中,要以分布式數據庫為基礎,加強存儲模式的開發利用,并結合SQL語法,實現數據高效操作。
3.2數據資源化
網絡大數據包括各類型的數據信息,信息量超大,且蘊含著不可估量的價值。換句話說,準確把握網絡大數據,即掌握了豐富的信息資源。網絡大數據存在著豐富的價值鏈,無論從哪個角度出發,網絡大數據都發揮著不可替代的資源優勢。大數據中的價值鏈來自數據本身,也包括大數據技術等,但離開技術以及其他因素的數據資源則是其核心價值優勢。另外,將不同的大數據信息整合,即實現資源整合,將創造出不同的價值。
3.3網絡大數據推進科技融合
網絡大數據時代背景下,IT通信技術、云技術以及物聯網等技術飛速發展,在實現技術融合的同時,也實現了學科交叉發展。大數據規模的擴大和發展離不開信息技術,即在進行大數據深度研究和創新發展的過程中要始終以信息技術為基礎。同時,大數據的發展利用給各行業領域管理帶來積極影響,實現了傳統管理決策到大數據時代管理與決策的跨越。同時,在某些特殊領域,網絡大數據也將發揮其功能和價值,不斷吸引各跨學科人才參與其中,實現科技進一步創新發展。
3.4融合以人為本理念
在今后的網絡大數據發展中,要注重以人為本理念的應用。信息、科技時代的競爭,追根究底是人才的競爭,要根據人的需求和意識實現不斷的創新發展。大數據時代以數據分析為前提,進行科學探索,實現科學決策。但數據分析始終無法代替人類的思維活動,要通過人的思維意識,推動大數據發展。隨著IT通信技術以及物聯網技術的發展,人們在大數據時代發展進程中扮演著不同的角色,既是大數據的使用者,也是其生產者,更多的是作為參與者,進一步實現人與數據之間的溝通合作。在今后的大數據發展中,要加強以人為本理念的應用,促進社會活動進一步變革創新。
3.5實現網絡大數據形象化
就目前來說,在人機交互環節中,人們側重需要其可視化,即通過文本或圖像編輯器等實現直接操作。在今后網絡大數據發展過程中,要滿足人們使用需要,進一步實現可視化。由于大數據本身具有復雜性和不確定性等特點,若在未分析前使用會大大削弱大數據的功能作用,只有經過分析才能實現數據的輔助作用。通過對大數據的分析和處理,以良好的形象顯示給用戶,促進用戶高效接收,提高對數據的使用效率。目前大數據的主要顯示形式包括曲線、報表等,在今后的發展過程中將實現更多種類的形式創新,滿足用戶的直觀需求。
在“人、機、物”三元世界融合下產生的大規模數據給計算機運行和處理帶來了較大挑戰,同時也給行業發展帶來了重大機遇。網絡大數據具有一定的復雜性、不確定性、自身涌現性等特征,結合大數據自身特性進行深度分析和探究,能發揮大數據自身優勢,進一步體現其價值功能。就目前網絡大數據的現狀來看,新時期大數據面臨一定的挑戰和機遇,加強大數據發展,促進網絡大數據規模擴大分必要。進一步加強網絡大數據研究,促進大數據高效、有序利用,有助于推進我國經濟發展,進一步實現社會穩定,全面提高我國綜合競爭實力,捍衛網絡空間數字主權,促進國民經濟核心產業發展,促進戰略新興行業崛起。網絡大數據的發展與運用,對促進我國科技研發,實現信息深層次開發等都有著積極作用。在今后的網絡大數據研究與應用中,要進一步發揮大數據優勢,實現其自身功能和價值,使其更全面、廣泛、高效地服務于各行業領域用戶。
主要參考文獻
[1]王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015(2):456-474.
[2]黃恒君,漆威.海量半結構化數據采集、存儲及分析——基于實時空氣質量數據處理的實踐[J].統計研究,2014(5):10-16.
[3]于兆吉,魏闖.大數據下主題數據庫的研究現狀與展望[J].沈陽工業大學學報:社會科學版,2014(3):263-267.
[4]嵇智源,潘巍.面向大數據的內存數據管理研究現狀與展望[J].計算機工程與設計,2014(10).
[5]徐菲菲,雷景生,畢忠勤,等.大數據環境下多決策表的區間值全局近似約簡[J].軟件學報,2014(9).
[6]陳鶴群.大數據環境下醫療數據隱私保護面臨的挑戰及相關技術梳理[J].電子技術與軟件工程,2014(16):51-53.
[7]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012(6).
[8]韓益亮,盧萬誼,武光明,等.適用于網絡大數據的屬性基廣義簽密方案[J].計算機研究與發展,2013(z2):23-29.
[9]林洪,李棕杰.大數據時代經濟統計、計算科學與信息科學的整合發展[J].經濟統計學:季刊,2014(2):110-117.
10.3969/j.issn.1673 - 0194.2015.12.138
TP311.13
A
1673-0194(2015)12-0186-03
2015-04-25