999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據問題

2013-12-29 00:00:00陳明
計算機教育 2013年5期

摘要:由于科學實驗與互聯網的飛速發展,出現了大數據。對大數據進行合理的分析和管理必將會推動科學進步和企業發展,也會為社會創造出更多、更新的成果。文章介紹大數據的概念與特征、產生源泉以及相關的技術問題。

關鍵詞:大數據;復雜性;非結構化

1.背景

近年,來自人們日常生活,特別是互聯網服務的數據量飆升。僅過去兩年間,新產生的數據就占到了全球數量總量的90%;預計到2020年,全世界需要管理的數據將達到35個ZB,其中主要包括網絡日志、音頻、視頻、圖片、地理信息等各種類型,存儲在不同地域的各類服務器中。數據是重要的戰略資源,隱含著巨大的經濟價值。通過對大量數據的交換、整合、分析與利用,我們可以發現新的知識、創造新的價值,形成大知識和大科技,帶來大利潤和大發展。因此,多國政府已將數據提升為與水、石油、煤炭一樣的高度,并將擁有數據的規模和數據分析能力視為國家的核心競爭力。

2.大數據科學與技術

2.1定義

大數據是指規模大、類型多、高變化率的數據集合。大數據的定義至少涉及容量、種類和傳輸速度三個要素。

如何快速訪問龐大的數據,如何有效處理包含數千萬個文檔、數百萬張照片或者工程設計圖的數據集等,是大數據研究者面臨的挑戰。

2.2大數據產生的源泉

大數據主要來自互聯網世界與物理世界。

1)互聯網世界。

大數據來自人類社會,尤其是互聯網的發展為數據的存儲、傳輸與應用創造了基礎與環境。依據基于唯象假設的六度理論而建立的社交網絡服務(SNS,Social Network Service),使用者以認識朋友的朋友為基礎,擴展自己的人脈。在基于W2.0網站建立的社交網絡中,用戶既是網站信息的使用者,也是網站信息的制作者。

2)物理世界。

科學實驗是科技人員設計的,其中的數據采集、數據處理需要事先設計,無論是檢索還是模式識別都有科學規律可循。例如,希格斯粒子(又稱為上帝粒子)的尋找,采用了大型強子對撞機實驗,至少要在1萬億個事例中才可能找出一個希格斯粒子。這是一個典型的基于大數據的科學實驗。從這一實驗可以看出,科學實驗的大數據處理是整個實驗的一個預定步驟,這是一個有規律的設計,可以預見性地發現有價值的信息。

2.3大數據的特點

大數據有以下5個特點,分析這些特點對有效傳輸、存儲、處理、應用和管理大數據至關重要。

1)容量巨大。

一般說來,超大規模數據是指GB(1GB(千兆)=1 024MB)級的數據,海量數據是指TB(1TB(萬億字節,太字節)=1024GB)級的數據,而大數據則是指PB(1PB(千萬億字節,拍字節)=1024TB)級及其以上(EB、ZB和YB)的數據??梢韵胂?,容量的指標是動態變化的。相對于當前的CPU和存儲技術水平而言,系統管理這些規模過大的數據需要特別對待。

2)類型繁多。

大數據包含大量不同的數據和文件類型,如各種聲音和電影文件、圖像、文檔、地理定位數據、網絡日志、文本字符串文件、元數據、網頁、電子郵件、社交媒體供稿、表格數據等。

3)速度快。

大數據速度快是指數據的變化率高,傳統技術并不適于大數據的高速儲存、管理和使用。

4)非結構化。

非結構化數據是指在獲得數據之前無法預知其結構的數據。目前所獲的數據85%以上是非結構化數據,而不再是純粹的關系數據,傳統的系統無法勝任這些數據的處理。從應用角度,非結構化數據的計算是計算機科學的前沿。大數據的高度異構也導致難以抽取出合適數量的語義信息。

5)價值密度低。

以視頻為例,在連續不間斷監控過程中,可能有用的數據僅僅為1~2秒內的數據。

2.4大數據的研究領域

大數據可分成大數據科學、大數據技術、大數據工程、大數據應用等領域。大數據科學關注大數據網絡發展和運營的過程,注重發現和驗證大數據的規律及其與自然和社會活動之間的關系;大數據技術包括對大數據的估算、表示、處理等技術;大數據工程是指大數據的規劃、建設、運營和管理;大數據的應用領域主要包括科學決策、應急管理(如疾病防治、災害預測與控制、食品安全與群體事件等)、環境管理、社會計算、知識經濟等。

大數據科學是關于數據的科學,是在某個領域中有條件地尋找數據相互關系和普適性規律。因為各領域的數據分析方法和結果存在一定程度的普適性,所以抽取領域的共性科學問題很有意義,但這往往需要較長的時間,需要一段時間的實踐積累,通過分層次、不斷抽象,共性科學問題才會逐步清晰明朗??茖W研究的軌跡是先做白盒模型研究,通過積累就可以抽象出通用性強大的黑盒模型。

大數據研究是一種方法研究,數據本身不作為研究目標,而是作為方法研究和發現新知識的工具。大數據研究是一種交叉學科研究,它與數據挖掘、統計分析、搜索等人工智能方法密切相關。在傳統數據挖掘研究中,當數據維度和規模增大時,所需資源呈指數級增加,但對PB級以上(EB、ZB和YB)的大數據需要研究新的方法。統計學的目標是從各種類型的數據中提取有價值的信息,進而實現預見性,但一般不強調因果邏輯。人工智能則需要將統計方法和其他方法結合,采用多元化的方法來建立綜合模型。

目前業界探討最多的是大數據技術和大數據應用。

3.大數據技術

如何獲取并動態高效處理大數據將成為處理大數據的關鍵技術。由于大數據的異質異構、非結構及不可信等特征,大數據的管理和分析研究需要解決表示、處理和可靠性等一系列重要問題。

3.1數據量復雜性估算

時間復雜性和空間復雜性是計算機科學的基本問題。大數據處理除了要考慮時間和空間復雜性外,還需要考慮數據量復雜性。數據量復雜性是指解決一個問題需要多大的數據量,即需要建立求解一個問題達到某種滿意程度需要多大規模的數據量理論。顯然,這類問題為預言型數據分析問題。目前社會科學的研究已開始涉及大數據,如輿情分析、情感分析等,這些都迫切需要計算機學者與社會科學領域的學者密切合作,共同開拓新的理論。

3.2大數據的表示

利用統一的模型對非結構化數據進行分析處理困難巨大,傳統的數據表示方法不能直觀地展現數據本身含義。為了有效利用數據并挖掘其中的知識,必須尋找最合適而有效的數據表示方法。目前使用的方法是數據標識,標識方法可減輕數據識別和分類的困難,但卻給用戶增添了預處理工作量。研究既有效又簡易的數據表示方法是進行大數據處理首先面臨的技術難題之一。

3.3大數據的處理

全球數據量每18個月翻一番(遵循摩爾定律),數據規模急劇擴大,已超越現有計算機存儲與處理能力。不僅數據處理規模巨大,而且處理需求多樣化,數據處理能力已成為企業核心競爭力的關鍵。而數據處理需要結合多學科,探索一種處理新型數據的方法,以便在數據多樣性和不確定性的前提下研究數據規律和統計特征,具體研究內容包括以下幾個方面。

1)數據的非結構性。

大量出現的各種數據本身是非結構化的或弱結構化的,如留言、博客、圖像、視頻數據等,如何將這些數據轉化成一個結構化的格式是研究者面臨的一項重大挑戰。

2)數據的不完備性。

數據的不完備性是指在大數據條件下所獲取的數據常常包含一些不完整的信息,甚至是錯誤的數據。數據的不完備性必須在數據分析階段得到有效處理。

3)數據的時效性。

處理大數據的速度非常重要。數據規模越大,分析處理時間就會越長。如果設計一個專門處理固定大小數據量的數據系統,其處理速度可能會非常快,但并不能適應大數據的要求。在許多情況下,用戶要求立即得到數據的分析結果,這需要在處理速度與規模上折中考慮,并尋求新的方法。

4)數據的安全性與可靠性。

大數據高度依賴數據存儲與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風險。數據的隱私保護是大數據分析和處理面臨的重要問題,既是技術問題也是社會學問題。如果對私人數據使用不當,尤其是泄漏有一定關聯的多組數據,將導致用戶的隱私泄漏。

基于上述特性,目前,對大數據的處理多采用數據清洗、去冗等技術,提取有價值數據,實現對數據質量的高效管理。其中,對數據的安全訪問和隱私保護已成為大數據可靠性的關鍵需求,因此,如何滿足對互聯網大規模真實運行數據的高效處理和持續服務的需求,數據的可靠性處理將成為重要環節。

4.大數據處理的工具

Hadoop是一個開源軟件框架,被稱為處理大數據的利器,一些大零售商常常通過Hadoop平臺用大數據鎖定客戶。Hadoop平臺包括多種專門設計的組件,主要用于解決大規模分布式數據存儲、分析和檢索任務。但并不是所有的Hadoop組件都是必要,對于一個大數據解決方案,其中的一些組件可取代某些技術,更好地配合用戶的需求。如MapR的Hadoop,它用NFs替代HDFs,并提供了一個完整的隨機存取與讀/寫文件系統。

5.結語

數據為王的時代已經到來,研究熱點從計算速度轉向大數據處理能力,從以編程為主轉變為以數據為中心。云計算、社交計算和移動計算三大技術趨勢正在重塑著IT世界,并推動數據以更大容量、更多種類及更快速度迅猛增長。中國IT的發展比世界任何地方都要快,數據產生量也是最多的。未來十年,將是一個由大數據引領的智慧科技時代,其廣闊的研究領域和應用前景將會越來越受到人們的重視。

(編輯:彭遠紅)

主站蜘蛛池模板: 欧美国产另类| 亚洲综合极品香蕉久久网| 制服丝袜 91视频| 日韩小视频网站hq| 亚洲精品少妇熟女| 国产SUV精品一区二区| 日本精品视频| 国产哺乳奶水91在线播放| 毛片a级毛片免费观看免下载| 精品综合久久久久久97超人该| 国产啪在线91| 国产福利免费观看| 欧美v在线| AV老司机AV天堂| 久久国产免费观看| 欧美日韩专区| 国产一区二区人大臿蕉香蕉| 无码日韩视频| 亚洲国产理论片在线播放| 在线a视频免费观看| 亚洲国产亚洲综合在线尤物| 操国产美女| 久草性视频| 国产视频入口| 99re在线免费视频| 欧洲亚洲一区| 青青草原国产免费av观看| 欧美福利在线观看| 成人欧美在线观看| 99热最新在线| 免费人成在线观看成人片| 久久永久精品免费视频| 日韩毛片免费| 99在线视频免费观看| 中美日韩在线网免费毛片视频 | 天堂在线视频精品| 国产 日韩 欧美 第二页| 99激情网| 毛片手机在线看| 夜夜操国产| 国产91麻豆免费观看| 久久精品亚洲专区| 欧美成人二区| 久久综合九九亚洲一区| 欧美亚洲日韩不卡在线在线观看| 萌白酱国产一区二区| 亚洲伊人电影| 欧美特黄一级大黄录像| 成人一区在线| 玩两个丰满老熟女久久网| 婷婷在线网站| 亚洲成人黄色在线| 手机在线国产精品| 日韩久久精品无码aV| 精品久久久久无码| 亚洲视频欧美不卡| 无码精品一区二区久久久| 亚洲精品无码不卡在线播放| 久久国产V一级毛多内射| 福利一区在线| 不卡国产视频第一页| 国产激爽大片高清在线观看| 又猛又黄又爽无遮挡的视频网站| 国产日韩精品一区在线不卡| 亚洲性日韩精品一区二区| 999国产精品| 欧美劲爆第一页| 亚洲成aⅴ人在线观看| 成人91在线| 欧美狠狠干| 成人午夜网址| 中文字幕在线看| 熟妇无码人妻| 欧美成人综合在线| 伊人色天堂| 国产欧美日韩91| 99在线小视频| 成人久久18免费网站| 网久久综合| 综合色在线| 无遮挡一级毛片呦女视频| 国产精品男人的天堂|