999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據的特征和相關技術分析與趨勢研究

2015-07-21 00:55:06李東興
中國教育技術裝備 2015年12期
關鍵詞:數據挖掘

◆李東興

作者:李東興,北京師范大學全球變化與地球系統科學研究院助理工程師,研究方向為高性能計算、大數據分析與處理(100875)。

1 緒論

李克強總理在2014年國務院會議上曾指出:“積極支持云計算、物聯網與移動互聯網絡的發展,催生基于云計算的在線研發設計、教育醫療、智能制造等新業態。在疾病防治、災害預防、社會保障、電子政務等領域開展大數據應用示范。”大數據洶涌來襲,同互聯網的出現一樣,絕不僅僅是信息技術領域的革命,還是啟動透明政府、創造無限商機、加快企業創新、引領社會變革的利器[1]。互聯網、SNS和傳感器技術的發展使得每一個網民成為大數據的貢獻者,當然也是大數據的消費者和受益者。隨著人們對數據重視程度的提升和收集數據意識的增強,大數據正在不斷改變人們的工作、生活和思維方式。

2 什么是大數據

數據指客觀事物的符號表示,包括文字、聲音、圖形圖像等多種表現形式。信息是把數據放置到一定的情境中,對數字的解釋。與信息不同,數據是信息的數字化記錄,是信息的載體,是與語義不可分隔的。大數據(Big Data),指的是數據規模巨大到無法通過傳統工具,在合理的時間內達到收集、存儲、管理、處理、維護并整理成為服務于企業和社會的更積極的信息[1]。

從大數據的定義可以看出,之所以稱為大數據,其一是數據量大到一定程度。但是,具體多大的數據才能稱之為“大”,業界也沒有統一的標準。當前,數據正在呈指數級增長趨勢,十年之前TB甚至GB級別的數據可能是大數據,現在達到PB級別的數據才能稱為大數據,再過一段時間,也許ZB級別的數據方能稱為大數據。其二是數據價值大。大數據之“大”更多的意義在于人類可以“分析和使用”的數據在大量增加,通過對這些數據本身及它們內在聯系的整合和分析,人類可以發現新的知識,創造新的價值,帶來“大知識”“大智慧”,更好地服務全社會,推動智慧地球朝著更文明的方向發展。

大數據技術是指從各種各樣類型的海量數據中,快速獲得有價值信息的技術。整個過程包括大數據采集、大數據預處理、大數據存儲與管理、大數據分析及挖掘、大數據展現和應用。其中大數據的存儲與管理、大數據的分析與挖掘是整個過程的核心。

3 大數據的特征和本質

與小數據相比,大數據有4V特征,即:Volume、Velocity、Variety、Value。

Volume 數據量巨大,表現為存儲量和計算量巨大。目前達到PB級容量的大數據出現在眾多領域,據麥肯錫估計,全球企業2010年硬盤上存儲了超過7 EB的新數據,消費者在PC等設備上存儲的新數據超過了6 EB(相當于美國國會圖書館中存儲數據的4000多倍[1])。我國建成的四大超級計算機中心,不僅存儲容量達到PB級,其浮點計算能力也達到億萬億次每秒。

Velocity 高速,表現為大數據量的增長速度日新月異;大數據的存儲、傳輸、更新、處理等技術發展突飛猛進。據Facebook統計,每秒有4.1萬張照片上傳,2011年以發圖1400億張成為世界上最大的照片庫。

Variety 多樣性,表現為:數據來源增多;數據類型繁多;數據表現形式不斷擴展。從數據來源上看,傳統數據以交易事務型數據為主,而互聯網和物聯網的發展,則帶來了微博、社交網絡、傳感器等多種數據來源;從數據類型上看,傳統數據以結構化數據為主,互聯網數據以半結構化和非結構化數據為主,大數據的數據類型是幾種類型的復雜組合,其中半結構化和非結構化數據占80%左右;從數據的表現形式上看,從傳統的聲音、文字、圖片不斷擴展到網絡日志、系統日志、視頻、地圖等形式。

Value 價值,表現為數據價值大和價值密度低。從數據價值上看,小數據的價值適用于小眾群體和對小范圍地區更有實用意義,大數據的價值不僅具有普及性、普遍性和說服力,而且更有個性化,能說明任何實體之間的相關性;從價值密度上看,大數據的價值密度低,假如同種類型的數據的潛在價值是固定的,數據量越大,價值密度必然越小。以機房網絡監控日志為例,要查看的僅僅是報警和錯誤日志。

大數據的核心和本質是預測,通過分析方法和工具探索隱藏在數據表面背后的本質和規律,從而使企業在未來的商業活動中更具有主動性,政府制定社會治理決策更準確、更有針對性,個人在未來的生活和學習活動中更能找到適合自己的方式方法。這一過程又稱“知識發現”。著名的“啤酒與尿布”理論,沃爾瑪超市利用大數據發現了這一規律并應用到商業活動中,從而使自身的利潤獲得質的飛躍;美國管理學家、統計學家愛德華·戴明所言“除了上帝,任何人都必須用數據說話”,引領奧巴馬政府上任伊始就樹立了開放型政府的目標;作為“世界上量化最極致的人”,美國人克里斯·丹西克里斯利用谷歌眼鏡等無線傳感設備每天記錄自己的飲食、情緒變化等,通過這些數據,他可以把自己的身體和情緒調整到最健康的狀態。

4 大數據技術

大數據分析是一門涉及計算機科學、信息科學、統計學等多門學科的交叉學科,大數據的應用可以擴展到與人類相關的任何領域、任何角落,尤其是社會學、新聞學、教育學等社會學科。隨著計算機技術的進步、統計分析水平的提高,越來越多的方法和技術會應用到大數據的分析過程中。以下重點介紹目前大數據分析涉及的相關技術。

人工智能 人工智能是關于知識的一門學科,是關于如何表示知識以及怎樣獲得知識和使用知識的學科[2]。隨著互聯網和社交網絡的發展,大數據中的非結構化數據占據了主要地位,如電子郵件、圖形圖像、視頻等數據資源。結構化數據的管理一般通過關系數據庫實現,由SQL進行分析;非結構化的數據分析需要利用自然語言處理、圖像解析、語音識別等技術,而這些技術正是人工智能的研究領域。將大數據與人工智能結合運用的經典是Google語義搜索和Apple的語音識別技術Siri,這些技術的進步,不僅需要理論的支撐,更需要大數據作為基礎[3]。大數據與人工智能的結合已經給傳統行業帶來新的創新模式,其也必將在更廣的領域改變人類的思維方式和實踐能力。

數據倉庫 數據倉庫之父W. H. Inmon認為,數據倉庫(Data Warehouse,DW)是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程。從W. H. Inmon對數據倉庫的定義可以看出,數據倉庫有四方面的特征,即面向主題、數據集成、隨時間而變化、數據不易丟失,這也是數據倉庫與關系數據庫的區別所在。

在大數據中,數據類型繁多,既有結構化數據,更存在大量的非結構數據,針對異構數據的存儲和融合,應采用混合存儲方式。結構化數據存儲與處理借助于傳統的關系型數據庫,大量的非結構化數據則需要借助于NoSQL非關系型數據庫。當前大量的非關系型新型數據庫應用到大數據的存儲中,如面向集合模式自由的文檔數據庫MongoDB、基于內存的鍵值存儲數據庫Redis、分布式MPP架構/列存儲數據庫HBase等。除了基本的存儲功能,數據倉庫還可以用來進行信息處理和分析處理,特別是對大數據的聯機分析處理是其最重要的用途。

數據挖掘 數據挖掘是指通過特定的計算機算法對大數據進行自動分析,從而揭示數據的價值、發展趨勢和數據之間的相關關系,為決策者提供新的依據。在大數據中挖掘知識就像在礦山中掘金一樣,困難重重,任務繁重,是一個長期的反復的過程。大數據的積累使得從中提取有用的數據成為巨大的挑戰。由于大數據與傳統數據相比,具有4V特性,無法使用傳統工具達到用戶的訴求。數據挖掘很好地將傳統的數據分析方法和處理大數據的復雜算法相結合。數據挖掘不僅要發現隱藏在數據內部的客觀規律,而且對相關領域未來趨勢進行預測。預測是大數據的核心,預測的技術支撐就是數據挖掘,挖掘數據的價值和內含的規律。數據挖掘是大數據分析的核心技術,只有尋求到更合理的挖掘算法,才能準確有效地挖掘出大數據的真正價值,而且更能實現對動態發展數據的分析。

分布式技術 分布式技術是一種基于網絡的技術,把網絡上物理位置不同的、分散的、閑置的資源整合起來,完成大型、復雜、大數據的計算與存儲[4]。該技術主要是應對傳統集中式技術存在的缺陷而產生的。它的目標是充分利用資源和提高大型任務的完成效率。所以它主要是針對那些大型任務,為了縮短時間,提高效率,通常把任務按照一定的規則或算法分配到不同的子節點,由子節點完成子任務,然后對每個子結果進行匯總,各個子任務在不同的子節點上并行執行,在充分利用子節點資源的同時,也降低了單個節點的負載。

分布式技術從20世紀80年代至今經歷了網格計算、對等計算、并行計算、云計算等幾個階段。進入21世紀,Google推出分布式技術領域的三大典型技術——GFS、MapReduce、BigTable。當前國內外把分布式技術廣泛應用于高性能計算領域。分布式技術在國內成功應用的案例是我國四大超算中心的建立,使得分布式技術廣泛應用于氣候、環境、醫療衛生、經濟等領域。另外,很多NoSQL數據庫也是借助分布式技術實現的,如HBase、MogoDB等。

可視化技術 1983年,耶魯大學的政治學教授愛德華·塔夫特系統地考證了人類用“圖形”表達“數據”和“思想”的淵源,整理了種種歷史古籍中的圖形瑰寶,并結合計算機的發展給統計領域帶來的革命,出版了《定量信息的視覺展示》一書[5]。這本書后來被公認為是“數據可視化”作為一門學科的開山之作[5]。

人工智能、數據倉庫、數據挖掘等大數據技術是面向機器和數據分析專業人員的,而可視化技術面向的是最終用戶。不管是數據分析專業人員還是普通的用戶,數據可視化是數據分析的最終目標。可視化可以直觀展示數據之間的內在聯系以及可能的潛在趨勢,讓數據說話,讓觀眾看到更形象的結果,決策才能更有信服力,目標才更能接近成功。

互聯網、通訊技術和傳感器技術的發展使得全球數據量呈指數級增長趨勢。美國互聯網中心和IBM研究中心統計,從2011年開始,數據每年增長50%,每兩年翻一番。而大數據技術只有飛速發展方能解決不斷增長的數據分析需求。

5 大數據的研究趨勢

人類已經進入一個無時不網、無處不網的“智慧世界”時代,大數據將在人們的社交網絡、電子商務等互聯網領域更好地服務人們的生活。更重要的是,其將在社會管理、經濟管理、醫療與健康、數據新聞、物聯網、教育科技等諸多領域有更好的應用并推動各領域的發展與進步。但大數據的發展也面臨諸多挑戰。大量的數據中心每年正在成倍出現,1998年,美國擁有432所數據中心,專門負責各類數據的存儲和維護工作;2010年,數據中心的總數躍升到2094所,翻了幾倍。就像物流成為電子商務的發展瓶頸一樣,制約數據中心發展的核心難題是日益攀升的能耗問題。未來可能通過收集更多的數據中心的能耗數據并進行大數據挖掘技術,破除影響其發展的屏障。

另外,隨著互聯網的發展,數據收集的途徑多種多樣,數據門類繁雜,可能會造成大量私密數據泄露和“人肉搜索”等不道德現象。因此,針對未來大數據運動的狂潮,應該法律法規先行,并在數據收集、管理、處理和共享過程中建立完善的道德規范。

數據的整理和管理也是大數據時代面臨的重大挑戰。在這個數據爆炸時代,數據的數量、速度和多樣性都在呈現爆炸式增長,大量數據相互聯系、緊密交織在一起,而且呈螺旋狀發展,因此,開發高效的工具、方法和規范以及有效地歸類、整理、管理這些數據是必要的。■

[1]朱淑華.暨南大學公開課:開啟“智慧生活”的大數據[EB/OL].http://www.icourses.cn/viewVCourse.action?course Code=10559V003.

[2]張妮,徐文尚,王文文.人工智能技術發展及應用研究綜述[J].煤礦機械,2009,30(2):4-7.

[3]王喜文.人工智能與大數據怎樣結合?[N].中國電子報,2014-7-17(3).

[4]寧葵,嚴毅.分布式計算技術發展研究[J].微機發展,2004,14(8):14-16.

[5]涂子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].廣西:廣西師范大學出版社,2012.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美yw精品日本国产精品| 国产91麻豆视频| 欧美成人第一页| 一级毛片中文字幕| 人人爽人人爽人人片| 这里只有精品在线| 青青热久免费精品视频6| 亚洲三级网站| 波多野结衣AV无码久久一区| 国产视频一二三区| 國產尤物AV尤物在線觀看| 免费毛片网站在线观看| 国产亚洲精品97AA片在线播放| 久久婷婷六月| 亚洲三级色| 精品久久久无码专区中文字幕| 色欲色欲久久综合网| 亚洲无码高清免费视频亚洲| 男女性色大片免费网站| 毛片久久久| 中文字幕欧美日韩| 国产精品亚洲一区二区三区z| 97在线免费| 2021最新国产精品网站| 97成人在线观看| 五月婷婷中文字幕| 国产在线观看91精品亚瑟| 黄色一级视频欧美| 欧洲亚洲一区| 思思热精品在线8| 日韩a级毛片| 99视频在线精品免费观看6| 日韩av在线直播| 久久精品aⅴ无码中文字幕| 91精品综合| 免费看久久精品99| 精品视频一区在线观看| 成人午夜视频在线| 五月天丁香婷婷综合久久| 亚洲成人动漫在线观看| 久久精品亚洲中文字幕乱码| 国产欧美日韩va另类在线播放| 日韩免费无码人妻系列| 综合亚洲网| 亚洲另类色| 福利一区三区| 午夜视频日本| 日韩国产另类| AV老司机AV天堂| 久久精品视频一| 亚洲伊人久久精品影院| 久久精品视频一| 亚洲精选无码久久久| a毛片基地免费大全| 日本人又色又爽的视频| 成人免费视频一区| 尤物成AV人片在线观看| 91青青视频| 99久久精品久久久久久婷婷| 精品视频一区二区三区在线播| 三上悠亚精品二区在线观看| 天堂亚洲网| 亚洲成AV人手机在线观看网站| 在线观看精品国产入口| 国产午夜在线观看视频| 中文字幕波多野不卡一区| 毛片最新网址| 亚洲二三区| 国产精品无码制服丝袜| 国产福利一区视频| 亚洲性网站| 国产经典在线观看一区| 手机精品福利在线观看| 噜噜噜久久| 久草国产在线观看| 最近最新中文字幕在线第一页 | 国产一区成人| 久久亚洲综合伊人| 免费jizz在线播放| 久久亚洲综合伊人| 日韩免费中文字幕| 久久无码免费束人妻|