999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)時代的數(shù)據(jù)庫和數(shù)據(jù)技術(上)

2013-04-29 14:26:31楊天純
中國信息化 2013年14期
關鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫

楊天純

大數(shù)據(jù)定義、作用及其對數(shù)據(jù)庫技術影響

1.1 大數(shù)據(jù)及其影響

大數(shù)據(jù)(Big Data)是目前最重要的科學、技術和社會話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術和架構,具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經濟地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價值?!?/p>

大數(shù)據(jù)定義有著如下的基本前提和含義。

① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數(shù)據(jù)量快速增長;數(shù)據(jù)增長速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加。”

② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲和數(shù)據(jù)采集的技術發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲成為可能。網絡技術、移動設備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術、氣候和環(huán)境監(jiān)測技術等等,每時每刻都在各種形式、各種類型的大量數(shù)據(jù)。

③ 計算技術的進步與發(fā)展:現(xiàn)代計算技術、網絡技術、多媒體技術和數(shù)據(jù)庫處理技術等可以處理各種形式的海量數(shù)據(jù),產生出大量的高附加值的數(shù)據(jù)、結果、狀態(tài)和知識。

④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術平臺對數(shù)據(jù)的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業(yè)、個人、社會和政府的決策,極大地促進了社會生產力的發(fā)展,使掌握大數(shù)據(jù)技術者獲得了競爭優(yōu)勢和難于模仿的核心競爭力。因此,大數(shù)據(jù)技術也成為了國家的核心戰(zhàn)略資源。

大數(shù)據(jù)的含義廣博、技術領域廣泛、技術平臺多樣、作用效果巨大、影響意義深遠。理解大數(shù)據(jù)的理論、方法和架構,適應大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時代占領先機。

1.2 大數(shù)據(jù)對數(shù)據(jù)庫技術的影響

大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術也具有明顯的特殊性。

1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術面臨的新特點

數(shù)據(jù)量宏大。對數(shù)據(jù)庫技術影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴展到GB,現(xiàn)在再擴展到TB,不遠的將來數(shù)據(jù)庫將經常面對PB量級的數(shù)據(jù),這必然對數(shù)據(jù)庫的硬件架構、數(shù)據(jù)庫系統(tǒng)結構和數(shù)據(jù)庫應用產生重大的影響。

數(shù)據(jù)形式多樣。另外一個對數(shù)據(jù)庫技術產生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進行處理,并且和傳統(tǒng)關系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價值數(shù)據(jù)并不多,例如多張圖片中特定對象的變化,連續(xù)視頻影像中對特殊對象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲、計算方式均有別于傳統(tǒng)數(shù)據(jù)庫。

單機或小型局域網的數(shù)據(jù)庫處理無法滿足。當前,數(shù)據(jù)量爆炸式增長,數(shù)據(jù)類型日趨多樣,傳統(tǒng)關系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術。

傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴展成本非常高。這樣的系統(tǒng)適合于“相對固定結構”的計算結構,例如機銀行業(yè)務管理系統(tǒng)或城市交通管理系統(tǒng)等。

結構化、半結構化與非結構化形式并存。讓數(shù)據(jù)庫有能力處理這些半結構化和非結構化(有時不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術的一項迫切要求。

對結果要求的模糊化。在大數(shù)據(jù)的時代,計算技術不僅限于回答“是/非”問題,而是需要更多的模糊化結果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結構化數(shù)據(jù)的處理結果常常是給出模糊化的答案。

新數(shù)據(jù)庫技術的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術的產生,為處理非結構化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應各自需要的新型數(shù)據(jù)庫系統(tǒng),相關的專家經過分析和總結提出了NoSQL的設計理念,并創(chuàng)建了許多成功的產品。

1.2.2 新型數(shù)據(jù)庫技術的特點

與傳統(tǒng)數(shù)據(jù)庫技術相比較,新型數(shù)據(jù)庫技術具有一些明顯的特點,具體如下:

可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結構化或數(shù)據(jù)代表性而人為地選取部分數(shù)據(jù)或進行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術試圖利用“全部數(shù)據(jù)”,完成對結果的計算和推斷。

使用更多的非結構化數(shù)據(jù),而不是片面地強調全部使用結構化數(shù)據(jù)。在非結構化的高復雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結論和結果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術“以概率說話”的特點。

不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復雜、混亂、無結構化與確定、規(guī)整、結構化數(shù)據(jù)之間做出平衡。

在遇到“使用全部數(shù)據(jù),得出模糊化結果”與“實用部分數(shù)據(jù),得出準確結論”的選擇時,新型數(shù)據(jù)庫技術一般會選擇前者,從一個更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。

科學地在因果關系與相關關系中做出抉擇。如果數(shù)據(jù)總體支持因果關系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關系斷語;如果數(shù)據(jù)計算量宏大、成本高昂或條件不具備,則把關注點由“因果關系”調整為“相關關系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關關系的選擇不能是隨機的,而是預先設計和規(guī)劃好的。

不同的數(shù)據(jù)庫開發(fā)理念,不同的應用目標,不同的技術方案,早就了新型數(shù)據(jù)庫豐富多彩、特點各異的局面。

1.3 從傳統(tǒng)關系數(shù)據(jù)庫到非關系數(shù)據(jù)

在計算機系統(tǒng)結構剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術的一個重要的里程碑??频露x的關系數(shù)據(jù)庫具有結構化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關系明確、一致性好的優(yōu)點。關系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結構化查詢語言則把關系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術的重要基石。關系數(shù)據(jù)庫中定義的關系模型的實質是二維表格模型,關系數(shù)據(jù)庫就是通過關系連接的多個二維表格之間的數(shù)據(jù)集合。當前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關系數(shù)據(jù)庫。

到二十世紀八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定。”數(shù)據(jù)倉庫的進步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標,從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數(shù)據(jù)倉庫架構并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術受到企業(yè)及廠家的歡迎并采納實施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務智能和聯(lián)機分析技術的流行。

隨著數(shù)據(jù)庫在企業(yè)中的廣泛應用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對企業(yè)運營和決策具有重要價值的信息,成為了數(shù)據(jù)庫使用者和開發(fā)者關系的話題。“關系數(shù)據(jù)庫之父”科德再次走在了前面,提出多維數(shù)據(jù)庫和多維分析的概念,這便是“聯(lián)機分析處理”(OLAP),使得數(shù)據(jù)庫已經顯現(xiàn)了“智能性”特點。從數(shù)據(jù)倉庫中產生的OLAP又反過來促進和推動數(shù)據(jù)倉庫技術的更深層的發(fā)展。

數(shù)據(jù)倉庫、OLAP的發(fā)展和成熟催生了下一代數(shù)據(jù)庫“智能產品”——數(shù)據(jù)挖掘。該技術是指從大量的數(shù)據(jù)中自動搜索數(shù)據(jù)之間隱藏著的特殊關系,通過統(tǒng)計、分析、檢索、機器學習結合專家系統(tǒng)(結合過去的經驗)和模式識別來發(fā)現(xiàn)數(shù)據(jù)之間的“內在聯(lián)系”,為判斷、決策、規(guī)劃提供信息。這時被發(fā)現(xiàn)的“內在聯(lián)系”不再是簡單的結果,而是上升為“知識”,大量知識的積累更進一步提升了數(shù)據(jù)挖掘的準確性和商業(yè)價值。數(shù)據(jù)倉庫把數(shù)據(jù)挖掘地深度進一步擴展并快速應用到商業(yè)環(huán)境中,這便是“商業(yè)智能”(Business Intelligent, BI)。

商業(yè)智能和數(shù)據(jù)挖掘的大規(guī)模應用是在互聯(lián)網高度普及的時刻,隨著數(shù)據(jù)庫技術的發(fā)展和商業(yè)競爭的白熱化,網絡服務、網絡搜索引擎及網絡用戶行為標引技術逐漸成熟。通過數(shù)據(jù)庫中的知識、用戶行為統(tǒng)計、分析,產生出更具綜合性、普遍性和高商業(yè)附加值的知識,與數(shù)據(jù)挖掘和商業(yè)智能同期發(fā)展的數(shù)據(jù)可視化技術,充分利用圖形、圖表等視覺元素,完成了現(xiàn)代數(shù)據(jù)庫技術在結果輸出和表現(xiàn)形式上的又一次飛躍。數(shù)據(jù)挖掘、商業(yè)智能、可視化技術的基礎是大數(shù)據(jù),其工具便是大數(shù)據(jù)工具。

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)庫
財經(2017年15期)2017-07-03 22:40:49
基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫
財經(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
數(shù)據(jù)庫
財經(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲成网777777国产精品| 亚洲国产天堂久久综合226114| 最新国语自产精品视频在| 国产小视频免费观看| 中文字幕无码中文字幕有码在线| 国产三级成人| 成人a免费α片在线视频网站| 国产精品亚洲一区二区三区z| 日韩最新中文字幕| 久一在线视频| 香蕉久久国产超碰青草| 国产成人精品综合| 就去吻亚洲精品国产欧美| 国产成人精品综合| 日本在线国产| 免费一级毛片不卡在线播放| 欧美在线网| 国产成人高清精品免费5388| 久久五月视频| 99热这里只有免费国产精品| 久久五月视频| 免费观看三级毛片| 少妇精品在线| 久久精品国产999大香线焦| 91亚洲精品国产自在现线| 国产毛片高清一级国语| 精品国产一区二区三区在线观看 | 999福利激情视频| 亚洲天堂网2014| 亚洲精品视频在线观看视频| 亚洲一级毛片在线观播放| 亚洲欧美日韩动漫| 国产精品福利导航| 亚洲精品无码在线播放网站| 午夜激情婷婷| 福利视频99| 亚洲精品图区| 国产成人免费高清AⅤ| 亚洲V日韩V无码一区二区| 国产成人精彩在线视频50| 在线观看网站国产| 国产中文一区a级毛片视频| 欧美在线国产| 亚洲日韩高清在线亚洲专区| 黄色免费在线网址| 欧美成人精品在线| 国产精品伦视频观看免费| 亚洲综合久久成人AV| 91九色国产在线| 波多野结衣第一页| 日韩黄色大片免费看| 永久免费AⅤ无码网站在线观看| 8090午夜无码专区| 欧美精品成人| 亚洲国产av无码综合原创国产| 综合色天天| 日本免费高清一区| 香蕉国产精品视频| 黄色福利在线| 香蕉视频在线观看www| 欧美中文字幕无线码视频| 一本综合久久| 亚洲一区二区黄色| 国产综合日韩另类一区二区| 国产成人无码播放| 不卡视频国产| 国产偷倩视频| 91人妻在线视频| 国产自无码视频在线观看| 超碰精品无码一区二区| 国产欧美精品一区二区| 午夜色综合| 在线va视频| 国产欧美精品一区二区| 精品视频在线观看你懂的一区| 天天婬欲婬香婬色婬视频播放| 夜色爽爽影院18禁妓女影院| 成人年鲁鲁在线观看视频| 亚洲AV无码久久精品色欲| 亚洲国产91人成在线| 一级毛片在线免费视频| 一级毛片中文字幕|