楊天純

大數(shù)據(jù)定義、作用及其對數(shù)據(jù)庫技術影響
1.1 大數(shù)據(jù)及其影響
大數(shù)據(jù)(Big Data)是目前最重要的科學、技術和社會話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術和架構,具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經濟地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價值?!?/p>
大數(shù)據(jù)定義有著如下的基本前提和含義。
① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數(shù)據(jù)量快速增長;數(shù)據(jù)增長速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加。”
② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲和數(shù)據(jù)采集的技術發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲成為可能。網絡技術、移動設備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術、氣候和環(huán)境監(jiān)測技術等等,每時每刻都在各種形式、各種類型的大量數(shù)據(jù)。
③ 計算技術的進步與發(fā)展:現(xiàn)代計算技術、網絡技術、多媒體技術和數(shù)據(jù)庫處理技術等可以處理各種形式的海量數(shù)據(jù),產生出大量的高附加值的數(shù)據(jù)、結果、狀態(tài)和知識。
④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術平臺對數(shù)據(jù)的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業(yè)、個人、社會和政府的決策,極大地促進了社會生產力的發(fā)展,使掌握大數(shù)據(jù)技術者獲得了競爭優(yōu)勢和難于模仿的核心競爭力。因此,大數(shù)據(jù)技術也成為了國家的核心戰(zhàn)略資源。
大數(shù)據(jù)的含義廣博、技術領域廣泛、技術平臺多樣、作用效果巨大、影響意義深遠。理解大數(shù)據(jù)的理論、方法和架構,適應大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時代占領先機。
1.2 大數(shù)據(jù)對數(shù)據(jù)庫技術的影響
大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術也具有明顯的特殊性。
1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術面臨的新特點
數(shù)據(jù)量宏大。對數(shù)據(jù)庫技術影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴展到GB,現(xiàn)在再擴展到TB,不遠的將來數(shù)據(jù)庫將經常面對PB量級的數(shù)據(jù),這必然對數(shù)據(jù)庫的硬件架構、數(shù)據(jù)庫系統(tǒng)結構和數(shù)據(jù)庫應用產生重大的影響。
數(shù)據(jù)形式多樣。另外一個對數(shù)據(jù)庫技術產生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進行處理,并且和傳統(tǒng)關系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價值數(shù)據(jù)并不多,例如多張圖片中特定對象的變化,連續(xù)視頻影像中對特殊對象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲、計算方式均有別于傳統(tǒng)數(shù)據(jù)庫。
單機或小型局域網的數(shù)據(jù)庫處理無法滿足。當前,數(shù)據(jù)量爆炸式增長,數(shù)據(jù)類型日趨多樣,傳統(tǒng)關系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術。
傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴展成本非常高。這樣的系統(tǒng)適合于“相對固定結構”的計算結構,例如機銀行業(yè)務管理系統(tǒng)或城市交通管理系統(tǒng)等。
結構化、半結構化與非結構化形式并存。讓數(shù)據(jù)庫有能力處理這些半結構化和非結構化(有時不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術的一項迫切要求。
對結果要求的模糊化。在大數(shù)據(jù)的時代,計算技術不僅限于回答“是/非”問題,而是需要更多的模糊化結果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結構化數(shù)據(jù)的處理結果常常是給出模糊化的答案。
新數(shù)據(jù)庫技術的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術的產生,為處理非結構化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應各自需要的新型數(shù)據(jù)庫系統(tǒng),相關的專家經過分析和總結提出了NoSQL的設計理念,并創(chuàng)建了許多成功的產品。
1.2.2 新型數(shù)據(jù)庫技術的特點
與傳統(tǒng)數(shù)據(jù)庫技術相比較,新型數(shù)據(jù)庫技術具有一些明顯的特點,具體如下:
可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結構化或數(shù)據(jù)代表性而人為地選取部分數(shù)據(jù)或進行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術試圖利用“全部數(shù)據(jù)”,完成對結果的計算和推斷。
使用更多的非結構化數(shù)據(jù),而不是片面地強調全部使用結構化數(shù)據(jù)。在非結構化的高復雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結論和結果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術“以概率說話”的特點。
不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復雜、混亂、無結構化與確定、規(guī)整、結構化數(shù)據(jù)之間做出平衡。
在遇到“使用全部數(shù)據(jù),得出模糊化結果”與“實用部分數(shù)據(jù),得出準確結論”的選擇時,新型數(shù)據(jù)庫技術一般會選擇前者,從一個更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
科學地在因果關系與相關關系中做出抉擇。如果數(shù)據(jù)總體支持因果關系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關系斷語;如果數(shù)據(jù)計算量宏大、成本高昂或條件不具備,則把關注點由“因果關系”調整為“相關關系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關關系的選擇不能是隨機的,而是預先設計和規(guī)劃好的。
不同的數(shù)據(jù)庫開發(fā)理念,不同的應用目標,不同的技術方案,早就了新型數(shù)據(jù)庫豐富多彩、特點各異的局面。
1.3 從傳統(tǒng)關系數(shù)據(jù)庫到非關系數(shù)據(jù)
在計算機系統(tǒng)結構剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術的一個重要的里程碑??频露x的關系數(shù)據(jù)庫具有結構化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關系明確、一致性好的優(yōu)點。關系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結構化查詢語言則把關系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術的重要基石。關系數(shù)據(jù)庫中定義的關系模型的實質是二維表格模型,關系數(shù)據(jù)庫就是通過關系連接的多個二維表格之間的數(shù)據(jù)集合。當前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關系數(shù)據(jù)庫。
到二十世紀八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定。”數(shù)據(jù)倉庫的進步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標,從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數(shù)據(jù)倉庫架構并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術受到企業(yè)及廠家的歡迎并采納實施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務智能和聯(lián)機分析技術的流行。
隨著數(shù)據(jù)庫在企業(yè)中的廣泛應用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對企業(yè)運營和決策具有重要價值的信息,成為了數(shù)據(jù)庫使用者和開發(fā)者關系的話題。“關系數(shù)據(jù)庫之父”科德再次走在了前面,提出多維數(shù)據(jù)庫和多維分析的概念,這便是“聯(lián)機分析處理”(OLAP),使得數(shù)據(jù)庫已經顯現(xiàn)了“智能性”特點。從數(shù)據(jù)倉庫中產生的OLAP又反過來促進和推動數(shù)據(jù)倉庫技術的更深層的發(fā)展。
數(shù)據(jù)倉庫、OLAP的發(fā)展和成熟催生了下一代數(shù)據(jù)庫“智能產品”——數(shù)據(jù)挖掘。該技術是指從大量的數(shù)據(jù)中自動搜索數(shù)據(jù)之間隱藏著的特殊關系,通過統(tǒng)計、分析、檢索、機器學習結合專家系統(tǒng)(結合過去的經驗)和模式識別來發(fā)現(xiàn)數(shù)據(jù)之間的“內在聯(lián)系”,為判斷、決策、規(guī)劃提供信息。這時被發(fā)現(xiàn)的“內在聯(lián)系”不再是簡單的結果,而是上升為“知識”,大量知識的積累更進一步提升了數(shù)據(jù)挖掘的準確性和商業(yè)價值。數(shù)據(jù)倉庫把數(shù)據(jù)挖掘地深度進一步擴展并快速應用到商業(yè)環(huán)境中,這便是“商業(yè)智能”(Business Intelligent, BI)。
商業(yè)智能和數(shù)據(jù)挖掘的大規(guī)模應用是在互聯(lián)網高度普及的時刻,隨著數(shù)據(jù)庫技術的發(fā)展和商業(yè)競爭的白熱化,網絡服務、網絡搜索引擎及網絡用戶行為標引技術逐漸成熟。通過數(shù)據(jù)庫中的知識、用戶行為統(tǒng)計、分析,產生出更具綜合性、普遍性和高商業(yè)附加值的知識,與數(shù)據(jù)挖掘和商業(yè)智能同期發(fā)展的數(shù)據(jù)可視化技術,充分利用圖形、圖表等視覺元素,完成了現(xiàn)代數(shù)據(jù)庫技術在結果輸出和表現(xiàn)形式上的又一次飛躍。數(shù)據(jù)挖掘、商業(yè)智能、可視化技術的基礎是大數(shù)據(jù),其工具便是大數(shù)據(jù)工具。