摘要:隨著科技的不斷進步和經濟的不斷發展,人們在獲取數據方面取得技術性突破,由于存儲器價格的下降以及人們希望獲取數據信息等,進而催生大數據的產生。在大數據時代,微小型數據庫的擴展性遇到瓶頸,難以支持多樣化的數據類型。本文試圖沿著數據庫技術進步的歷史脈絡,從應用維度入手,為當今數據管理技術的新格局,討論具有挑戰性的重要問題。
關鍵詞:微小型數據庫 大數據 趨勢
1 大數據概述
1.1 大數據的概念
隨著科技的不斷發展,繼云計算物聯網之后,大數據成為全球關注的焦點問題,大數據憑借自身巨大的潛在價值,備受社會各界的認可和關注。從2009年開始,在互聯網上開始流行大數據,專家和學者們分別從不同的角度對大數據進行定義。由于大數據本身抽象性比較強,進而在一定程度上增加對其定義進行統一的難度。
對于大數據,在內涵方面,一方面大數據包含海量數據和大規模數據,另一方面大數據包含各種復雜的數據類型;在處理數據方面,大數據的響應時間比較迅速,并且由傳統的周、天、小時等逐漸向分、秒轉變,借助云計算物聯網技術,數據處理成本不斷降低,同時數據處理速度不斷提高。
1.2 大數據的特征
對于大數據來說,通常情況下,是指規模超過10TB的數據集,規模性、多樣性、高速性和價值性是大數據的主要特征。
1.2.1 規模性
隨著經濟的發展,科學技術的進步,數據信息出現爆長,社交網絡、移動網絡、智能終端等逐漸成為人們掌握數據信息的來源,據相關統計顯示,近4億的淘寶網會員每天產生約20TB的商品交易信息;約10億的Facebook用戶每天產生超過300TB的日志信息;Google通過云計算平臺每天處理超過13.4PB的數據。在數據大爆炸時代,人們在智能算法,數據處理平臺,以及先進的處理技術方面都提出了更高的要求,進一步對大規模的數據進行統計分析和預測,以便做出實時處理。
1.2.2 多樣性
由于產生數據的應用系統和設備存在差異,進而在一定程度上決定了大數據形式的多樣性,其多樣性主要體現為:一是財務系統數據、信息管理系統數據、醫療系統數據等結構化數據,這些數據的特點存在較強的因果關系;二是視頻、圖片、音頻等非結構化數據,該數據的特點是數據之間不存在因果關系;三是HTML文檔、郵件、網頁等半結構化數據,這些數據的特點是數據之間存在比較弱的因果關系。
1.2.3 高速性
與海量數據相比,大數據的區別,主要體現在:一是在數據規模方面,大數據的規模更大;二是在數據處理的響應速度方面,大數據的要求更為嚴格,并且都是對數據進行實時分析,而不是所謂的批量分析,對于數據來說,輸入、處理、丟棄等都是立刻見效,根本不存在延遲現象,對于大數據來說,其高速性主要體現在數據的增長速度和處理速度兩個方面。
1.2.4 價值性
有價值的數據在大數據中只占很小的比例。從大量不相關的數據中,對未來趨勢與模式預測分析有價值的數據進行挖掘,這是大數據價值性的重要體現,對這些有價值的數據,通過機器學習方法、人工智能方法或數據挖掘方法等進行深度分析,進而廣泛運用于農業、金融、醫療等領域,以便創造更大的價值。
2 微小型數據庫技術
隨著科學技術的不斷進步,在微小型數據庫系統需求方面,嵌入式操作系統為數據庫技術開辟了新的空間。目前,微小型數據庫技術逐漸從研究領域延伸到應用領域。對于微小型數據庫系統來說,通常情況下,可以將其定義為:數據庫系統的內核僅需一個很小的內存就可以支持。在微小型數據庫系統中,對于便攜式設備來說,其內存空間一般只有2MB,對于掌上設備或者其他手持設備來說,其內存空間通常只有50KB。內存空間的大小在一定程度上影響和制約著微小型數據庫系統的運行速度。根據占用內存的大小,可以將微小型數據庫系統分為:超微DBMS(pico-DBMS)、微小DBMS(micro-DBMS)和嵌入式DBMS。
在各種智能型嵌入設備或移動設備上,通過將微小型數據庫系統與操作系統進行集成,進而確保設備的征程運行。目前,微小型數據庫技術逐漸從研究領域延伸到應用領域,同時涌現出各種微小型數據庫產品。在各種智能設備中,隨著移動數據處理和管理需求的不斷提高,在學術界、工業界、軍事領域和民用部門等給予了嵌入式移動數據庫技術高度重視,并且不斷實用化。
3 微小型數據庫的發展
隨著科技的發展,對數據管理提出新的要求和挑戰,研究和開發工作出現一片繁忙的景象。研究的重點依然是更高的性能,以及更為復雜、多樣的數據。
3.1 面向云平臺的數據管理技術
通過對計算、存儲、網絡等硬件資源進行整合,云平臺為用戶提供了虛擬化技術,進而在一定程度上為用戶使用這些資源提供了便利性,同時確保了經濟性。對于云計算來說,虛擬化和動態伸縮性是其主要的特點。在管理面向操作型應用數據、分析型應用數據的過程中,采用云平臺還需面對許多的挑戰,例如,在具有動態伸縮性的云平臺上,如何支持事務處理,如何在云平臺上部署新的存儲模型,如何放置數據,如何對數據進行容錯,以及如何將新的索引結構部署到云平臺上等,以及如何在云平臺上將數據庫當作一個服務進行部署,隨著時代的不斷發展,上述問題需要繼續進行深入研究分析。節能、隱私保護和安全等關鍵問題還需要面向云平臺的數據管理進行解決和處理,進而贏得用戶的信任,進一步實現產業化。
3.2 大數據統一處理平臺
通過對上文進行分析,圍繞RDBMS和Hadoop技術分別產生了一個分析生態系統,以及正在產生一個分析生態系統。在某些方面這兩個系統是重疊的,在這種情況下,能否采取相應的措施,將兩項技術和生態系統融合到一起?在理論界、工業界的共同努力下,一定會形成一個統一的大數據處理框架以及生態系統。但是需要深入的研究某些問題,例如,如何在一個存儲層上(數據組織方式)上整合多類型的數據;如何采取措施建立智能的存儲層;如何改進和優化查詢的調度算法,以及執行算法等,進而在一定程度上與多核、GPU、異構環境等相應的硬件環境相互適應,并且在云平臺上能夠正常運行;如何確保服務和功能超越SQL,對編程和應用接口進行擴展,針對普通用戶、高級用戶、統計學家,以及數學家等不同類型的用戶,進而提供個性化的數據分析環境和分析工具;如何對大數據的處理結果進行可視化。
4 結論
隨著時代的不斷發展,大數據時代正在向我們走來,數據管理技術研究逐漸進入新的階段。本文通過對技術進步的歷史思路進行分析,同時對數據管理技術的發展進程進行闡述,并展開當今數據管理技術新畫卷。
參考文獻:
[1]李斌.大數據及其發展趨勢研究[J].廣西教育,2013(09).
[2]覃雄派,王會舉,杜小勇,王珊.大數據分析——RDBMS與 MapReduce的競爭與共生[J].軟件學報,2012,23(1):32.
[3]林子雨,賴永炫,林琛,謝怡,鄒權.云數據庫研究[J].軟件學報,2012,23(5):1148.
[4]王意潔,孫偉東,周松,裴曉強,李小勇.云計算環境下的分布存儲關鍵技術[J].軟件學報,2012,23(4):962.
作者簡介:豐娟娟(1981-),女,湖北谷城人,教師,講師職稱,研究方向:數據庫技術。