常曉宇
摘? 要:數據庫已是計算機科學技術中發展最快、應用最廣泛的重要分支之一。而大數據技術實際上就是將所掌握的海量的數據進行分析和使用,使這些數據發揮更大的價值。該文首先闡述了大數據的基本概念及大數據的特性,從3個方面指出了傳統數據和大數據的區別,從大數據采集、數據分析、數據挖掘、大數據的價值與應用幾個方面總結了大數據的關鍵技術,最后展望了大數據的未來方向。
關鍵詞:大數據;數據庫技術;數據挖掘
中圖分類號:G642? ? ? ? 文獻標志碼:A
1 大數據的基本概念
1.1 定義
數據庫是依據一定的數據結構組織起來并存儲和管理在一起的各種數據的集合,是多種數據的大倉庫。其規模較大,與傳統的數據庫軟件工具相比其海量數據的存儲、管理和使用都超出其能力范圍,有著規模更大、數據流轉更快、數據類型更多、價值密度更低等特征。
1.2 大數據的特性
在大數據技術平臺下,與當前流行的數據庫處理技術、可擴展的存儲系統技術、數據挖掘電網技術、云計算平臺、分布式文件系統、分布式數據庫互聯網技術等技術有著密切的關系,其主要特點表現如下。
1.2.1 數據量巨大
當前人們使用的印刷產品數據量不足200PB,個人計算機硬盤容量則達到了TB,大型企業的數據量則超過了EB。
1.2.2 數據類型多樣
由于數據量級存在豐富多樣的類型,因此數據還可以分為結構化與非結構化數據。結構化數據主要以存儲形式為主,當前非結構化數據格式非常多樣,其種類不僅包括文本,而且還呈現為圖片、視頻、聲音、位置等多個不同的種類,存在著大量的個性化數據。
1.2.3 價值密度低
為了更好地對數據進行分析和研究,并以最快的速度提取有價值的信息,當前主要的問題是使用機器算法對數據進行分析。
1.2.4 處理速度快
在處理數據時通常以“1秒定律”作為考察指標,來衡量海量信息的價值提取速度。大數據的這種信息數據分析技術和傳統的數據分析技術有著很大區別,其體現如下。
2 傳統數據和大數據的區別
第一,大數據技術出現之前,在數據處理方面主要應用模型和各種算法。為了獲取所需的準確結果要建立一定的模型來實現,還要應用準確的因果關系和合理算法才可以實現。因此要想進行準確地數據分析就離不開高標準模型的構建,使用合理的算法,才會得到所需的信息,隨著大數據技術的出現,這一問題迎刃而解。
第二,在數據量較大時,無須借助因果關系就能夠實現數據分析。象Google幫助用戶進行翻譯時會依據客戶自身的使用習慣來翻譯,而不局限于固定的語法和標準。
第三,在大數據技術支持下,通過互聯網技術可以記錄人們日常的行為數據,通過對這些數據信息進行分析可以獲得個性化的信息需求,而不需要像傳統數據技術一樣構建相應的數據庫,需要再對各種數據進行前期的處理并建立多種數據庫。在大數據技術下不再需要數據結構,通過網絡技術就可以隨時便捷地處理網絡中所產生的各種社交信息,對用戶行為所產生的地理位置信息等進行獲取,更加精準地獲知用戶的日常行為習慣等個性化的數據內容。
3 大數據的關鍵技術
3.1 大數據采集
電商可以在借助傳統數據庫MySQL和Oracle的基礎上,把客戶往來的大量信息數據存儲和管理起來。大數據技術在采集數據信息的過程中有著很高的并發數,這是因為同時還有其他較多的用戶也在對數據進行訪問和操作,象購票網站和淘寶,在集中的時間段內就會有上百萬次的點擊量和使用量,因此需要采集端事先要設置海量的數據庫,以滿足短時間內所聚集的海量的用戶點擊需求。在大數據背景下,數據不僅來自互聯網、各種物聯網以及云計算系統,同時還包括了手機、物聯網、IPAD、電腦等移動數據端產生的數據,這些數據由于人們頻繁地使用數據量急速膨脹。
3.2 數據分析
主要是指應用恰當的統計方法來分析所收集的數據,并篩選和提取所需的信息。通過這些數據的分析和研究,能夠為人們的日常活動提供相應的參考,幫助人們樹立正確的認知,獲得所需的信息,調整自己的行為,得到正確的結論,從而獲取更深刻、更有價值的信息。隨著大數據技術的不斷發展,其應用范圍更加廣闊,不僅體現在數據數量方面,在數據速度、數據多樣性等大數據的應用趨勢方面都有著增長的趨勢,因此不管何種行業都應該選擇更為先進的大數據技術以獲得更好的發展。
3.3 數據挖掘
數據挖掘技術不僅是一門綜合利用了人工智能的新興技術,同時這一技術還使用了常見的數據庫技術以及計算機系統中的機器語言技術,還有其他學科的統計技術等,是一種集多種學科技術和知識于一身的綜合性的技術系統。這一技術的前提是存在海量的數據需要處理,同時需要具有相應的能力,象較強的數據存儲和計算能力等,因此,數據挖掘技術要基于現有數據通過多種算法,才能起到良好的數據分析效果。
3.4 大數據的價值與應用
大數據技術最大的作用就是可以分析龐大的數據,同時將分析結果呈現在需求者面前。在不同行業、不同企業的各種業務中,甚至相同行業的不同企業的相同業務當中,也會有著不同的發展方向、對數據集合有著不同的要求、不同的挖掘目標,因此所選擇的大數據技術與大數據信息系統也不會相同。只有做到“應用對象、應用技術、實際應用”協調運行,大數據才能表現出本身最大的價值。當人類技術發展到頂端時,表明數據技術也達到了頂端,研究數據、應用數據,可以創造新的發展機會,人們并不關心大數據的概念,而是關注大數據的應用。
4 大數據的未來方向
4.1 數據的資源化
數據的資源化指的是大數據技術對于企業和社會發展有著不可忽視的重要作用,應引起人們的廣泛關注和重視,并獲得社會不同領域的積極認可,獲得更具普及性的應用和發展,所以對于企業來說,要重視新興技術的應用,不斷調整營銷戰略,從而獲得更好的發展。
4.2 與云計算的深度結合
在云數據分析平臺的基礎上,大數據技術的發展將會更加完善,越來越多的企業把各類日常事務運行及管理都搬到了這一平臺上,使這一技術獲得了空前的發展,促進了大數據技術與云計算的融合發展。
總之,隨著數據分析技術的快速發展,企業內部的數據分析也要與各部門進行融合,不限于某個部門,而是將其應用到企業的各個方面,從而更好地獲得有利于企業自身發展的各種數據和信息,為企業的發展決策提供相應的支持。
參考文獻
[1]龍厚彥.大數據時代背景下的數據庫技術應用[J].信息與電腦(理論版),2018(23):15.
[2]何邦財.探究大數據背景下的數據庫技術研究[J].計算機產品與流通,2017(8):3-4.
[3]竹林.用數據庫編一本個人專用詞典[J].中國索引,2004(2):21.
[4]李天輪.數據庫技術的發展現狀與趨勢研究[J].科技風, 2019(2):32.
[5]時進.數據庫技術的發展現狀與趨勢[J].電子技術與軟件工程,2019(2):22-23.