摘 要:對大數據進行管理和數據挖掘,從中分析和挖掘潛在的價值和關系已經成為當前的研究熱點之一。本文首先對大數據的定義、作用及其研究重要性進行了分析,然后對基于大數據的信息系統中所應用的多種關鍵技術進行了研究和討論,最后就其發展和應用趨勢做了簡要介紹。
關鍵詞:大數據;信息系統;數據挖掘
信息技術的發展推動了物聯網技術、移動互聯網技術、云計算技術等現代數字信息系統的全面發展,使得信息的獲取途徑和獲取量產生了幾何性的增長,且獲取數據和存儲數據的成本都有了顯著降低。這些海量數據在極大地促進數據信息處理與分析方式轉變的同時也提升了數據結構的復雜度。如何從大量復雜數據中提取有用信息并對其進行組織和管理已經成為當前信息系統的重點關注內容之一。
1 大數據的定義與特性概述
目前來說,大數據并沒有一個標準的統一的定義,但是其與海量數據之間存在非常明顯的區別,即大數據是海量數據中的有價值數據信息的集合,包含了針對數據的處理行為,且各數據之間存在一定的關聯,具有挖掘和分析價值,需要應用特定的數據管理與分析技術對其進行處理。
其核心技術又可分為處理和分析兩類,每一類中又包含多種數據處理技術,如數據挖掘技術、模式識別技術、信號處理技術、數據庫技術、云計算技術、可視化技術、分布式技術等。
綜合來看,大數據之所以在信息系統中得到了廣泛的重視和應用,主要是由以下幾方面特性決定的。
首先是大數據的普遍性。信息技術的發展使得人們的生活、工作、學習中產生了大量的數據信息,統計分析結果表明,全球所產生的數據量正在以每兩年翻一倍的速度增長,而新技術和新研究方向的拓展和開發又使得數據的生產成本、存儲成本、處理成本等都得到了大幅度下降,大數據已經被普遍應用到目前的數據信息分析與處理過程中。
其次是大數據技術對企業發展的重要性。大數據使用數據挖掘技術、聚類分析技術等對企業發展過程中產生的海量數據進行分析、挖掘和整合,能夠從中提煉出對企業具有積極推動意義的價值信息,該信息對于提升工作效率,改善決策過程,推動業務開展等具有十分重要的意義。
再次大數據是必然的發展趨勢。大數據所能夠創造的價值越來越明顯,從中所能夠獲取的信息也越來越豐富,無論是個人還是企業,甚至是國家,都將大數據作為了重點對象進行應用和研究。
2 基于大數據的信息系統關鍵技術分析
基于大數據的信息系統所具有的具體功能千差萬別,系統結構復雜多變,但是對其進行抽象可將其分為如下幾部分關鍵技術:分布式的大數據存儲技術、分布式的大數據處理技術以及海量數據運算與管理技術等。
2.1 分布式文件管理技術
數據存儲與管理是大數據應用的基礎之一,但是傳統的數據文件管理系統不適用于大數據信息系統,需要根據實際應用需求進行設計與分析。目前應用比較成功的文件管理系統技術主要集中在具有海量用戶的互聯網企業中。GFS文件管理系統是由Google所提出和應用的一類數據文件管理技術,該技術使用大量的廉價服務器搭建了一個可擴展的文件管理系統,數據可以被存儲在不同的服務器中。
可以看出該管理技術通過分塊存儲、關聯鏈接、追加更新等對數據進行存儲與管理,但是對于大文件的管理與存儲,該技術存在一定的不足,為彌補和完善該不足,多個類GFS文件管理系統被開發應用到大數據管理中。這些技術通過增加緩沖層、使用內存加載部分元數據的方式提升了數據的存儲和讀取效率,使得大數據文件管理系統進入集群管理階段。
2.2 分布式數據處理系統
大數據信息的處理方式主要有流處理和批處理兩種。前者將所需要處理的海量數據看作是一個不間斷的流,可以實時的對進入處理系統的數據進行處理和結果返回。分布式處理方式的應用極大的提升了系統的數據處理實時性。后者則是將需要處理的數據先執行存儲操作再對其進行處理。該技術可以使用將數據按照特定的分割方式分為多塊數據,這些數據可同時由多個處理終端進行并行處理。顯然,該處理技術淡化了數據的關聯部分,但是極大的提升了數據的可調度性、集群性。該技術的核心在于數據的分割、分發以及處理。
2.3 分布式數據庫系統
傳統的數據庫大多是傳統的關系型數據庫,這些數據庫在面對規模性、多樣性、低價值密度性的大數據時存在不同程度的缺陷或不足。為實現大數據的處理需要采用更簡單的數據庫模型。如Bigtable技術將所管理的數據信息看做字符串進行管理,而不直接對字符串進行解釋,從而使得所被管理的數據具有結構化或半結構化特征,這就使得數據庫系統得到了簡化。其他如Dynamo技術所使用的鍵值存儲、分布式哈希表、向量時鐘等技術同樣能夠實現對大數據庫系統的可靠高效管理。而這些數據庫系統的發展同樣也推動了關系型數據庫的發展,促進了NoSQLogic數據庫的發展和應用。該數據庫使用了模式智能識別、一致化與簡單化應用程序接口等技術進行優化,同樣可以達到較好的應用效果。
2.4 其他系統及關鍵技術
大數據信息系統結構復雜,除上述幾部分系統之外還包括其他多個系統,這些系統又由多個大數據處理與分析技術構成,如數據挖掘技術、云計算技術、模式識別技術、聚類分析技術、稀疏問題處理技術等。
[參考文獻]
[1]黃哲學,曹付元,李俊杰,陳小軍.面向大數據的海運數據系統關鍵技術研究[J].網絡新媒體技術,2012(11).