摘要:近些年來,互聯網絡的使用涉及到人們生活的各個方面,社交網絡、物聯網系統等技術的廣泛使用產生了巨量的非結構化的數據信息,也被稱之為大數據。大數據的信息無法使用傳統的數據庫管理軟件進行處理,必須要要用到并行處理式和分布式的數據庫系統,以及云存儲等方面的技術進行處理。本文簡述了大數據的定義、特征及處理技術,并對大數據系統的應用進行了探討。
關鍵詞:大數據;處理技術;數據處理系統
引言:
在如今互聯網快速發展的時代中,其應用的范圍在不斷的拓展,網絡中產生的數據總量也產出現了巨量的增長。社交網絡平臺中使用者之間的互動、物聯網平臺匯總的各種儀器設備都在不斷的傳輸著海量的數據信息。這些大數據信息中包含著十分重要的而價值,提現了人類相互之間繁瑣復雜的行為。企業可以從大數據中深入挖掘用戶對商品的喜好與追求,從而不斷的改進現有的產品。
1 大數據的特點
1.1 數據處理的速度快
在商業性網站中的電子數據、社交網絡平臺中的用戶之間產生的信息、各個電氣設備的傳感器所收集的海量數據都有著實時性的特點,這些數據產生的速度是極快的,同時也需要進行快速的數據處理。
1.2 數據結構多樣化
大數據的來源是非常多樣化的,例如在網絡瀏覽中的點擊、在社交平臺中的交流互動、GPS定位系統所產生的定位信息等等。這些不同的來源所產生數據已經不是傳統數據庫可以處理的那種結構化的數據信息,也可以是郵件數據、聲音數據、影視頻數據、文字數據等等,這些都是些非結構化以及半結構化的數據信息。
1.3 數據蘊藏豐富價值
大數據的信息匯總包含著十分豐富的價值,它在一定程度上反應了人自身以及人與人之間復雜的行為體系。因此,企業可以通過對大數據的深入分析后整理出客戶的各種喜好以及需要,從而可以有效的提升產品的市場競爭力。企業也可以從大數據的分析中得出客戶對某個產品的需要,從而可以使產品得到優化升級。大數據體系中的各種各樣的數據往往是比較原始的,其價值的密度相對較低。例如,在社交平臺中的一條信息,可能會被不同的人不停的進行轉發,進而產生更多相關的信息,而這些信息數據中就包含著十分豐富的價值。
1.4 數據快速型
實時性的數據信息需要大數據相關的技術對其進行快速的處理,以確保數據信息的時效性。同時研究出其具體變化的規律來給決策者提供支持。
1.5 數據來源真實可靠
大數據的信息來源主要是商業性的網站、社交網絡、網絡瀏覽的電機等等途徑,這些原始的數據信息并沒有經過技術的處理,因此其真實性是有保障的。
2 大數據處理技術
2.1 大數據采集技術
根據大數據采集模式的不同方法,其采集的技術可以分為集中式和分布式的采集,這兩種數據采集的方式各有千秋。分布式的數據采集模式具有較強的靈活性,而集中式的數據采集模式則能夠對全局的數據進行有效的掌控。在對大數據信息進行采集的過程中,既包括對各個企業自身的數據的采集,也包含對各個企業之間的數據的采集。這幾種數據采集的模式可以通過分布式并行的數據計算的模式進行混合使用,從而有效提升了大數據采集的工作效率。也就是說在進行大數據采集時,對各個企業自身使用集中式的采集方法,對各個企業之間的數據使用分布式的采集方法。在各個企業中配置多個服務器,將其可以共享的數據信息進行分別存儲,然后可以使用分布式的數據采集方法進行采集。
2.2 大數據的存儲技術
大數據搜處理的數據信息數量是極其巨大的的,傳統的存儲數據的技術很難滿足大數據對存儲的需要,這主要包括以下幾個方面:首先,在當下的網絡信息化背景下,每時每刻產生的數據量是極其巨大的,傳統的單節點的數據存儲單元無法滿足海量的數據存儲;其次,傳統的數據存儲模式是按行來進行存儲的,但是需要花費許多的成本進行 維護。在云概念的背景下,通常使用列式的方法進行大數據的存儲。這種存儲的方式可以根據數據信息的屬性進行存儲。在對數據進行使用時,僅僅對所涉及的使用屬性進行訪問,從而提升數據輸入和輸出的效率。因此,列式存儲的方式可以大大的提升數據的壓縮程度,減少傳輸數據的成本支出。
2.3 大數據聯機分析技術
大數據的聯機分析技術可以對海量的數據進行分析,并為用戶提供決策性的數據結論支持,是大數據系統的重要內容。聯機分析的模式可以對數據進行綜合性、全面性的分析,從而為企業的決策者提供數據的支持。
2.4 大數據挖掘技術
聯機分析的技術只能獲取數據表層的信息,在對其潛在的方面卻有所欠缺。在云計算的背景下,通過數據挖掘技術能夠將數據相互之間的關系進行整理,并通過一定的模式將其展示出來。
2.5 大數據可視化技術
海量的數據信息經過大數據的多層次的分析處理后,能夠通過大數據可視化技術的應用而形象直觀的展示給用戶,以便于用戶能夠充分的理解。
3 大數據處理系統
3.1 基于融合式架構的應用
融合式架構的應用其實就是一種客戶機和服務器的架構模式,客戶機是用于人機交互,而服務器負責對應用系統進行管理和控制等。這種架構模式相對簡單易維護,但對于服務器的性能有較高的依賴。
3.2 基于分散式架構的應用
在分散式架構中各個節點是相互平等的,且具有一定的自治的功能。但是由于分部存儲和操作的數據的存在,使其在維護方面比較困難,各個節點之間也難以即時的同步。
3.3 基于混合式結構的應用
混合式架構具有前兩種架構的有點,既能夠便于用戶進行交流互動,又可以有效的降低對服務器的壓力,提升系統的使用效率。
4 結束語
現階段,隨著網絡社交平臺的進一步發展、傳感器的深度應用以及物聯網的發展,大數據已經在人們生活的各個方面得到了體現。因此,我們要對大數據的處理進行深入的研究,以充分挖掘其中所包含的價值,以更好的服務于社會。
參考文獻:
[1] 任桂禾,王晶.淺談大數據處理技術架構的演進[J].信息通信技術,2014(06):47-51.
[2] 馬建光,姜巍.大數據的概念、特征及其應用[ J]. 國防科技,2013(34) :10-17.
[3] 程學旗,靳小龍,王元卓,等. 大數據系統和分析技術綜述[J]. 軟件學報, 2014(25):1889-1908.
作者簡介:
戚坤,1982年11月,女,漢,吉林白山市人,本科,工程師,研究方向:大數據與人工智能。