霍福華
摘? 要:隨著信息技術和計算機科技的進一步發展,互聯網應用普及,以往人們忽視的數據資源價值更加凸顯,由此發展的大數據技術更是將這些海量的數據信息資源充分挖掘出來,實現數據資源轉化為經濟來源,為學校優化管理方式和優化課程設置、為企業制定生產和發展決策、為政府制定相關管理政策等都提供了有效的參考。大數據在數據處理中,用到的相關技術較多,掌握這些技術應用,對于進一步推動大數據發展具有重要意義。本文分析了大數據的數據特點,分析目前大數據數據處理中的關鍵技術,并針對大數據數據處理技術的進一步優化和應用,提出幾點建議。
關鍵詞:大數據;數據處理;關鍵技術;應用
中圖分類號:TP399? ? ?文獻標識碼:A
Abstract:with the further development of information technology and computer technology as well as the popularization of the Internet,the value of data resources neglected by people in the past has become more prominent.Big data,which is developed from this,fully excavates these massive data and information resources,realizes the conversion of data resources into economic sources,optimizes management methods and curriculum settings for schools,formulates production and development decisions for enterprises,and provides effective references in making relevant administration policies for the government.Big data involves many related technologies in data processing,so mastering the application of these technologies is of great significance for promoting the development of big data.This paper analyzes the data characteristics of big data,analyzes the existing key technologies in the process of big data, and puts forward some suggestions for the further optimization and application of big data processing technology.
Keywords:big data;data processing;key technology;application
1? ?引言(Introduction)
目前,大數據已經在人們的生活中普遍應用,人們在消費、生產、工作,以及多種領域中都會留下一定的數據信息,為大數據提供了充足的數據資源,而大數據的發展也在一定程度上便利了人們的生產和生活,強化大數據處理技術應用,優化大數據技術系統,對于發揮大數據更大的價值具有重要意義。
2? 大數據的數據特點(The data characteristics ofbig data)
就大數據中的數據總體特點來看,主要體現在以下幾個方面:
第一,數據的龐大性,大數據收集和處理的數據是海量的,這些數據是動態變化的,在數據處理的過程中還會不斷增長和變化,因此,大數據處理的數據還在不斷擴展,數據量不斷增長。大數據的數據量龐大要求進行大數據處理和分析的設備,以及軟件、硬件等自身的春儲存能力和信息處理能力必須要十分強大,才能應對時刻變化增長的數據[1]。
第二,數據的多樣性,大數據收集來的海量數據中,數據的存在形式可能是多種多樣的,除了一些常規的數據,還包括圖片、文字、視頻等非結構化的數據資料,對于這些資料必須要進行有效識別和處理,才能轉化為有價值的數據信息,這需要大數據數據處理系統進一步優化系統識別能力,提升數據轉化能力。
第三,數據的快速性,大數據對于海量數據的處理主要是針對快速變化的數據開展分析處理的,因此,需要通過快速的系統處理和計算快速得出處理結果,提供有效的信息。
第四,數據的準確性,大數據處理的數據信息結果必須要準確的,包括搜集信息來源、數據儲存和數據計算等,這一系列的過程都要是準確無誤的,才能確保最終的數據分子結果的準確性。
3? 大數據的數據處理關鍵技術(Key technology ofdata processing for big data)
3.1? ?大數據采集技術
大數據進行數據處理的前提是,大數據系統已經獲取的大量的數據信息,這就需要用到大數據的數據采集技術,在大數據數據采集技術中,包含了傳感器、射頻識別技術、計算機轉換軟件技術等的應用,對于互聯網中某一領域出現的數據,包括結構化的、半結構化的,以及非結構化的數據信息進行廣泛收集和識別,這是大數據技術的前提和基礎。要想實現對于互聯網中海量信息資源的準確有效的獲取,需要借助分布式高速高可靠數據爬取或采集、高速數據全映象數據采集技術的應用,能夠實現高速的數據解析和轉換目標[2]。
就大數據采集技術系統來說,其中包含的數據采集功能區分為以下幾點:
第一,數據智能感知層,這一功能區中包含了對于數據傳感技術、通信技術、智能識別技術等的應用,能夠對于互聯網平臺中某一通道或者是領域中的各類數據實施有效的跟蹤和接入,完成數據信息的初步處理,為采集到的數據整合和傳輸奠定基礎。
第二,基礎支撐層,這一功能區主要是為系統提供虛擬服務器,對于各類數據信息創造合理的分析環境,這一數據處理功能分區中需要重點對于數據的獲取和存儲,以及整理和分析等的可視化技術接入提供有效支持。
3.2? ?大數據預處理技術
大數據系統要進行分析和挖掘,就必須為它提供干凈、準確、簡潔的數據。然而通過數據采集技術收集到的原始數據一般是“臟”的、不完全的、冗余的和模糊的,通常存在雜亂性、重復性、不完整性等問題,很少能直接滿足數據挖掘算法的要求[3]。所以,大數據數據采集后,需要通過數據集成(Data Integration)、數據清洗(Data Cleaning)、數據變換(Data Transformation)、數據簡化(Data Reduction)等操作[4]擯棄一些與挖掘目標不相關的屬性,為數據挖掘內核算法提供干凈、準確、更有針對性的數據,將其中多余的或者是無效信息進行刪除,去粗取精,實現初步的數據篩選,從而減少挖掘內核的數據處理量,提高了挖掘效率,提高了知識發現的起點和知識的準確度。
3.3? ?大數據存儲及管理技術
大數據采取的數據信息量十分龐大,對于海量的數據信息大數據系統必須要能有效地存儲和管理。針對采集的數據信息,系統通過構建數據庫,進行數據的集中儲存和管理。在進行數據信息進行儲存和管理過程中,需要確保數據庫中的數據信息形式盡可能保持一致,這就需要做好對于不同種類數據信息的有效轉化和處理。要突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術[5]。
在數據的存儲和管理中,還需要注重信息的有效分類,建立對應的數據庫,實現信息的有效調用,此外,還要針對數據的安全問題進行有效保護,通過使用加密技術、訪問限制、數據銷毀等技術應用,提升數據庫的數據安全級別,避免數據存在遺失和被竊取的問題[6]。
3.4? ?大數據分析和挖掘技術
大數據的分析和挖掘技術主要是對于數據進行深度挖掘,通過多樣化的數據分析技術,挖掘數據內潛在的有價值的信息。這種數據分析和挖掘技術主要是通過對于數據進行隨機抽樣,縮小數據規模,進一步提升數據分析效率,挖掘出更多的有價值的數據信息,為最終的數據分析結果提供參考[7]。數據分析和挖掘技術還在進一步優化中,也在越來越多的行業中發揮了積極作用,是目前大數據技術重點開發的對象,為大數據的價值挖掘,實現更好的分析結果優化提供了技術支持。
在大數據系統中,海量的數據采集最終的目的是為了分析出數據隱藏的規律和關系,通過分析得出結果,提供有效的信息參考和發展建議等。這就需要針對海量的數據實施數據挖掘,挖掘數據中潛在的信息資源,發揮數據的價值。現階段的大數據分析和挖掘技術還只是比較淺層次的挖掘分析,能夠針對大數據的數據規律和發展趨勢等進行有效分析,但是實際上,一組大數據包含的價值往往是多方面,僅僅從一兩個面進行挖掘往往不能發揮大數據的最大使用價值[8]。因此,在進行大數據系統的開發中們還需要做好關鍵部分的技術升級和改造,提升大數據分析和挖掘能力。
4? 大數據數據處理技術有效應用的對策(Measuresfor the effective application of big data processingtechnology)
4.1? ?不斷優化和升級技術系統
針對目前的大數據處理技術系統,要進一步研究和優化設計,不斷提升各個技術系統的數據處理能力,實現在更短的時間內獲取更全面的數據信息,實現快速處理得出分析結果,針對大數據系統中的數據采集技術、數據預處理技術、數據存儲和管理技術、數據分析和挖掘技術等進行不斷優化升級,促進系統數據處理效能不斷提升。
4.2? ?開展技術培訓,提升技術應用水平
新時期,要強化大數據技術的應用,要不斷加強技術的普及和學習,積極開展技術培訓工作,例如,以電子商務、金融、連鎖零售、電信、互聯網、產品研發生產、傳統實體經濟等方面在數據分析與挖掘實戰經驗為案例,使學員在拓展大數據應用及其發展趨勢視野的基礎上,提升對分析、挖掘經驗的領悟,做到學以致用、舉一反三,解決企業實際數據挖掘的現實問題,從而提升數據挖掘與治理能力,推動企業競爭力提升和產業創新發展。相關的大數據人才培養機構也要積極圍繞“大數據在教育教學中的應用探討”,從大數據及關鍵技術、教育大數據、大數據技術在教育中的應用、應用案例等四個方面深入細致的探究[9]。從大數據的產生及其意義、構建大數據的基本流程、身邊大數據的典型案例等三個方面,深入淺出地介紹了大數據產生的背景和發展歷程。要認真學習貫徹落實黨的十九大精神,充分認識大數據的重要意義,牢牢把握大數據時代帶來的重大機遇,自覺將大數據技術應用于教育教學、管理服務之中,不斷提高教育教學質量,提升管理服務水平,源源不斷地為社會培養一批又一批的大數據技術創新應用人才。
5? ?結論(Conclusion)
現階段,大數據技術在社會生產和生活中的應用對于社會進步和發展意義重大,必須要進一步完善大數據技術應用,開發升級技術系統,把握關鍵技術改造,促進大數據更好的挖掘數據價值,提升系統技術應用水平。
參考文獻(References)
[1] Valerio Persico,Antonio Pescapé,Antonio Picariello,Giancarlo Sperlí. Benchmarking big data architectures for social networks data processing using public cloud platforms[J].Future Generation Computer Systems,2018:89.
[2] Weiwei Wang.Research on Computer Information Processing Technology under the Background of Big Data[A].International Information and Engineering Association.Proceedings of 2018 International Conference on Computational Science and Engineering(ICCSE 2018)[C].International Information and Engineering Association:Computer Science and Electronic Technology International Society,2018:5.
[3] Lin Mao.Improvement on Exploration Data Processing of Cluster Architecture in Big Data Era[A].CPS、SEG.CPS/SEG Beijing 2018 International Geophysical Conference &Exposition Electronic papers[C].CPS、SEG,2018:7.
[4] Yixiang Jiang.Analysis of Computer Information Processing Technology Under the Background of Big Data[A].Wuhan Zhicheng Times Cultural Development Co.,Ltd.Proceedings of the 2018 International Symposium on Communication Engineering &Computer Science(CECS 2018)[C].Wuhan Zhicheng Times Cultural Development Co.,Ltd,2018:4.
[5] 曲冬梅.大數據背景下信息處理技術探索[J].現代信息科技,2018,2(03):18-19.
[6] 譚保華,任志鵬,王鵬,等.基于大數據技術的高校校友信息整合分析平臺開發及應用[J].長春理工大學學報(自然科學版),2018,41(06):132-136.
[7] 鄭芬芳.基于數據分析的學科服務營銷平臺研究——以福建省高校數字圖書館為例[J].情報探索,2018(12):34-38.
[8] 劉哲,劉軍,張朔.電子商務物流服務中大數據應用的驅動因素與創新發展策略[J].山東師范大學學報(自然科學版),2018(04):454-457;464.
[9] 劉冬,劉更新,黃祖一.大數據出版之數值型數據的應用探索——以中國口岸數據庫和中國海關統計數據庫為例[J].科技與出版,2018(12):90-95.
作者簡介:
霍福華(1984-),男,碩士,講師.研究領域:WEB應用開發,數據分析與處理.