陳亮
北京中電普華信息技術有限公司 北京 100085
大數據的產生和云計算、物聯網、互聯網等技術的發展之間密切相關,通過各種先進的技術來獲得大量的數據,同時計算機處理大數據能力的增強使得大數據在社會生活的方方面面得到了廣泛的應用。云計算是一種在互聯網平臺上的先進計算手段,通過云計算技術使得計算機的軟件資源和硬件資源得到共享,同時為大數據的存儲和計算提供了必要的支撐。物聯網是大數據產生的根源,通過物聯網技術將各種信息得到收集,獲取了大量的數據,這些數據中包含有許多具有價值、可以挖掘的信息。借助于物聯網技術使得物品和互聯網結合起來,例如可以獲得消費者購買產品的各種信息,通過消費者購買產品的各種信息來了解消費者的消費習慣,為企業開發新產品,更好滿足消費者需求提供決策參考。
大數據進行數據處理的前提是,大數據系統已經獲取的大量的數據信息,這就需要用到大數據的數據采集技術,在大數據數據采集技術中,包含了傳感器、射頻識別技術、計算機轉換軟件技術等的應用,對于互聯網中某一領域出現的數據,包括結構化的、半結構化的,以及非結構化的數據信息進行廣泛收集和識別,這是大數據技術的前提和基礎。要想實現對于互聯網中海量信息資源的準確有效的獲取,需要借助分布式高速高可靠數據爬取或采集、高速數據全映象數據采集技術的應用,能夠實現高速的數據解析和轉換目標。就大數據采集技術系統來說,其中包含的數據采集功能區分為以下幾點:
第一,數據智能感知層,這一功能區中包含了對于數據傳感技術、通信技術、智能識別技術等的應用,能夠對于互聯網平臺中某一通道或者是領域中的各類數據實施有效的跟蹤和接入,完成數據信息的初步處理,為采集到的數據整合和傳輸奠定基礎[1]。
第二,基礎支撐層,這一功能區主要是為系統提供虛擬服務器,對于各類數據信息創造合理的分析環境,這一數據處理功能分區中需要重點對于數據的獲取和存儲,以及整理和分析等的可視化技術接入提供有效支持。
數據預處理主要包括數據清洗、數據集成、數據轉換和數據消減。數據清洗是對于不完整性數據進行處理時利用回歸分析、貝葉斯計算公式或決策樹推斷出該數據的最大可能性。對于噪聲數據的處理時一般采用Bin 方法和擬合函數對數據進行平滑。數據集成主要解決數據冗余情況和數據值沖突檢測與消除問題。數據轉換就是將數據進行轉換或歸并。數據消減主要目的是從數據集中獲得一個精簡數據集。
大數據采取的數據信息量十分龐大,對于海量的數據信息大數據系統必須要能有效地存儲和管理。針對采集的數據信息,系統通過構建數據庫,進行數據的集中儲存和管理。在進行數據信息進行儲存和管理過程中,需要確保數據庫中的數據信息形式盡可能保持一致,這就需要做好對于不同種類數據信息的有效轉化和處理。要突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術[2]。
在數據的存儲和管理中,還需要注重信息的有效分類,建立對應的數據庫,實現信息的有效調用,此外,還要針對數據的安全問題進行有效保護,通過使用加密技術、訪問限制、數據銷毀等技術應用,提升數據庫的數據安全級別,避免數據存在遺失和被竊取的問題。
數據挖掘是大數據處理的核心技術,不同的數據挖掘算法可能會獲得不同的決策信息。數據挖掘就是要通過統計分析、在線分析、情報檢索、專家系統、模式識別等手段來實現對大數據的分類、關聯。海量的大數據來通過聚類分析算法進行分類,構建不同的數據處理模型。通過聚類分析來獲得彼此相近的不同簇數據,使得數據進行分離。借助于關聯規則來獲得隱藏在不同數據項之間的關聯規則。當前機器學習、人工智能技術的發展使得其在大數據分析中得到了廣泛的應用,通過機器學習算法來有效地模擬或者實現人類的學習行為,使得其獲得學習新知識的能力和技能,不斷地改善自身的性能。深度學習是神經網絡的擴展,通過組合底層的特征來獲得更加抽象的、較高層次的屬性類別或特征,以此發現數據的分布式特征。人工智能是研究大數據分析的重要手段,例如借助于人工智能的知識圖譜來獲得語義網絡,在此基礎上挖掘海量數據中所包含的大量信息[3]。
隨著經濟發展的日新月異,大數據處理技術越來越重要,高速的經濟發展速度也要求更先進的大數據處理技術,一成不變的大數據技術無法跟上時代的腳步。就目前而言,大數據處理技術未來的發展將主要體現于: 優化數據的時效性和穩定性,優化對系統硬件高要求的苛刻條件,同時處理單元與存儲結構等方面也有待改進。目前在監管大數據處理技術的應用方面還存在著法律盲區,大數據日新月異的變化亟須更加完善的法律體系,以防其被應用于各類違法活動。隨著人們經濟活動的復雜性提升,大數據處理技術的價值也越來越高,如何正確應用于保護人們隱私也是大數據處理技術未來的發展方向。大數據處理技術目前的排他性較強,應用性不夠廣泛,需要不斷拓展,從而適用更寬更廣的形勢要求。另外,大數據處理技術的安全防范能力,也極大地決定了其是否能夠廣泛應用。如果該技術能在存儲、傳輸和讀寫等環節能夠有效防范外界的黑客攻擊,確保大數據處理技術的絕對安全性,那么其應用前景也將大為改善。
大數據技術是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的數據處理技術。大數據價值的完整體現需要多種技術的協同。