黃穎 中國電子科技集團公司第二十八研究所 唐皋 南京萊斯信息技術股份有限公司 林浩坤 華中科技大學
大數據是自云計算應用后最廣泛的計算機技術語言的應用,大數據的應用對于思維模式、商業的運行模式、科研成果以及醫療診斷方面帶來了巨大的影響。隨著大數據的廣泛應用和深入研究,大數據的關鍵特征現已總結為體量、速度、多樣化、質量以及價值的全新5V概論。對大數據進行信息分析,可以發現其蘊藏的規律、知識及價值。
大數據分析是隨著數據量急劇膨脹而產生的對海量數據使用和提取有效信息的一種方法,一般會利用大數據的時間屬性,照相對應的時間間隔記錄發生的重要變化,通過疊加每次變化的內容,提取其中共性特征數據,揭示隱藏在數據集合中的規律,發現出有價值的知識的過程。數據分析以發現有用知識為目的,主要包括清洗、集成、轉換、建模以及模型評估等過程,最終得到決策知識。這一過程通常會根據分析目標進行反復迭代,逐步求精。
大數據技術的發展與云計算、物聯網等新技術發展密切相關。云計算是以虛擬化技術為基礎,以網絡為載體提供基礎架構、平臺、軟件等服務的形式,整合大規??蓴U展的計算、存儲、數據、應用等分布式計算資源進行協同運作的超級計算模式,云計算在大數據存儲和計算方面助力大數據的落地。而物聯網是指通過信息傳感設備,按照約定的協議,把任何物品與互聯網連接起來,進行信息交換和通信,以實現智能化識別、定位、跟蹤、監控和管理的一種網絡,是在互聯網基礎上延伸和擴展的網絡,是大數據的重要來源。
大數據分析關鍵技術包括數據清洗、數據處理、數據挖掘、數據可視化和價值評估等幾方面。
大數據一般都具有不完整的、有噪聲和不一致等特點,數據清洗技術是將異構多源數據進行加工,糾正數據中可識別的錯誤,包括檢查數據一致性,處理無效值和缺失值;另外還包括一些簡單的語義層的映射技術。
數據處理技術是要解決大數據分布式并行處理問題,包含Map Reduce批量處理框架、流式計算框架、圖計算等相關技術。Map Reduce批量處理框架將待處理任務劃分為若干子任務,將其分配到不同節點上,實現了利用多個網絡節點對任務的協同計算,時延較大;流式計算框架對數據存儲并不關注,對流式數據的計算具有即時性、單遍處理、近似性的特點;圖計算具有多迭代、稀疏結構和細粒度等特點,一般針對存儲在圖數據庫中的數據進行計算處理。
數據挖掘就是從海量數據中發現有趣模式的過程。數據挖掘是植根于場景的,應用領域不同,應用問題不同,采取的挖掘技術也不同,一般包括模式識別、統計學、機器學習、關聯規則挖掘等技術。
數據可視化是一門用形和色表達數據的藝術,在大數據時代,龐大的數據量已遠遠超出人們的觀察、理解和處理數據的能力,因此“讓數據說話”,數據可視化對大數據分析越來越重要。最初可視化主要是使用統計圖標,后來隨著地理信息系統、時間線展示工具等發展,數據可視化呈現更加生動、高效的形式。
價值評估是對大數據分析算法的評估,包括效果評估和性能評價,效果評估是針對數據處理質量的測量,性能評估主要是針對數據處理速度和穩定性的測量。
隨著人工智能技術的發展,大數據分析技術也不斷發展。人工智能技術立足于神經網絡,同時發展出多層神經網絡,從而可以進行深度機器學習,與傳統的統計學等算法相比,這一算法并無多余的假設前提(比如線性建模需要假設數據之間的線性關系),而是完全利用輸入的數據自行模擬和構建相應的模型結構,這使基于機器學習建立的大數據分析算法更加靈活的、且可以根據不同的訓練數據而擁有自優化的能力。
目前基于人工智能的分析技術主要是從機器學習方面開展的大數據分析技術研究,分為大數據聚類、大數據關聯分析、大數據分類和大數據預測幾類技術。通過大量數據的訓練,機器學習能夠總結出事件之間的相關性,可以提高大數據分析的精準性。
雖然人工智能技術是大數據分析的利器,但面臨大數據問題時,現有的機器學習、深度學習、計算智能等人工智能分析技術都存在許多不足,難以有效解決大數據的諸多問題,還需要在分布式深度學習算法、分布式優化算法、機器學習模型并行策略、深度神經網絡并行訓練等方面進行進一步研究。