人類社會已經進入大數據時代,大數據無處不在。通過分析行業內和跨行業的大數據,能夠發現新的知識和規律,推動行業發展進步。2010年以來,阿里巴巴公司通過面向圖像、圖片和用戶數據的大數據分析技術,從10億量級的在線商品中發現假冒偽劣商品。美國帕蘭提爾(Palantir)公司通過對電話、網絡郵件、衛星影像等大數據分析,協助中央情報局(CIA)獲取恐怖極端組織成員的位置信息等。就像借助于顯微鏡可以看清細胞結構一樣,借助大數據分析技術可以分析人的行為、情感甚至思維,以及復雜系統運行規律,甚至整個社會的運行方式。
大數據分析的關鍵技術涉及大規模數據處理、機器學習、人工智能、認知計算、數據挖掘、自然語言處理等多個學科領域,交織并覆蓋了數據的清洗融合、大規模處理框架、建模與分析、可視化的全過程。近年來,一系列大數據相關技術齊頭并進地發展,帶來了分析能力的逐步提升。以Hadoop等分布式文件系統、Cassandra/HBase等NoSQL數據庫等為基礎的大數據存儲,以Kafka為代表的數據分發平臺,以MapReduce/Spark/Storm等為代表的大數據處理架構,聯手為各行業的大數據解決方案提供了高可用性、高可擴展的處理架構,成為開源大數據分布式并行處理的主流方式之一。機器學習與人工智能的發展,特別是卷積神經網絡(CNN)、循環神經網絡(RNN)、長短時記憶網絡(LSTM)、雙向長短時記憶網絡(BLSTM)等深度學習方法的突破,顯著提高了圖像、音頻、視頻、文本等多模態大數據分析準確性。知識圖譜(Knowledge Graph)與認知計算的發展和應用,提供了大數據時代千萬級、億級規模知識節點與關系的管理及處理能力。此外,眾包技術帶來了分解復雜問題并匯聚融合解決方案的重要手段;各種數據可視化技術為知識、信息提供了直觀解釋視角;數據匿名等隱私保護技術保護了大數據分析過程中用戶數據的安全和隱私等。上述大數據分析相關技術正在成為大數據驅動的“知識經濟”的重要驅動力,在國家政治、經濟、社會等各行業發揮著越來越重要的作用。
隨著大數據分析技術在各行業領域的進一步應用推廣,擺在我們面前的將是更多新的機遇與挑戰。例如,在綜合分析政策規劃相關領域大數據的基礎上,社會管理有望創新管理模式、提升管理效率;通過“量化一切”實現世界的數據化,可能改變人類探索和認知世界的方式,帶來全新的“大數據世界觀”; “科學始于數據”的呼聲正在改變人們的科學觀和認知觀,引發新的科學研究模式;當商業資源能夠帶來商業利益的時候,金融、能源、交通、健康醫療等重要行業大數據就成為了國家重要的戰略資源,如何從國家安全層面對大數據進行保護,也是亟待研究和解決的問題等。