
2018年5月28日,由貴陽大數據戰略重點實驗室研究編著的最新理論成果《塊數據4.0:人工智能時代的激活數據學》正式發布。未來人類將進入超數據時代,超數據時代將是一個更加開放、更加復雜的巨系統,對數據科學研究的思路與方法也應當發生相應的轉變?!秹K數據4.0》圍繞塊數據的理論架構開展深入研究,創新性地提出激活數據學,構建了基于復雜理論的應用模型,為大數據領域和人工智能領域的探索研究提供了一個嶄新的視角。
大數據時代的解決方案
我們沒有把大數據僅僅看作所謂的“大”的數據,而是把大數據看作一種“活”的數據,因為只有激活,大數據才有生命,才有社會屬性,才能成為未來世界人們賴以生存與發展的土壤和空氣。激活數據學的核心正是將人類認知能力與計算機快速運算和海量存儲的能力結合起來。一方面,提高智能系統的置信度,避免人工智能技術的局限性所造成的風險甚至危害;另一方面,建立人類參與的混合增強智能,將海量數據通過人機混合增強智能實現最佳釋放。這種形態是人工智能可行的、重要的成長模式。
超數據時代的數據擁堵
超數據時代,由數據短缺變為數據過剩。信息爆炸與數據爆炸帶來海量信息、垃圾數據泛濫,使得人類被無邊界的數據層層包裹,最終形成認知障礙。我們把這種問題和困境稱為“數據擁堵”。在超數據時代,復雜性的、動態的思維方式將被樹立,人們的思維方式也將呈現復雜性的變化趨勢。人機物三元融合將使得數字科技沉浸式地滲透到實體經濟和社會服務活動中,通過人機物閉環協作交互過程提升生產生活的智能化水平。
數據搜索:智能感知
數據搜索是激活數據學中的準備階段,是塊數據系統依據某種信號組織相關數據的一種行為。激活數據學中的數據搜索,實現了在關聯數據體系的基礎上從孤立的“數據”到全局數據的“匯聚”過程?;诩せ顢祿W的數據搜索結合新一代人工智能技術,擺脫了傳統搜索引擎的局限性,更加智能化,更具主動性,提供多元化的搜索方式,為用戶提供個性化定制服務,更好地滿足用戶的個性需求。
關聯融合:智能聚合
在智能搜索獲得的數據集中,需要處理的數據可能來自不同數據域、不同數據源,同時還具有不同的數據形式。從人腦整合不同感官之間的信息模式出發,激活數據學提出一種新的方法體系——數據跨界關聯融合。它通過對搜索出來的模糊結果數據集進行降維去噪、關聯識別、跨界重構,深度挖掘數據的顯性價值與隱性價值,形成相對精確的結果數據集。
激活數據學是一種新的數據科學理論與方法,其目的在于解決超大規模數據的獲取、篩選、融合、計算和分析問題。激活數據學是塊數據理論的升級版,它以塊數據為基礎數據資源層,以“數據共享、互聯互通、業務協同”為原則,匯聚海量跨行業、跨領域的數據并進行融合重構,構建自由流動、立體化的數據存儲體系,并以深度神經網絡和人機交互接口為決策分析層,模仿人腦思考方式和群體智能,進行數據挖掘、預測分析與智能決策,提升決策與分析的智能化和準確率。


群體智能:智能碰撞
激活數據學中的智能碰撞是把傳統強調的專家智能模擬轉移到群體智能,智能體的構造從邏輯和單調走向開放和涌現。在人和智能體組成新型的智慧群體的過程中,智能碰撞能夠讓人類和人工智能相互學習,充分發揮各自優勢,使得人機之間劣勢互補、優勢增強,借助互聯網平臺,能夠高效重組群體,形成更廣泛、更精準的群體智能。
云腦時代:開啟數字文明新紀元
云腦時代是運用激活數據學這個新方法論推動人、智能機器和云計算等融合發展的新時代,也是新技術、新模式被激活應用的時代。未來的互聯網,將不再只是部分領域的互聯網,而是全人類共同享有的互聯網,也是在實現了人的全面自由發展環境下的自由互聯,推動全人類進入數字命運的共同體時代。
激活數據學的應用場景
人工智能時代是一個更加開放、更加復雜的巨大系統,可以對不確定性和不可預知性實現更加精準的預測。激活數據學以發現塊數據內海量復雜數據的潛在關聯和預測未來為目標,以復雜理論的系統思想為主要范式,探索其理論基礎和運行規律,并且嘗試用量化手段進行模型構建。對于城市而言,城市大腦可以將散落在各個角落的數據匯聚到一起,使用云計算大數據和人工智能技術,讓城市的各個“器官”協同工作,變成一個能夠自我調節、與人類良性互動的有機體。
熱點減量化:智能篩選
熱點減量化是超數據時代如何對海量數據進行有效取舍的一個重要途徑。熱點減量化通過自激活步驟,對數據單元活躍狀態進行清晰的層次劃分,并以此為依據,挑選出更具價值的數據單元進行分析。通過模仿人腦篩選信息的遺忘機制,借鑒大數據信息取舍的方式方法,結合人工智能時代當下的需求,將遺忘因子作為熱點減量化的一個結構性要素納入分析系統,從而尋求在數據分析中實現以自然遺忘為要件的信息取舍。
自激活:智能決策
自激活是激活數據學研究的核心環節,是數據價值釋放的臨界點。在前期數據搜索和關聯融合的數據輸入下,數據仍然是一個潛在價值的狀態,如何發揮其價值,將其變成相應的數據知識進行自主決策輸出是自激活自主決策過程中,甚至整個激活數據學系統中最關鍵之處。在當今數據膨脹的環境中,自激活將對數據運用進行更優化、更有效的提升??萍荚诎l展,技術在進步,自激活階段的運行過程會不斷更新,而隨著人們對人腦的了解越來越深,自激活的輸出將會實現更大的價值,使人工智能更“增智”。