

模型和算力可以購買,但數據需要精細化、全流程的管理,才能釋放真正的價值。
在大模型時代,各行業都需要基于自身數據打造超級員工,以提高企業的生產效率。模型和算力可以購買,但數據需要精細化、全流程的管理,才能釋放真正的價值。企業需要搭建可發現、可管理、可協作、可迭代的數據管道,才具備獲取數據、生產數據、持續迭代數據的能力,促進內部以數據為中心的協作,從而在AI 2.0時代中獲得核心競爭力。
在這樣的背景下,深耕數據科技領域的資深玩家——星塵數據在近日發布了專注于數據價值發現的平臺MorningStar,旨在打通AI算法從訓練到生產全鏈路中的數據管理、迭代、優化、挖掘等閉環鏈路。發布會間隙,星塵數據創始人amp;CEO章磊向《汽車觀察》記者暢談了企業數據管理在人工智能2.0時代的意義、行業痛點以及解決方案。
人工智能迎來四大發展趨勢
近年來,AI算法經歷了多個發展階段,都和數據的突破息息相關。章磊指出,人工智能迎來四個發展趨勢。
第一個趨勢是:數據技術驅動人工智能發展三次變革。“數據技術是推動人工智能發展變革的核心原因。2009年,ImageNet項目充分展示了深度神經網絡的潛力。該項目不僅證實了深度學習模型處理復雜視覺任務的能力,也凸顯了大規模標注數據在訓練高效模型中的重要性。2017年,Transformer架構的推出及其在BERT和GPT等模型中的應用,帶來了另一次飛躍。這一階段的關鍵創新在于能夠利用全網數據進行大規模并行訓練,顯著提升了模型的理解和生成能力。2022年,大語言模型進一步證明了數據策略和數據質量對于模型的重要性。”章磊解釋說。
第二個趨勢是:數據管理職責細分化,企業數據債亟需消除。章磊認為,數據管理正在經歷職責細分化,從以個人為中心的協作將轉變為以數據為中心的協作。AI數據全生命周期管理,可促進多角色的數據統一認知。
“過去,我們需要算法部門、業務部門、產品部門和技術部門等多個部門共同協調和統一。在從數據到算法的流程中,由于中間層的存在,溝通效率往往降低。未來的企業需要一個讓所有參與者站在同一個視角下協作的平臺。在AI研發的不同階段,如早期、中期和晚期,算法的視角、理念和認知是不斷變化的。同時,部門之間,如服務和運營部與項目執行部,以及人與人之間,如算法工程師之間,存在認知鴻溝,導致很多數據的語義背景信息難以通過文檔或郵件清晰傳達,因此,我們需要一個以數據為中心的載體,來清晰表達數據背后的語義信息。”章磊表示。
第三個趨勢是:AI生態發展將以數據閉環為中心。章磊坦言,過去以模型研發為中心,數據相對固定,而隨著模型不斷迭代,模型效果提升主要來自數據,轉向Data-centric AI。以大模型為例,模型架構變化不大,真正變化的是背后的數據。以GPT為例,從GPT2到GPT3,數據集的量從40GB增加到45TB。而從GPT3到GPT4,不再是數據量的增加,而是全網數據的利用,包括數據訓練策略、數據清洗、數據整理、數據分布以及人類反饋等方面。
在章磊看來,未來算法的發展將類似于互聯網時代的快速迭代,這種迭代不是改變模型架構,而是優化數據。
第四個趨勢是:通過AI打造超級員工,企業生產力將十倍提速。章磊指出,通過AI打造企業的超級員工,將使企業成為24小時不停運轉的超級大腦,所有員工圍繞這個大腦不斷沉淀數據和大模型,然后將大模型的能力賦能給企業。
數據成為AI 2.0時代差異化競爭力
章磊介紹,自2022年以來,大模型驅動企業經營效率提升10倍已成為可能,關鍵在于企業數據能不能成功打造超級員工。“超級員工可以幫助企業完成研發、代理、銷售產品、財務等任務,但并非所有數據都同等重要,只有那些黃金數據集才能有效幫助模型迭代。如何準備這些數據集已成為自動駕駛公司、車廠和各類企業的核心競爭力。”他說。
MorningStar的設計靈感源自人的海馬體。在章磊看來,只有“記憶”是屬于企業自己的,企業的核心知識、信息和數據就像人的海馬體一樣,應該存在于企業內部的固定數據管理系統中。
隨著大模型的發展,企業員工數量可能會減少,企業只有自身具備沉淀私域高質量數據的能力,即可直接用于生成超級員工的數據,才能獲得市場競爭的核心優勢。“在 AI 2.0 時代,掌握自己的數據就是掌握自己的模型。企業數據價值的核心在于定義、管理和迭代。”章磊說道。
章磊認為,數據管理的首要要求是可管理性;其次是可挖掘性,即在數據中挖掘出對模型有價值的信息;第三是可迭代性,數據需要根據模型和用戶反饋不斷變化;第四是可優化性,數據應不斷優化并協同工作,以打造真正屬于企業的數據資產。
MorningStar打通AI數據全生命周期管理
AI的變革凸顯了數據技術在推動機器學習算法進步方面的關鍵作用。據章磊介紹,算法開發過程中有80%的工作與數據相關。一個算法的上線部署需要經歷需求定義、方案制定、數據采集、數據標注、模型設計、訓練、指標測試、推理優化等等。在各個環節中,各個角色跨組織協同會導致企業數據債(指的是企業當前狀態與最大化數據價值之間的差距,包含算法和其他部門的認知差別、項目時間上的認知差別、文檔和數據語義的差距、不同數據集定義之間的差距等)的產生。數據債不僅會導致數據價值無法釋放,運營成本不斷增加,還會影響模型的上線和迭代效率。
正是基于對行業的深刻認識,為了幫助企業建立高效的數據閉環系統,實現數據價值最大化和模型效果最優化,星塵數據開發了滿足AI 2.0時代數據管理需求的全能工具——MorningStar。章磊表示:“MorningStar專注于發現數據價值,加速模型迭代,為AI 2.0打造以數據為中心的協作環境,消除數據債。”
據章磊介紹,MorningStar是目前市面上唯一一個專為AI 2.0時代企業打造的數據閉環產品,覆蓋AI算法從訓練到生產全鏈路中的數據管理、迭代、優化、挖掘等閉環鏈路。
據悉,在機器學習中,模型在整個流程中所占比重很少,算法工程師絕大部分時間都是花在思考業務、數據標注和數據分析上,以提高模型的泛化性。算法工程師需要耗費大量的時間和精力仔細研究數據,找出異常之處,了解數據規律,反復編排流程,比較版本差異,以提高模型的泛化性,達到最佳效果。如難以直觀看到數據分布,效率低;數據語義缺乏記錄,難復現;數據指標不完善,難挖掘;數據量巨大,檢索困難......
針對這些痛點,星塵數據自主研發了AI數據全生命周期管理功能,強化數據版本控制、快捷數據切片、可追溯數據血緣和安全管控。
通過數據全生命周期可視化管理,MorningStar確保數據運營統一管理和快速迭代;支持靈活數據切片、多模態、自定義數據檢索,挖掘數據價值,快速提取特殊場景數據;同時,集成主流難例數據發現策略,如主動學習等,為算法工程師提供數據特征分布、可視化和挖掘、模型指標計算等便捷功能。此外,MorningStar匯聚數據資產及使用數據,實現企業數據資產管理,使團隊協作更安全、數據迭代可追溯,打破企業內部的“數據孤島”,助力企業在 AI 成本投入、算法精度和數據應用能力提升等方面。
談及未來,章磊展望道,星塵數據將不僅用MorningStar助力AI 2.0發展,還將持續以數據為中心,推出新的功能和服務,發現數據價值,加速AI創新。