人工智能已然成為推動新一輪科技革命和產業變革、發展新質生產力的重要驅動力,其中,算力、數據、算法“三駕馬車”成為支撐人工智能發展的關鍵因素
過去的一年里,以Sora、GPT—4o、Gemini等大模型為代表的人工智能浪潮席卷全球,AI技術實現巨大飛躍,一系列因新技術突破而實現的“未來場景”,令人目不暇接,人工智能已然成為推動新一輪科技革命和產業變革、發展新質生產力的重要驅動力。其中,算力、數據、算法“三駕馬車”成為支撐人工智能發展的關鍵因素。
算力:人工智能發展的核心引擎
算力是人工智能發展的核心引擎,提升算力的供給能力是確保人工智能競爭優勢的關鍵所在。
當前,產業界正加速推動AI芯片和計算架構創新。隨著英偉達發布了基于Blackwell架構的B200 GPU和GB200“超級芯片”,標志著在短短8年內,AI芯片的計算能力提升了1000倍。可以預見,隨著算力的暴增,AI變“聰明”的速度會更快,整個產業生態也將發生改變。但是,受國際政治環境影響,當前我國的算力資源非常有限,AI芯片技術積累還不夠,短期內仍然依賴進口,疊加英偉達3月5日宣布禁止將基于英偉達工具鏈生成的任何產物提供給其他芯片企業使用,加劇了算力資源獲取的限制。此外,還存在算力結構不夠完善、算力資源不夠集聚、算力協調不夠敏捷等短板。對此,建議重點圍繞算力協同布局、推進“硬+軟”耦合發展、政策機制創新等方面提升算力供給能力。
推進“云邊端”算力協同布局。加快算力資源規模化聚合和算網融合升級,加快推進杭州三個“萬卡算力集群”建設,打造統一的算力資源調度平臺,比如在本地“終端”布局需要低延遲和高效率的推理算力、利用“東數西算”在西部“云端”布局需要大量運算的訓練算力、在“邊緣端”打造訓推一體通用平臺部署邊緣算力,提升“多元異構”算力服務能力。
推進“多源硬件+先進軟件”耦合發展。在硬件方面,聚焦GPU、FPGA0374a1b4dc869d8b347a7173766c431a、ASIC、AI服務器等,強化產學研合作,加快突破關鍵技術。在軟件方面,依托工業軟件、工業互聯網等領域優勢,基于華為昇騰等國產自主研發芯片架構體系,推進編程框架、算子庫、AI編譯器等布局,打造自主可控的軟件工具鏈。
推進算力政策機制創新。開展算力伙伴征集,通過算力資源有效匹配,形成統一的算力技術標準、服務標準、定價標準和結算標準等。創新推出“算力券”,將有限的算力資源合理分配,降低算力成本。設立算力產業基金,投資平臺型算力企業,提升算力資源調度整合能力。
數據:最具時代特征的生產要素
數據已經成為最具時代特征的生產要素之一,尤其是高質量的多模態大數據是重要的基礎性戰略資源。
國際方面,美國政府在公開數據方面“應開盡開”,建設了AI訓練數據開放平臺,在保證數據可用性的同時降低高質量數據的使用門檻。國內方面,各主體主要是利用優質公開數據進行模型訓練。然而,高質量數據正面臨枯竭,據AI研究機構Epochai預測,到2026年大模型將耗盡高質量數據,到2030—2060年將耗盡所有語言和圖像原生數據。從全球開源數據集語種來看,英語開源數據集占比最高,至2023年底達到了56.9%,中文開源數據集占比僅為5.6%,而且政府側開放的公共數據非常少。此外,還存在數據灰色交易、安全治理等問題。對此,建議重點圍繞高質量數據供給、交易流通、安全治理等方面,構建高質量數據集,做大做強數據產業。
強化數據開放供給。以探索公共數據授權運營試點為突破口,加大開放力度,在政府側推動公共數據“能開盡開”,建設多模態公共數據集和資源庫。對于高校院所等單位擁有的知識產權類數據,可通過激勵、補償等方式鼓勵向社會機構開放。面向重點行業領域,建設行業級數據共享平臺,進一步明確數據開放的規范性。
強化數據交易流通。推進“中國數谷”和數據交易所建設,完善數據產權交易制度,完善數據資產評估定價、交易、權益保護等規則體系,加快推進數據確權加工、交易流通,探索場內、場外、跨境等數據交易流通范式。培育優質數據服務商和第三方服務機構,有序開發利用數據。
強化數據安全治理。深化應用數字水印、區塊鏈、聯邦學習等前沿技術,加強數據安全及隱私保護,在數據采集時選擇可信度高、合規的數據源,采集后對數據進行清洗和安全過濾,在流通中進行活動記錄,構筑數據全周期安全保障體系。
算法:開啟智能時代的“關鍵鑰匙”
算法作為人工智能的基石之一,在很多程度上決定了人工智能發展的效率和深度,尤其是大模型的發展,已成為開啟智能時代的“關鍵鑰匙”。
當前,模型即服務(MaaS)模式逐漸走向成熟,垂直模型發展趨勢明顯,業內普遍認為,未來只會有兩三家“獨大”的通用大模型,但會涌現出無數更貼近產業需求的垂直模型,模型垂直化與場景化應用加快深度融合,垂直行業的專業模型將在推動大模型廣泛應用方面扮演重要角色。因此,AI大模型很可能像PC時代的操作系統一樣,成為未來人工智能領域的關鍵基礎設施。此外,隨著Sora、GPT—4o的出現,能夠感知到的是,多模態大模型地進一步交叉融合將成為人工智能后續發展的重要方向。對此,建議重點圍繞基礎算法創新、技術開源開放、模型“垂直化”發展等方面,推進算法模型創新發展。
推進基礎算法創新。加快推進基礎算法效能優化,即推進當前主流的訓練模型Transformer(基于自注意力機制的神經網絡模型)的升級或者替換。
推進技術開源開放。基于當前規模最大、開發者最活躍的“魔搭”AI開源社區,進一步推動大模型技術開源與開放,支持自主開源深度學習框架研發攻關和代碼托管鏡像平臺建設,加快制定推廣開源領域相關標準和協議,研發多類型模型開發、訓練、壓縮、推理全流程工具。
推進大模型“垂直化”發展。充分發揮在“互聯網+”時代奠定的場景應用優勢,進一步推動MaaS模式變革,探索AI多場景應用,在醫藥、城市治理、未來工廠等領域打造一批示范性強、帶動性廣的“AI+”典型應用場景。
(作者單位:浙江省工業和信息化研究院)