大數據是生成式人工智能技術革新的基礎要素。
近期發布的《國務院關于深入實施“人工智能+”行動的意見》(以下簡稱《意見》)提及“加強數據供給創新”,并從高質量數據集建設、數據產權和版權制度、加強數據供給激勵、產業生態建設四方面予以回應。
在我看來,相關措施落地將有助于激發數據供給活力。同時,也需挖掘數據需求側的潛力,實現數據發展的供需匹配及平衡。
不管是通用模型開發,還是專用模型開發,抑或人工智能的社會化應用,都離不開數據要素的支持。
一是通用模型的研發,比如DeepSeek、ChatGPT等基礎模型的訓練和迭代都離不開海量多源數據的獲取和利用。
二是從人工智能的社會化、產業化應用來看,特定行業需要進行專有模型開發,如法律行業等行業垂類大模型。而專用模型開發的前提是建設大量高質量數據集,如特定行業的專用語料庫、數據庫、知識庫等。
三是人工智能應用過程需要和社會的價值規范、法律規則、倫理道德等進行對齊(讓大模型的輸出內容、推理過程和決策邏輯,與人類社會的價值觀保持一致),這一過程也需大量高質量標注數據。
近年來,我國政府加快推進數據要素治理體系建設,形成了分類推進數據開發利用的總體思路,出臺了多個政策文件,以公共數據和企業數據開發利用為突破口,加速推動數據要素價值釋放,取得了突出成效。
當然,面對生成式人工智能創新發展的迫切需求,數據供給層面仍存在若干需要改進之處。
通用模型開發過程中仍存在數據孤島問題,部分數據處于不交換、不共享、不開放的狀態。很多大模型公司自建數據集、依賴自有數據開發模型,導致通用模型開發受到數據類型、維度和體量的限制。
用于專用模型研發的高質量數據集,譬如行業性、場景化專用數據庫、語料庫,目前仍然存在供給不充分、質量參差不齊等挑戰。隨著人工智能產業化、社會化應用落地的加速,這一部分的需求也在持續增加。
數據流通交易和價值釋放不充分。現階段我國已經積累了豐富的數據資源,也形成了數據要素治理框架,但數據要素價值釋放的商業模式、產業生態仍亟須探索和拓展,尤其是如何有效激發數據持有、加工使用和產品經營主體的積極性和創造性仍需機制創新。
高質量數據集的規模和質量直接決定了數據集的應用價值。如何有效建設高質量數據集,成為當前關注重點。
在我看來,一是加強政策引導,培育數據要素型企業,圍繞數據要素的全流程加工,深度挖掘培育新型經營主體,尤其要大力支持服務多元應用場景的中小微企業,激發數據要素型企業建設高質量數據集的積極性。
二是大力發展數據標注產業。數據標注是將原始數據轉化為可識別、可訓練、可計算的關鍵環節,使原本非標數據轉化為可流通的數據產品,這正是構建高質量數據集的關鍵路徑。
三是加快發展智能數據標注生態。模型性能的提升與標注數據質量正相關,這種依賴關系隨著模型復雜度的增加而愈發顯著。智能數據標注快速發展將會帶來數據標注效率和質量的極大提升。
數據產權和版權制度也是當前產業界關注的熱點。
從數據產權來看,數據二十條(指《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》)提出數據資源持有權、數據加工使用權、數據產品經營權三權分置的產權運行機制。數據資源持有權是數據要素深度加工、流動交易和開發利用的前提,有必要在體制機制上理清數據持有權的界定規則、認定條件和利用機制,進而激勵數據持有者通過市場機制釋放數據價值。
涉及版權制度,生成式人工智能的興起使得知識型數據的價值得到極大提升。版權、知識產權、學術文獻、標準規范等均是典型的知識型數據,此類數據的利用要兼顧開放利用和保護創新。
當前數據要素價值釋放主要通過兩種方式,即傳統的供需磋商定價和較為簡便易用的成本核算。數據供給激勵方面,《意見》提及“探索基于價值貢獻度的數據成本補償、收益分成等方式”,和數據二十條確定的“誰投入、誰貢獻、誰受益”原則一脈相承,有助于提高企業參與數據要素市場的積極性,推動數據產品和服務多樣化供給。
需要看到的是,數據供給發力之外,數據需求側也需發力。當前,數據產業發展存在供需不匹配情況,其核心在于數據需求不清晰、開發不充分、匹配不精準。因此,供應側發力加快數據產業發展的同時,需求側也應發力。
一是精準供給政策組合。相關部門應進行大量調查研究,切實了解行業需求、應用場景和供需關系,釋放需求側動力倒逼高質量數據集建設,實現數據供需匹配。
二是釋放政策紅利。面向不同規模、場景和領域的數據要素型企業,提供政策、人才和資本等精細化政策扶持,發揮行業龍頭企業、平臺企業創新引領作用,培育大量的中小微企業釋放市場需求。
三是構建數據產業生態。以數據要素作為核心資源,將數據要素型企業與制造業、農業、服務業、金融業等多行業企業串聯起來,形成數據+產業鏈、產品鏈、價值鏈,持續完善生態構建,推動數據價值釋放。
四是提煉典型商業模式。無論是數據要素型企業還是人工智能企業,當下迫切需要凝練成熟的商業模式。讓市場來檢驗數據產品、服務乃至大模型產品的經濟價值和商業模型,才能推動產業可持續發展。
(本文作者系清華大學數字政府與治理研究院副院長、教授,由本刊記者鄭雪采訪整理)
編輯:鄭雪" zhengxue@ceweekly.cn
美編:孫珍蘭