DeepSeek的出現徹底改變了固有的“高端算力優先”的人工智能創新技術路線,其以低廉的成本實現了與國外前沿人工智能產品相媲美的性能,“算法模型性能優先”也隨之成為新的產業技術發展路線。
這種轉變意味著要更加重視訓練數據的高質量供給,因為“算法模型性能優先”技術路線更依賴高質量的訓練數據對模型進行優化,而且已公開、可抓取的訓練數據資源即將用盡,亟需能夠反映行業特征的高質量訓練數據資源。因此,訓練數據供給機制的構建理應作為數據基礎制度的立法重心之一,從而用法律規范訓練數據的供給方式,提升訓練數據的供給質量。
規范訓練數據供給方式所要實現的目標,是市場以安全可靠且高效的方式提供訓練數據資源。首先,訓練數據的供給方式應當是安全可控的。算法模型訓練屬于數據處理行為,因而數據的供給方和需求方均應嚴格履行個人信息保護法、網絡安全法等法律規定的數據安全保護義務。其次,訓練數據的供給方式應當是合法且沒有爭議的。高質量供給的內涵之一便是確保訓練數據沒有顯著爭議,否則會增加法律風險,從而降低科技創新資源的供給效率。最后,訓練數據的供給方式應當是多元化的。單一的數據供給方式不僅無法提供充分的訓練數據,還可能間接提升人工智能市場的準入門檻。
提升訓練數據供給質量所要實現的目標,則是數據資源供給活動應當滿足“供給數量充分”和“供給質量符合要求”兩個要件。一方面,當下的人工智能產業發展主要以大模型為基礎,需要海量的訓練數據作為支撐。另一方面,伴隨著人工智能應用方式的場景化、專業化,其對訓練數據質量的要求也有所提高。構建這種保障機制的重心,是兼顧科技創新主體的差異化需求以及訓練數據獲取方式的實質公平性,同時確保與現行立法體系有效整合。
第一,以科技創新主體為導向,構建人工智能訓練數據公共服務平臺。作為人工智能創新的數字基礎設施,平臺的職能之一便是發現和確認各類科技創新主體的需求,明確公共訓練數據資源的分類標準。不過,由于政府部門難以持續性地對公共數據進行清洗、歸集等,因此需要在協同治理模式下,按照市場需求,對公共數據進行去重、糾錯、填補空值等管理,以提升數據使用質量。此外,由于平臺與算力基礎設施同屬向市場提供的必要基礎設施,二者共同作用并影響人工智能創新效率,為避免冗余建設造成浪費,更宜將二者一體化建設。
第二,以市場公平競爭為導向,構建訓練數據供給生態保障體系。我國現階段人工智能訓練數據方面面臨的困境,不僅僅是數據量不足、質量較低,還包括有效的產業生態尚未形成。為避免數據壟斷等現象,確保中小企業實質性公平地獲取訓練數據,有必要對相關數據提供商設置義務規范。如對于訓練數據提供商而言,應當嚴格禁止其采取強制或變相強制的方式出售捆綁性的訓練數據產品,并不得采取“二選一”等業務模式,對需求方施加不合理的條件。對于數據標注服務提供商而言,不僅要依據《生成式人工智能服務管理暫行辦法》規定,預防算法歧視等風險,還應當確保所提供的數據滿足完整性、時效性、準確性等要求,且與事前約定的數據質量保持一致。
第三,以數據安全保障為導向,構建透明可信的訓練數據供給機制。已公開的個人信息、包含他人著作權的作品數據能否作為訓練數據等問題,是目前構建相關制度面臨的障礙之一。此外,不安全、不可靠的數據交易活動同樣會影響訓練數據來源合法性的認定。因此,在制度層面確立訓練數據來源合法性的判斷標準顯得尤為迫切。這既需要以典型案例、合規清單等方式指引產業實踐,也需要在制度層面設置涵蓋訓練數據獲取、使用等各個業務流程的數據安全保護制度。
(作者系北京航空航天大學法學院副教授)