高富平
“數據二十條”對數據基礎制度具有很高的定位,它定位于整個中國發展和安全的高度,其基本思想是通過促進數據合規高效流通使用,賦能實體經濟。數據經濟是讓全社會都能夠使用數據,賦能實體經濟,而不是個別主體的經濟,更不是單純強調數據交易,直接拿數據賺錢,是通過數據“挖掘”出智能賦能社會。“數據二十條”以數據產權、流通交易、收益分配、安全治理為重點,構建適應數據特征、符合數字經濟發展規律、保障國家數據安全、彰顯創新引領的數據基礎制度。這四個方面也是對整個數據基礎設計的基本要求和標準。
實際上,數據是社會認知的工具或媒介。進入大數據時代,形成了新的智能——機器智能,它輸入數據原料,輸出智能或知識,因而成為創新新引擎。數據作為生產要素就是對機器智能(又稱“人工智能”)的回應。數據產權制度必須符合數據特征和數字經濟的規律,在這方面“數據二十條”將數據的要素價值定位于三重價值,即經濟價值、治理價值和人民分享由此帶來的收益的價值。這是一個全面的定位,在充分發揮數據要素價值同時賦予每個人分享數字經濟紅利的機會。
我也參與《數據要素化100問:可控可計量與流通交易》審核,印象深刻的是關于數據要素的定義。為什么數據不等于數據要素,本書對第一個問題回答得非常好,這也破解了現在很多人對什么是數據,什么是數據要素的誤解。為什么今天才提出數據是生產要素?我認為主要為解決大數據+人工智能時代的新生產力問題。如今,網絡、傳感器、智能設備形成了一個感知網絡,把我們所有的活動都數字化記錄下來,這些數據經過收集、組織、處理,可以發現見解、發現新知,這就是數據挖掘、機器學習、AI等帶給人類的新希望。ChatGPT就是機器學習數據的結果,通過機器學習數據背后的模型,通過模型來學習數據,輸出知識,將成為未來重要的知識生產方式。
然而,數據本身不是生產力,也不能直接作為生產要素!萬物互聯情況下生產的數據是沒有多少用處的,這就是為什么說大數據的價值微小的原因。只有關聯并組織起來,形成足夠大的數據,才能試練算法模型,轉化為機器智能,產生知識或智能,并通過人的學習或應用再轉化為智慧行動,最終能夠帶來經濟效應。我認為作為要素的數據是客觀世界變化的事實記錄,不是數字形式的知識,知識是對客觀世界規律的總結,具有思想或方法價值,可以直接轉化為生產力。但數據不行,數據轉化為生產力的價值實現鏈條很長。我們把數據從不能用到能用、可用、好用這個過程稱為數據治理。而數據治理,我認為就是生產活動。因為生產活動本質就是創造價值,而數據正在匯集治理中不斷產生或改善它的價值。這也就是我們這本書對于數據轉化為要素的定義。數據要素化就是讓數據可用。
數據不僅要可用,而且還要可重用,在你能用、別人也能用、大家都能用的時候,數據就能夠流通了。工業社會最重要的是標準化!工業產品都是標準化的,一個螺絲擰到哪個地方都可以。我們數據是在特定場景下產生的,到其他地方不能夠識別語義或者讀不了,那就麻煩了,所以數據需要清洗提煉,轉換標注,組織匯集才能可機讀,可重用,可流通,這就是數據的要素化的全部含義。
數據要素化也等于數據產品化、資產化,三者可以等同。資產是什么?能夠給企業帶來價值的。如果企業不能用,數據就沒有價值,數據就不是資產。數據要素市場建設就是構建數據的生產、流通、使用秩序權,是服務于資源利用秩序的,為此我們提出了持有權來支撐我們的數據利用秩序。
我把大數據+人工智能看成認知革命,而整個社會的生產力就是認識和改造客觀世界的能力,所以我們將數據定位于生產要素,建立數據要素市場,就是能夠支撐機器智能,機器智能很可能產生智慧行動(如自動駕駛),也可能生產出新的信息或有用的知識,然后再傳導到人,人學習之后再轉化為智慧的決策行動,機器智能和人類智能相互作用支撐未來社會智能和知識生產。這就是數據成為生產要素,且成為經濟新引擎的原因。
數據價值實現大致分兩個階段,在前半段是原始數據的生產、流通和使用,即知識或智能生產的原材料的生產和供給,訓練出算法模型,形成智能工具;而到后半段,則是利用算法生產出知識或智能,寫出來作品或能夠做出分析報告。這個階段可以看作是知識或智能的生產,輸入數據即可以輸出知識或洞見了。有價值的信息或知識可以看作是數據的最終產品,可以接入到現有法律制度,比如知識產權保護,通過許可或服務交易,賦能整個社會,產生社會生產力。
我們在座的每一個人、每一個組織、每一個單位都是數據的應用者,也是數據的生產者。我們怎么構建數據產權制度?在這方面,我認為社會主體都扮演三重角色。首先,每個人都是數據來源者。來源者是不是應該有什么樣的權利?或者說你所在的企業對企業運營產生的數據有沒有什么權利?這里的來源者是針對數字化事實數據而言(不是知識創作者或發明者)。我們在網絡上留下的行為軌跡、汽車發動機記錄數據,只具有計算或分價值,而用戶個人或汽車車主就是數據描述的對象,被稱為來源者。數據是描述客觀世界某一個對象的某一個方面的特征或屬性。關于某一個對象的屬性歸集到一起,就可以認知這個對象。這就是所謂的大數據分析干的事情。因而數據來源者只是被認知的對象,作為認識對象的個體不應該享有所謂的產權。我們每個人應該有阻止別人濫用關于自己的數據的權利,但不能決定數據的使用。不能非經我的同意就不能使用我的數據。大家會問,《個人信息保護法》不是給我們每個人那么多的權利嗎?事先要同意,用后還可以主張刪除或移轉,其實《個人信息保護法》這些權利防范別人的濫用權,而沒有建立非經同意不能使用規則。只是現在被人理解成來源者可以決定。大家想象假如每個人都能決定數據授權使用的話,那么所有的社會交往都先要去給個人做談判,這個社會成本有多高?因而來源者不應該有數據的使用決定權。
與此同時,我們每個人也是數據使用者,因為我們要使用數據來認知我們的交往對象或客觀世界。而在大數據時代,還存在將數據治理成為可用、好用的生產要素的數據生產者。生產者從來源者那里獲得數據,加工成為可訓練算法的數據集,供給我們使用。我們一定要把個人放在這三個角色里面思考數據權利配置。那么,生產者把不能用的數據變成有用的數據,形成數據集(半成品),供人們分析使用,就能夠享有所有權?我覺得不應該,是因為我們還要保護每個數據使用人的權利,使用者有獲取數據的權利。假如先收集并投入勞動就有所有權,那么我們使用數據就要與所有者交易,這不僅會妨礙我們每個人的認知自由或探索未知自由,而且是多大的交易成本呀。國外對于數據產權問題并不那么強調,反而更多地講數據開放。ChatGPT是通過開放的數據環境下學習出來的,如果數據不開放,變成誰收集、誰治理,誰就有產權,那么其后果可以想象。所以我在參與“數據二十條”起草的時候,力主放棄數據所有權,強調流通利用,并為此提出數據持有者權(簡稱“持有權”)。
持有權是什么概念?就是誰獲得了數據,而且是要合法獲得,那么你就可以合法控制和使用數據,不僅自己可以用,也可以給人用。給人用就是流通利用。大致有兩種方式,一種就是把最終數據產出物——信息、知識或智能工具——“輸出”。比如,不輸出原始數據,最終給你提供一個解決方案,或給你一份報告,這就是人們通常講的數據產品交易和數據服務交易。但是,問題在于,如何產出更多的智能或知識?關鍵在于原始數據的流通利用,因為每個人能夠收集的數據都是有限的,首先要解決原始數據的匯集、流通和利用。數據流通的方式分兩類,一類是移轉數據,使用者可以獲得原始數據;另一類是這本書所提倡的“原始數據不出域,可用不可見”,僅僅許可使用,如允許在持有者控制的系統環境進行計算,獲得結果。這兩種方式均實現數據讓他人使用的目的。顯然,轉移使用權或許可使用就能實現流通利用目的。
這里需要解釋一下“數據二十條”的一個非常創新性的提法,叫作產權的結構性分置。目前對于這方面的解讀五花八門,我本人也算是起草者,但理解可能也和其他的學者不一樣。三權分別是數據資源持有權、加工使用權、產品經營權,其中,加工使用權包括剛才講的數據治理,也包括挖掘分析、訓練算法等,前者是數據本身的生產和流通利用,后者是前面講的知識生產。這樣,加工使用權就涵蓋了不斷形成和實現數據價值活動。數據資源持有者當然享有加工使用權,也享有加工使用形成的各種數據產品的經營權,同時,資源持有者亦可以授權他人加工使用并取得加工使用形成的數據產品經營權。由于數據是可為多人使用的可分享資源,因而在我看來,授權或轉讓數據使用權,加工使用者對數據進行加工形成的數據產品應當享有數據產品持有權,形成數據資源的持有權和數據產品持有權,兩者都屬于數據持有權范疇,但相互獨立,更加有利數據產品的流通利用。這樣,資源持有者和產品持有者都可以處分(流通)各自的數據,許可他人使用或創設數據產品經營權。數據產品經營權源自持有者的授權,相當于將持有者本享有數據產品化和市場經營的活交給了一個專業機構實施。例如,現在公共數據的授權運營就是為被授權人創設了數據產品經營權。由此“數據二十條”為公共數據授權運營打開了很好的路徑。
數據轉化為最終產品之后,才進入社會主體應用,賦能社會。這里也存在交易,比如算法模型、分析報告等知識產品??傊?,“數據二十條”以數據資源持有者為起點,構建了包含初始數據、加工處理后的數據集到最終知識或智能產品的流通交易框架,通過所謂的“三權”分置,構建了靈活多樣的數據要素市場,同時促進數字經濟社會分工體系的形成,最終形成數字生產力。
數據要素市場就是如何讓數據變現或者變成金錢,變成收入。我多年研究認為,數據的變現過程大致分三類,第一類是企業內部使用,是直接變現。對于企業來講,即精準營銷、個性服務、產品研發、智能制造、提升效率。還有一個是分享變現,通過一對一許可使用或互換交易,或者打造數據生態來實現數據的價值。數據生態是未來數據變現的非常重要的東西,通過協作共享打造一個產業的上下游鏈條,讓大家都共享數據,分享各參與主體匯集形成的大數據價值。最后,數據還可以走向社會化交易,這就是我們現在想打造的國家級數據交易所。市場化交易對數據有一個要求就是必須標準化可重用,能夠從自己私域拿出來給他人使用,這對數據產品化提出更高的要求。
數據確權是非常復雜的事情,我們傳統認為產權就意味著合法,在市場上流通,買到了產權,這個產權就是合法的。在數據化環境下,持有數據,有持有權并不意味著是合法的,因為數據是非常復雜的存在,數據是多種利益,能不能交易,這個需要一個合規性的評估,要合法取得,控制產品化、要素化,要說清楚這么一套規則,所以數據持有權要通過法律、商業和管理這三者結合起來才能夠實現,要向別人說清楚,別人也有一套規則能夠判斷你是特定數據的合法持有者。傳統的產權已經通過權利公示和推定規則解決了交易安全和效率問題,交易的時候我只要看見你有這樣一個東西在你面前我就可以買,但數據恐怕就沒有這么簡單,我們正在以數據持有權構建適合數據要素流通利用,同時又能夠解決數據持有者判斷、鑒別和評估問題的權利體系。這里的評估既包括價值評估,也包括合規性評估。在我看來,數據確權實際就是識別數據持有事實+合法性評估,形成一個合法交易標的。由于數據是持續生產、不斷流通利用的,它處于不斷變化過程中,因而,需要我們用新的思維去理解它、去管理它、去應用它,才能構建數據不斷流通利用的秩序,最終實現數據的社會價值。
(作者為華東政法大學教授、法律研究中心主任)