文/馬毅明

伴隨著數字經濟的蓬勃發展,大數據已成為與自然資源、人力資源同等重要的戰略資源,對國家治理、經濟生產和社會生活的影響日益深刻。據中國科學院估計,到2020年全球數據總量將達到44萬億GB,我國大數據相關產品和服務業務收入達1萬億。大數據為企業理解市場需求、改善產品提供重要參考,通過與大數據深度融合也成為傳統行業轉型升級的新動能。可以說,數據蘊含著巨大生產力和商機,掌握數據就掌握了發展的資源和主動權。
要驅動這種可以塑造未來的生產力要滿足兩個前提——足夠的數據和核心技術。大數據的價值需要依靠數據分析、人工智能算法等技術的加持,提煉出有效的模型,才能落地成實際的應用。然而,越來越多的市場進入者會面臨所謂的“冷啟動問題”——他們還沒有用戶,這意味著他們沒有數據,更無法通過數據集訓練來提高分析技術的準確性,因此很難與已深度了解用戶的行業領導者展開競爭。數據資源的數量及質量在一定程度上成為行業的準入門檻,掌握大量數據亦成為市場領導者的“護城河”。
這種由數據過度集中引發的非公平競爭困境已引發全球的關注,特別是在信息科技領域。例如美國數字平臺研究委員會就對以谷歌、蘋果、臉書、亞馬遜、微軟等科技巨頭(BigTech)“贏者通吃”導致競爭方式發生巨大變化的現象進行了研究。由于互聯網產品存在顯著的網絡效應,即產品對用戶的價值隨網絡上用戶數量的增多而變大,擁有大量市場份額意味著頭部公司可以收集更多用戶的行為數據,同時反過來這些用戶數據又能幫助頭部公司快速了解用戶需求變化,從而改善產品用戶體驗。這種反饋循環賦予行業領先企業獨特的優勢,為資源相對匱乏的市場追趕者豎立了極高的競爭門檻。雖然競爭優勢的存在本身不是負面的,追求市場領導力和獲得超額利潤是企業創新的動力,但當主導企業排除潛在的競爭對手時,問題就出現了。在電商、通信、搜索、信息共享等新型信息渠道,一些領先公司利用市場份額帶來的優勢,主導市場產品和行業標準,將潛在競爭對手排除出旗艦產品市場,乃至逐漸拓展至其他產品市場。長此以往,主導企業坐享利潤而無需投資研發,行業競爭與創新活力下降,由此造成的后果則是消費者長期支付超額價格卻只能獲得低質量的產品或服務。
解決數據集中引發的競爭門檻問題的一個可行方案是引入數據共享制度,即要求超過一定規模的數字公司與公眾共享其代表性用戶數據。該制度的邏輯是雖然單個個體的信息歸個人所有,但大量消除個人標識的脫敏數據集應當作人工智能、機器學習等新技術發展的基礎設施,以合理的價格向公眾開放。這不僅促進分析服務市場的競爭,減少競爭不平等現象,還大大增加了現有機器學習算法的改進機會,促進人工智能領域優秀研究人才累積。
然而,由于目前還無法確保高粒度數據集的匿名性,數據共享制度面臨的主要挑戰在于其可能會加劇現有的消費者隱私和安全風險。鑒于對個人數據巨大的需求,涉及公民個人信息泄露、收集、轉賣的黑色產業鏈已然形成,一些過度收集和非法買賣用戶隱私信息而造成集體安全風險的事件屢見不鮮。政策制定者需要謹慎權衡共享信息的全面性和再識別風險,同時進一步鼓勵個人信息脫敏技術的研究發展。
數據共享制度尚是一個較新的概念,但其理念在全球范圍已成趨勢。在歐盟和美國的并購審查中,數據集中方面的情況已列為標準審視內容。作為法學界爭論的對象,核心設施原則仍然是美國和歐盟反壟斷法院裁決的一個因素。
作為網絡用戶規模全球第一的國家,我國在探索建立數據共享機制方面擁有基礎優勢。事實上,早在2015年8月國務院印發的《促進大數據發展行動綱要》就指出,要形成公共數據資源合理適度開放共享的法規制度和政策體系,帶動社會公眾開展大數據增值性、公益性開發和創新應用。2018年5月國家統計局頒布《非傳統數據統計應用指導意見》列舉了大數據的類別和獲取方式,并提出推動非傳統數據的融合應用,增強我國在制定相關統計應用規則和標準方面的國際話語權。
數據共享的主要目的是在不過度約束現有企業的前提下,擴大從信息中提取價值的經濟群體。制度既要打擊濫用數據集中帶來的市場支配地位,確保市場準入條件公平,也應避免一些可能會被認為是專制地重新分配利潤的干預措施,影響企業參與數據和技術投資的積極性。另一方面,平衡用戶隱私保護和數據經濟價值開發同樣重要。完善個人數據收集及應用相關法律法規和發展數據脫敏技術與規范有助于數據共享制度安全有效地發展。
盡管面臨眾多挑戰,但在大數據時代背景下數據共享逐漸成為趨勢,因噎廢食和駐足觀望只能使問題進一步累積。政策制定需考慮多方平衡,引導數據在激發經濟新動能的戰略作用。