(北京大學國家發展研究院副院長)黃益平
推動共享的合理做法是建立數據共享平臺,需要使用大數據的機構可以通過平臺提供的接入口,對原始數據進行運算,然后輸出結果。
大數據其實非常適合共享,就是可以無限制地復制。這是數據要素與傳統生產要素的一個根本差別,無論是資本還是土地,如果已經有一家企業在使用,別的企業就無法同時使用。但大數據不一樣,如果需要,一套數據可以供無數家企業同時使用,或許這也正是大數據分析能夠產生超常回報的原因。但這個優點也會引發一個缺點,就是數據的擁有者如何保證購買者不會復制數據給其他人使用,如果不能保證,那么擁有者也就只能出售一次。這樣,擁有者就很難有足夠的激勵和資源去從事費時費力的搜集、清理和分析工作。
在現實生活中已經有公共數據共享的實例。所謂公共數據,主要是指由公共部門積累的大量靜態數據,典型的例子是稅收、社保、司法甚至水電等數據。這些數據已經形成,也不需要相關部門再做額外的投入。目前一些地區通過建立地方性的數據平臺,整合已有的公共數據,支持商業銀行的信用風險評估,為中小企業提供貸款,取得了不錯的效果。廣東、浙江等地嘗試建立的平臺形態不同,主導機構也不一樣,甚至覆蓋的數據也有很大的差別,但這些實踐有一個共同的地方,就是向商業銀行共享公共數據,支持普惠金融業務。
特別需要指出的是,即便是這類共享公共數據的平臺,其實也沒有共享原始數據。平臺的功能只是提供一個接口,讓獲得授權的銀行算法工具進入不同的公共數據庫進行運算,獲得結果。換句話說,這些金融信息服務平臺所做的,實質上就是“原始數據不出系統,但分析結果可以出系統”。公共數據不能出系統,有權益的考慮,也有安全的考慮。但這個理由對于大科技平臺上的大數據則更加突出。因為大多數公共數據是靜態的,什么時候交過多少稅、交過多少水電費,在系統內使用,還是在系統外使用,差異不大。但大數據是動態的,如果分割之后離開系統,可能就很難產生同樣的大數據分析功效。
最近有一種觀點,既然大數據是一種新的生產要素,既重要又敏感,因此最好能由政府部門或者國有企業掌握。但是,幾乎所有的大科技公司都是民營企業,這也是事實。解決合規合法問題的有效途徑是加強監管,而不是把數據集中到國有部門。數據如何才能集中到國有部門,這個技術問題就不好解決。即便能,國有部門行為的合規性比較高,但創新性卻普遍比較低,這樣大數據分析的活力也就喪失了。最佳甚至唯一的解決方案是加強對民營大科技公司的監管,事實上,最近兩年,數據保護的法律、制度頻頻出臺,大科技公司的數據保護意識已經大大加強。
總之,千萬不要套用傳統生產要素的管理方法去管理數據生產要素。無論是確權,還是共享,都需要適應數據特性的思路,根本目的是在保護相關方權益和發揮大數據效用之間取得平衡。事實上很多原始數據是不能拿出來的,這其中有個人隱私、商業機密和國家安全等方面的考慮,也是因為數據復制的成本非常低,更重要的是很多數據一旦離開其原生的平臺系統,其價值就會大打折扣甚至變得一文不值。所以,推動共享的合理做法是建立數據共享平臺,需要使用大數據的機構可以通過平臺提供的接入口,對原始數據進行運算,然后輸出結果。