上海市經濟和信息化委員會 上海 201800
當前,我國大數據產業繼續保持強勢增長態勢,預計未來五年,大數據技術和服務產值年復合增長率仍將達到30%以上。對大數據的價值挖掘將快速滲透到產業的方方面面,成為中國經濟轉型升級的“新動能”。而數據資源是推動數據驅動型經濟高速增長的基礎戰略資源。據Gartner預測,到2017年,約三分之二的大數據整合項目將是企業防火墻之外(外部數據)的整合[1]。工信部電信研究院《中國大數據發展調查報告(2015年)》顯示,數據資源短缺仍是制約大數據發展的主要因素,企業迫切希望政府開放更多的公共信息資源(64.7%)和促進數據流通交易(63.6%)[2]。
國外數據交易市場始于2008年,得益于較為完善的法律制度、信用體系和數據開放環境,企業間數據交易較為活躍,涌現出Infochimps、Factual、DataSift、Datahub、Qlik Datamarket、Oracle BlueKai、Twitter Gnip、Windows Azure Marketplace、Acxiom、FUJITSU Data Plaza等一批知名數據服務商。根據美國參議院商務、科學與運輸委員會發布的報告,全美數據經紀市場2012年的總規模達到1500億美元,相當于當年美國情報總預算的兩倍[3]。
從數據獲取看,國外數據交易主要采用數據代理方式,通過政府數據公開、商業渠道合作等方式,從數據源機構獲取各類信息,進而向用戶交付數據產品或服務,數據交易由數據供方、數據中介和數據需方三方構成。從數據業務看,爬蟲類數據交易平臺占比較低,強調數據集之間的關聯性,并以聚合方式向用戶提供。從價值轉化看,注重面向產業應用場景,密切與行業應用解決方案提供商的合作,推動數據在產業鏈各環節的傳導和增值。近年來,國外大量數據中介企業被行業巨頭收購,成為企業大數據閉環產業生態的組成部分,傳統的專注于垂直領域數據經紀服務的企業面臨著較大的轉型壓力。
國內數據交易市場起步于2010年,幾乎與國際同步,建設了包括數據堂、中關村數海、京東萬象、浪潮卓數、聚合數據等一批數據交易平臺。從產業觀察的角度看,國內數據交易平臺年交易額在億元附近時增長速度顯著放緩,交易頻次隨用戶量增多反而有所降低。
我國數據交易市場發展困頓主要面臨以下四個方面的瓶頸制約。
1)行業應用場景少、需求牽引不足,數據使用價值未得到有效體現。根據經濟學人信息部統計,包括制造業、IT技術、金融服務、專業服務、醫療保健、制藥和生物技術以及消費品等19 個行業領域正在積極開展大數據技術應用[4]。我國大數據應用以互聯網企業為主,場景局限在電子商務、精準營銷等有限的領域,銀行、醫療、教育、農業、工業等領域大數據應用還處于萌芽狀態。盡管行業應用較少,但我國擁有海量和高價值數據的企業或機構,也為數據流通和價值轉化提供了廣闊的市場空間。
2)數據開放體系和信用體系缺失。與國外數據交易主要采用數據代理方式不同,國內數據交易企業數據獲取主要有爬蟲、眾包以及行業聯盟(代理模式)三種模式,如圖1所示,其中爬蟲類平臺和眾包自采集類平臺占比較高,數據代理型平臺較少,數據不能滿足實時場景計算的需要,數據質量也存在一些差距。這主要是因為國內數據開放體系和信用體系缺失,政府開放數據供給不足,而像BAT等持有大量且商業價值很高數據的商業公司,更傾向于打造閉環產業生態,并不愿意為獲得短期的利益而變現數據價值,而愿意做數據變現的公司掌握的數據體量可能滿足不了數據使用者的需求。另一方面,市場缺乏信任機制,企業不按協議要求私自留存、復制甚至轉賣數據的現象普遍存在,反過來又進一步抑制了數據供給意愿。
3)數據資產、隱私保護等法律法規缺失,沒有明確的數據貿易糾紛處理和市場監管機構,企業級交易平臺的臨時規則難以獲得全行業認同。
4)除政府數據資源外,我國還有規模龐大的水電煤油氣等公用事業數據,民營企業較難推動這些領域的數據開放。
5)國內數據開放的渠道還不夠通暢,市場力量難以推動跨區域的數據整合。
因此,業界普遍認為,我國大數據交易在尋求高效有序的發展路徑時,必須要依托政府和市場的雙重力量。由數據供方、數據中介、數據需方和監管機構四方參與的數據交易機構作為兼具“技術、信息安全和法律保障”的數據價值轉化渠道,可以有效規范數據交易行為,實現商業價值、個人隱私和公共利益的平衡。2014年以來,各地紛紛成立混合所有制形式的數據交易機構,包括貴陽大數據交易所、華中大數據交易所(武漢)、長江大數據交易所(武漢)、東湖大數據交易中心(武漢)、上海數據交易中心、浙江大數據交易中心、錢塘大數據交易中心(杭州)、江蘇大數據交易中心、沈陽大數據交易中心、廣州大數據交易中心等,預計至2016年底,全國數據交易機構總數將超過20家。

圖1 數據交易的三種模式
凱文·凱利說,數據不應該以它的存儲而定義,應該由它的流轉來定義。根據Teradata公司的統計,商業公司大約只存儲15%的有關他們業務的數據,其余85%數據都存儲在其它外部公司或網站上[1]。大數據時代的相關性分析技術,使得企業內部的大數據和外部數據的整合、交互變得更加重要。
數據價值,本質上是蘊含在數據背后的信息和知識。一般認為,無形財產的權屬界定有一個特點,促使所有權與財產的生成及價值起源掛鉤[5]。例如,文學藝術作品的版權首先屬于作者,因為作品是通過作者的勞動才產生,并有了價值。跟文藝創作和技術發明不一樣,數據的價值不是因記錄者的制作而起的。數據價值的轉化需要行業領域業務人員的參與,以及商業模式的配合,如圖2所示,即所謂的“小知識撬動大數據”。

圖2 數據價值轉化
數據是一種可反復交易的數字內容產品。從理論上說,數據出售的邊際成本接近零,數據的供給不是受到生產規模的約束,而是受到市場規模的約束。從而形成數據交易的悖論,即隨著交易規模的增大,數據價格不斷走低。
直到今天,全球仍然為基于互聯網平臺進行傳播的數字產品版權保護問題頭痛不已。數據作為特殊的數字內容產品,其權益保護難度遠甚傳統數字產品。首先,數據可以非常方便的被分割和復制,即不同顆粒度的數據片段同樣具有價值。其次,數據可以通過網絡流轉,從一個格式變成另一個格式,數據知識提取或與內部數據聚合產生的衍生價值遠高于數據產品本身。由于大數據的低價值密度特點,對跨業務系統、跨數據形態的數據片段進行追溯跟蹤,不僅技術上不可行,在經濟成本和系統安全上也無法接受。
數據價值具有相對性,同樣一個數據集,在不同的應用場景會產生不同的價值,數據定價是數據交易的核心問題。一般而言,數據有三種定價策略:成本法、
價值法、市場法。成本法不適用于商業數據交易,一方面,數據使用價值是由需方確定的。另一方面,數據作為存在于特定軟硬件系統乃至商業生態體系中的依附性產品,其成本也較難被計算和測量。根據場景增值進行定價的價值法事實上也無法實現。數據如同自來水,用自來水配合不同的食材、加工技巧以及品牌營銷,可以生產出不同價格的食品,然而自來水的價格是相對穩定的,因此,數據交易的定價本質上是由需方提出,由市場來形成平衡價格。
個人數據由隱私數據和價值數據兩部分構成。法定隱私數據包括姓名、身份證號碼、手機號、地址、賬號、密碼等PII信息(個人可識別信息),這些信息不能被交易或交換。
上海數據交易中心并非是一個獨立的項目,而是作為上海大數據發展“資源、技術、產業、應用、安全”五要素聯動,大數據“交易機構+產業基金+創新基地+發展聯盟+研究中心”五位一體協同推進的組成部分,強調數據流通與產業生態相融合,并以數據代理為主要業務模式。其業務職能為:促進商業數據的市場化交易;推動跨區域的機構合作和數據互聯;促進政府數據與商業數據的融合應用。
上海數據交易中心是由上海市人民政府審議通過,上海市經濟信息化委和上海市商務委聯合批復成立的國資控股混合所有制企業。由上海市信息投資股份有限公司、中國聯合網絡通信集團有限公司、中國電子信息產業集團有限公司、申能(集團)有限公司、上海儀電控股(集團)公司、上海晶贊科技發展有限公司、上海萬得信息技術股份有限公司、萬達信息股份有限公司、上海聯新投資管理有限公司等聯合發起成立。
上海數據交易中心以國內領先的“技術+規則”雙重架構,面向場景化產業需求,圍繞“人/物/組織”等主體,通過完善的會員注冊審核、元數據脫密脫敏、自主掛牌控制、用戶標識匹配、元數據加密配送、統一結算與清算等平臺功能,規范及聚合供應方的多元數據,實現商業數據衍生產品的在線連續交易。
在國內率先實現控制流與數據流分離,控制流采用區塊鏈思想,以公鑰方式實現居間見證和交易過程透明可見。數據流以私鑰方式進行去中心化P2P傳輸,從技術上保證中心不觸碰、不存留交易數據,如圖3所示。

圖3 去中心化數據流通(上海數據交易中心)
創新結合IKVLTP六要素數據約定和面向應用場景的交易規則,進行交易的“商業元數據”(原始數據衍生產品)必須具備主體標識(Id)、維度主鍵(Key)、標簽賦值(Value)、供應限度(Limit)、供應頻度(Time)和掛牌價格(Price)6個要素維度。通過虛擬ID實現對隱私數據字段的完全替代,對企業業務需求之外的超頻次、超范圍數據請求進行限制,有效遏制數據炒作和數據囤積。
2014年,全美農場聯盟、大豆協會、玉米農戶協會、農戶工會等六個農會聯手,與以迪爾和孟山都為首的六家巨無霸農業技術供給商(ATPs)就耕地數據采集達成《農場數據的隱私和保護原則》[5]。這些基本原則包括:1)農戶擁有自家農場數據的產權和絕對控制權。2)農戶允許農業技術供給商服務“直接利益相關者”分享數據。3)任何數據的采集使用都要以合同方式,事先獲得農戶明確的許可,包括數據如何采集和使用目的。4)農戶享有選擇參與或不參與數據采集和分享的自由。5)一旦農戶選擇退出并要求銷毀數據,供給商必須銷毀、返還數據。6)供給商不得用這些數據投機期貨市場。這些原則體現了以下訴求:一是數據采集應以合同方式明確手段和目的,并獲得用戶許可。用戶擁有對數據的絕對控制權,可自由選擇進入和退出,提出數據刪除和返還要求。二是允許服務提供商“直接利益相關者”分享數據。這是因為現代社會建立在專業化分工的基礎上,用戶服務往往由一批合作緊密的企業共同提供,必要的數據分享是獲得協同服務的前提。三是數據的使用不能對農戶產生潛在實質性損害(不得用于期貨市場投機)。這些通過契約確認的訴求對數據流通實踐具有典型的借鑒意義,提出了數據流通的三個核心問題。
從全球實踐看,用戶提供必要的個人數據是獲取相關服務的前提,個人數據可以在企業服務業務范圍內使用和流動,也可以在共同提供服務的企業間進行分享。但數據離開企業服務業務范圍,在其它業務范圍或業務場景被使用,即構成數據流通,包括數據共用、數據共享和數據交易等三種形式。數據共用主要存在于以資本為紐帶的關聯企業之間,數據的流動受企業內部規章制度約束。數據共享主要存在于合作企業之間,數據的流動受企業間合同契約約束。數據交易則是指供需雙方通過第三方數據交易平臺,按照共同遵守的交易規則和定價機制進行數據交換。例如,某集團將自有電商交易數據提供給某控股市場營銷企業使用,與某第三方數據交易平臺將運營商通信數據交易給某市場營銷企業使用,并沒有本質上的不同,只不過前者發生在關聯企業之間、采用的是數據對價形式、后者發生在非關聯企業之間、采用的是數據定價形式。
從維護市場公平性和統一性出發,主管部門應加強數據流通全范圍監管,并根據數據流通的不同模式進行分級分類管理,在數據利用的各個環節(包括收集、加工、流通、應用等)都加入隱私安全分析和控制,使數據流動和使用的每個環節可查詢、可控制。個人信息保護的風險,主要存在于采集、傳輸和使用三個環節,建議對關聯使用模式、數據共享模式和數據交易模式采用跨場景使用披露、敏感數據授權共享、敏感數據禁止流通三種不同的監管策略。對關聯企業模式,應關注關聯企業數據跨場景使用用戶授權與知情權保護、隱私數據存儲與訪問控制安全制度建設等問題。對伙伴共享模式,應關注數據不同企業間共享用戶授權——一次授權、企業間數據共享合同披露、隱私數據加密傳輸用戶授權——二次授權(或非授權禁止傳輸)等問題。對數據交易模式,應關注數據交易用戶授權(非敏感數據多邊共享授權)、交易規則披露、隱私數據禁止流通等問題。
一般認為,數據由個人隱私數據(PII可識別數據)和價值數據兩部分構成,個人隱私數據對應用戶的人格權,應受到法律法規的嚴格保護,不得被交換和交易[6]。價值數據可以被使用和商業開發,但要讓用戶有知情權和選擇權,即所謂的“告知與同意”。但對存在較大爭議的數據財產權歸屬方面,可以采用“效率優先、兼顧公平”的原則鼓勵市場先行先試。因為,即使號稱史上最嚴苛的數據保護規定的歐洲《統一數據保護條例》,也僅強調用戶對數據的選擇權和控制權,而避開數據產權這一棘手問題。這不僅是因為數據在產權的排他性方面不完備,產權主體履行排他性使用和處置權成本高到幾乎不可能有效滿足其獨占性訴求[7]。同時,數據價值的有用性不能單純依賴單個信息個體而存在,而有賴于不同提供者和數據使用者的數據聚合和知識提取,以及商業模式的結合。更進一步地講,用戶數據的存續依附于服務商的軟硬件支持和系統運營,這使得用戶數據產權問題變得更加混沌不清。
產權是商品交易的基礎,數據產品的復雜性決定了其不適用實物產品的產權制度框架。本質上講,數據產品是一種特殊的數字產品,從版權的角度來理解數據產品產權,將為我們提供一種全新的視野。從版權(copyright)的英文原詞可以看出,版權的最初含義是“復制權”,是為了阻止他人未經許可復制作品、損害作者經濟利益而由法律創設的權利。英美法系國家從未將版權看成所謂的“天賦人權”或“自然權利”,而是將它視作鼓勵、刺激創作作品的公共政策的產物。與此相適應,版權的側重點也在于保護作者的經濟權利。人類社會數據管理具有悠久的歷史,但直到大數據時代,個人數據的價值才得到全面體現。這一價值的實現,有賴于幾個要素。一是新型記錄設備的普及,如電腦、智能手機、智能家居等;二是信息系統的運營,數據存在于系統之中,沒有服務商的運維數據將會自然泯滅;三是數據的互聯與發現,個體數據的價值有賴于群體標簽與企業業務關聯關系的知識發現,以及數據的互聯互通與加工處理,這也是傳統BI無法有效創造數據價值的原因之一;四是商業模式的創新,將數據轉化為知識只是數據價值實現的第一步,數據價值的最終實現有賴于創新商業模式并增進社會群體福利(需方買單);因此,個人數據忠實記錄只是第一步,數據價值的實現還需要數據采集、系統運維、數據發現、數據流通、商業創新等多方的參與。數據的價值不是因記錄者的制作而起的,其價值實現應考慮到各行業領域業務人員的勞動與貢獻。作為一種特殊的數字產品,數據產權制度還有待進一步的探索與完善,但總體而言,在兩個方面存在一些基礎共識。一是可利用的個人數據僅限于經濟權利數據,人格權(個人隱私數據)不得被商業開發;二是個人數據價值的創造始于個人行為記錄,實現于多方參與,以及與其他個人數據的互動。
不利影響,是指從用戶處采集的數據,經過數據流通到達數據使用者,數據使用者的分析結果可能被用于不利于用戶的行為之中。最典型的如個人征信,運營商將用戶個人行為數據售賣給征信機構,導致用戶的授信額度被降低。對用戶可能帶來不利影響的數據流通,應告知并得到用戶許可,用戶的這一權利也應得到相關法律法規的保護。不同應用場景和不同標簽體系的數據流通對用戶的潛在影響是不同的,如在線推薦廣告,由于潛在不利影響較小,被認為無需用戶許可,但需提供用戶可隨時退出的權利(opt-out)[8]。政府應對可能侵犯個人隱私、商業秘密、國家安全等的流通數據進行風險評估,根據場景使用分類和數據敏感分級,建立完善包括可流通的應用場景與數據類型,一次授權(不可識別數據、非敏感數據)、二次授權(一般敏感數據)、書面授權(高度敏感數據)等個人授權要求組成的數據流通強制性法規標準體系,規范企業、數據交易平臺等數據使用主體的數據流通行為[9]。同時,樹立一批典型的面向應用場景的數據流通案例,作為全行業推廣的典范。
數據流通存在企業內部跨場景共用、企業間交換和第三方平臺交易等三種方式,監管部門應對不同的流通類型采取相同的監管標準,實現數據流通全范圍、全過程可控。應建立面向不同應用場景的用戶潛在不利影響評估,實施數據流通分級分類管理,合理設置用戶采集授權、流通授權等用戶權利。禁止侵犯個人隱私、商業秘密、國家安全等的數據流通,禁止數據使用過程中對個體的身份識別。與國外不同,國內數據交易由數據供方、數據中介、數據需方和監管機構四方組成,需發揮政府和市場的雙重力量,國資控股的數據交易機構有望成為兼具“技術、信息安全和法律保障”的數據價值轉化渠道。數據流通的本義是推動以數據為核心的產業價值鏈形成,需要推動數據開放(數據代理)、產業應用、行業自律等方面的協同發展。
參考文獻
[1]楊琪,龔南寧.我國大數據交易的主要問題及建議[EB/OL].[2016-05-30].http://www.cbdio.com/BigData/2015-09/01/content_3754850.htm
[2]中國信息通信研究院.2015年中國大數據發展調查報告[EB/OL].[2016-05-30].http://www.jsssme.com/smenews/service/view/71200
[3]Committee on Commerce, Science, and Transportation.A review of the data broker industry: Collection, use,and sale of consumer data for marketing purposes[EB/OL].[2016-05-30].http://xueshu.baidu.com/s?wd=paper uri:(dae01369fe89d8aa48a6aaed50ba6c37)&filter=sc_long_sign&sc_ks_para=q%3DA+review+of+the+data+b roker+industry%3A+Collection%2C+use%2C+and+sale+of+consumer+data+for+marketing+purposes&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8
[4]Tech Target.管理大數據隱私:主動出擊戰略[EB/OL].[2016-05-30].http://www.doit.com.cn/article/2013-05-14/6496482.shtml
[5]利求同.大數據賣的就是隱私[EB/OL].(2015-7-19)[2016-05-30].http://www.cbdio.com/BigData/2015-07/27/content_3569850.htm
[6]謝楚鵬,溫孚江.大數據背景下個人數據權與數據的商品化[J].電子商務, 2015(10):32-34
[7]劉曉忠.大數據的產權困惑:平臺擁有信息產權嗎?[EB/OL].[2016-05-30].http://money.163.com/14/0130/02/9JQ9A6P000253B0H.html
[8]曾新宇.大數據時代網絡交易中的消費者個人信息保護[J].南華大學學報:社會科學版, 2014(6):81-84
[9]美國總統行政辦公室.大數據:抓住機遇、保存價值[EB/OL].[2016-05-30].http://www.36dsj.com/archives/8299