朱寶麗
(山東建筑大學 法學院,山東濟南 250014)
數據應用和開發離不開數據產權的界定和保護。只有從理論上解決數據的法律屬性、產權歸屬等基本問題,才能厘清數據各方的權利義務關系,推動數據使用和保護。從研究現狀來看,數據能否以及作為何種法律客體仍存在爭議,不同類別的數據產權歸屬認識上還很模糊。因此,有必要明確數據法律性質,界定各類數據產權,構建數據權利體系,從而推動數據開放和數據產業的健康發展。
根據現代漢語詞典的定義,數據是指科學實驗、檢驗、統計等所獲得的和用于科學研究、技術設計、查證、決策等活動的數值。從計算機術語看,數據是指表示客觀事物未經加工的原始素材,可以是符號、文字、數字、語音、圖像、視頻等。
現行部分法律引入了“數據”概念。《合同法》和《電子簽名法》均使用了“數據電文”的概念。新近修訂的刑事、民事和行政訴訟法,均采用了“電子數據”概念,其中《最高人民法院關于適用〈中華人民共和國民事訴訟法〉的解釋》中,明確將“電子數據”定義為“通過電子郵件、電子數據交換、網上聊天記錄、博客、微博客、手機短信、電子簽名、域名等形成或者存儲在電子介質中的信息”,并且“存儲在電子介質中的錄音資料和影像資料,適用電子數據的規定”。(1)參見《最高人民法院關于適用〈中華人民共和國民事訴訟法〉的解釋》第116條第2、3款。從內容分析來看,我國法律對數據的定義突出技術特性,國外對數據的定義雖有差異,但大都指向結構化信息(數據)。作為結構化信息的對應概念,非結構化信息一般指“內容”,如新聞稿和情況簡報等,當其“內容”被轉換為“結構化形式”,則稱為“數據” 。(2)參見OMB Memorandum M-13-13(May9,2013),Open Data Policy-Managing Information asan Asset,available at https://www.whitehouse.gov/sites/default/files/omb/memoranda/2013/m-13-13.pdf(accessed Mar.20,2015).
從內涵上分析,數據和信息之間存在包含關系,數據是行為主體初始各類活動的原始客觀記錄,含義并不明確,而信息則是運用技術手段加工、整合、解讀后的有確切意義的數據。(3)參見鄭磊:《開放政府數據研究:概念辨析、關鍵因素及其互動關系》,載《中國行政管理》2015年第11期。兩者關系如下:(1)信息是加工后的數據。信息是一種經過選摘、分析、綜合的數據產品。(2)數據和信息對不同主體價值不同。一些數據對某些人來說是信息,而對其他人只是數據。(3)信息是觀念上的。信息是加工了的數據,采用何種模型、何時加工數據獲取信息,可以人為決定。
1.從數據來源或制作主體來分,分為公共數據、科學數據、商業數據和個人數據。(1)公共數據。這類數據絕大部分是政府履職獲取和保留的,涵蓋自然知識、現代知識產權、經濟和社會發展數據,涉及GDP、金融、氣象、水文、醫療、教育等信息數據。(2)科學數據。主要指一些科研院所等自主從事科學理論研究、實驗、技術開發等所形成的各類數據。(3)商業數據。商業數據主要包括企業在運營中積累的數據,以及以網絡平臺等為載體獲取的數據。(4)個人數據。涵蓋個人身份、社交等數據。
2.根據數據表現方式不同,分為標準化數據與非標準化數據。標準化數據表現為具體數值的信息,如經濟增長率、經營收入等,可以是直觀的數值,也可以是圖表。非標準化數據主要基于數據格式差異,如微信、微博、QQ等社交媒體上的文本、圖片、音視頻、通話錄音、交易記錄等。
3.從數據產生和利用的層面,分為個體數據與整體數據。個體數據是自然人、法人及其他組織基于個體生產生活而產生的數據,如市場交易情況,網絡消費記錄,社交網絡的音視頻等。其中個人數據是最重要的組成部分,涵蓋四類信息:(1)身份信息,如性別、籍貫等。(2)私人空間數據,如朋友圈、學歷背景等。(3)隱私性信息,如身體疾患、居所、日記等。(4)上網產生的有關信息。整體數據是上述大量個體數據的聚合,在大數據的語境里,是指所有個體數據組成的存放于網絡服務器的數據集合。
數據產權歸屬是數據產業發展需要解決的基本問題,它決定著如何在不同主體間分配數據價值、義務和責任。“正義的財產權制度,應當對財產權法律關系中的權利、義務作出合理的分配,并盡可能地平衡社會生活利益間的沖突。”(4)John Rawls, A Theory of Justice,Harvard University Press,1999,p.5.目前我國尚無法律對數據歸屬問題作出明確規定,但在個人信息數據的收集、使用方面已有一些規范。全國人大常委會《關于加強網絡信息保護的決定》和工信部《電信和互聯網用戶個人信息保護規定》均規定了個人信息收集方式和基本原則。刑法修正案(七)和(九)規定了關于個人信息方面的犯罪及刑罰。2015年4月,貴陽成立了大數據交易所,規定了“數據買賣雙方要保證數據所有權、合法、可信、不被濫用”的原則,其后不久完成11筆交易。(5)參見王利明、楊立新、王軼等:《民法學》(第4版),法律出版社2015年版,第97頁。2014年6月,中關村大數據平臺發布了中國第一個行業規范《中關村樹海大數據交易平臺規則》(6)中關村大數據交易平臺:《中關村數海大數據交易平臺規則》,http://www.shuhaidata.com/doc/.,其中關于交易數據范圍規定極其廣泛,包括個人、企事業單位、社會團體等,但該規則對于數據權屬規定并不清晰。
在理論界,對于數據所有權歸屬尚未達成廣泛共識。實踐中,單個主體控制的各類數據,如自然人的姓名、性別、民族、住址等,法人機構的住址、經營信息等,產權問題較少爭議。但對于涉及多主體數據的產權歸屬,分歧較大,爭議主要集中在互聯網企業以及其他需要大量采集個人數據的行業中。
第一種觀點認為,各類數據基于數據主體的行為產生,沒有主體數據就無價值,由此數據自然歸數據產生者所有。有人建議應對用戶數據設立財產權利,強調對數據享有優先權,并制約交易使用等行為,否則交易行為產生的數據過度商品化現象會侵犯個人隱私權,帶來信息安全問題。在中國網絡技術(Cookie)第一案(7)參見胡凌:《朱燁案界定網絡隱私》,載《財新周刊》,2015年6月24日。的討論中,有人提出法律應認可個人對數據的財產權,并制約網絡公司的行為。
第二種觀點主要來自產業界。很多作為數據控制者、處理者的互聯網企業認為,如果用戶數據沒有被采集,不以數字化的形式存在,根本就不存在數據權利一說,用戶使用平臺服務所產生的數據屬于企業所有。有些公司則認為自行投入巨大成本從各類渠道采集和管理數據,按照“誰投資誰所有”的原則,其合法權利應當得到法律認可,這些數據產權應歸公司。
顯然,上述觀點有著不同的價值取向,第一種充分考慮個人隱私保護,以用戶尤其是自然人為優先項,對數據交易予以限制;第二種則從促進數據流通角度出發,賦予企業對收集數據的產權,有利于數據交易和數據產業發展。此外,最具有爭議性的是基于用戶的原始數據,進行清洗脫敏后的產權歸屬問題,如何劃分數據主體、控制者、使用者的產權邊界,各方莫衷一是。
大數據時代,數據流通鏈條向縱深延長,諸多主體為數據資產化均做出了不同程度的貢獻,數據價值不斷釋放,原始數據的作用漸趨弱化和邊緣化,更多的是數據聚合和挖掘后衍生的價值。一組有價值的數據,涉及到數據創造者、控制者、處理者、使用者,各主體身份在數據流轉中存在交叉和轉換,由此產權界定也相對復雜。因此,需要綜合考慮,依據科學的原則和標準來界定產權。
依據物權法基本原理,產權取得分為原始取得、繼受取得。前者主要有以下形式:先占、發現埋藏物、拾得遺失物、添附、善意取得。繼受取得是指通過法律行為或法律事件,從原所有人取得所有權,包括因買賣、贈與、互易、繼承遺產、受遺贈等取得產權。原始取得,是指所有人最初地、不依靠他人的所有權的存在而取得所有權。以自然人為例,自然人因為自己的行為而產生了一系列數據,并不依靠他人幫助,這種數據取得屬于原始取得,理所當然歸個人所有。其他原始獲得產權方式上,添附理論可以適用于數據交易領域。從數據交易來看,當數據主體產生基礎數據以后,獲得基礎數據的主體通過對數據的混合、加工等,做成新的產品,使得數據得到增值,正好符合民法上添附的理論,下文將詳述之。
在眾多對財產權的研究中,洛克的觀點很有代表性,他闡述了私有財產神圣不可侵犯原則,(9)參見霍毅斌:《財產權:自然權利中的核心因素》,載《經濟理論問題》2007年第12期。認為每一個人對自己的人身都享有所有權,每一個人對自己的生命、自由、財產都具有平等的權利,任何他人都沒有占有權。(10)參見[英]洛克:《政府論(下篇)》,葉啟芳、瞿菊農譯,商務印書館1964年版,第86頁。由此推之,自然人基于自己行為產生的各種信息并因此而形成的數據,自然專屬于個人,尤其是數據產品,屬于勞動付出所得,理應享有產權。因此,自然人或企業自身參與社會活動的顯名或可識別數據,可以隱私、商業秘密或知識產權形式存在,產權歸屬于數據產生者自己。
雙邊或多邊交易中產生的數據,關涉到參與各方,產權原則上共有。現實中,通過契約方式來解決多邊交易數據歸屬問題不失為一個好途徑。當各方主體因開展業務往來時,可以在合作之初進行約定,對于合作過程中產生的交易記錄等原始數據或者基于共同開發某些數據項目而產生的衍生數據進行事前界定,明確數據歸一方所有、雙方共有,或者作出永不轉讓交易承諾,或者合作終止刪除數據等。
大數據時代,政府控制著大部分公共數據資源,從經濟學角度來看,政府數據(11)政府數據是指政府及其職能部門以及依法行使行政職權的組織在其管理或提供公共服務過程中制作、獲得或擁有的數據。本文僅論及政府掌控的數據,其他公共組織掌握的數據確權原理大致相同。屬于公共產品。理由如下:第一,政府數據具有非排他性,平等對待所有主體、無條件且非歧視,不同于私人數據產品“誰付款、誰受益”,任何人對政府數據的消費不會影響其他人。第二,政府數據具有非競爭性,突出表現在政府數據邊際生產成本和擁擠成本為零,理論上不論增加多少需求,同一數據集可以無限次近乎零成本的被重復訪問下載。第三,政府數據效用不可被分割,無論政府數據如何被使用,都不會改變原始存儲在開放平臺上的數據效用,數據源不會被隨意修改,用戶對數據后續具體使用處理也不影響原數據的整體效用。第四,政府數據的公共性源于政府本身的公共屬性。政府為履職而做出的各種數據行為是政府代表和增進公共利益的表現形式和必要途徑,最直接結果就是產生各種公文記錄或檔案信息,比如規劃、統計數據等;或者制定法律政策等通過各種數據信息傳遞來加強對社會的管理與服務。
從政府數據產生和來源來看,既有政府自身履職產生的信息,也有依法從外部獲取的各種數據信息。政府部門均是在公共財政的支持下履職,獲得的數據產權屬于全社會,即全體公民公有,理論上應該開放數據,讓數據回歸社會,創造公共價值。從經濟學角度而言,政府數據的最終價值是無法預測的,不同類別、不同規模和不同形式的數據組合,采用不同的算法、模型,往往會得出不同的結果。數據最終價值始終處于波動之中,但這種波動是由市場所決定,相對于原始數據,政府數據的利用在經濟上屬于增值過程,發揮著正外部性。因此,政府數據開放與共享可以考慮以數據池的模式來實現最大效用,但必須要明確各類政府數據產權。(1)自然知識數據。人類對自然和宇宙的認知數據,大多數都是政府依托公共財政,資助有關部門研究所得。對于這類數據,產權屬于全社會,在非涉及國家安全的情況下,應該免費向社會公開共享。(2)歷史遺產和現代知識產權數據。數字時代,關于歷史遺產幾乎都可以數據化,并在網絡空間作為信息流和知識流傳播。這類數據挖掘整理、標準化后,成為數字圖書館數據庫的重要資源,產權仍然屬于公有。此外,人們在社會生產和生活中,創造的一切知識形態的成果存放于數字圖書館,這些成果保護期滿后,就成為人類共同財富,所有人均可免費使用。(3)經濟社會數據。這部分數據是政府履職中掌握的數據,包括經濟、治安、環境、交通等信息。同樣在不涉及國家秘密時,免費向社會公眾開放。(4)履職中獲取的自然人和企事業單位數據。其中自然人數據,涵蓋身份、信用、商事登記、判決等信息,企事業單位的經營或納稅記錄數據等,原則上可識別的數據屬于個人或企業所有,政府具有一定使用權和處置權,但是當事人有知情權、異議權或修改權。
上述領域的政府數據大多屬于公有,但我們認為這種公有產權的行使上國家應該有特別的話語權。產權是個法律概念,劃分產權是通過立法確定的。從國家產生的歷史來看,正是國家的出現,才將人們的自然權利變為法律權利,沒有政府組織或參與收集整理數據,何來個人數據的完整呈現?正是由于現代政府的出現,才使得個人數據成為法律的標的物。可以說,自然狀態的產權具有不確定性,在數據產權創造中,政府是作出巨大貢獻的,這才使得數據產權獲得了法律上的確定性和外部的強制性公權保護。同時,在對個人數據的整理挖掘中,政府的勞動附加了數據的價值,大大增加了數據資產化、價值化的可能性。從某種意義上說,政府是數據財富的創造者和推動者,就如土地征用一樣,沒有規劃前某地塊價值很低,但當政府重新規劃決定征用以后,被征用土地升值,這時候溢價收入是否應該全部歸屬于土地所有者(承包者)呢?有觀點認為,正因為政府作出的規劃行為才導致了土地價值增加,政府規劃的作用應在土地溢價中得到體現,也就是說征地補償費用要體現出政府規劃變動帶來的價值,不能無條件地滿足被征用者過高的要求,否則意味著政府用公共財政去補貼少數人。因此,遵循上述思路,政府在數據確權上應該有特殊制度安排,由此才會有數據主權理論,即政府要在相當程度上監督數據私權利的行使。
上述兩類數據產權較容易界定,較難界定的是各類互聯網平臺掌握的涉及個體的交易或行為數據。這類數據產權界定甄別問題由來已久,早期的平臺更多地體現實體特征,如商場、專業市場、交易所等,信息更多地以紙質形式存在。隨著信息技術發展,很多信息變成了數據,數據很容易被存儲、復制、加工,數據流轉交易成為常態。平臺的數據究竟歸屬誰?在產權界定研究思路上,傳統法學通常遵循“事后研究”方法,依既定財產權類型和規范來解決糾紛,而法經濟學則采用“事前研究”方法,假定糾紛發生后通過效率論證來重新確定各個權利束的順位高下。在此,我們運用科斯定理來分析平臺數據產權問題。科斯定理的主要內容是圍繞交易費用為零或大于零兩種假設而展開的經濟分析。如果交易費用為零,無論產權如何分配都會優化資源配置、帶來社會福利最大化的后果。然而,交易費用不可能為零,在大于零的世界里,數據產權歸屬方案在影響資源優化配置上就非常關鍵了。
1.數據產權配置給互聯網平臺用戶。此時,用戶對數據享有充分權利,有權決定平臺是否可以使用個人數據,平臺必須履行法律賦予的保護用戶數據的義務。如果平臺希望從海量的個人數據整理以及使用中獲得收益,就必須向用戶購買數據使用權,最終數據轉讓和資產化的收益由用戶和平臺共同分配。然而,數據使用需要平臺與用戶簽訂協議,征得對方在使用數據及相關細節方面的同意;用戶同樣要與平臺進行事前談判,對平臺的數據使用行為開展監督,并對平臺通過數據取得的收益進行計算,必要時尋求法律救濟。這一過程會產生高昂的交易費用,因此用戶實際分得的收益也較少。從操作來看,單個用戶信息價值微乎其微,平臺不會出價太高;對用戶來說,出賣自己數據所得的收益簡直不值一提,因此也不會投入太多關注。如果用戶故意抬高自身數據的價格,總會有其他用戶愿意以更低的價格出售數據,直至數據價格降為一分錢。用戶當然可以在拒絕提供數據的同時,把數據以高于此平臺出價的價格賣給其它企業,但這個過程同樣也會產生交易費用。最終可能產生的結果是,由于預期交易費用較高,因此平臺放棄了處理數據的權利,從而無法創造任何額外收益;而成千上萬用戶雖完全占有自身數據,卻無法聯合起來挖掘數據的價值,這會極大地制約大數據產業的發展。
2.數據產權配置給平臺。在交易費用大于零時,產權的初始配置會對效率產生影響,因此應該把產權界定給能以較低交易費用取得價值的一方,即應將權利賦予“能夠最具生產性地使用權利并且有激勵他們這樣使用的動力的人”(12)參見Ronald . Harry. Coase, The Institutional Structure of Production, Vol. 82(4) The American Economic Review (Sept.1992).,只考慮經濟效率的話,產權界定給平臺是最優的結果。平臺為用戶提供服務,用戶購買產品或服務,雙方各取所需,而交易數據只是這個過程留下的痕跡。因此,用戶是否有權利索取從數據中獲得收益的問題,實際是個如何分配正的外部性問題,或者說是應把數據能創造更多價值這一屬性界定給誰的問題。在這部分數據產權界定給平臺后,平臺將拿走對這部分數據運用技術挖掘整合等帶來的所有收益。此時,單個用戶可以從平臺手中買到自己的信息不被使用的權利,但這一過程發生的幾率非常小,沒有用戶會主動要求買走交易數據信息,也沒有積極性和能力去關注平臺將數據商品化以后的多次交易,從而無法保護個人數據的安全。那么,用戶聯合起來是否能夠解決這些問題呢?奧爾森在《集體行動的邏輯》中指出,當某一大型組織謀取群體利益時,個別成員的行動對整個集團利益影響可以忽略不計,個人認識到這一點往往傾向于“搭便車”。維護權利的行動往往需要許多用戶聯合實施,這要耗費大量的溝通、協調成本,很難維持;而且從行動中獲取的收益不大,除少數熱心的發起者外,其他人更愿意搭便車,導致集體維權行動陷入破產。平臺往往在提供服務時,將使用公司服務和個人數據轉讓捆綁在一起,即使用公司的服務就等于同意公司使用交易數據并據此推送信息和商品,而用戶基本上不會因為此條款的存在而放棄接受服務。在這種情況下,平臺實際成為用戶數據的唯一擁有者。隨著數據使用范圍的擴大,會造成數據濫用,用戶數據逐步變成人人可取的東西,用戶隱私等權利無從保障,最終導致用戶終止交易退出互聯網市場,大數據帶來的潛在社會福利逐漸消失殆盡。
3.引入外部立法者。如果不存在外部性,立法者擁有設計完全契約條款的自由,就可以在斡旋博弈中探索出為各參與方共同能接受的有效方案。此時,立法者考慮的重點是數據的市場化價值,“如果市場交易成本過高而抑制交易,那么財產權應賦予那些最珍視它們的人。”(13)參見[美]R.波斯納:《法律的經濟分析》,蔣兆康譯,中國大百科全書出版社1997年版,第5頁。假設用戶出售個人數據價值大于平臺使用數據價值的話,產權歸屬于用戶,如果平臺等其他機構要使用就必須選擇補償用戶;相反,則選擇將產權分配給平臺。然而,外部性的存在是不可避免的事實。在這種情況下,由立法者去測度個人數據交易的市場價值根本無法完成,只能從大數據發展趨勢和技術上可以得出產權配置給平臺效率會更高。但是,如果受負外部性影響的用戶增多、對立法者施加更大壓力時,立法將不得已再次將數據產權重新轉移給用戶,最終會出現上述第一種情況帶來的同樣結果。
4.明確數據產權由用戶和平臺共享。可以通過立法規定,使用平臺服務產生的各類數據由平臺和用戶共享。在這種產權框架下,科學設計數據信息的使用規則,明確雙方的權利界限。從數據價值產生過程來看,價值更多地來源于數據背后的行為分析而不是原始數據本身,交易數據是自動記錄的,用戶不可能、也無需操心數據的質量;相反,平臺則有動力優化數據處理方式,從而挖掘更多價值。因此,應該把數據的剩余索取權界定給平臺,從平臺行為數據產生看,平臺投入人力物力,為數據的整理和儲存等付出努力,理應對這部分數據享有一定權利。在這種共享產權的框架內,平臺征得用戶同意后,可以將交易數據和姓名、身份證號、性別、家庭地址等個人信息進行配對,進行下一步的開發利用。客戶享有基礎數據產權,僅僅有權明示反對個人數據的市場化運作,對于數據匹配后推斷出的數據,例如通過所購買的商品推斷出的身體狀況、性取向等,可以行使否決權等,也可以自行采取產權保護措施,如拒絕平臺利用Cookie進行追蹤的請求,或關掉手機定位功能,或者在第一次接到平臺使用數據進行針對性營銷時明示反對等。在共享產權模式下,平臺使用數據的自由度大大提高,將為下一步數據利用和開發奠定良好基礎,從長遠看必將推動數據產業發展,從而促進社會福利整體提高。
上述分析看出,單純地將數據產權配置給用戶或平臺都不能優化資源配置,尤其是將數據產權配置給平臺,最終會導致個人權利受到嚴重損害。而共享數據產權的設計總體上是帕累托改進,可以有效提高社會整體福利。需要說明的是,數據產權共有和法律上講的如房屋共有有一定差別,數據共有指的是在交易行為數據產生上,交易各方都做出了貢獻,用戶是基礎數據的來源,各參與方行使權利的條件、約束不同,對于平臺來說,最低限度地要滿足法律關于隱私保護的規定。
前文已從不同角度對數據進行了分類,為便于理清清洗數據的產權歸屬,我們借鑒電信領域的業務分類(14)《電信條例》將電信業務區分為基礎電信業務和增值電信業務。以及有關研究成果,將數據區分為基礎數據和增值數據(15)也有學者從數據內容的產生方式,將數據分為原生數據和衍生數據(也有劃分為原始數據和派生數據),能夠建立知識產權的數據是衍生數據。參見楊立新、陳小江:《衍生數據是數據專有權的客體值的數據》,載《中國社會科學報》2016年7月13日。http://ex.cssn.cn/bk/bkpd_qklm/bkpd_qkszh/201607/t20160713_3119714.shtml,2017年7月25日訪問。。基礎數據是關于自然人的最本源信息,這些信息組合起來能夠直接或間接識別出特定個人身份,是不依賴其他信息而獨立存在的數據。增值數據是指一些原生數據被收集以后,依托計算機技術整合成的可讀取數據,例如自然人行為偏好、生理狀況等,加工、計算、聚合是增值數據的最重要特征。兩者并未完全切割,而是存在密切聯系。
隨著數據產業的發展,各類數據將會在網絡技術支持下全生命周期的、系統地被記錄和結構化處理,作為基礎數據來源的個人數據也將會無限地被挖掘,個人行為時空均被數字化處理。在大數據技術突飛猛進的背景下,特定數據的跨時空組合使得識別數據主體身份的概率日益提高,保護個人數據變得尤為重要。個人數據的數量、形式、種類不斷擴大膨脹,收集和使用的范圍邊界在動態變化,如果繼續沿用以前的標準界定個人數據,很可能導致個人數據保護范圍失之過寬,不利于數據資源利用。(16)參見梅夏英、劉明:《大數據時代下的個人信息范圍界定》,載《中國法學》2014年專刊。鑒于此,科學界定基礎數據范圍至關重要。考察當今世界立法,均將可識別性和相關性作為判定基礎數據的核心指標。但應該看到的是,基礎數據涉及范圍非常廣泛,這種廣泛性往往導致將生活中諸多稍微有點關聯的數據均被視為“個人”的信息,除非可以非常明顯地判斷出此數據與特定個人無法關聯起來。(17)參見[德]克里斯托弗·庫勒:《歐洲數據保護法公司遵守與管制》(第二版),曠野、楊會永等譯,法律出版社2008年版,第99頁。
我們認為,基礎數據應采取“合理識別”的標準,即常人用常規方法能夠識別出某些信息屬于特定主體的數據就是基礎數據。2003年12月,英國上訴法院在“杜蘭特訴金融監管局”案中從狹義角度解釋了“個人數據”內涵。法院認為,能夠對當事人隱私產生實際或潛在影響的信息,屬于個人數據。有學者持不同看法,認為法院對“個人數據”的理解存在偏差,人們在處理數據時,只要能夠識別出特定主體身份就會對隱私產生威脅。因此,可識別性是判斷個人數據的最關鍵要素,對于一批正在處理的數據,借助網絡技術等能夠將特定個人從數據群體中剝離出來,就意味著此人被識別。如果從多種渠道獲得各類個人數據的記載,運用技術可以清晰勾勒出某人畫像或形成人格拼圖時,也就說明此類聚合數據具有識別個人的標志性特征,這類數據屬于基礎數據的范疇。
添附是指民事主體通過勞動將不同所有人的財產或勞動成果進行有機組合,從而形成一種新形態財產。如果要恢復原狀,在事實上不可能或者經濟上不合理,則法律規定由一人取得添附物的所有權或者共有合成物。添附是物權法確認產權的一項重要規則。添附有附合、混合、加工三種類型,增值數據是在基礎數據基礎上經過算法加工、計算、聚合而成的系統的、可讀取、有使用價值的數據,實際上是將收集到個人數據投入人力物力運用大數據技術挖掘整理后的產物,而這一過程正是添附理論的實踐展示。此類增值數據均經過清洗,已無法識別個性用戶身份,變成了可分析、可視化和可交易的數據產品,實現從“數據”到“可用數據”的創造。洛克指出,付出勞動者應享有勞動產品的財產權(18)參見[英]洛克:《政府論(下篇)》,葉啟芳、瞿菊農譯,商務印書館1964年版,第86頁。,馬克思的勞動價值理論也認為,勞動者擁有勞動創造的價值(19)參見[德]卡爾·馬克思:《資本論(第一卷)》,人民出版社2004年版,第127頁。。根據上述理論和產權取得的“汗水”原則,數據整理收集者應該享有產權。而這些用于加工聚合的基礎數據,可以來自于自身收集、市場購買,還可以從政府開放和共享的數據中獲取。承認數據添附者對增值數據的產權,有效保護數據整理、分析者的利益,有助于增加數據交易的法律穩定性與可預期性,遏制數據的非法黑市交易,推動數據產業發展。
上文已述,顯名數據主要包括數據主體的姓名、名稱、聯系方式等,加上清洗匿名的個人數據,構成基礎數據的范疇。當前,個人數據的作用早已超出簡單的識別功能,而是在互聯網技術整合下,將其與經濟活動有機結合,形成了個人資產的重要內容,并成為政府數據、商業數據的核心要素。在產權配置和行使上,基礎和增值數據密切相關而又有差異,存在疊加關系。因此,建立數據的二元產權框架對于界定各參與方權利是十分必要的(見下圖1)。

圖1:數據產權的分層
基礎數據是終端用戶所存儲使用的各種數據,構成了物理存在,如網上購物數據、患者病史信息、社保個人賬戶數據等等,由于此類數據具備可識別性,大多屬于個人隱私范疇,是個人資產的重要構成要素,自然應擁有此基礎數據的產權。而在此基礎上,添附者因為對基礎數據的勞動付出,獲得了增值數據產權。從整個架構層次來看,是一種雙層權利體系,底層是基礎數據權利,上層是增值數據產權。增值數據產權基于來源上的特殊性而具有不完備性,系受到底層權利限制的不完全產權。主要原因如下:
首先,權利性質和位階不同。清洗后增值的數據來源基礎是自然人的原始數據,基礎數據更多地承載了用戶的身份信息,這類數據兼具財產權和人格權屬性,但以人格權利益為主。而增值數據重在經濟效益,屬于財產權范疇,從某種意義上說,增值數據是人格權商品化的產物。在民法權利體系中,人格權優先于財產權,當兩權相遇達到一定的臨界點時,財產權應進行避讓,財產權利行使中受到人格權一定程度的限制。其次,回應個人數據保護的現實立法要求。考察境內外立法,個人數據保護被放到了十分重要的位置,體現了對互聯網侵犯個人隱私的深刻擔憂,這方面歐盟走在前列。梳理各國立法,在個人數據收集方面,基本上都確立了目的原則與必要原則。這兩項源于基礎數據保護的基本原則始終約束著增值數據的開發再利用等。最后,數據技術發展具有一定的不可預期性和不可控性。從大數據發展趨勢來看,未來數據技術將會有跨越式發展,很可能對人們觀點和生活方式產生顛覆性影響。當前,數據的清洗脫敏進而導致匿名化僅僅是相對的時限性概念,隨著數據源的豐富、技術處理水平的日新月異,經過清洗的數據完全有可能重新被識別,甚或經過多次加工、交易、包裝流轉到境外,這將導致重大的信息安全問題。因此,從維護隱私與信息安全的大原則出發,有必要給增值數據管理加上緊箍咒,約束數據產業鏈的上下游企業在行使權利時要始終關注基礎數據產權的保護。

圖2:數據權利體系
數據權利體系因主體、客體的不同而相對復雜,我們嘗試從不同角度展現這一體系(見下圖2)。從實施主體來看,數據權可以依據主體類型不同分為數據公權力和數據私權利。數據公權的主體是國家,是國家對數據進行正常管理和制約的權力,是對境內的數據擁有的管理、監督和保護的權力。分為以下三個方面:一是管理權,即國家對境內數據的生產、傳播、交易等全生命周期的管轄權力和司法裁判權。二是控制權,即國家對境內數據的真實、完整性采取有效措施予以保護。三是開放權,即將掌握的公共數據資源向社會公開、共享的權力,換個角度看,這也是現代國家的義務和責任。
對應數據權力,數據私權利則屬于民法范疇。在民法體系中,根據權利客體不同,分為人身權和財產權。依此原理,數據權利也應分為數據人身權和數據財產權。(20)參見肖冬梅、文禹衡:《數據權譜系論綱》,載《湘潭大學學報(哲學社會科學版)》2015年第6期。但法學上的財產權、所有權與經濟學意義上的產權內涵和外延不同,本文主要使用經濟學上產權的概念,且不討論數據人身權問題。從總體權利層次來說,數據權是籠統的上位概念,數據產權是從權利內容作出分類的下位概念。數據產權和其他產權一樣,是一組行為性的集合權利,是一個權利束,包括占有權、使用權、收益權和處置權等。
理論上來說,數據產權的保護方式是多項選擇題,可以將其納入既定法定權利體系加以保護,即處于不同階段和形態的數據可以得到著作權法、商業秘密法、隱私權法、債法等保護。在數據產權與其他法定權利關系上,存在交叉,二者類似于一般法與特別法的關系。如果能夠判別有些數據僅屬于個人隱私信息,則以人格權加以保護;如果是匯編創新性作品,就以著作權制度加以保護;如果是有獨創性的數據集合,可以商業秘密形式保護。
綜觀當前數據保護研究成果及有關國家立法實踐,知情、自主可控、透明度、匿名、遺忘等構成了數據保護領域的基礎性原則,其中匿名和透明度原則尤為重要。我們認為,單體或雙邊交易的數據可以納入隱私或商業秘密保護的框架中,互聯網平臺等集聚的數據則需要區分對待。基礎數據往往與人身權緊密相關,對其應側重從隱私角度保護,增值數據大多是清洗脫敏的匿名數據,應重在促進自由流通。
基礎數據保護總體上堅持防止數據濫用理念,匿名化處理是重要技術手段。要根據現行法律規定,區分數據性質,確認數據主體的隱私權、商業秘密權等基本權利,對于健康、財務或性取向等敏感數據的利用,要取得當事人的明確認可與授權。除此之外,可以采取消極同意原則,即用戶沒有明確反對即可使用,這也是共有產權行使的重要體現。如果顯名數據進行下一步利用,必須要進行脫敏,形成新的不具有個人識別性增值數據才可進行交易。在遵守法律關于數據安全規定的前提下,增值數據添附者也要采取可靠的技術措施,重新清洗之后,數據才可以像其他商品一樣獲得包括知識產權、商業秘密等在內的全方位保護。在這方面,英日做出了有益探索。2014年,英國信息專員辦公室在《大數據與數據保護》報告中提出,已經采取有效技術手段充分匿名脫敏的數據不受個人數據保護法調整,相關企業必須對經營的數據進行隱私和信息安全風險評估,若風險較高,該企業就應采取保護性措施,如限定交易對象數量或在合同中明確約束性條款等。2015年8月,日本通過《個人信息保護法》修正案,許可企業在附加義務責任的條件下向第三方出售匿名化數據,約束條件如下:匿名后的數據不能復原、不能識別出特定個體,匿名技術要保密;清洗后的數據不得比對其他信息;合理公布匿名數據中原始數據的要素。
可以說,清洗脫敏是數據保護的重要手段,然而大數據運用存在一個身份識別悖論:既要采取技術手段隱匿用戶身份,又要通過數據整合出用戶個性數據以便于精準作業,否則大數據技術就沒有價值,兩者存在沖突。同時,隨著信息技術發展,大量數據整合在一起進行關聯分析,數據還原和重新識別成為可能性大大增加。美國在線(AOL)于2006年8月,向社會公開了部分舊的客戶搜索數據,并進行了脫敏匿名化處理,《紐約時報》短短數日就分析出4417749號代表的是佐治亞州用戶賽爾亞·阿諾德。時隔兩月,奈飛公司公布了匿名化的約50萬用戶的一億條租賃記錄,結果很多數據仍被準確識別出具體用戶。從上述實例可以看出,計算機技術的整合能力完全可以識別出已經隱藏身份信息數據的真正主人,來源于多元渠道的數據集合分析同樣可以暴露用戶的身份(21)參見[英]維克托·邁爾·舍恩伯格、肯尼斯·庫克耶:《大數據時代生活、工作與思維的大變革》,周濤譯,浙江人民出版社2013年版,第198-200頁。。這是數據應用場景中難以克服的潛在難點。因此,在兩類不同數據管理上,需要科學研究數據的清洗技術,明確清洗形式、方法和范圍,避免發生二次識別用戶身份的情況,同時,嚴格數據交易和使用,必要時嚴禁數據的身份識別和交叉對比。
透明度是數據清洗脫敏后的又一重要措施,是監督數據開發和流轉的有力手段。從國際實踐來看,堅持透明度原則是解除用戶隱私及信息安全風險擔憂的核心限制性措施。例如,2014年,美國聯邦貿易委員會發布《數據經紀行業,呼喚透明與問責》報告,建議加強數據行業透明度立法,主要包括:(1)公示數據獲取渠道、數量、類型;(2)披露對用戶特征標簽化的處理;(3)對于財務、健康醫療等敏感數據要提高透明性要求等。從國內情況來看,目前側重于強調企業對于匿名化數據的產權,而忽視了透明性在數據交易中的重要作用。貴陽數據交易所先期完成的11筆數據交易,僅僅是首筆向社會公示了交易主體,其他10筆均未披露相關信息。因此,在明確企業對于增值數據享有產權的前提下,應盡快立法明確具體透明度、責任性等方面的限制性要求。