張 弛
(杭州師范大學 沈鈞儒法學院,浙江 杭州 311121)
2013年,牛津大學的維克托·邁爾-舍恩伯格教授(Viktor Mayer-Sch?nberger)與《經濟學人》雜志數據主編肯尼思·庫克耶(Kenneth Cukier)共同著成《大數據時代:生活、工作與思維的大變革》(BigData:ARevolutionthatwilltransformhowwelive,workandthink)一書,宣告了“大數據時代”的來臨,引發了全球范圍內關于“大數據”問題的探討和熱議,因此,2013年也被稱作“大數據元年”。[1]大數據被廣泛應用于市場分析、商業咨詢、廣告投放、新聞傳媒、政府公共服務、刑事司法與科學研究等各個領域,對社會生活的各個方面產生了極其深遠的影響。與此同時,大數據本身所蘊含的巨大經濟利益與商業價值亦引起了廣泛關注,“數據資產”“大數據財產”等概念紛紛破繭而出。2015年4月14日,貴陽大數據交易所正式掛牌運營并完成首批大數據交易,標志著大數據正式作為一種商品在現實的市場平臺上進行交易。然而,“大數據財產”的概念尚處于成形過程中,現行法律法規和司法解釋并沒有對“大數據”或“大數據財產”的法律性質作出明確規定,圍繞“大數據是什么”“大數據是否屬于法律意義上的財產”“大數據財產應當屬于誰”等重要議題,不同觀點各執一詞、聚訟不斷,給大數據財產的確權與保護造成了不小障礙。有鑒于此,本文擬從“大數據”和“大數據財產”的概念析正入手,結合大數據挖掘的一般流程,就“大數據財產”的基本內涵、權利歸屬與保護路徑等基礎性問題進行闡述,以期為今后的理論研究與實務探討提供一套系統、明晰而準確的概念體系和話語標準。
雖然很早就有學者提出數據是一種新的生產資料的觀點,認為大數據是新財富,價值堪比“石油”。[2](PP.117-121)“大數據財產”(big data asset)[3]、“數據資產”(data asset)也成為學界和政府官方文件中頗為常見的術語。(1)2014年5月,美國發布了《大數據:抓住機遇,保存價值》,即《美國大數據白皮書》。白皮書指出:“政府機構根據開放程度已將數據資產(data assets)劃分為三個種類:開放性、半開放性、非開放性,并且只能出版發行開放性密級的信息。”2013年10月31日,英國商務、創新和技能部發布《英國數據能力發展戰略規劃》,同《美國大數據白皮書》一樣,《英國數據能力發展戰略規劃》中也使用了“data assets”一詞。“大數據財產”或“數據資產”(data asset)一詞正式被英美等國家的政府官方文件所承認。然而就目前而言,關于“大數據財產”的專門研究并不多見,鮮有學者對“大數據財產”本身的內涵、外延和表現形式進行界定,這一概念更多地被用于強調大數據所包含的經濟屬性和商業價值,成為“大數據”主題研究的下屬論題。某些論者雖然使用了“大數據財產”的表達,但其研究主要還是立足于“大數據”本身的法律定位與理論研討[4](PP.141-152),“大數據財產”作為一種法學研究對象的獨立價值尚未引起學界的足夠重視。有鑒于此,在對“大數據財產”的財產屬性、權利歸屬與保護路徑進行探討之前,首先要解決的是研究對象的界定問題,即“什么是大數據財產”的問題。
由于“大數據財產”屬于“大數據”主題研究的下屬命題,并且這兩個概念往往同時出現、相伴而生,故此,若要回答“什么是大數據財產”,首先需要澄清“大數據”本身的概念界定與本質屬性問題,即“大數據是什么”的問題。遺憾的是,不僅“大數據財產”如霧里看花,“大數據”同樣是一個定義模糊、爭議不斷的概念。關于“大數據”的內涵和本質,國內外理論界至少存在如下幾種不同看法:
國內的一些學者將大數據界定為“大量”“海量”的數據或者數據流:大數據是指數據量巨大、通常認為數據量在10TB-1PB以上的,數量級是“太字節”(2^40)的,并且是高速、實時的數據流[5];“大數據是依確定目的而挖掘、處理的大量不特定主體的數字信息”[6](PP.30-37);大數據是指格式多樣、規模和內容前所未有的大量數據,這些數據搜集自企業日常運作的各個環節,專業技術人員可以對他們進行高速分析[7]。
與前者看法不同,數據集合說傾向于將大數據界定為一種靜態的數據集合(Data sets)而非動態的數據流。該說認為,所謂大數據是指“由來源于異構數據源的結構化的、非結構化的與半結構化的數據所構成的數據集”[8];或者“用先進的數據儲存、管理、分析和可視化技術進行處理的數據集合”[9](PP.1165-1188)。Kitchin認為,大數據應當是在盡可能詳盡的宏大范圍內(通常是涉及某一問題的全部相關領域)進行數據捕捉的、與研究對象具有本質性相關性的、得出精細決策的、索引式的同時兼具靈活性的數據集合。[10]齊愛民教授則認為,大數據是指在合理的時間內無法使用傳統的軟件、硬件和IT技術對其進行收集、分析和處理的數據集合。[11]
動態技術說將大數據視為一種以海量的數據信息為對象的動態應用技術或進程。持此立場的學者認為:“‘大數據’的標簽應當被用于描述一種關于數據是如何被捕捉、存儲和加工的技術或趨勢,而不是被定義為一種特定的產品。”[12](PP.21-39)“大數據是一個相當模糊的術語,它描述了一種新工具和技術的適用趨勢,這類技術和工具是以在規模和大小上遠超傳統方法所能企及的大規模數字信息作為對象的。”[13]貴陽的大數據交易所將“大數據”界定為“對來源分散、數量巨大、格式多樣的各類互聯網數據進行采集、存儲和關聯分析,從而發現新知識、提升新能力、創造新價值的新型技術模式和服務業態”,該定義亦將大數據界定為一種全新的技術形態。
還有學者將大數據視為一種商業智能(BI,Business intelligence)。(2)商業智能的概念在1996年由加特納公司(Gartner Group)率先提出,加特納將商業智能(BI)定義為:商業智能描述了一系列的概念和方法,通過應用基于事實的支持系統來輔助商業決策的制定。商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然后分發到企業各處。實用意義上的BI系統最早出現于寶潔這樣的大型消費品制造商和像沃爾瑪這樣的零售商系統,其目的是分析歷史銷售數據以服務于下一步的商業決策,回答諸如“我們在某個地區賣出了多少錢”和“上個季度我們賺了多少利潤”之類的問題。根據這一觀點,大數據是傳統商業智能技術在互聯網時代的進化與演變。大數據分析擴大了BI的范圍,傳統的BI分析主要依靠駐留在公司內部數據庫的集成和報告結構化數據;而在大數據時代,BI可以通過尋求從來源于互聯網或客戶移動設備等來自公司外部的半結構化和非結構化數據中提取價值,來拓展BI范圍[9](PP.1165-1188)。麻省理工學院商學院教授埃里克·布倫喬爾森(Erik Brynjolfsson)和技術專家安德魯·麥凱菲(Andrew McAfee)指出,大數據的本質是從海量數據中收集情報并將之轉化為商業優勢:“與之前的商業分析一樣,大數據分析試圖從數據中收集情報,并將其轉化為商業優勢,但大數據比以前使用的分析工具更為強大。”[14](PP.60-68)
動態技術說、數據流說和數據集合說更傾向于從技術層面對大數據進行界定,并未突出大數據的經濟價值與財產屬性。隨著大數據所蘊含的巨大商業價值日益凸顯,越來越多的觀點開始從經濟角度對大數據進行定義,將大數據作為一種資產或者財產看待。(3)John Carlo Bertot, etc., “Big data, open government and e-government: Issues, policies and recommendations”, Information Polity: The International Journal of Government & Democracy in the Information Age, 19(1), 2014, pp.5-16; Prasanna Tambe, “Big Data Investment, Skills, and Firm Value”, Management Science, 60(6), 2014, pp. 1452-1469; Robert K. Perrons, Jesse W. Jensen, “Data as an asset: What the oil and gas sector can learn from other industries about ‘Big Data’”, Energy Policy, 31, 2015, pp.117-121.例如,阿里巴巴集團的大數據平臺“阿里云”的創設宗旨之一即在于“將數據變成生產資料和企業資產”。 “大數據是以云技術為依托實施的數據處理,通過對海量數據的集成共享和交叉復用而形成的信息資產。”[15]“大數據具有財產性應該是最沒爭議的問題,因為從學理研究、大數據開發利用和數據交易實踐,以及政策性文件規定中都能得出這個結論。”[16]正是在“數據資產說”“數據財產說”等觀點思潮的催動下,“大數據財產”的概念正在日漸成形。
通過梳理與“大數據是什么”有關的理論爭議,可以發現國內外學界在大數據本質的認識上存在較大分歧,產生了包括動態技術說、數據集合說、數據流說、數據資產說與商業智能說在內的多種見解。之所以形成這種百家爭鳴的格局,并不是由于某一種觀點或見解存在偏差,而是在于不同的論者在不同的學科語境下、從不同的研究視角出發對“大數據”這一內涵包羅極廣的概念進行定義。正如澳大利亞學者珍妮特(Janet Chan)所指出的那樣:“對‘大數據’進行定義并不是一個直截了當的過程;大數據可能被描述為一種容量和類型、一種存儲數據的能力和進程或者一種分析系統,也可以被描述成市場環節的一環或者某種社會和文化現象,定義取決于不同的技術應用方向和平臺而呈現出多樣性。”[12](PP.21-39)實際上,“大數據”應當被理解為一類概念而非一個概念,是動態技術與海量數據的結合,兼具技術屬性與社會經濟屬性;大數據具有技術、資源、應用等多個層次的含義,是新資源、新工具和新應用的結合體。[17](PP.1-2)“大數據”恰如一個變幻無方的多面骰子,從不同的研究視角出發,可以對“大數據”的定義作出各種不同的解釋,用任何一個側面來指代整個“大數據”的概念都是有失偏頗的,勢必陷入管窺蠡測、盲人摸象的認知困境。
為了更好地厘清大數據的屬性與本質,進一步回答大數據財產的內涵和范圍問題,下文將對大數據挖掘過程的各個環節依次進行剖析,由此框定“大數據”和“大數據財產”的內涵、外延及概念范圍,并對“大數據財產”的權利歸屬與保護路徑等問題做進一步解答。
對“大數據”和“大數據財產”等基本概念的界定離不開對大數據挖掘過程的解析。大數據挖掘(Big Data Mining),又稱大數據分析(Big Data Analytics),是指從海量數據中發掘具有實踐應用價值的知識模型的過程。[18](PP.917-928)大數據的價值是通過數據挖掘實現的,只有通過大數據挖掘,才能在海量數據中發現那些隱藏的、有價值的信息,大數據所蘊含的經濟利益與商業價值方能得以體現。[19](PP.81-90)綜合國內外相關學者的研究情況,可以將大數據挖掘的一般過程劃分為如下幾個步驟:
進行大數據挖掘的前提是海量的數據收集工作。數據收集的來源主要包括用戶、企業以及第三方數據提供商。被收集的數據來源廣泛、形式多樣,既包括各類靜態的數據庫,也包括各種形式的動態數據流;既包括文本、圖表、數據庫等結構化數據(structured data),也包括位置信息、網上瀏覽痕跡和個人健康數據等非結構化數據(unstructured data)。(4)Doug Laney, “3D data management: controlling data volume, velocity, and variety”, META Group Research Note, 6, 2001; See at: Stefan Debortoli, Oliver Müller, Jan vom Brocke, “Comparing Business Intelligence and Big Data Skills A Text Mining Study Using Job Advertisements”, Business & information Systems Engineering, 5, 2015, pp.290-300.從這個意義上說,所謂的“數據流說”和“數據集合說”均是對“大數據來源”所下的定義。在數據采集階段,“大數據”表現為體量巨大、來源多樣的動態數據流與靜態數據,既包括大量組織化、結構化的靜態數據庫,也包括海量的非結構化數據。這一階段的“大數據”可以被稱為“來源意義上的大數據”,也即大數據處理的對象。實踐中通常將那些已經被數據采集者收集完成但是尚未進行處理的數據稱作“底層數據”。[16]具體說來,作為大數據收集和挖掘對象的底層數據,主要包括如下幾類:
1.公民個人信息數據,包括生日、年齡、性別、手機號碼、身份證號碼等直接體現公民個人信息的各類數據。包含公民個人信息的可識別數據是數據收集階段最具價值的數據,很多數據甚至無需經過挖掘處理即可直接使用,因此也成為各類合法或者非法的數據收集者最為青睞的大數據來源。合法的數據收集者通過采用各類“接受或離開”的格式合同盡可能多地獲取具有可識別性的用戶的個人數據[20],進行未經許可的二次利用與定向強制推銷;而非法的數據收集者則會將其掌握的個人數據售賣獲利,甚至利用非法收集到的個人數據實施詐騙[21]。有鑒于此,《刑法》與《網絡安全法》均對公民個人信息進行了專門的保護。
2.不具有可識別性的結構化數據。除了能夠直接用于商業目的的手機號碼、身份信息、財務數據等可識別性數據,與個人信息無關的結構化數據也具有收集和挖掘的價值。對生產設備維護的記錄數據有利于提升機器和其他設備的使用壽命;從企業管理系統獲取的出貨量和進貨量大數據有助于提升產品和服務的流動周期;而對員工管理系統中長期積累的各類數據進行分析挖掘,有利于制定更好的、更具競爭力的考評標準與薪酬方案,由此留住更多有能力的員工。[22](PP.1-34)又如,通過智能電表收集用戶的用電量等數據雖然并不涉及個人信息,但是不同的電子設備都有自己獨特的特征,例如熱水器、電腦和LED等的耗電量完全不同,所以能源的使用情況能夠暴露出諸如一個人日常習慣、醫療條件,由此可以有針對性地制定銷售方案,推銷產品或服務。[23](PP.196-197)對于有需求的企業和數據利用者來說,幾乎所有儲存在靜態數據庫中的結構化數據都是有收集價值的,這些數據的總量極為龐大,依照現有的技術手段無法完全對其進行分析和處理,以至于部分學者將“大數據”理解為傳統的儲存方法和分析技術無法處理的過于龐大和復雜的數據集[24](PP.290-300),這便是“數據流說”“數據集合說”的由來。
3.行為痕跡。在前互聯網時代,數據收集的主要對象是儲存在計算機系統中的各類結構化靜態數據;而到了大數據時代,非結構化數據取代結構化的靜態數據成為互聯網數據的主體[25],大量的非結構化數據、半結構化數據成為大數據挖掘者們爭相收集的主要目標。其中,最受關注的是以Cookies為代表的用戶行為痕跡數據。Cookies是讓網站服務器把少量數據儲存到客戶端的硬盤或內存,或是從客戶端的硬盤讀取數據的一種技術,包含相當的用戶信息,相當于確定網站中用戶的身份證,其存在形式與一般意義上理解的“電腦緩存”近似。[6](PP.30-37)通過對Cookies等用戶行為痕跡的分析可以獲取用戶訪問網站、作息時間等信息,為精準廣告的投放提供參照。[21]在現實生活中,Cookies還會被一些游走于灰色地帶的企業倒賣交易[26],由此成為各類合法的或者非法的數據利用者重點收集的對象。除了Cookies以外,其他類型的用戶行為痕跡也為各類數據收集者所收集,例如近年來層出不窮的“鍵盤記錄器”病毒能夠記錄一定時間內用戶鍵盤的輸入記錄,甚至可以記錄鼠標的行為軌跡,犯罪分子可以通過對這些數據的挖掘分析來竊取受害人的QQ、郵箱、網銀的賬戶、密碼。[27]在大數據時代,信息源自數據,而數據則來源于用戶的行為留痕[20],以Cookies為代表的互聯網行為痕跡等非結構化數據正在成為數據利用者重點收集的對象。
4.地理位置信息。除了用戶在互聯網上形成的行為痕跡,人們在現實空間中的地理位置數據也成為大數據收集的重要目標。地理位置數據蘊含著巨大的挖掘價值,已成為各方竭力收集、搶奪的對象,谷歌地圖、百度地圖、高德地圖等電子地圖APP以及大眾點評、美團外賣、餓了么等生活服務APP均無時無刻不在搜集人們的地理位置信息;iPhone手機本身就是一個“移動間諜”,一直在用戶不知情的情況下收集用戶的位置信息傳回給公司。很多手機應用、互聯網游戲以及終端設備無論有無必要,均要求使用者授權其獲取地理位置信息的權限,借此獲取用戶的實時位置信息。[23](PP.116-117)地理位置信息是一種被廣泛收集和使用的非結構化數據。
5.個人健康數據。包含個人身體健康情況的各類數據是另一種被廣泛收集的非結構化數據。國外的Asthmapolis公司將一個傳感器綁定到哮喘病人的呼吸器上,通過GPS定位搜集這些信息,由此判斷環境因素(如附近的農作物)對哮喘的影響。Basis公司用腕帶測量佩戴者的心率和皮膚導電率,依次來測試他們所承受的壓力。佐治亞理工學院的Robert Delano和Brain Parise開發了一款名為iTrem的應用程序,用手機內置的測振儀來檢測人體的震顫情況,以期實現對帕金森與其他神經性系統疾病的預防。[23](PP.123-124)在國內,互聯網巨頭們也紛紛通過各類可穿戴設備(如小米手環、華為手表等)與應用程序(“阿里體育”、“微信運動”等)收集用戶的各類健康、運動數據。以健康數據為竊取對象的刑事案件在實踐中也有出現。(5)參見“樂某某、王某非法獲取計算機信息系統數據案”,上海市黃浦區人民法院(2014)黃浦刑初字第106號判決書;上海市第二中級人民法院(2014)滬二中刑終字第229號判決書。
6.其他非結構化數據。數據收集者對非結構化數據的收集并不僅限于前述幾種典型種類,一些更加生僻少見的非結構化數據也可能成為大數據收集的目標。例如,2011年,國外的一些研究者通過對來自84個國家240余萬人情緒數據的收集,得出了不同文化背景的人每天、每周的心情都是遵循著相似變化模式的規律,“情緒數據”也成為大數據收集的對象。[28](PP.60-65)在2015年的大眾點評訴百度不正當競爭案中,百度收集了大眾點評用戶的點評數據,將之直接標注至百度地圖上。(6)參見上海市高級人民法院(2016)滬73民終第242號判決書;上海市浦東新區人民法院(2015)浦民三(知)初字第528號判決書。諸如此類的案例可以得知,不僅儲存在數據庫中的結構化數據可以成為大數據收集的對象,形態多樣的海量非結構化數據也會成為數據收集的目標,是“數據流說”“數據集合說”等觀點的實踐根基。
綜上,在數據收集階段,作為大數據挖掘來源的海量數據既包括個人信息等結構化數據,同時也包括種類繁多的非結構化數據。在來源意義上,“大數據”一詞應當被理解為“來源于異構數據源的結構化的、非結構化的與半結構化數據所構成的數據集合與數據流”。[8]
如前所述,雖然手機號碼、年齡、職業、家庭住址等個人信息數據具有極高的挖掘價值,但是由于其包含了公民的個人隱私,一旦被泄露或者被非法使用便會對公民的人身和財產安全造成巨大威脅,故此受到法律的嚴密保護。在我國司法實踐中,企業對未經匿名化處理的個人信息數據的權利是不被承認的。[29]有鑒于此,對于包含用戶個人信息的可識別化數據,必須經過匿名化處理之后才能使用,這一過程被稱作“數據清洗”或者“數據脫敏”。在采用匿名化等脫敏技術后,用戶個人信息數據所帶有的人身性、隱私性被消除,而基于采集、記錄技術而獲取數據的數據控制者獲得了對其收集的數據進行使用和處分的權利。[20]實踐中,在大數據市場進行交易的數據往往是經過清洗后的數據,貴陽大數據交易中心中交易的“大數據資產”便是經過匿名化清洗后的數據,不直接交易底層數據。[30](PP.61-66)日本富士通公司建立的大數據交易平臺“Data plaza”所交易的數據也是清洗后的非底層數據,包括購物網站的購物記錄、智能手機的位置信息等個人數據和其他類型數據。[16]
在對不包含公民個人信息的數據收集完畢,或者對包含公民個人信息的數據進行匿名化清洗后,大數據挖掘者便開始對大數據進行分析和挖掘。大數據挖掘主要是通過知識模型(knowledge patterns)和學習模型(Learning models)實現的。究其原理,大數據挖掘是一個基于海量數據構建學習模型,再將學習模型部署后反復學習的過程,大致包括如下步驟:
1.數據集成。數據集成主要包括如下三個步驟:一是提取特征,確定挖掘的對象與范圍,根據擬挖掘數據的類型和性質,采用各種統計方法確定大數據挖掘的頻域(Frequency-domain feature)和時域(Time-domain feature)特征,以此來確定大數據挖掘的范圍;完成特征提取后的第二步是數據轉化,通過對數據的處理,將各種非結構化和半結構化的原始數據流轉換成為可供挖掘的結構化數據格式;第三步則是減少維度,大數據集通常包含了成千上萬的維度(即數據表中的屬性/列),分析如此龐大的數據集將會非常困難。因此,需要采用維度減少的方法來限制數據集,以產生大數據分析的高相關數據集。[31](PP.14-26)
2.形成知識模型。在對數據進行集成處理并進行格式化之后,接下來最為關鍵的一步就是生成知識模型,而知識模型是通過學習模型的不斷重復計算、學習獲取的。所謂學習模型,是指基于機器學習理論和統計理論,研究現有的數據性質,并且識別和預測未知數據和行為的模型。學習模型是通過訓練數據集生產的,這些數據集包含與未來數據相似的特征。學習模型本身的質量與學習過程的訓練量決定了大數據系統所產生的知識模型的質量與準確性。一旦生成并經過評估,學習模型就會被部署在企業應用程序中,通過學習逐漸生成可以用于大數據預測的知識模型。
3.部署和監控。經過長期的學習與海量的計算,學習模型就會被轉化為具有實際應用價值的知識模型,可以自行對今后的某些事件作出大數據預測并對相關事務作出處理。至此,大數據挖掘的工作即告完成,大數據也由分析、處理階段轉向實際應用階段。
在數據處理階段,“大數據”更多地表現為一種短時間內迅速進行海量計算、處理巨量數據的動態技術,這便是“動態技術說”的主要依據;此外,在大數據挖掘過程中起到關鍵作用的學習模型與知識模型顯然是一種非常典型的商業智能(BI)工具,故此也可以將“大數據”理解為一種新興的商業智能(BI)工具。
經過數據收集、數據清洗、數據處理等步驟,數據利用者可以通過大數據挖掘得到最終的應用階段的大數據產品。鑒于行業性質、商業目的、數據規模等諸多方面的差異,最終的數據挖掘結果與應用方式也千差萬別,無法以列舉的方式窮盡所有的大數據應用形式。不過,以下三類大數據產品的應用在實踐中頗具普遍性:
1.通信媒介應用(CCM,Communication Media)。CCM應用主要是將大數據分析后得出的商業智能模型實際應用于信息發送、通訊交流等業務,是一種應用最為廣泛的大數據產品。最典型的CCM即精準營銷與個性化廣告推送:在百度搜索育兒知識之后右下角會經常彈出推銷嬰幼兒用品的廣告;在視頻網站觀看視頻后手機會收到視頻周邊的推送;從事學術研究的人會收到大量的論文發表、會議邀請的垃圾郵件。諸如此類均屬CCM的范疇。掌握海量用戶個人信息、行為痕跡、網頁瀏覽記錄的數據收集者通過對這些數據的深入挖掘,得出目標客戶的興趣、愛好、購物需求,繼而通過短信、網頁廣告、頁面推薦等方式向其精準推銷相應的產品或服務,由此在降低廣告成本的同時大幅提升營銷效果,給廣告主和營銷者帶來巨額商業利益。[32]
2. 客戶關系管理(CRM,Customer Relationship Management)。CRM是指企業為了拓展銷量、提升市場競爭力,利用互聯網技術加強與顧客的聯系,向顧客提供某些個性化的身份管理服務,從而吸引新客源,將已有客源轉化為忠實客戶的管理模式。傳統上的會員卡、VIP等服務模式都屬于CRM工具的范疇。在大數據時代,商家會在交易過程中獲取大量的客戶身份信息與行為痕跡數據,通過對客戶的“數字畫像”,可以準確地根據CRM數據對特定用戶進行差別化處理,借此追求利潤的最大化。CRM應用的正面案例包括常見的“生日祝福”郵件,生日、年齡、星座折扣,積分獎勵系統等。而商家不當運用CRM數據的負面教材則更為著名,在實踐中通常被稱作“大數據殺熟”。據報道,在某些旅行預訂平臺、網約車平臺和電影票平臺預訂服務和產品時,老客戶的價格要遠高于新注冊的用戶。[33]支付寶推出“掃碼得紅包”活動時,新用戶掃碼得到的紅包數額很大,而經常使用支付寶的用戶往往只能掃到1角到2角的微量金額;又如,在愛奇藝、QQ、優酷等主流APP充值會員時,使用蘋果手機充值的客戶要比使用安卓手機的客戶額外多收數十元的費用[34],這些營銷現象之所以出現,其背后均得益于CRM數據的應用。
3.地理位置服務(LBS,Location Based Services)。如運動軌跡、滴滴打車、地圖定位、附近的人、微信位置分享等。在數據收集階段所采集的地理位置是一種非結構化數據,并不能直接使用,通過大數據挖掘,可以將這些地理位置數據轉化為結構化的LBS數據,并與用戶的地理定位需求結合起來,提供多樣化的位置信息服務。[6](PP.30-37)實踐中已經出現了以LBS數據作為犯罪對象的刑事案件。2016年7月,實時公交查詢APP“車來了”以非法手段侵入深圳谷米科技公司后臺,竊取了該公司安裝在4萬余輛公交車上的GPS定位數據,深圳市南山區人民法院一審判決“車來了”創始人兼CEO邵凌霜犯非法竊取計算機信息系統數據罪,罰金10萬元,判處有期徒刑3年、緩期4年執行。[35]
除了前述三種應用層面的大數據,還有其他多種形式的大數據產品,例如“Farecast”“飛常準”“車來了”等航班、大巴預測APP所使用的班次時間數據即屬此類。在這個層面上,大數據可以通過商業應用產生巨大效益,大數據的經濟價值得以凸顯,將“大數據”定義為一種財產或資產的主張便由此而來。(7)John Carlo Bertot, etc., “Big data, open government and e-government: Issues, policies and recommendations”, Information Polity: The International Journal of Government & Democracy in the Information Age, 19(1), 2014, pp.5-16; Prasanna Tambe, “Big Data Investment, Skills, and Firm Value”, Management Science, 60(6), 2014, pp. 1452-1469; Robert K. Perrons, Jesse W. Jensen, “Data as an asset: What the oil and gas sector can learn from other industries about ‘Big Data’”, Energy Policy, 31, 2015, pp.117-121.
通過對大數據挖掘流程的梳理可以得知,“大數據”應當被理解為一組綜合性的概念集合而不是某一種單獨的技術、數據或財產:在數據收集階段,“大數據”表現為海量的結構化或非機構化數據,可以稱之為“大數據來源”;在數據挖掘階段,“大數據”則表現為通過數據集成、學習模型與知識模型等商業智能技術,將海量的非結構化、半結構化數據快速地轉化為可供應用的結構化數據集合,這些進行大數據分析和大數據挖掘的智能技術模型構成大數據挖掘的工具即“大數據模型”;而在數據應用階段,“大數據”則表現為CCM數據、CRM數據和LBS數據等數據挖掘的產品,通過商業應用轉化為經濟利益,使大數據的價值得以實現,這些“大數據產品”也是大數據價值鏈上不可或缺的重要一環。
基于以上認識,可以對“大數據”的概念內涵和外延進行界定:作為本文研究對象的“大數據”,是指大數據收集、挖掘過程中的對象、工具與結果的統稱,包括大數據來源、大數據模型和大數據產品。圍繞“大數據是什么”的諸多爭議學說,無非是“大數據”這一綜合性概念在數據挖掘不同階段的具體表現形式:“數據流說”和“數據集合說”是對數據收集階段的大數據來源的描述;“動態技術說”和“商業智能說”代指學習模型和知識模型等大數據挖掘工具;而“數據資產說”/“數據財產說”則強調了經過收集、清洗的底層數據以及經過挖掘之后形成的大數據產品中所蘊含的巨大經濟價值。

表1 大數據在不同階段的表現形式
如前所述,“大數據”是一組綜合性的概念集合,包括大數據來源、收集和清洗后的數據、大數據模型及大數據產品等不同表現形式。“大數據財產”作為“大數據”的下屬概念,意味著并不是所有的大數據表現形式都可以被認定為法律意義上的“財產”繼而被冠之以“大數據財產”之名。只有符合法律的規定,具備“財產”概念的全部構成要件的大數據表現形式,才是值得財產法保護的“大數據財產”。那么,在前述幾種大數據表現形式中,哪些可以被歸入“大數據財產”的概念范疇之中呢?
筆者認為,欲使“大數據財產”成為一種名副其實的財產類型而不僅僅是一種宣示性的概念,必須使之完全滿足立法上關于“財產”特征的全部要求。一般認為,法律意義上的“財產”必須同時滿足管理可能性、轉移可能性和客觀價值性三個基本特征。[36](P.932)以此為標尺,可以對大數據挖掘過程中的大數據表現形式逐一進行檢視。
首先,未經收集的大數據來源不屬于法律意義上的“財產”。盡管大數據收集者可以通過網絡爬蟲工具、旁路采集數據和數據監聽工具從數據生產者和其他數據源收集數據,但大數據來源顯然具有管理和轉移的可能性。[6](PP.30-37)應當指出的是,存在于廣闊互聯網空間內的各種零散的結構化數據、半結構化數據和非結構化數據,并不具備客觀的經濟價值。之所以得出這種結論,涉及到大數據的價值性來源問題。
對此,有學者認為,大數據的經濟價值來源于海量的單個數據,雖然“大數據”具有極高的價值,但是這是通過其巨大的容量性(Volume)特征實現的,單個數據的價值密度極低。[37]也就是說,作為數據收集對象的大數據來源本身就是具有經濟價值的,數據收集者只不過是通過數據的收集活動將這些零散的經濟價值富集在一起而已。
應當指出,上述觀點在大數據的價值來源問題上出現了一定的認識偏差。大數據的價值并不是通過大量單個數據價值的簡單相加獲取的,而是通過數據的集群累積效應產生的,單一、零散的數據信息不具有財產屬性,不能被視為“財產”。這就好比單獨的一只鞋子、一根筷子或者一粒鹽、一粒沙、一枚石子是無法作為商品出售的,鞋子和筷子必須成雙出售,而鹽、沙子和石子的使用價值和交換價值必須通過集群效應方能產生。與此同理,大數據最為核心的特征也是“以量取勝”,組成大數據的每一個零散數據的價值,必須經過數據收集達到一定的數量層級并且依托合理的數據分析方得體現。[38]這種原理用公式表示則體現為:大數據的價值(V),并不是如公式1所示由一些微量價值的零散數據簡單疊加而成,而是必須借諸海量數據的集群效應與累積效應方可實現(公式2),V≠V’。
公式1假想的大數據價值產生公式
1+1+1……+1+1+1+1=V’
公式2大數據價值產生公式
0+0+0……+0+0+0+0→V
大數據的價值必須借助海量數據的集群效應方得體現,單一、零散的數據不具有財產屬性,這一原理意味著當我們對大數據是否屬于“財產”的問題進行分析時,應當注意區分作為大數據收集對象的零散數據與經過大數據收集者收集集成之后的數據。前者不具有財產屬性與經濟價值,更多地體現出被收集者的人格利益與隱私權,而后者可以用于大數據的商業開發,體現出巨大的財產利益與商業價值。[38]前者可以是結構化數據、也可以是非結構化數據,而經過收集的大數據必須以結構化數據的形式存在。前者是基于數據生產者的自身行為(如提交資料、登記信息、點贊、評論、瀏覽網頁等)而自發產生的;而后者則是由數據收集者有意記錄、收集而形成的大數據商品。[39]
存在于互聯網上的海量零散數據并不具有為社會所認可的客觀價值性,相比之下,那些經過收集的數據,目前已經形成了比較固定的大數據交易平臺,其交易價格也已形成較為固定的標準(8)目前國內的大數據交易平臺主要包括三類:一是以貴陽大數據交易所為代表的交易所平臺;二是中關村數海大數據交易平臺為代表的產業聯盟性質交易平臺;三是以數據堂為代表的專注于互聯網綜合數據交易和服務平臺。其中貴陽大數據交易中心交易的是經過清洗后的數據,中關村數海數據交易中心交易的是底層數據和清洗后的數據,而數據堂等數據商出售的是自己搜集的結構化數據。以上三者交易的均是經數據收集者收集的結構化數據,并不是用戶直接產生的數據。參見高完成《數據確權與交易規則研究》,《西安交通大學學報(社會科學版)》,2018年第3期。,經過收集和清洗的數據所具有的客觀價值也得到了社會的普遍認可,沒有太大爭議[16]。簡言之,作為大數據來源的海量數據并不能被稱為“大數據財產”,只有經過收集或清洗的海量數據方始具備成為“財產”的可能性。
其次,作為大數據挖掘工具的知識模型和學習模型不屬于“大數據財產”之范疇。如前所述,轉移可能性是財產概念的必備特征之一,無法被轉移占有的客體(如技術、勞動、服務等)即便具備一定的客觀經濟價值也不能被視為法律意義上的“財產”。從這個意義上講,在大數據挖掘中發揮關鍵性作用的學習模型以及經過學習模型反復地機器學習所形成的智能化知識模型,本質上是一種專屬于特定大數據挖掘者的數據處理工具,是一種包含著數據挖掘者智慧的程序架構,無法脫離數據挖掘者的大數據處理系統而單獨存在,因而不具有轉移可能性,不屬于法律意義上的“財產”,也不能被稱為“大數據財產”。
最后,可以在市場上直接進行交易的CCM數據、CRM數據和LBS數據等大數據產品是一類典型的“大數據財產”。國內日漸繁榮的大數據產品交易市場證明大數據產品同時具有占有、轉移的可能性以及為市場所普遍認可的客觀經濟價值,完全可以被認定為法律意義上的“財產”。此外,根據《刑法》第92條第1項之規定,“生產資料”屬于法律意義上的“財產”類型,而在新的時代背景下,大數據業已成為一種重要的生產資料,不僅催生了包括數據探礦、數據服務等在內的一系列以數據為生產原料的全新產業,甚至對現有的生產關系與經濟運作模式產生了革命性的影響。(9)國務院在《促進大數據發展行動綱要》(國發[2015]第50號文)中指出:“大數據推動社會生產要素的網絡化共享、集約化整合、協作化開發和高效化利用,改變了傳統的生產方式和經濟運行機制,可顯著提升經濟運行水平和效率,大數據持續激發商業模式創新,不斷催生新業態,已成為互聯網等新興領域促進業務創新增值、提升企業核心價值的重要驅動力”,并且明確要求要“大力培育互聯網金融、數據服務、數據探礦、數據化學、數據材料、數據制藥等新業態,提升相關產業大數據資源的采集獲取和分析利用能力,充分發掘數據資源支撐創新的潛力。”可見,大數據作為一種全新的生產資料已經得到了國家層面的認可和重視。有鑒于此,各類可以在市場或其他交易平臺上交易的大數據產品,完全應當被納入“大數據財產”的概念范疇之中。
通過對大數據來源、大數據模型和大數據產品的財產性分析,可以得知并不是所有的大數據表現形式都屬于法律意義上的“財產”。只有那些同時具備管理可能性、轉移可能性和客觀價值性的大數據表現形式才能被稱作真正意義上的“大數據財產”。具體言之,所謂“大數據財產”,是指同時滿足以下兩個基本條件的大數據表現形式:
其一,必須是經過合法途徑收集的底層數據、清洗后的匿名化數據或者經過挖掘之后形成的大數據產品;
其二,必須能夠在大數據交易平臺或者其他市場上進行交易。
未經收集、轉化的零散數據,作為數據收集、挖掘工具的大數據模型,以及那些雖然經過數據收集或者數據挖掘,但是不能夠在市場上自由交易的大數據產品不屬于法律意義上“財產”,亦應被排除于“大數據財產”的概念范疇之外。

表2 “大數據財產”的概念范疇
在對“大數據財產”的基本范疇進行厘清后,接下來需要探討的是“大數據財產”的權利歸屬問題,也即“大數據財產”及其承載的財產權利究竟屬于何者的問題。對此,學界有三種不同主張:
持此立場的觀點認為,大數據作為一種新型的生產資料,應當在法律上專設一種財產類型即數據財產加以保護,權利的出發點應當是人而非物,因此生產數據的自然人即互聯網用戶應當擁有優先性的權利,法律應當承認用戶個人對數據財產排他性的所有權。[40](PP.49-55)肖冬梅教授運用法經濟學方法對將大數據財產權分別授予政府、數據控制者(數據商主體)與數據生產者之后的價值效果進行分析,認為只有將大數據財產授予數據生產者才是大數據權利歸屬的最優路徑選擇;同時指出,大數據財產不應該劃歸為公共財產或公共資源,凡是將非自有的數據用于各類商業活動,使用者均應當給數據生產者支付相應的對價,而不能無償使用。當個人數據被其他主體使用時,數據主體有權要求使用者支付對價;當用戶的數據交易給數據收集者、控制者之后,后者亦不得將原始數據公之于眾,由此確保數據生產者的權利。[26](PP.69-75)
與此截然對立的是將大數據財產歸屬于數據控制者(數據的收集者、處理者、挖掘者)的立場。該立場認為將大數據財產歸屬于數據生產者(用戶)的主張忽視了數據控制者在大數據收集、處理、應用過程中的正當權利,使得數據控制者在每次獲取、收集數據時均需要與用戶進行議價,由此產生了巨大的交易成本,不利于數字經濟的發展。[41](PP.131-135)大數據應當是數據控制人的財產,是信息資產的重要類型。如果將大數據財產歸屬于數據主體,或者作為數據主體和大數據控制人的共有財產,勢必導致權利主體的混亂,大數據交易法律關系無法建立,大數據財產的經濟價值也將無法實現。[16](PP.29-43)
除了作為數據生產者或數據控制者的私人財產,還有觀點主張將大數據財產歸屬為一種公共財產,由政府負責管理。浙江省經濟信息中心副主任、信用中心主任王寧江認為,可以由使用大數據從事營利活動的企業和平臺按照固定的金額或者比例,把使用費用劃撥到政府指定部門或者公共事業基金名下,這部分基金將用于公共服務事業。[42](P.44)有學者將經過挖掘的、處于應用階段的大數據財產界定為公共財物,主張參照土地所有權制度將這一公產交由政府管理,由此防范大數據市場的各類市場失靈現象。[6](PP.30-37)
筆者認為,大數據財產應當歸屬于大數據的收集者、挖掘者和利用者,即數據控制者。前文中已經指出,作為大數據來源的海量零散數據本身并不具有經濟價值,大數據的財產價值來源于大數據挖掘者的收集、挖掘活動。邁爾-舍恩伯格指出,在前大數據時代,一旦數據的基本用途得以實現,該數據便已經達到其利用目的,數據的價值便已經被提取完畢;而在大數據時代,數據就像是一個神奇的鉆石礦,在其首要價值被挖掘之后仍然能夠源源不斷地產生價值。大數據的主要價值,就體現在對數據的收集、重組與二次利用上。[23](PP.135-136)舉例來說,消費者在搜索引擎中輸入的關鍵詞信息,其首要價值體現在滿足消費者的搜索需求上,搜索行為一經完成,消費者對該條數據的使用價值便已提取完畢,對于消費者而言該關鍵詞便不再具有價值。但是,搜索引擎的運營商通過對全網用戶的海量搜索信息的大數據挖掘,能夠從中提煉出大量有價值的信息,并最終通過CCM、CRM與LBS等大數據產品應用于消費者或者直接出售,將大數據產品轉化為直接的商業利益。

圖1 大數據價值創造的流程
在這一過程中,數據挖掘者對已被用戶提取過首要價值的數據(即所謂的“數據廢氣”)所進行的收集、挖掘與再利用,是價值創造的關鍵環節,也是大數據財產性的根源之所在。用戶雖然是數據的產生者,是數據的主要來源,但是并不是“大數據財產”的創造者。用戶對于數據所享有的利益,早在數據被首次利用時便已被其提取完畢,一旦數據滿足了用戶的需求(如檢索關鍵詞、提交資料、關注微信號、登錄游戲等),其價值便被用戶所提取,從而形成“數據廢氣”,除涉及隱私或公民個人信息等人身利益外,數據的生產者不再對其產生的數據享有任何財產利益。“創造價值的并不是數據本身,也不是個人,更確切地說,價值的創造是通過對數據的收集、處理和管理獲得的。”[3] “大數據財產”應當歸屬于它的創造者,即作為數據收集者和挖掘者的數據商。這就好比用石頭制作的雕像其財產權應當歸屬于雕刻家,而非石頭的所有人;用黏土燒制的陶器屬于燒陶者所有,而非產出黏土的土地的所有人;價值連城的油畫當然是畫家擁有的財產,并不屬于畫布廠、顏料廠和制筆廠中的任何一方。正如蘇今博士所指出的那樣,數據本身并不具有財產權利賦權的正當性,數據之所以成為財產主要是基于數據控制者通過大數據挖掘等技術手段將數據“關系化”為信息,在這一過程中數據的價值得到了添附,使“數據”變成“大數據”,據此成為數據賦權的基礎。勞動賦權理論是將大數據財產歸屬于數據控制者的理論基礎。“在促進數據開放的同時,對能夠提升數據價值的市場主體賦予一定的財產性補償是大數據時代平衡公私利益的唯一途徑。”[43]
一言以蔽之,財富應當屬于其創造者。大數據的收集者、挖掘者和控制者,才是大數據財產的真正歸屬。
前文主要就“大數據”和“大數據財產”的概念范圍及權利歸屬等問題進行了探討。如上所述,“大數據財產”是大數據收集、挖掘、應用過程中具有管理可能性、客觀經濟價值和轉移可能性的大數據表現形式,包括經過收集的大數據來源、清洗過的匿名化數據和能夠用于商業應用的大數據產品,大數據財產的權利應當歸屬于大數據價值的創造者即大數據的收集者和挖掘者。接下來需要探討的是如何對大數據財產及其權利人進行保護的問題,也即大數據財產保護的路徑選擇問題。對此,學界存在如下幾種不同主張:
鑒于大數據的財產屬性正在獲得社會的普遍認可,主張依照物權制度對大數據財產加以保護的呼聲也隨之高漲。有學者指出,對大數據財產采取債權保護路徑將會帶來顯著的負外部性后果,形成數據壁壘,導致數據壟斷和不正當競爭的產生;而知識產權制度的登記與公示程序勢必大大降低數據流通的速度,對大數據交易和開發形成阻礙。相比之下,若將大數據財產解釋為一種無體物,則直接可以融入現有的物權法律體系,從而更容易被立法者接受,需要克服的制度阻礙最小。物權的占有、使用、收益、處分四大權能恰巧對應大數據的收集、儲存、挖掘、利用和交易等流程,將大數據財產作為一種“物”進行保護并不存在任何法律或者事實上的障礙。[6](PP.30-37)依照物權化的保護路徑,雖然以互聯網數據與傳統現實物理社會的財產存在形式差異,卻具備傳統財產的實質內容[44],故此對于侵犯大數據財產的行為可以依照財產犯罪的有關規定處理。
若依照物權保護路徑將“大數據財產”視為一種“物”,則大數據交易合同便屬買賣合同,買賣雙方就大數據財產這一標的交易其所有權。對此持不同見解的觀點認為,權利人對大數據的請求權并非物權而是一種債權,大數據交易合同應當是一種數據服務合同而非買賣合同。買方通過支付對價,獲得要求大數據服務商提供大數據服務的請求權,大數據交易應當被視為一種服務提供行為繼而適用服務合同而非買賣合同的相關規定。[45]根據債權保護路徑的立場,所謂“大數據財產”歸根結底是一種服務而非財物,侵害大數據財產的行為不應以財產犯罪論處。
雖然大數據具有財產性,可以被視為一種“財產”,但是大數據財產畢竟不同于傳統的物理性財產。傳統的物理性財產一般是排他的、獨占性的,并且在使用之后其價值會發生貶損,無法被更新。[46](PP.1-19)而大數據財產并不會因使用消耗而減少其本身的價值,不管大數據財產被如何重復使用,該大數據財產仍然能夠保持原狀。[47]這一特征使部分學者對大數據財產的物權保護路徑產生質疑,并主張引入知識產權的保護規則以契合大數據財產的非獨占性、非損耗性特征。龍衛球教授認為,在大數據法律關系中,對于數據經營者(企業)應分別配置大數據資產權與大數據經營權,其中大數據資產權與工業知識產權有一定的相似性。[37]另有學者指出,雖然大數據財產與傳統的著作權保護客體在形式上存在較大差異,但在財產性利益等方面保持了高度的相通性。因而,對于該類作品的知識產權保護在刑事法領域理應有所評價。[48]至于具體的保護路徑,不同主張之間則存在些許差異:有觀點主張,應當以是否具有獨創性作為標準,將獨創性的大數據信息納入著作權法進行保護,不具有獨創性的則適用反不正當競爭法進行保護。[49]而一些實務界人士則認為,對于有獨創性的大數據財產和數據集合產生著作權,不具有獨創性的數據庫可以產生鄰接權,二者均應納入知識產權法的保護范圍。[50]另有觀點則主張不論是否具有獨創性,均應以鄰接權來對大數據財產進行保護。[51]
物權、債權與知識產權的保護路徑均立足于當前的法律規定,試圖將“大數據財產”納入已有的權利保護體系之中,借此減少這一新的財產類型對現有制度體系的沖擊,降低新設立法的成本。當然,也有不少學者認為大數據財產作為一種全新類型的財產,與現有的權利制度難以兼容,故此需要通過創設新的立法對大數據財產予以專門化的保護。“大數據作為一種財產客體,應當在財產權體系中進行定位。但通過其與物權客體、債權客體以及知識產權客體的辨析,在理論上很難將大數據棲身于傳統財產權的體系之中。那么就必須針對這種新類型的客體重新進行定位,應當確立新的大數據權利類型。”[45]持新型權利路徑的學者認為,與大數據財產有關的權利具有被列入法律權利清單的資格,主張先分別在民法和行政法中將其明確為一項區別于其他權利的新興權利,在經過民法和行政法的實踐檢驗和立法修正后,可以進一步將此種權利確立為憲法上的一項基本權利。[52]在刑法領域,應當對現有的網絡法益進行擴容,對互聯網犯罪的行為內容進行重組并對定罪量刑體系進行重構,盡快在刑法中確立“大數據法益”[53],在此基礎上增設“非法獲取網絡數據罪”“非法獲取數據罪”等罪名,最終形成完整的大數據罪名體系。[5]
另有學者對當前學界存在的對數據權益保護過度化之趨勢進行了批判,認為“將刑法作為社會管理法,是法治無能的表現”[54],主張立法特別是刑法應當保持謙抑,盡量避免介入大數據的開發、利用、流通和交易之中,大數據作為一種全新的技術趨向,應當通過技術手段加以保護,法律保護不應過度介入、越俎代庖,通過技術自身能夠施加有效保護的法益不應求助于刑法。在大數據財產保護的路徑選擇上,應當堅持法律規制下的技術主導型保護模式,技術保護優位于法律保護。[55]
對于以上幾種觀點,筆者認為,首先,純粹的技術保護路徑并不可取。在互聯網時代,技術保護手段在多數情況下是頗顯乏力的,以大數據背景下公民個人隱私的保護為例,雖然可以通過匿名化手段對原始數據中的身份信息、隱私信息與敏感信息進行清洗或模糊化處理,但是非法的數據挖掘者仍然可以通過數據組合以及互聯網上海量的公開數據對已經清洗過的數據進行重新識別,輕易繞開匿名化等技術性保護措施。邁爾-舍恩伯格在《大數據時代》一書中提到一個非常著名的實例:2006年,美國在線(AOL)從65.7萬用戶的2000萬條搜索查詢記錄形成的數據庫中(這些數據庫是經過精心的匿名化處理的,用戶的名稱和地址等個人信息都使用了特殊的數字符號進行替代),憑借“60歲單身男性”“有益健康的茶葉”“利爾本的園丁”等幾條搜索信息,確定代號為4417749的用戶是佐治亞州利爾本一名62歲的寡婦Thelma Arnold。找到這位婦女后,老人驚嘆道:“天吶!我真的沒想到一直有人在監視我的私人生活。”[23](P.198)哈佛大學的一項研究則顯示,對于經過匿名化處理的數據,僅憑一個人的年齡、性別和郵政編碼這三條信息就可以結合其他公開的網絡數據庫識別出此人87%的個人信息。[11]長期從事反匿名問題(即通過技術手段從匿名化數據中挖掘出用戶的真實身份)研究的科羅拉多大學法學院歐姆·保羅(Ohm Paul)教授認為,針對當前的反匿名行為,現在還沒有很好的技術手段加以防范。[56](P.1702)誠如美國加州大學戴維斯分校的伊麗莎白·E·喬伊教授所言:“以技術手段解決犯罪問題并不是民主政策的終極目標。”[57](PP.35-68)正是由于技術保護路徑存在現實的局限性,雖然當下各個公司、企業、政府部門業已通過殺毒軟件、內網安全系統以及專業的互聯網安保服務等技術手段對本單位的系統數據層層設防,刑法仍然設置了非法侵入計算機信息系統罪、非法獲取計算機信息系統數據和非法控制計算機信息系統罪等罪名對各種數據法益施以法律保護。由此可見,僅憑技術保護措施,在大數據時代根本無法實現對各種法益的有效保護,對大數據財產采取純粹的技術保護路徑并不可取。
其次,新型權利類型的專門化保護路徑同樣值得商榷。鑒于新設立法的周期長、成本高,且會對法律本身的穩定性與權威性造成負面影響,因此每當出現新問題時,主流觀點往往傾向于通過法律解釋實現對社會發展的回應,盡量避免對法律的修改與創設。例如,陳興良教授指出:“既然信仰法律,就不要隨意批評法律,不要隨意主張修改法律,而應當對法律進行合理的解釋,將‘不理想’的法律條文解釋為‘理想’的法律規定。”[58](P.7)張明楷教授亦指出,修改、增設法律的成本太高,遠不及解釋法律簡便,批判法律本身的做法不利于維護法律的權威性,即使通過批判提出了新的立法建議,也未必能夠及時解決司法實踐中的現實性問題。[59](P.24)鑒于當前大數據法益的保護需求遠未達到必須通過創設專門法律進行保護的程度,在窮盡現有的民事、行政和刑事救濟途徑之前,不宜頻繁地改動或增設相關的立法規定,新型權利說所倡導的專門化立法的保護路徑實無必要。
再者,債權保護路徑的主張混淆了大數據服務與大數據財產之間的區別。誠然,當前有很多企業通過簽訂協議的方式向咨詢機構或者專業的大數據服務公司購買包括數據挖掘、商業咨詢、可視化展示在內的各類數據服務,但是單純的數據服務模式并不能概括大數據財產的全部利用方式。在大數據時代,數據越來越多地被當作一種獨立的商品參與交易,而不僅僅是提供數據服務的工具。例如,美國四大機票預訂系統之一的ITASoftware為Farecast公司進行預測,提供其所需要的原始數據,而它自己并不提供航班和票價預測服務;西班牙電話公司(Telefonica of Spain)也創立了獨立的子公司Telefonica Digital Insights,專門向各種數據零售商和其他買家出售其收集的匿名化用戶位置信息。[23](PP.162-163)在世界各地,從事大數據財產交易的平臺和企業如雨后春筍般涌現。美國的Hitwise公司通過與一些互聯網公司合作,將其掌握的大數據財產轉賣給其他有需要的公司,從中賺取差價,而Hitwise本身并不提供數據挖掘與分析服務;2008年冰島成立的DataMarket向人們提供其他機構(聯合國、世界銀行、歐盟統計局)的免費數據集,靠倒賣商業供應商(如市場研究公司)的大數據來獲利;2013年4月,日本建立了自己的大數據交易市場“Data Plaza”,Data Plaza 交易的數據為清洗后的非底層數據,包括購物網站的購物記錄、智能手機的位置信息等個人數據和其他類型數據。[16]有些互聯網公司甚至會將自己記錄、掌握的大數據來源雪藏起來,拒絕與他人共享。[23](PP.169-172)如果將大數據財產的利用與開發僅僅視為一種單純的服務形式,就會忽略大數據財產所具有的獨立商業價值,不利于保護大數據財產的持有者、銷售者和獨占者的權利,無法對圍繞大數據產業形成的多種類型的法律關系形成周延的保護。有鑒于此,債權的保護路徑應當被否定。
最后,根據現行立法的相關規定,大數據財產并不能被納入知識產權概念范疇之中。作為一種數據集合,大數據財產顯然不屬于商業標識,因此無法作為商標權對其進行保護,而根據《專利法》第2條的規定,專利法保護的對象僅限于發明、實用新型和外觀設計,大數據財產也難列其中,因此多數學者主張將大數據上附著的財產權利作為一種著作權或者鄰接權加以保護。(10)參見龍衛球《數據新型財產權構建及其體系研究》,《政法論壇》,2017年第4期;王淵、黃道麗、楊松儒《數據權的權利性質及其歸屬研究》,《科技管理研究》,2017年第5期;秦珂《大數據法律保護摭談》,《圖書館學研究》,2015年第12期;芮文彪、李國泉、楊馥宇《數據信息的知識產權保護模式探析》,《電子知識產權》,2015年第4期。根據《著作權法》第3條以及刑法第217條的規定,著作權的權利對象必須是“作品”。因此,大數據財產能否適用知識產權路徑進行保護的關鍵,在于“大數據財產”能否被認定為法律意義上的“作品”。在《著作權法》第3條列舉的9種“作品”類型之中,與大數據財產最為接近的概念為第(8)項“計算機軟件”。(11)根據《著作權法》第3條的規定,作品,包括以下列形式創作的文學、藝術和自然科學、社會科學、工程技術等作品:(1)文字作品;(2)口述作品;(3)音樂、戲劇、曲藝、舞蹈、雜技藝術作品;(4)美術、建筑作品;(5)攝影作品;(6)電影作品和以類似攝制電影的方法創作的作品;(7)工程設計圖、產品設計圖、地圖、示意圖等圖形作品和模型作品;(8)計算機軟件;(9)法律、行政法規規定的其他作品。若能將大數據財產解釋為“計算機軟件”,則可以將侵犯大數據財產的行為認定為侵犯著作權罪;反之則不能。那么,“大數據財產”是否屬于著作權法意義上的“計算機軟件”呢?答案是否定的。根據國務院《計算機軟件保護條例》的規定,“計算機軟件”特指計算機程序及其有關文檔。(12)參見《計算機軟件保護條例》第2條。計算機程序是一種代碼化的指令序列,而文檔則特指程序的說明書、流程圖和相關的文字資料等(13)參見《計算機軟件保護條例》第3條規定,計算機程序“是指為了得到某種結果而可以由計算機等具有信息處理能力的裝置執行的代碼化指令序列,或者可以被自動轉換成代碼化指令序列的符號化指令序列或者符號化語句序列”。文檔“是指用來描述程序的內容、組成、設計、功能規格、開發情況、測試結果及使用方法的文字資料和圖表等,如程序設計說明書、流程圖、用戶手冊等”。,作為程序處理對象的各類靜態數據和互聯網數據本身并不在“計算機軟件”的概念范疇之中。可見,著作權法中規定的“計算機軟件”作品專指計算機程序以及程序附屬文檔,并不包括作為程序處理對象的數據。具體到大數據挖掘流程中,學習模型以及基于學習模型而形成的知識模型應屬于計算機程序,而收集后的底層數據、清洗后的匿名化數據以及挖掘后的大數據產品均不屬于“計算機程序”之范疇。申言之,以數據為載體的大數據財產并不屬于“計算機軟件”,亦不屬于著作權法意義上的“作品”,故此對大數據財產不能適用知識產權路徑加以保護。
綜上所述,對于大數據財產而言,債權、技術或知識產權的保護路徑囿于各自的特征或制度局限性,很難對所有類型的大數據財產施以全方位的保護;而將大數據財產作為一種新型權利的專門化保護路徑則面臨著高昂的立法成本,并且會對法律體系的穩定性造成一定影響;因此,將大數據財產視為一種“物”納入現行法律體系的物權保護路徑更為可取。具體說來,物權的保護路徑至少存在三個方面的優勢。其一,物權的保護路徑突出了大數據作為一種財產的獨立意義,更有利于維護大數據收集者和大數據挖掘者的權利。若將大數據財產僅僅視為一種服務合同約定的債權來加以保護,也就意味著那些沒有數據服務合同基礎的大數據財產將被排斥于法律保護的范圍之外,由大數據挖掘者自行收集、挖掘的大數據財產將處于巨大的風險之中。至于純粹的技術保護路徑對大數據財產的保護則更加孱弱,只要行為人掌握一定的技術手段即可肆意對大數據財產進行侵害而無需承擔任何法律責任。相比之下,物權的保護路徑能夠對大數據財產給予更加有力的保護。其二,從交易與流轉方式來看,大數據財產能與現有的物權制度進行有效的銜接,需要克服的制度成本較小,不僅物權的占有、使用、收益和處分等權能能夠與大數據財產的存儲、挖掘、應用、交易等活動一一對應[6](PP.30-37),并且大數據財產往往通過大數據交易中心或者平臺進行交易,可以比照物權的登記公示制度提升交易的安全性與可信度,從而強化對大數據財產權利人的保護。其三,作為一種新型的生產資料,大數據財產同時具備管理可能性、客觀價值性與轉移可能性,符合《刑法》第92條第1項之規定,完全可以被認定為刑法意義上的“財產”。故而將之進一步認定為民法意義上的“物”并且適用物權保護路徑,符合法秩序統一原則的要求。對此,有學者指出,我國刑法中“財產”的概念與民法和物權法中的財產概念具有一定的淵源關系,民法體系中物的概念對于刑法中“財產”“財物”等概念的構建頗具參考意義。[60](PP.79-88)雖然大數據財產與物理空間中的財產存在形式上的差異,卻具備傳統財產的實質內容[44],依照物權路徑對大數據財產進行規制和保護是當前背景下的最優選擇。