王 忠,殷 建 立
大數(shù)據(jù)正在開啟一次重大的時代變革,正在改變人們的生活、工作與思維。[1]此變革伊始,個人數(shù)據(jù)便成為一項重要的資源,為企業(yè)產品設計、營銷等活動提供戰(zhàn)略指導,為政府政策、制度制定提供價值參考,為科研活動提供證據(jù)支撐。正是因為個人數(shù)據(jù)蘊藏的巨大價值日益凸顯,致使個人數(shù)據(jù)收集、處理、交易活動空前活躍,各種創(chuàng)新層出不窮,然而這些活動卻將個人數(shù)據(jù)隱私置于隨時泄露的危險境地。近年來,個人數(shù)據(jù)隱私泄露事件時常爆發(fā),在對個人造成不同類型、程度損害的同時,也動搖著網(wǎng)絡乃至整個社會的信用體系。為充分發(fā)揮大數(shù)據(jù)的創(chuàng)新功能,需要前瞻性地研究個人數(shù)據(jù)隱私保護問題,但目前盡管有關網(wǎng)絡個人數(shù)據(jù)隱私保護的研究較多,卻主要基于法律視角,[2]缺乏對大數(shù)據(jù)環(huán)境下的前瞻性研究,且關于溯源機制應用與理論的研究,主要集中于食品安全、[3]水污染、[4]重金屬污染[5]等領域。本文從個人數(shù)據(jù)溯源性及其應用過程出發(fā),提出在個人數(shù)據(jù)隱私保護領域引入溯源機制,并對其進行具體的機制設計。
數(shù)據(jù)被定義為能夠通過設備(如計算機)自動處理、記錄的信息,既可以是數(shù)字、文字、圖像,也可以是計算機代碼。①對于個人數(shù)據(jù),各國法律層面的定義存在較大分歧,但在內涵上被普遍認為能夠辨識特定的行為個體的數(shù)據(jù)。[6-7]受篇幅所限,本文對此不再細究,主要關注大數(shù)據(jù)時代具有應用價值的在各類私人活動中產生的電子化數(shù)據(jù),包括結構化與非結構化數(shù)據(jù),不包括脫離信息物理設施的數(shù)據(jù)。隱私是一個發(fā)展的概念,不同的國家、民族,不同的歷史發(fā)展階段,甚至不同的個體,對其都有不同的認識,[8]并非所有的個人數(shù)據(jù)都是隱私。在大數(shù)據(jù)背景下,可被關聯(lián)起來用以鎖定某一特定個人,或將之確定在一個極小人群范圍之內的與之相關的文字、圖片、視頻等數(shù)據(jù),都被視為隱私。
大數(shù)據(jù)時代,個人數(shù)據(jù)具有產品與數(shù)據(jù)的雙重屬性。產品屬性是指個人數(shù)據(jù)能被企業(yè)、政府等主體使用并滿足其特定的需求,既包括未被加工的原始個人數(shù)據(jù),也包括被挖掘加工后形成的數(shù)據(jù)產品;數(shù)據(jù)屬性是個人數(shù)據(jù)的本來屬性,指個人數(shù)據(jù)作為價值信息的載體,以數(shù)據(jù)的形式被收集、加工和銷售。因此,個人數(shù)據(jù)的可追溯性具有產品可追溯性及數(shù)據(jù)可追溯性兩層含義。
產品層面的可追溯性表現(xiàn)為對某一產品的運動或路徑的追溯能力。1994年,國際標準化組織(ISO)將可追溯性(Traceability)定義為:“通過被記錄的標志追溯一個實體的過去、用途與位置等信息的能力”。[9]通過記錄個人數(shù)據(jù)在市場交易活動中的每一次運動及其運動路徑信息,追蹤個人數(shù)據(jù)所處的狀態(tài)及用途,并在個人數(shù)據(jù)隱私泄露事件發(fā)生后,溯源個人數(shù)據(jù)運動路徑,完全具備找出隱私泄露源頭的能力。
數(shù)據(jù)層面的可追溯性有數(shù)據(jù)起源、數(shù)據(jù)世系、數(shù)據(jù)溯源等中文表示,它們意思基本相同,其英文均為“Data Provenance”,本文統(tǒng)一稱之為數(shù)據(jù)溯源。數(shù)據(jù)由于具有易復制、易擴散等特性,其溯源存在一定的難度,但目前已有不少根據(jù)追蹤路徑重現(xiàn)數(shù)據(jù)歷史狀態(tài)與演變過程,實現(xiàn)數(shù)據(jù)歷史檔案追溯的技術。[10-11]
綜上所述,大數(shù)據(jù)時代個人數(shù)據(jù)應用發(fā)生隱私泄露時具有可追溯性,可以根據(jù)個人數(shù)據(jù)運動產生的數(shù)據(jù)流信息,在產生個人數(shù)據(jù)隱私泄露溯源等需要時,重現(xiàn)個人數(shù)據(jù)的歷史演變路徑。
個人數(shù)據(jù)隱私泄露事件頻發(fā),其主要原因如下:一是數(shù)據(jù)控制方濫用個人數(shù)據(jù),或將隱私信息非法出售以謀利;二是隱私保護投入少,信息安全防護等級低,以致黑客入侵、盜用個人數(shù)據(jù);三是企業(yè)內部管制松怠,導致員工易于盜取數(shù)據(jù)。在行為不易被發(fā)現(xiàn)、處罰力度小的情況下,或出于非法交易目的,或因為保護措施缺失,數(shù)據(jù)控制方將個人數(shù)據(jù)隱私置于極高的泄露風險之下。
針對隱私泄露風險,溯源機制主要作用如下:一是規(guī)范行業(yè)發(fā)展。溯源機制可快速找到隱私泄露源,并對泄露責任方進行嚴厲懲罰,從制度上迫使各數(shù)據(jù)控制方提高對個人數(shù)據(jù)隱私保護的責任意識,有利于從源頭上防止隱私泄露事件的發(fā)生。二是樹立市場信用。溯源機制使個人能夠了解其數(shù)據(jù)的來龍去脈,從而贏得個人對個人數(shù)據(jù)產業(yè)部門的信任,避免大數(shù)據(jù)可能誘發(fā)的信任危機,維護社會信用體系。三是推動技術創(chuàng)新。溯源機制迫使個人數(shù)據(jù)控制方采取更為妥善的隱私保護措施,對現(xiàn)有技術手段形成倒逼,促進技術革新,有利于充分挖掘個人數(shù)據(jù)蘊藏的巨大價值。
個人數(shù)據(jù)利用的流程如圖1所示。由圖1可知,個人數(shù)據(jù)利用主要包括以下幾個環(huán)節(jié):
(1)收集。收集方可通過網(wǎng)絡、移動智能終端、各種監(jiān)控設備等多種途徑收集個人數(shù)據(jù)。大數(shù)據(jù)由于可以處理多元非結構化數(shù)據(jù),其能夠處理的個人數(shù)據(jù)類型遠比網(wǎng)絡個人數(shù)據(jù)的外延廣泛。
(2)處理。收集的數(shù)據(jù)需進行專業(yè)處理方可挖掘其潛在價值。這種處理可以分為兩種情況:收集者自己進行數(shù)據(jù)處理,或者將之外包給專業(yè)的數(shù)據(jù)處理機構。
(3)交易。被收集和處理過的數(shù)據(jù),如果不作為自用,需要通過交易才能實現(xiàn)其價值。目前,美國、日本已有個人數(shù)據(jù)交易公司,如美國的Factual公司推出了數(shù)據(jù)超市,日本的富士通公司建立了數(shù)據(jù)交易市場“Data plaza”。目前在Data plaza市場上買賣的數(shù)據(jù)包括購物網(wǎng)站上的購物記錄、出租車上安裝的傳感器獲得的交通堵塞記錄、智能手機的位置信息、社交網(wǎng)站(SNS)的帖子等,這些個人數(shù)據(jù)均經過了匿名處理。我國由于法律尚未明確,特別是刑法有“出售、非法提供公民個人信息罪”,個人數(shù)據(jù)目前主要以黑市交易的形式存在,并且日益猖獗。

圖1 大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)利用流程圖
(4)應用。個人數(shù)據(jù)應用領域廣泛,包括生活服務、商業(yè)應用、科學研究、公共服務等。個人數(shù)據(jù)應用環(huán)節(jié)有兩種情況,一種是數(shù)據(jù)處理方直接應用,另一種是購買數(shù)據(jù)處理方產品后應用。
利益相關者主要指“任何可以影響組織目標實現(xiàn)或受該目標影響的群體或個人”。[12]個人數(shù)據(jù)隱私泄露溯源的利益相關者如下:
(1)個人。指生成個人數(shù)據(jù)的自然人,是個人數(shù)據(jù)產生的源頭,在法律層面上是個人數(shù)據(jù)的主體與所有者。但大數(shù)據(jù)時代背景下,由于個人數(shù)據(jù)蘊含的商業(yè)價值突然爆發(fā),個人數(shù)據(jù)生成后其使用權大多掌握在個人數(shù)據(jù)利用者手中,個人對其隱私缺乏直接有效的控制與保護,時刻面臨隱私泄露的風險。
(2)個人數(shù)據(jù)收集者。指為特定目的收集個人數(shù)據(jù)的組織或個體,包括數(shù)據(jù)收集企業(yè)、政府、非政府組織及個體等。數(shù)據(jù)收集企業(yè)主要依托自身的經營業(yè)務,通過被動、主動、自動三種方式收集個人數(shù)據(jù),[13]如電信運營商、銀行、醫(yī)院、酒店等;政府作為重要的個人數(shù)據(jù)收集者,除可通過上述三種方式收集個人數(shù)據(jù)外,還可通過登記、許可、調查、聽取意見、座談、檢查等多種方式收集個人數(shù)據(jù)信息;[14]非政府組織及個體收集個人數(shù)據(jù)一般不以營利為目的,主要是開展有意義的工作或研究,如為研究而向個人發(fā)放調查問卷等。
(3)個人數(shù)據(jù)處理者。指通過對個人數(shù)據(jù)進行集成、挖掘與分析而形成的數(shù)據(jù)庫產品、信息系統(tǒng)或服務,既包括直接整理個人數(shù)據(jù)而形成的初級個人數(shù)據(jù)產品,也包括經過二次挖掘與開發(fā)生成的高級個人數(shù)據(jù)產品。
(4)個人數(shù)據(jù)應用者。指應用個人數(shù)據(jù)產品以實現(xiàn)特定利用目的的企業(yè)或機構。企業(yè)購買個人數(shù)據(jù)產品可極大化商業(yè)利益,如通過個人數(shù)據(jù)產品實現(xiàn)精準營銷,既可降低營銷宣傳費用,又可增加產品銷售量,而政府或非政府機構、組織等購買個人數(shù)據(jù)產品,則可更好地提供公共產品和服務。
(5)監(jiān)督者。指對個人數(shù)據(jù)隱私保護進行監(jiān)督的個人或組織,主要包括政府部門、第三方組織、媒體、個人等。政府是個人數(shù)據(jù)利用最為有效的監(jiān)督和管理部門,是溯源機制的建立與執(zhí)行者,在個人數(shù)據(jù)隱私泄露溯源過程中發(fā)揮著至關重要的作用,政府參與是個人數(shù)據(jù)隱私泄露后進行溯源與懲罰的有力保障。當然,其他監(jiān)督者也具有十分重要的作用,能夠發(fā)現(xiàn)并消滅潛在的隱私泄露風險,也能在溯源過程中提供有效幫助。
根據(jù)圖1,個人數(shù)據(jù)應用的數(shù)據(jù)流可分為以下四種:
(1)收集—處理—應用。
(2)收集—處理—交易—應用。
(3)收集—交易—處理—應用。
(4)收集—交易—處理—交易—應用。
數(shù)據(jù)流不僅要考慮數(shù)據(jù)利用環(huán)節(jié),還要分析其涉及到的利益相關者。一個利益主體既可能只參與其中的一個環(huán)節(jié),也可能參與多個環(huán)節(jié),即某主體有可能既是數(shù)據(jù)的收集者,又是數(shù)據(jù)的處理者,還是數(shù)據(jù)的交易者和應用者。
溯源路徑逆數(shù)據(jù)流而行。根據(jù)數(shù)據(jù)流的情況,溯源路徑剛好也有四種,在此不再贅述。在這些溯源路徑類型中,第一類涉及的利用環(huán)節(jié)與利益主體最少,發(fā)生隱私泄露事件易于溯源并進行管制,可確定為黑客入侵或內部人泄露;其他類型流經環(huán)節(jié)與涉及主體相對更多,溯源及管制難度更大,是溯源管理的重點與挑戰(zhàn)。一方面,數(shù)據(jù)流經環(huán)節(jié)越多,隱私泄露環(huán)節(jié)越難確定;另一方面,所涉及主體越多,隱私泄露主體越難確定。同樣,如果數(shù)據(jù)收集、數(shù)據(jù)處理存在外包的情況,也會增加溯源的難度。
在利用個人數(shù)據(jù)時,數(shù)據(jù)從個人流向最終應用者,如圖2從左至右的實線箭頭;而在進行隱私泄露溯源時,則從最終的數(shù)據(jù)應用者向個人數(shù)據(jù)的源頭進行搜尋,如圖2從右至左的虛線箭頭。溯源機制應以圖2中的個人數(shù)據(jù)流為基礎,建立溯源技術標準體系、個人數(shù)據(jù)產品信息登記制度、溯源監(jiān)管制度和溯源獎懲制度,通過溯源信息流,保證溯源活動順利進行。

圖2 基于利益相關者視角的個人數(shù)據(jù)隱私泄露溯源機制作用機理
該體系是為了實現(xiàn)個人數(shù)據(jù)隱私泄露溯源在技術上的可行性。個人數(shù)據(jù)產品與其他數(shù)字化產品一樣,具有可復制、易擴散等特征,使其溯源難度較大,但并非不可能。很多知識產權保護技術完全可以應用于個人數(shù)據(jù)產品溯源標識體系。目前,有多種先進技術用于知識產權保護,如加密技術、認證技術、數(shù)字水印、電子簽名等,[15]可在這些技術基礎上開發(fā)一套溯源技術體系,并將之設為行業(yè)標準,加以推廣和普及。
該制度是為了對個人數(shù)據(jù)產品的每一次流轉進行跟蹤,讓溯源有跡可循。目前,對個人數(shù)據(jù)保護較為嚴格的歐盟具有專門的個人數(shù)據(jù)登記制度(Notification),登記內容包括數(shù)據(jù)處理控制人的姓名和地址、數(shù)據(jù)處理目的、數(shù)據(jù)主體種類及其描述、數(shù)據(jù)接收者等。②借鑒歐盟經驗,在個人數(shù)據(jù)產業(yè)鏈中,流轉環(huán)節(jié)應記錄、保存、傳遞、錄入相關信息,提交溯源網(wǎng)絡系統(tǒng)備案。對于數(shù)據(jù)采集企業(yè),從個人數(shù)據(jù)產品收集環(huán)節(jié)開始就要強制記錄信息,并在銷售之前登記備案,沒有按照規(guī)定程序登記備案的產品,禁止銷售;對于數(shù)據(jù)加工企業(yè),沒有登記備案的產品,應禁止購買,否則買賣雙方同時受罰;對于最終產品使用方,如果沒有產業(yè)鏈前端企業(yè)的登記信息,應禁止使用。在個人數(shù)據(jù)產品信息登記基礎上,規(guī)范個人數(shù)據(jù)產業(yè)鏈主要參與者提供信息的行為,確保個人數(shù)據(jù)產品信息登記的真實性、全面性、可靠性,一旦產品信息登記發(fā)現(xiàn)問題,首先要及時控制隱私泄露風險,然后再徹查原因,并追究責任。
溯源監(jiān)管制度是溯源機制發(fā)揮實效的重要保障,包括個人數(shù)據(jù)利用過程監(jiān)管與溯源過程監(jiān)管。可借鑒歐盟經驗,設立專門的個人數(shù)據(jù)保護監(jiān)管機構。只有個人數(shù)據(jù)的利益相關者時刻面臨監(jiān)督檢測時,才不會作出投機行為,從而確保個人數(shù)據(jù)產品信息泄露溯源機制發(fā)揮長效作用。一是監(jiān)督企業(yè)。對產業(yè)鏈各環(huán)節(jié)所提供信息的真實性和全面性進行復檢,如提供的信息不符合要求,補齊后方可流轉;如弄虛作假,沒收其產品并追究責任,嚴重者禁止流轉。二是救濟受害人。接受各類個人數(shù)據(jù)隱私泄露事件舉報及投訴,及時終止隱私泄露,落實侵權賠償?shù)取?/p>
溯源信息獎懲制度旨在強化溯源機制的威懾與強制作用。政府作為重要的監(jiān)管主體,可利用信譽威脅與獎勵等多種手段來激勵個人數(shù)據(jù)產品產業(yè)鏈參與者的溯源行為。針對填報虛假溯源信息造假等行為,在依法追究責任的同時,將之列入“黑名單”,并公開發(fā)布、曝光,使之喪失公眾信用。同時,借助輿論力量,對提供全面、真實信息的個人數(shù)據(jù)收集、加工企業(yè)等予以表彰,增強其產品信譽度。這樣,通過激勵與約束并舉來規(guī)范個人數(shù)據(jù)利用主體提供信息的行為。
大數(shù)據(jù)環(huán)境下,個人數(shù)據(jù)應用的隱私保護是一個復雜的社會問題,不僅涉及道德、法律、行業(yè)、技術等諸多領域,也涉及大量的個人、群體、企業(yè)和機構。[16]要通過建立合理的激勵機制吸引相關利益主體共同參與,平衡個人數(shù)據(jù)應用與隱私保護的兩難選擇,維護社會信用體系在大數(shù)據(jù)時代的正常運行。本文主要研究了隱私泄露的溯源機制,尚需對個人數(shù)據(jù)收集、處理、交易等進行全流程的機制設計,使之環(huán)環(huán)相扣、相得益彰。
*本文系國家自然科學基金資助項目“大數(shù)據(jù)商業(yè)模式、產業(yè)鏈治理及公共政策研究”(項目編號:71302020)、博士后科學基金資助項目“大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)隱私規(guī)制研究”(項目編號:2013M540108)的部分研究成果。
注釋:
①根據(jù)英國《1984年數(shù)據(jù)保護法》(Data Protection Act of 1984)的定義。
②參見1995年歐盟的數(shù)據(jù)保護指令“Directive 95/46/ECof the European Parliament and of the Council of 24 Octo?ber 1995 on the protection of individuals with regard tothe pro?cessingof personal dataand on thefreemovement of such data”第18條至第21條。
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社:2013:1-3.
[2]凡菊,姜元春,張結魁.網(wǎng)絡隱私問題研究綜述[J].情報理論與實踐,2008(1):153-157.
[3]、[9]K.M.Karlsen,B.Dreyer.Literature Review:Does a Common Theoretical Framework to Implement Food Traceabili?ty Exist?[J].Food Control,2013,32:409-417.
[4]楊海東,等.突發(fā)性水污染事件溯源方法研究[J].水科學進展,2014(1):14-20.
[5]王飛,等.華北地區(qū)畜禽糞便有機肥中重金屬含量及溯源分析[J].農業(yè)工程學報,2013,19:202-208.
[6]Gordon Jenny,Wiseman Louise.Guidelines for the Use of Personal Data in System Testing[M].British Standards Institu?tion,2003:17-23.
[7]蔣驍,仲秋雁,季紹波.網(wǎng)絡隱私的概念、研究進展及趨勢[J].情報科學,2010(2):305-310.
[8]姚朝兵.個人信用信息隱私保護的制度構建——歐盟及美國立法對我國的啟示[J].情報理論與實踐,2013(3):20-24.
[10]C.Goble.Position Statement:Musings on Provenance,Workflow and(Semantic Web)Annotations for Bioinformatics[C].Proc of Workshop on Data Derivation and Provenance,2002:1-5.
[11]明華,張勇,符小輝.數(shù)據(jù)溯源技術綜述[J].小型微型計算機系統(tǒng),2012(9):1917-1923.
[12]Freeman RE..The Politics of Stakeholder Theory:Some Future Directions[J].Business Ethics Quarterly,1994:409-421.
[13]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[14]汪全勝,王慶武.網(wǎng)絡空間個人數(shù)據(jù)的權利保護[J].情報理論與實踐,2004(1):33-36.
[15]劉洪濱,杜玲,姬紅利.面向網(wǎng)關版權保護的抗幾何攻擊視頻水印方法[J].計算機應用,2013(12):3531-3535.
[16]袁文秀,余恒鑫.關于網(wǎng)絡信息生態(tài)的若干思考[J].情報科學,2005,23(1):144-147.