張慧
摘 要:《中華人民共和國民法典》明確規定隱私與個人信息的保護范疇相互交叉,隱私的本質是私密性。在算法時代,衡量“數據是否符合私密性標準”的價值立場應從人格尊嚴和人格自由轉換到人格獨立,理論基礎應從領域論和信息自主決定原則轉換到思想自主決定層面。隱私范圍的界定模式應由“內外限制”轉變為“動靜結合”。個性化推薦中的數據性質宜認定為隱私,因為從靜態的角度,其符合個人性、人格性、隱蔽性等“個性化”標準,且形式上多元,不局限于信息的形式。從動態的角度,若未獲得用戶的允許,個性化推薦算法,包括基于內容的推薦、協同過濾推薦和基于知識的推薦等,計算判別用戶喜好的行為,既干擾了用戶的私有領域,又窺探了用戶的人格圖像。其行為結果符合隱私的“主體性”標準。
關鍵詞:個性化推薦;算法;數據;隱私
[中圖分類號] D923?????[文章編號] 1673-0186(2021)002-0125-012
[文獻標識碼] A???? ????[DOI編碼] 10.19631/j.cnki.css.2021.002.010
個性化推薦是一種基于機器推薦方式來預測用戶的評分或偏好的信息過濾行為,最早于1995年應用在美國的導航系統中。我國是從2009年開始,將其廣泛應用在淘寶等電子商務網站上,向潛在消費者推薦滿足其需求的產品和服務。發展到今天,幾乎每個網站都采用個性化推薦技術以優化客戶服務。其技術功能是解決信息過載和長尾問題,彌補信息平臺在提供針對性意見建議和服務等方面的缺陷,從而更好地滿足用戶個性化檢索和匹配需求。要實現這一功能,信息平臺不得不利用用戶的網絡行為數據去挖掘用戶的個人喜好。時至今日,小到衣物的選擇、新聞的獲取,大到股票等商業交易的完成,人們越來越多的選擇由信息平臺的個性化推薦完成。由此引發了學界對個性化推薦場景中隱私權保護的擔憂,百度隱私案更是一度成為討論熱點[1-3]。該案的焦點是,百度網站通過cookie所收集使用的用戶數據是否構成了個人隱私。一審判決認為構成個人隱私,而二審判決認為不構成個人隱私,并最終否認了百度侵權。學者們也基本上支持二審的認定標準和結果。由于該案判決時,我國民法規范未明確規定隱私的概念,隱私和個人信息的保護范疇模糊不清,這直接影響了個性化推薦中關于數據法律性質的界定標準。
本質上,個性化推薦服務由一系列程序構成,程序由算法和數據組成[4],數據是信息的載體,而算法是將數據從一種形式轉化成另一種形式的一套方法、規則,用戶在網絡上的行為信息實際上是承載于這些數據之上的??梢哉f,個性化推薦都是由數據和算法共同描述,缺一不可。要判斷個性化推薦服務是否構成隱私侵權的法定要件,最核心的是要探討其本質,即算法的執行——加工處理數據的行為是否符合侵犯隱私權的構成要件。而隱私權是對隱私的權益,若無法確定個性化推薦中數據的法律性質,則難以進一步研究算法侵權的請求權基礎和責任機制。
此外,百度隱私案涉及的數據使用情形僅僅是推薦技術應用的“冰山一角”,基于cookie的個性化推薦僅僅為眾多推薦技術之一。推薦系統種類眾多,學術界從領域、實時性、推薦內容等方面進行了不同的分類:從領域上分為垂直推薦和全網推薦;從實時性上分為實時推薦和離線推薦;從推薦內容上分為新聞推薦、電子商務推薦和娛樂推薦。百度使用的推薦僅是全網、實時推薦,因此,該案對隱私問題的相關認定,是否能完全適用于所有個性化推薦的場景,亦值得反思。
欣慰的是,我國《民法典》就隱私和個人信息作出了明確規定,隱私和個人信息的聯系與區別實現了立法層面的確定化和清晰化。那么,在《民法典》出臺的背景下,個性化推薦中用戶數據的法律性質應如何認識呢?該問題誠值梳理和思考,以辟理論和司法實踐中的混淆之態。
一、隱私范疇的立法修正與保護困境
“隱私權”這個概念為美國舶來品,指對隱私的權益。在《民法典》出臺前,我國關于隱私的規定散見于《民法總則》第110條、《侵權責任法》第2條等條文,這些規定均未直接明確隱私的內涵,進而導致了隱私與個人信息的邊界難以區分。
(一)隱私與個人信息的關系
就如何處理隱私與個人信息的關系這一問題,學界主要提出了廣義說、狹義說和折中說三種觀點。這些觀點的共性在于,都認為隱私包括私密領域、私生活安寧和私生活秘密,隱私的核心在于個人的私密性不受他人干擾、刺探和公開;分歧在于,個人信息是分別歸屬于隱私或個人信息兩個范疇進行保護,還是與隱私存在交叉。
1.廣義說
對隱私作廣義解釋,隱私包括個人信息。如王澤鑒認為,隱私包括私人生活、私人信息、私人空間及個人生活安寧等方面,其必須僅與特定人的人身存在密切利益聯系,且該特定人不愿被他人知悉。
其核心范疇有兩點:一是包括個人生活私密領域。即個人生活不受他人侵擾,私人有權享有完全自我的私密空間,且決定是否向他人公開或完全自處,因此亦可稱為空間隱私;二是包括信息自主,即個人可以決定私人信息是否及如何向他人公開,因此又被稱為信息隱私。相應地,隱私權亦包括信息自主權[5],采納該觀點的,如美國等[6]。而德國立法上起初并無隱私權的規定,僅通過一般人格權來保護涉及隱私的權益,之后為應對信息技術的發展,逐漸將該權益的保護范圍從領域私密擴展到信息自主[5]。
2.狹義說
對隱私作狹義解釋,隱私不包括個人信息,兩者是相互獨立、并列的范疇。如王利明認為,隱私和個人信息存在差別,應明確二者的區別[7]。
一方面,隱私強調的是信息或行為的私密性。即使某信息或者行為與權利主體的身份不直接相關,但只要與公共利益無關,且該權利人不愿意公開披露,就能被認定為隱私。而個人信息更強調信息的主體身份,無論是單個信息或與其他信息相結合,都需確定有可以被識別出的身份。
另一方面,除了信息這種方式,隱私還包括私人行為、私生活空間等無記載媒介的存在方式。因此,隱私權僅包括兩方面:一是獨處的生活狀態或私人事務;二是私生活秘密不受他人的非法披露[7]。侵害隱私權即為侵害個人保有私密性的權利,如非法的披露和騷擾。典型的案件類型有“錄像帶案”“安裝攝像頭偷窺案”等[5]。
3.折中說
即隱私與個人信息相互交叉。如張新寶認為,私人信息一旦被高度公開,則不再受隱私權保護。而未公開披露,且具有私人屬性的敏感信息,仍應被認定為隱私[8]。
根據《民法典》第1032條第2款和第1034條第3款,我國已通過立法的形式,明確將個人信息作為獨立的民事權益進行保護,且采納了折中說,即隱私與個人信息的保護范疇相互交叉。用戶就個人資料找尋請求權規范基礎進行權利救濟時,究竟是只能通過隱私權或個人信息,還是既可通過隱私權,也可通過個人信息進行,最重要的是判斷該個人資料是否具有隱私的私密性特征。
(二)傳統認定模式在算法時代的局限性
為避免隱私權的保護范圍過廣,學者提出了“控制論”和“合理期待理論”兩種學說,分別從內外兩個視角對“私密性”予以限定。具體而言,在隱私內部,通過控制論,強調了自我對隱私需具有控制力,且是絕對的控制力。若某信息或空間領域具有公共性,便不屬于隱私。而當某信息符合“控制論”的內部要求時,還需進一步探討其是否符合外部要求。外部要求指“合理期待理論”,即民法規范將其作為隱私加以保護,必須為一般第三人普遍同意[9]。但無論是“控制論”的內部說還是“合理期待理論”的外部說,都無法有效回應算法中的隱私范圍應如何界定這一問題。
首先,用戶輸入算法中的個人資料,不都屬于“應被絕對保護與控制”的自我領域,因此對初始輸入的個人資料無法完全通過隱私權加以保護。但算法的反復計算、描畫功能,可能使資料的組合變成真實或者接近真實的人格圖像,那么該學習和計算的結果,是否仍屬于個人控制的私密領域,受個人控制呢?若該資料的組合結果不屬于私密性領域,不受個人控制,那么在算法時代,個人信息一旦被輸入,則意味著用戶放棄了對該信息所擁有的“控制力”。隨著算法的功能日益強大,擁有的個人信息也日益龐大,那么個人的私密領域則逐漸被算法控制,個人也逐漸失去控制自身權利的法律依據,這將不利于人格權的保護。而若資料的組合結果屬于私密性領域,受個人控制,應如何處理其和初始輸入的數據之間的關系呢?顯然,“控制論”難以回答。
其次,算法的發展是不可逆轉的技術趨勢和商業趨勢。當用戶勾選表示同意算法運行的選項時,是否體現為同意算法對自我信息的加工和處理?如果依一般人的合理期待,體現為同意,那么在算法時代,個人資料一旦被輸入,則意味著用戶喪失了對自我信息的決定權。久而久之,不再是我們控制自我,而是算法控制了我們[10]。若人失去了“人格獨立”,又何談“人格尊嚴和人格自由”呢?如果依一般人的合理期待,這無法體現為同意,由此導致的權利義務邊界不清晰,也難以為算法技術的發展提供有效的法律保障。
(三)隱私保護在分析視角上的轉變
在傳統物理空間的語境下,隱私所預設的權利范圍一般由“領域論”予以解釋,即人區別于動物,應保有自我私密的空間領域,享有安寧。該理論是以人性的尊嚴為本質內容,強調每個人都對自己的領域享有法律承認的絕對保護[5]。
隨著信息和網絡技術的發展,個人資料被新型技術不斷收集、儲存、使用與傳送的情形出現?!邦I域論”無法解釋“自我對個人資料的絕對控制與社會公益需要之間的矛盾關系”,因此逐漸被“信息自主決定原則”所替代[5],即個人可以自行決定與本人相關的生活事實在何種范圍、何種程度公開。相較于“領域論”首次體現“人非動物”的基本立場,弘揚的價值是“人格尊嚴”,“信息自主決定原則”更關注的是“人格自由”,即自然人面對未知的周遭尤其是公權力時,其所享有的自由空間是否具有邊界。換言之,“信息自主決定原則”是在信息時代對“領域論”絕對性的修正。
發展到算法時代,要清晰界定隱私的范圍,不得不處理的必要矛盾轉變為“個人資料保護與算法深度計算學習功能之間的關系”,這也是算法中數據性質界定的關鍵所在。要處理好這一矛盾,隱私權所保護的價值重心應由“人格尊嚴和人格自由”轉變為“人格獨立”,強調對人之“自主思想的個性化”的尊重和宣示。
在計算機世界中,算法是動態的,而數據是靜態的,數據是算法的填充[11]。由于矛盾關系和價值立場的轉變,算法時代要確定隱私的保護范圍可分別從靜態存儲的數據和動態運行的算法行為兩個層面著手分析。
在“靜”的層面,算法中的個人資料要符合隱私“私密性”的基礎特征,需滿足“個性化”標準,包括:一是個人性,個人資料需與個人相關;二是人格性,反映個人的思想特征;三是隱蔽性,未期待該個人資料挪作他用。
從“動”的層面分析,算法中的個人資料要符合隱私的“私密性”特征,需滿足“主體性”標準,即這些個人資料能夠被組合起來,對應到某用戶,描繪成人格圖像,并且仍屬于用戶個人的私有領域。
概言之,在算法時代,隱私權的保護范圍應從“內外限制”的界定模式,轉換為“動靜組合”的界定模式。
二、個性化推薦中數據結構的靜態分析
基于“動靜組合”的分析視角,要確定個性化推薦中的數據是否構成隱私,首先應從靜態層面分析數據的物理特征和法律性質。算法不是建立在單獨、割裂的數據之上,而是依靠數據結構來實現,數據結構即數據元素的關系。因此,要研究數據的靜態特征,實際上應研究算法的數據結構。具體而言,數據按照結構格式分為結構化數據、半結構化數據和非結構化數據[12]。
(一)數據的存儲方式
結構化數據較容易理解,簡而言之就是數據庫,也稱作行數據。數據通常建立在一張表上進行對應,比如一些物品(item)按照名稱、種類、顏色等屬性被記錄下來,因此可以通過一定的數據格式與長度規范讀取某一條記錄的屬性值。而非結構化數據相對而言,在形式和格式上就豐富很多,一般以文本、圖形、圖像、音頻、視頻等復雜對象表現出來。不同于一條記錄對應某個屬性的結構化數據,非結構化數據需要通過比較復雜的分析才能理解數據含義,比如對這些物品的感覺的描述[13]。
半結構化數據是結構化的數據,但是又不同于一般的結構化數據。因為其結構變化很大,很難建立一張表與之對應。比如建立一個人員信息庫時,針對某一個人的信息可以建立一張表,但每個人的信息項不盡相同,因此一張表難以對應所有人的信息,這時候就需要進行半結構化數據處理?;谝陨蠑祿诸?,算法對數據的管理一般采用結構化數據管理和非結構化數據管理兩種方式,以便于合適地存儲數據。
從算法的角度,個性化推薦包括基于內容的推薦(Content-based Recommendation,簡稱CB)、協同過濾推薦(Collaborative Filtering Recommendation,簡稱CF)、基于知識的推薦(Knowledge-based Recommendation,簡稱KB)和組合推薦這四種方式。組合推薦是指使用了兩種以上的推薦算法,此處不再作單獨介紹。
每種推薦算法使用的數據結構不盡相同。具體而言,在基于內容的推薦算法中,物品的特征屬性作為結構化數據來存儲,用戶過往有關物品的所有行為數據都會被收集[14]。這種推薦算法的運行,本質上要求用戶在檢索過程中不斷填表,其對用戶信息的處理是“不加掩飾”的,直接對表中數據進行加工甚至是原原本本的使用。
在協同過濾推薦中,用戶信息主要作為非結構化的數據進行存儲,最常見的是音樂推薦和電影推薦。首先推薦系統假定一個前提,偏好類似物品的用戶具有相同喜好的可能性更大。在該前提下,系統計算出當前用戶的“朋友圈”。用戶在這個過程中是被動的,系統卻是主動的。這種推薦方式并不需要用戶直接“填表”,也不會對用戶選擇的內容直接進行引用,更多的是學習全體用戶的行為模式[15]。被系統引用的數據是基于大量用戶的歷史偏好數據,當前用戶不需要手動創建物品的特征屬性,其個人意愿的表達是“后置”的。
在基于知識的推薦和基于內容的推薦中,用戶信息都是作為結構化的數據進行存儲。不同的是,基于知識的推薦完全是由系統掌握主動,用戶只是被帶入設定好的情境[16]。用戶雖然針對物品有比較精確的意愿表達,但是用戶不需要在這種表達里泄露與算法推薦結果無關的個人信息。同時,系統也不需要遍尋其他用戶的行為數據。
(二)數據的個性化特征
首先,個性化推薦中的數據信息無法用個人信息的概念完全涵蓋。協同過濾推薦中使用的非結構化數據,包括影片、圖片,不限于信息的形態,不符合個人信息的形式特征?;趦热莸耐扑]和基于知識的推薦,雖然都是數據化的表格,但內容指向的通常不是電話號碼、住址等非人格性的信息,而是直接關系著個人的喜好。
其次,在個性化推薦中,用戶的數據信息確實與傳統的隱私具有一些區別。一是不可控制性。數據信息難以被肉眼看見,如何被利用也難以察覺。其存在空間由線下的、自己身體可控制的物理空間移轉到線上的、被數據庫存儲的、自己不可控制的網絡空間。二是虛擬性。算法記錄的數據信息對應著特定的網絡地址,這些網絡地址是用戶在算法世界的身份,或者稱為識別碼。換言之,與個性化推薦算法交互的對象形式上是虛擬的用戶。
但這些數據信息本質上仍沒有突破隱私的界限。一是個人性,與個人直接相關。雖然網絡用戶形式上是虛擬的,但每個網絡用戶對應的是真實的個人,相應地,網絡用戶留下的信息也是與該網絡用戶息息相關的、專屬于該用戶個人的信息,具有真實性。隨著自主算法逐步走向無監督趨勢,算法不斷學習挖掘用戶的數據信息時,甚至不需要用戶主動提供真實身份,就可以精準識別到真實的個人。二是內容的人格性。王澤鑒在“借書案”中指出,某甲在圖書館借閱的書目信息,由于可以窺探到本人的思想、信仰、性向、嗜好、研究工作等信息,從而組構成人格圖像,因此應認定為隱私,圖書館未經允許不可將借閱信息告知他人[5]。相應地,個性化推薦算法依賴的數據信息也都刻畫了用戶的個性化喜好,算法可以通過不斷學習這些數據,描繪出用戶的人格圖像,因此也具有人格性。三是隱蔽性?!半[私權的核心要義在于,尊重每個人擁有相當程度的內在自我,并可以在該范圍內完全隱蔽并獨處。”[5]即使在個性化推薦中,與用戶交互的對象也僅僅是算法,而不是不特定的、公開的其他人。而且根據《民法典》第1194條,網絡用戶既然不能因為其虛擬性而否認其“侵權責任主體”的法律地位,當然也不能因為虛擬性否認其“權利主體”的法律地位。因此,即使存在方式由線下轉移到了線上,個性化推薦中的數據信息,依舊符合靜態層面隱私的基本特征。
三、個性化推薦中算法運行的動態分析
個性化推薦不僅依靠靜態存儲的數據結構,還必須通過動態的執行過程才能完成。因此,有必要在靜態分析的基礎上,進一步探究算法的動態運行機制,方能確定算法數據的法律性質,從而保證研究結論的可靠性。
(一)算法的執行過程
由于基于內容的推薦、協同過濾推薦和基于知識的推薦等推薦算法的運行機制存在差異,需逐一分析其執行過程,從而總體判定算法在收集、存儲和利用數據的過程中,涉及的用戶數據是否和隱私發生關聯。
1.基于內容的推薦
基于內容的推薦是對信息檢索系統的改進。其運行過程是,在用戶主動檢索自己感興趣內容的基礎上,系統對用戶選擇的對象進行特征值提取,在此過程中不斷學習研究用戶的興趣,最后通過特征值匹配來向用戶進行推薦[17]。比如,現實生活中的淘寶平臺,其推薦主要是依靠用戶頻繁檢索來實現。
這種算法的原理和機制是:第一,輸入物品,系統抽取每個物品的特征屬性即物品的內容來表示此物品,記錄在用戶的行為日志中;第二,利用用戶的行為日志來獲取該用戶所瀏覽、收藏、評價、分享的所有物品,根據用戶對這些物品喜歡與否的特征數據,來學習出此用戶的內容偏好;第三,比較得到的用戶內容偏好與候選物品的特征,將相關度最大的一組物品輸出到推薦結果中。
2.協同過濾推薦
協同過濾推薦主要是研究人與人之間的關系,本著用戶參與和用戶貢獻的宗旨應運而生,目前已成為最熱門的推薦技術。它是通過大量分析所有用戶的訪問、瀏覽、操作等行為,找到與當前用戶興趣愛好最相似的一群人,計算出每個對象對用戶的效用值大小,最后利用數學模型選出最合適的對象向用戶進行推薦。這類似于日常生活中,我們通常會根據好朋友的推薦來決定自己的購買行為。
協同過濾推薦算法的原理和機制稍微復雜一些,模型簡單化處理就是:第一,系統對多個用戶的偏好進行計算,發現A用戶偏好item1、item2,B用戶偏好item3,C用戶偏好item1、item2、item4;第二,系統通過計算每個物品(item)對用戶的效用值大小,斷定A用戶和C用戶偏好更相似一些,同時C用戶多一個偏好item4,則系統推斷A用戶喜歡item4的可能性很大,便將item4作為輸出結果推薦給A用戶[18]。
3.基于知識的推薦
當系統能夠很清晰地獲取所推薦用戶過去的偏好數據時,可以采用基于內容的推薦(CB)方法;當系統有條件獲取大量用戶的偏好信息時,可以采用協同過濾推薦(CF)方法。但是,當面對一些特定物品,諸如汽車、房屋、消費類電子產品等涉及“單次”購買的物品時,前面兩種推薦方法往往會失靈,就需要用到基于知識的推薦(KB)來滿足特殊化的要求。這種方法并非通過用戶訪問系統的行為數據來進行推薦,而是采用一定的規則,完成一套動作,最后向用戶推薦比較合適的對象。
這種推薦算法的原理和機制是“逆向化”的信息檢索過程,它不是讓用戶直接檢索,而是推薦系統預定一組具有相關性和遞進式的“填空題”,用戶每完成一次填空,就將用戶檢索過程中輸入的參數反饋給推薦系統。系統采用會話式的窗口,向用戶連續發出問句:用戶喜歡哪個國家的物品?喜歡這個國家什么類型的物品?喜歡看這個國家這種類型哪個年代的物品……系統根據用戶連續作出的選擇動作,自行分析用戶喜好,向用戶推薦合適的物品。
(二)執行結果的主體性特征
綜上,個性化推薦算法的主要運行機制是,在分析社交網絡的基礎上,重點研究用戶的行為,用計算的方式判別用戶的個性化喜好,并完成推薦。要實現該任務,不得不依賴的路徑就是對每個用戶的網絡行為進行跟蹤、匯總,而為了保證個性化推薦的精準度,就是要掌握最符合該用戶的數據信息。因此,可以將個性化推薦算法的行為過程概括為兩個步驟:第一步是收集信息,并判別喜好,可稱為“挖掘行為”[19];第二步,根據判別的喜好,向用戶推薦信息,可稱為“推薦行為”。
隱私權的應有之義,就是保有個人的私密性。從動態層面來看,隱私權包括私有空間的不被干擾和人格圖像的不被窺探。因此,若算法進行個性化推薦時,執行結果干擾了私有空間、窺探了人格圖像,則該結果就符合了隱私的“主體性”標準。
1.干擾私有空間
即使在算法時代,人們仍應擁有個人的空間。而這個私人空間的大小、開放與否,仍由人自己來決定,而不是被算法決定。無論用戶是主動鍵入,還是按算法提供的欄目被動進行選擇,其存留下的信息應是靜止不動的。用戶的數據信息反映著用戶此時或過去的喜好,此時,若用戶要將這些能反映個人喜好的隱私封存,像寫進了日記本里不再被人察覺一樣,算法“未經同意”的挖掘行為便構成了對個人私有空間的干擾。
而且用戶受算法引導所存留信息的行為,不同于在博客、微博等公開互聯網平臺上的留言行為。因為后者是明示的公開行為,其面向的就是不特定的第三人。一經公開,便意味著放棄了私有空間。此時第三人將該信息進行傳播,便不屬于對私有空間的干擾。而前者是否具有公開性,需分別觀察推薦行為和挖掘行為。
推薦行為建立在挖掘行為基礎之上,不同意挖掘當然無法推薦。因此,認定個性化推薦的算法的執行是否干擾了個人的私有空間,關鍵在于判斷用戶作為主體,是否“同意”算法的“挖掘行為”。但用戶同意算法“挖掘”信息不等于同意算法“公開”信息,同意只是對本次算法“挖掘行為”的豁免,本質上并未改變數據信息的私有性。此時算法將收集到的信息披露給第三方,仍是對私有空間的干擾。
2.窺探人格圖像
個性化推薦算法,特別是基于內容的推薦,需要不斷挖掘用戶的過去。每一次個性化推薦,都建立在該用戶過去所有的數據基礎上。如果算法沒有被施加限制或者獲得授權,那么算法的每一個推薦行為,都在窺探用戶的過去。而用戶每根據算法的指示完成一次選擇,都再次構成了用戶的數據信息,成了算法下一次挖掘的對象。算法通過挖掘行為所收集計算判別的用戶喜好,若未獲得用戶的允許,實際上就構成了用戶“被窺視的人格圖像”。
侵害隱私行為的始點從什么時候開始計算呢?是從第一次收集用戶的數據開始,還是從挖掘數據開始?理論上,應認定為從挖掘數據開始,也就是算法未經授權便開始學習用戶的喜好開始。因為數據的信息被算法收集,是用戶使用計算機程序所必須遺留下來的。單純地記錄數據不認為是對隱私的侵犯,而用戶所享有的刪除這些數據的權利,也不是隱私權受到侵犯后產生的救濟性或防御性權利,而完全是基于用戶在網絡空間所享有的對個人數據信息的控制權,有權處分個人數據信息。
四、百度隱私案的再思考
百度隱私案的案情是,原告朱某起訴被告百度公司,未經其知情同意,記錄并跟蹤其搜索的“減肥”“豐胸”“流產”等關鍵詞,并向其推送相關廣告。這暴露了個人的興趣愛好、生活學習工作等特點,侵害了隱私權,主張損害賠償。
(一)回避了個性化推薦所使用的算法技術
該案的矛盾焦點集中在,百度網站的個性化推薦所收集并使用的數據信息是否構成了個人隱私。針對該矛盾焦點,被告百度網站的應對策略是,從“個性化推薦的技術原理——cookie技術”角度出發,辯稱cookie技術具有合法性,不涉及隱私侵權。而一二審判決也均圍繞該技術本身在爭論,cookie技術的運行機制是否存在侵害隱私權行為。實際上,這是百度公司利用其技術優勢,避重就輕,“巧妙”利用cookie技術的中立性,“完美”回避了算法技術中難以解釋的爭議性問題。
因為,cookie技術是一種存儲方式,cookie本質是一小段文本信息,存儲于本地的客戶端而非網絡的服務器端。當用戶通過瀏覽器訪問某個頁面時,就會發送這段文本信息。而個性化推薦作為計算機技術,本質上是由一系列程序構成,程序又由算法和數據結構組成[4],百度網站對用戶數據信息的存儲,采用的是客戶端和服務端相結合、本地存儲與網絡存儲的方式。即使用戶刪除了或者禁用了瀏覽器的cookie,但是百度網站仍然可以通過算法的運行機制,實現用戶信息在服務器端或者網絡端的存儲。
換言之,百度網站之所以能夠針對用戶完成個性化推薦,依靠的不僅僅是cookie技術,而主要是算法。判斷百度網站是否侵犯隱私權,不應僅判斷cookie技術,還應重點研究隱藏在網站程序之后的算法。
(二)混淆了個性化推薦中隱私的判斷標準
百度公司之所以將問題關鍵聚焦在cookie技術,是因為其可以結合網絡數據信息的特點,提出三個具體化標準,以表明cookie技術收集的信息不符合“隱私”的定義。標準一是構成隱私的網絡數據信息應直接且明確對應到某網絡用戶的真實身份,即可直觀地識別出個人身份。標準二是用戶主動登錄的網絡平臺不視為私有領域。標準三是用戶擁有“使用或禁用cookie技術”的選擇權和知情權,未禁用cookie技術而留下的數據信息不是隱私。這三個標準看似有力地支持了百度公司未侵犯用戶隱私權的主張,實則隱藏多個含混之處。
1.混淆了可識別與已識別
標準一雖然使用了“個人信息的可識別性”的表述方式,但混淆了“可識別”與“已識別”的關系。按照百度公司所主張的“身份可識別性”標準,因個性化推薦算法使用的數據信息通常只能對應到用戶的“虛擬身份”,無法構成隱私。顯然,其所依據的標準是“已識別”標準:在認定數據信息是否符合隱私的“主體性”特征時,仍采取靜態的判斷視角,未對數據的組合行為和組合結果作進一步分析。
實際上,只要進行個性化推薦,算法就必須運用到個人的數據?;ヂ摼W的后臺,每天進行這樣一種操作:填由各種特征屬性界定的表,用戶的網絡行為都記錄在里面。該操作的功能與攝像頭類似,既負責跟蹤又實時匯總。而且這些表格非常條理,并不散亂。根據這些表格,算法可以不斷豐富對該用戶的信息描述。
若按照百度公司靜態的“已識別”標準,認為數據無法與個人真實身份相對應,則意味著,只要算法不登記用戶的真實身份,“表面上”無法將用戶的數據與用戶的真實身份相對應,就可以不斷記錄、跟蹤和檢索用戶的網絡信息,甚至不需要經過用戶的允許。其可能產生的權利保護漏洞是:是否構成隱私不再取決于用戶對個人私密性的保留與否,而是取決于某算法程序是否直接登記了用戶的身份信息。
2.混淆了互聯網與非私有領域
按照標準二關于“私有領域”的界定,如果認為用戶主動登錄的網站不再是私有領域,那么將至少產生兩種法律和社會后果。其一,即使輸入的是應受法律保護的私密信息,也只能被認定為“公開性的信息”,不構成隱私。換言之,無論是任何信息,都不得通過我國現行民法規范獲得隱私權保護的法律救濟。其二,隨著算法技術的發展及人機互動的日益頻繁,人們將逐漸喪失了“私密性的私有領域”,成為透明的裸體人。這將不可避免造成人格權保護和技術發展的矛盾對立。
3.混淆了cookie信息與數據庫信息
知情同意標準反映的是信息自主決定原則,即采集、編輯、利用個人的數據信息必須讓當事人知情并得到其同意[20]。按照標準三,用戶所享有的“允許使用或禁用cookie技術”的選擇權和知情權,并不等于“允許或禁止算法收集、使用、利用用戶數據”的選擇權和知情權。因為cookie技術存儲的數據是物理存在的靜態信息,主要存儲在用戶自身控制的硬盤[21],而算法掌握的用戶網絡行為信息存儲在后臺的數據庫中。用戶即使禁用了cookie技術,也只是刪除了自己可以控制的信息,而算法控制的、存在網絡服務器上的信息并沒有刪除。概言之,標準三混淆了cookie信息與數據庫信息,也就是混淆了用戶知情同意的對象。
以上,雖然二審判決認為不構成個人隱私,并最終否認了百度侵權,但判決理由圍繞cookie而非算法本身展開,該案尚難為“個性化推薦算法是否侵犯隱私權”的爭議提供指導性方向。而且,百度隱私案中對隱私的界定標準仍偏重于靜態可控的視角,不適用于個性化推薦算法的動態運行場景。
五、結語
個性化推薦基于用戶個人的喜好數據,有針對性地提供推薦服務,體現了技術發展帶來的便利和快捷,但“存在即合理”的同時,仍需進一步反思“存在是否合法”。以上論述證明了,雖然算法技術已融入每一個智能手機用戶的日常工作和生活中,但其對隱私權也存在著一定程度的威脅?;ヂ摼W技術的發展和進化遠超出規則制定并實施的速度。能否在互聯網技術發展的同時,更新和完善相關的法律規則,是對每一個法律共同體成員的考驗和挑戰。在該過程中,始終要堅持的基本價值是人格自由、人格尊嚴、人格獨立不受侵犯和妥協,這不僅是民法典制定人格權編的重大內涵,也是法律人在應對快速發展的網絡技術時所應堅持的重要理念。
參考文獻
[1]? 李謙.人格、隱私與數據:商業實踐及其限度——兼評中國cookie隱私權糾紛第一案[J].中國法律評論,2017(2):122-138.
[2]? 黃偉峰.個人信息保護與信息利用的平衡——以朱某訴北京百度網訊科技公司隱私權案為例的探討[J].法律適用(司法案例),2017(12):37-43.
[3]? 李艷霞,龍維.個性化推薦行為法律規制路徑的選擇——基于中國Cookie隱私權糾紛第一案的思考[C]//胡云騰.法院改革與民商事審判問題研究——全國法院第29屆學術討論會獲獎論文集(下).北京:人民法院出版社,2018:1191-1197.
[4]? 李愛君.人工智能法律行為論[J].政法論壇,2019(3):176-183.
[5]? 王澤鑒.人格權法:法釋義學、比較法、案例研究[M].北京:北京大學出版社,2013:178-209.
[6]? 張里安,韓旭至.大數據時代下個人信息權的私法屬性[J].法學論壇,2016(3):119-129.
[7]? 王利明.論個人信息權的法律保護——以個人信息權與隱私權的界分為中心[J].現代法學,2013(4):62-72.
[8]? 張新寶.從隱私到個人信息:利益再衡量的理論與制度安排[J].中國法學,2015(3):38-59.
[9]? 張民安,宋志斌.隱私合理期待分論——網絡時代、新科技時代和人際關系時代的隱私合理期待[M].廣州:中山大學出版社,2015:7.
[10]? 克里斯托弗·斯坦納.算法帝國[M].李筱瑩,譯.北京:人民郵電出版社,2014:5.
[11]? 張凌寒.算法規制的迭代與革新[J].法學論壇,2019(2):16-26.
[12]? 謝華成,陳向東.面向云存儲的非結構化數據存取[J].計算機應用,2012(7):1924-1928+1942.
[13]? 李慧,顏顯森.數據庫技術發展的新方向——非結構化數據庫[J].情報理論與實踐,2001(4):287-288+261.
[14]? 楊博,趙鵬飛.推薦算法綜述[J].山西大學學報(自然科學版),2011(3):337-350.
[15]? 黃正.協同過濾推薦算法綜述[J].價值工程,2012(21):226-228.
[16]? 艾磊,趙輝.基于知識的推薦系統用戶交互模型研究[J].軟件導刊,2015(3):15-17.
[17]? 王曉佳.機器學習的個性化推薦算法[J].電子技術與軟件工程,2019(15):113-114.
[18]? 劉勇,李永杰.基于協同過濾推薦算法的微信小程序智能助手[J].計算機系統應用,2019(5):71-76.
[19]? 王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004(2):246-252.
[20]? 彭禮堂,饒傳平.網絡隱私權的屬性:從傳統人格權到資訊自決權[J].法學評論,2006(1):57-62.
[21]? 鐘子云.Cookie機制分析及其安全問題對策[J].桂林航天工業高等專科學校學報,2001(1):10-13.
The Dilemma and Outlet of Traditional Privacy Theory in the Algorithmic Era:
Based on Personalized Recommendation
Zhang Hui
(School of Guanghua Law, Zhejiang University, Hangzhou, Zhejiang? 310008)
Abstract:The Civil Code of China clearly stipulates that the protection categories of privacy and personal information cross each other, and the essence of privacy is personal secret. In the age of algorithm, the value standpoint of measuring whether data conforms to the standard of privacy should be transformed from personal dignity and personal freedom to personal independence. The theoretical basis should be transformed from the domain theory and the principle of information autonomy to the level of thought autonomy. The definition mode of privacy should be changed from "internal and external restriction" to "dynamic and static combination". Data in personalized recommendation should be regarded as privacy. First of all, from the static point of view, it conforms to the personalized characteristics of individual, personality and concealment, and is diversified in form, not limited to the form of information. Secondly, from the perspective of dynamic, personalized recommendation algorithm, including content-based recommendation, collaborative filtering recommendation, or knowledge-based recommendation, collects and calculates the user preferences without the permission of the user, interfering with the user's private domain and peeping into the users personality image. The execution result of the algorithm conforms to the “subjectivity" characteristic of privacy.
Key Words:Personalized recommendation; Algorithm; Data; Privacy