孫舒揚
(賽迪智庫網絡空間研究所,北京 100846)
隨著數據的數量激增和內容形式的復雜化以及技術的進一步發展,全球開始步入大數據時代,數據支持社會運轉的能力得到了廣泛的認可。各行各業都開始引入大數據思維,其應用遍布公共服務、文化、教育、經濟、醫療等行業,影響到了公民生活中的方方面面。其中機構開展面向個人的服務時,無法避免的會對大數據中的個人信息開展利用。然而,個人信息的特殊性質,使得其利用成為了高風險的活動,利用不當很可能會侵犯到個人或集體的合法權益,一旦發生泄漏、濫用等惡性事件,會對當事人造成不同程度的經濟、精神及人身損失。因此明確大數據應用中個人信息利用存在的問題對于保障個人信息的利用具有重要的作用。
本節主要對大數據與個人信息兩個核心概念進行了界定。大數據的概念最早從國外傳入,其原英文詞匯為“big data”,早期主要只強調數據體量大,而后逐漸轉變為現在常用的大數據概念。關于大數據的定義,目前學術界并沒有一個統一的定義,通過對現有代表性定義的分析,可得出當前對大數據的定義絕大部分都是通過描述其數據特征進行界定。Ylijoki與Porras分析了62個大數據定義中所描述的特征,發現規模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)與真實性(veracity)五個維度就是目前大數據定義中特征界定的主流方向,如圖1所示。
個人信息的界定主要參照了國內外的法律與標準,其對個人信息的定義大致是從兩種角度出發,一為強調信息可識別個人,二為強調信息屬于可識別或已識別個人。兩種定義雖然角度不同,但本質其實是相同的,都強調了個人信息可識別性這一特征。
政府、企業等大數據應用者有很大部分業務都是面向公民的,因此其中對個人信息的利用必不可少。通過從各類個人數據中獲取有價值的信息,并挖掘出用戶的需求和喜好,對用戶的需求進行多維度多層次的劃分,可面向用戶需求以更加靈活的方式和更加豐富的內容提供精準化、個性化的服務與推薦。然而,由于個人信息涉及到公民,一旦發生泄漏、濫用等惡性事件,會對當事人造成不同程度的經濟、精神及人身損失。近年來我國個人信息犯罪事件逐年增多,性質也越發惡劣,都說明個人信息利用存在著巨大的風險。
大數據的屬性特征為個人信息的獲取提供了極大的方便,也使得個人信息問題更加普遍,大數據應用中所利用的個人信息來源更加廣泛,價值更高,受到侵害的幾率也更高。
大數據環境使得個人信息的收集范圍更加廣泛,方法更加便捷,手段更加多樣化,任何互聯網利用者都能夠輕易獲取他人個人信息。
一方面,個人信息的來源有了飛速增長。大數據中的個人信息也具有大數據特征,這使得個人信息的數量增多、格式多樣、產生速度也十分迅速。首先,個人信息主體都有發布信息的渠道,主動發布自身個人信息的個人信息主體增加。其次,個人信息主體在社交網絡上分享個人意見、享受服務、佩戴可移動設備等行為都會創造個人信息,并主動或被動披露在各種平臺上。

圖1 數字聯盟可信ID簡明邏輯圖
另一方面,個人信息的獲取方式發生變化。人工收集方式被新型技術采集方式取代,信息的收集擴展到了收集社交網絡、傳感器、隨身電子設備等實時活動數據流。此外,當需要收集某些數據的時候,既可以向數據主體直接收集,也可以利用新技術手段直接從網絡及數據庫中尋找,信息收集的主動性更強。
信息收集者利用大數據分析對分散于各個角落的個人信息進行整合,建立關聯關系并形成完整的信息,從中挖掘出具有價值的信息,再加以利用。通過這種關聯分析對分散的個人信息進行整合,數據主體的屬性特征,例如個人背景、特征、習慣、行為也逐漸浮出水面,原本毫無價值的信息碎片的價值也不斷提升,也越來越受到重視。此外,大數據環境中個人信息的價值不再僅停留于其基本用途,而要依靠其二次利用,信息不同于物質性的東西,每當被使用分析都會增加一層價值,隨著利用過程不斷地發現信息的新價值及新應用。
大數據技術降低了隱私受到侵害的門檻,并增加了隱私侵害所造成后果的廣度和深度。大數據時代中,公民時常會在毫無意識的情況下將個人信息披露在某些平臺上。由于大數據技術降低了數據存儲的成本,信息控制者也無需對信息進行鑒定以決定其保存時間,大量的個人信息長期存儲在數據系統或網絡平臺上。此外,大數據環境下數據具有極強的關聯性,即使對信息進行了匿名處理,但是隨著來源于多種數據源的數據的增加,原本互不相干、相互分離的數據被匹配了起來,多項個人信息共同開展識別,從而使預先的匿名化無效。
大數據環境下個人隱私遭侵害的識別難度也比以前更大。大數據技術增強了數據之間的連接性,多種信息的聯合分析成為可能,原本不具有敏感性或隱私性的數據,在與其他數據進行關聯的過程中,存在挖掘出隱私內容的可能性。這一過程往往是無法預料的,因此也難以進行預防,甚至連發生之后數據主體也無法察覺和重視。即使數據主體意識到了自身的隱私被侵害,依然很難確定自己隱私在哪個環節被侵害,也很難界定是否屬于侵害,無法找到個人隱私被侵犯的證據追溯到責任主體。
隱私安全問題不僅為個人信息安全帶來威脅,同樣也制約著大數據應用的發展。
從傳統社會到互聯網時代,再到如今的大數據時代,信息主體對其個人信息的控制權越來越低,個人信息生成后個人信息利用者就掌握了其使用權,信息主體的權利未得到應有的尊重。Napoleon Xanthoulis 指出,網絡環境中的用戶僅有選擇的錯覺,即使選擇了撤回信息并不意味著允許用戶能將其數據全部移除。Mayer-Schonberger在其著作《刪除—大數據取舍之道》一書中指出數字技術已經讓社會喪失了遺忘的能力,取而代之的是最完整的記憶。個人信息的失控表現在以下幾方面:
第一,信息主體對其信息的收集與利用不知情。用戶在接受服務提供者所提供的在線或離線服務中,無論授權與否,其信息都會在不同程度上被收集。一些機構在收集個人信息時存在過度收集,用戶既沒有被充分告知其信息將被收集的狀況,也沒有被闡明其真正用途。個人信息利用者越來越多地按照自身需求獲得資源與服務,在采集目的之外對個人信息進行利用之前,并不會再次申請信息主體的許可,甚至完全不會通知信息主體。因而信息主體很難知悉其個人信息被收集和利用的具體情況,更無法提出異議,這無疑危及到了個人信息的保密性、可控性及信息主體的人格自由。
第二,信息主體的的生活安寧遭到破壞。當信息主體在網絡中表露出其需求并被識別后,服務提供者就可以開展精確的服務推送,而信息主體對這類推送行動完全無法自主選擇。且這些推送活動并不受場所的限制,其推送的范圍十分廣泛而且隱藏很深,悄無聲息地侵入了公民的個人生活,破壞了公民安寧的生活。
第三,信息主體無法對其個人信息進行處置。一旦個人信息被以數據化形式儲存,就幾乎完全被掌握在數據采集者的數據庫中,數據主體實際上很難對其進行保護。在個人信息被秘密收集的同時,有可能會被秘密的共享甚至交易,然而信息主體無法對其進行監督,即使個人信息被不合規處置也無從知曉,也無法進行維權。此外,在對個人信息的大數據分析中,還有可能會產生新的信息,這些新個人信息分析和產生是超出控制范圍的,信息主體沒有能力控制這些新信息的產生與應用。
隨著行使職能與開展業務需求的變化與大數據信息處理技術的不斷發展,個人信息處理者對公民個人信息的利用常常越過必要的邊界,造成對個人基本權利的侵犯:
第一,個人信息處理者對個人實施全面監控。大數據時代數據就是資產,為滿足管理和業務的需求,個人信息處理者盡可能全面、完整、系統地收集公民的數據,這就使得其對公民行為全天候全方位的監控有了合理性。大數據環境中的這種全面監控就如同打造出了隱形的“數字全景監獄”,采集處理個人信息的工具遍布各個角落,面向各個群體,個人的網絡與現實行為都被置于隨時隨地的“監視”之中。這種全面的監控無視了信息主體的隱私權,干涉了主體的自由,影響到了主體的生活。
第二,個人信息處理者通過信息對個人未來進行預測。“預測”是大數據的核心功能之一。大數據甚至可用于對個人未來的身體狀況等涉及個人隱私的信息進行預測。然而,預測個人未來的行為會對個人的名譽造成影響,甚至侵犯了信息主體的個人隱私,違背了自主原則,導致名譽無法受到個人的控制。例如大數據分析能夠對犯罪等進行預測,公眾也會擔心自己是否會成為這種預測算法的目標。
第三,個人信息處理者對所收集信息開展深度挖掘。個人信息深度挖掘行為侵犯個人隱私主要有兩種方式。其一是利用數據深度挖掘預測信息主體的行為,影響信息主體的未來行為。在這一過程中,公民往往對其個人信息被利用的情況并不知情,這一行為不僅干涉到了用戶的隱私,并有可能會影響信息主體的行為;其二是數據深度挖掘引發身份泄露。由于個人信息中蘊含著大量的價值,因此機構大多傾向于對這些數據進行二次開發。有些個人信息在依職能要求利用時并不會對個人隱私造成影響,而二次開發卻會帶來這種危害,從表面看并無明顯的個性化特征的原始信息,通過多次的分析、挖掘,就有極大的可能準確地追溯到數據主體個人并關聯出個人隱私。
第四,個人信息遭到泄漏。在大數據時代背景之下,個人信息泄露主要有兩種方式,一為外部的攻擊,例如使用專業工具或者黑客,大數據一方面已成為網絡攻擊的顯著目標,大數據環境使隱私泄露風險更大,另一方面黑客也利用大數據技術進行網絡攻擊,將其作為高級可持續攻擊的載體,并對現有的存儲和安防措施造成威脅。然而個人信息的管理者在很多情形下都未將泄露的風險通報給信息主體,因此在遭受到侵害時,信息主體得知消息的時候往往已經造成了巨大的傷害,不僅來不及采取措施及時止損,其他關聯信息也有可能受到侵害;二為內部攻擊,即為服務提供商對個人信息進行買賣或者作為證據提交,對個人信息惡意使用、非法買賣時有發生,甚至形成了灰色產業鏈。信息的非法使用是個人信息開發利用進程的一大阻礙。
大數據應用中造成個人信息質量降低的最主要威脅之一是偽造或刻意制造的數據,數據分析的結果依賴于數據的可靠性,如果數據中存在錯誤,極有可能會導致錯誤的結論。有些情況下,數據的應用場景很明確,就可能有人為了自身利益刻意制造數據,誘導分析者得出符合其利益的結論。而虛假信息大多隱藏在大量復雜的信息中,真偽難以鑒別;威脅之二則是數據在傳播中的逐步失真。其原因之一是數據采集可能會由于人工干預而引入誤差,這些人為失誤會造成數據的失真與偏差,最終對數據分析結果的準確性造成影響。個人信息的利用還存在著一定范圍內的共享。隨著傳輸效率的提高與傳輸環節的增多,個人信息失真的幾率也會有所提高。此外,個人信息的直接采集者與個人信息的接收者的職能和身份均不同,其信息利用的目的也各異,因此在傳輸過程中往往不同程度地對信息進行加工,又加劇了失真的程度,個人信息的完整性與可靠性被降低。
個人信息利用是大數據應用中必不可少的過程,它為機構職能的實現帶來了新的機遇與挑戰。大數據環境對個人信息的利用帶來了新變化,使個人信息的獲取變得更加便利,價值得到提升,其中所包含的公民個人隱私也更容易遭到侵害。隱私安全問題不僅為個人帶來了風險,同時也制約了大數據的應用。本文明確了大數據應用中個人信息利用所存在的信息失控、信息濫用與信息質量低幾個關鍵問題,為個人信息主體和利用者提出了警示,也為研究保障大數據應用中個人信息利用的措施奠定了基礎。