范淵
摘要:指出安全與隱私防護是大數據面臨的兩個重要的問題。認為大數據在引入新的安全問題和挑戰的同時,也為信息安全領域帶來了新的發展契機,即基于大數據的信息安全相關技術可以反過來用于大數據的安全和隱私保護。目前,基于大數據的數據真實性分析被廣泛認為是最為有效的方法。認為信息安全企業未來的發展前景為:以底層大數據服務為基礎,各個企業之間組成相互依賴、相互支撐的信息安全服務體系,通過構建安全大數據,逐步形成大數據安全生態環境。
關鍵詞:大數據;安全;隱私;認證
Abstract:Security and privacy protection are two important issues with big data. On the one hand, big data creates new security problems and challenges. On the other hand, it creates new opportunities for the development of information security. Big-data-based information security technologies can be used for security and privacy protection. Big-data-based data authenticity analysis is widely considered to be the most effective method. Development prospects for information security are: the data underlying service is the foundation, and enterprises between each other can form the system in which they have mutual dependence, mutual support of information security service. By building up the security big data system, a good environment for information security industry is formed.
Key words:big data; security; privacy; authentication
1 大數據研究現狀
目前,社會信息化和網絡化的發展導致數據爆炸式增長。據統計,平均每秒有200萬用戶在使用谷歌搜索,Facebook用戶每天共享的東西超過40億,Twitter每天處理的推特數量超過3.4億。同時,科學計算、醫療衛生、金融、零售業等各行業也有大量數據在不斷產生。2012年全球信息總量已經達到2.7 ZB,而到2015年這一數值預計會達到8 ZB。這一現象引發了人們的廣泛關注。
在學術界,圖靈獎獲得者Jim Gray提出了科學研究的第4范式,即以大數據為基礎的數據密集型科學研究;2008年《Nature》推出了大數據專刊對其展開探討;2011年《Science》也推出類似的數據處理專刊。IT產業界行動更為積極,持續關注數據再利用,挖掘大數據的潛在價值。目前,大數據已成為繼云計算之后信息技術領域的另一個信息產業增長點。據Gartner預測:2016年全球在大數據方面的總花費將達到2 320億美元。Gartner將大數據技術列入對眾多公司和組織機構具有戰略意義的十大技術與趨勢之一。
不僅如此,作為國家和社會的主要管理者,各國政府也是大數據技術推廣的主要推動者。2009年3月美國政府上線了data.gov網站,向公眾開放政府所擁有的公共數據。隨后,英國、澳大利亞等政府也開始了大數據開放的進程。截至目前,全世界已經正式有35個國家和地區構建了自己的數據開放門戶網站[1]。美國政府聯合6個部門宣布了2億美元的“大數據研究與發展計劃”。在中國,2012年中國通信學會、中國計算機學會等重要學術組織先后成立了大數據專家委員會,為中國大數據應用和發展提供學術咨詢。
目前,大數據的發展仍然面臨著許多問題,安全與隱私問題是人們公認的關鍵問題之一。當前,人們在互聯網上的一言一行都掌握在互聯網商家手中,包括購物習慣、好友聯絡情況、閱讀習慣、檢索習慣等。多項實際案例說明:即使無害的數據被大量收集后,也會暴露個人隱私。
事實上,大數據安全含義更為廣泛,人們面臨的威脅并不僅限于個人隱私泄漏。與其他信息一樣,大數據在存儲、處理、傳輸等過程中面臨諸多安全風險,具有數據安全與隱私保護需求。而實現大數據安全與隱私保護,較以往其他安全問題(如云計算中的數據安全等)更為棘手。這是因為在云計算中,雖然服務提供商控制了數據的存儲與運行環境,但是用戶仍然有些辦法保護自己的數據,例如通過密碼學的技術手段實現數據安全存儲與安全計算,或者通過可信計算方式實現運行環境安全等。而在大數據的背景下,Facebook等商家既是數據的生產者,又是數據的存儲、管理者和使用者。單純通過技術手段限制商家對用戶信息的使用,實現用戶隱私保護是極其困難的事。
當前很多組織都認識到大數據的安全問題,并積極行動起來關注大數據安全問題。2012年云安全聯盟(CSA)組建了大數據工作組,旨在尋找針對數據中心安全和隱私問題的解決方案。文章在梳理大數據研究現狀的基礎上,重點分析了當前大數據所帶來的安全挑戰,詳細闡述了當前大數據安全與隱私保護的關鍵技術。需要指出的是:大數據在引入新的安全問題和挑戰的同時,也為信息安全領域帶來了新的發展契機,即基于大數據的信息安全技術可以反過來用于大數據的安全和隱私保護[1]。
2 大數據安全的挑戰
科學技術是一把雙刃劍。大數據所引發的安全問題與其帶來的價值同樣引人注目。而近年爆發的“棱鏡門”事件更加劇了人們對大數據安全的擔憂。與傳統的信息安全問題相比,大數據安全面臨的挑戰性問題主要體現在以下幾個方面。
(1)大數據中的用戶隱私保護
大量事實表明:大數據未被妥善處理會對用戶的隱私造成極大的侵害。根據需要保護的內容不同,隱私保護又可以進一步細分為位置隱私保護、標識符匿名保護、連接關系匿名保護等。人們面臨的威脅并不僅限于個人隱私泄漏,還在于基于大數據對人們狀態和行為的預測。一個典型的例子是某零售商通過歷史記錄分析,比家長更早知道其女兒已經懷孕的事實,并向其郵寄相關廣告信息。而社交網絡分析研究也表明,可以通過其中的群組特性發現用戶的屬性。例如通過分析用戶的Twitter信息,可以發現用戶的政治傾向、消費習慣以及喜好的球隊等。當前企業常常認為經過匿名處理后,信息不包含用戶的標識符,就可以公開發布了。但事實上,僅通過匿名保護并不能很好地達到隱私保護目標。例如,AOL公司曾公布了匿名處理后的3個月內部分搜索歷史,供人們分析使用。雖然個人相關的標識信息被精心處理過,但其中的某些記錄項還是可以被準確地定位到具體的個人。紐約時報隨即公布了其識別出的1位用戶。編號為4、417、749的用戶是1位62歲的寡居婦人,家里養了3條狗,患有某種疾病,等等。另一個相似的例子是,著名的DVD租賃商Netflix曾公布了約50萬用戶的租賃信息,懸賞100萬美元征集算法,以期提高電影推薦系統的準確度。但是當上述信息與其他數據源結合時,部分用戶還是被識別出來了。研究者發現,Netflix中的用戶有很大概率對非top 100、top 500、top 1 000的影片進行過評分,而根據對非top影片的評分結果進行去匿名化攻擊的效果更好。
目前用戶數據的收集、存儲、管理與使用等均缺乏規范,更缺乏監管,主要依靠企業的自律。用戶無法確定自己隱私信息的用途。而在商業化場景中,用戶應有權決定自己的信息如何被利用,實現用戶可控的隱私保護。包括:數據采集時的隱私保護,如數據精度處理;數據共享、發布時的隱私保護,如數據的匿名處理、人工加擾等;數據分析時的隱私保護;數據生命周期的隱私保護;隱私數據可信銷毀等。
(2)大數據的可信性
關于大數據的一個普遍的觀點是:數據自己可以說明一切,數據自身就是事實。但實際情況是:如果不仔細甄別,數據也會欺騙,就像人們有時會被自己的雙眼欺騙一樣。
大數據可信性的威脅之一是:偽造或刻意制造的數據,而錯誤的數據往往會導致錯誤的結論。若數據應用場景明確,就可能有人刻意制造數據、營造某種“假象”,誘導分析者得出對其有利的結論。
由于虛假信息往往隱藏于大量信息中,使得人們無法鑒別真偽,從而做出錯誤判斷。例如,一些點評網站上的虛假評論,混雜在真實評論中使得用戶無法分辨,可能誤導用戶去選擇某些劣質商品或服務。由于當前網絡社區中虛假信息的產生和傳播變得越來越容易,其所產生的影響不可低估。用信息安全技術手段鑒別所有來源的真實性是不可能的。
大數據可信性的威脅之二是:數據在傳播中的逐步失真。原因之一是人工干預的數據采集過程可能引入誤差,由于失誤導致數據失真與偏差,最終影響數據分析結果的準確性。此外,數據失真還有數據的版本變更的因素。在傳播過程中,現實情況發生了變化,早期采集的數據已經不能反映真實情況[2]。例如,餐館電話號碼已經變更,但早期的信息已經被其他搜索引擎或應用收錄,所以用戶可能看到矛盾的信息而影響其判斷。因此,大數據的使用者應該有能力基于數據來源的真實性、數據傳播途徑、數據加工處理過程等,了解各項數據可信度,防止分析得出無意義或者錯誤的結果。
密碼學中的數字簽名、消息鑒別碼等技術可以用于驗證數據的完整性,但應用于大數據的真實性時面臨很大困難,主要根源在于數據粒度的差異。例如,數據的發源方可以對整個信息簽名,但是當信息分解成若干組成部分時,該簽名無法驗證每個部分的完整性。而數據的發源方無法事先預知哪些部分被利用,如何被利用,難以事先為其生成驗證對象。
(3)大數據訪問控制的實現
訪問控制是實現數據受控共享的有效手段。由于大數據可能被用于多種不同場景,其訪問控制需求十分突出。大數據訪問控制的特點與難點在于:
難以預設角色,實現角色劃分。由于大數據應用范圍廣泛,它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問,實施訪問控制是基本需求。然而,在大數據的場景下,有大量的用戶需要實施權限管理,且用戶具體的權限要求未知。面對未知的大量數據和用戶,預先設置角色十分困難。
難以預知每個角色的實際權限。由于大數據場景中包含海量數據,安全管理員可能缺乏足夠的專業知識,無法準確地為用戶指定其所可以訪問的數據范圍。而且從效率角度講,定義用戶所有授權規則也不是理想的方式。以醫療領域應用為例,醫生為了完成其工作可能需要訪問大量信息,但對于數據能否訪問應該由醫生來決定,不應該需要管理員對每個醫生做特別的配置。但同時又應該能夠提供對醫生訪問行為的檢測與控制,限制醫生對病患數據的過度訪問。此外,不同類型的大數據中可能存在多樣化的訪問控制需求。例如,在Web 2.0個人用戶數據中,存在基于歷史記錄的訪問控制;在地理地圖數據中,存在基于尺度以及數據精度的訪問控制需求;在流數據處理中,存在數據時間區間的訪問控制需求等。如何能夠統一地描述與表達訪問控制需求也是一個極具挑戰性的問題[3]。
由于大數據分析技術的出現,企業可以超越以往的“保護-檢測-響應-恢復(PDRR)”模式,更主動地發現潛在的安全威脅。例如,IBM推出了名為“IBM大數據安全智能”的新型安全工具,可以利用大數據來偵測來自企業內外部的安全威脅,包括掃描電子郵件和社交網絡,標示出明顯心存不滿的員工,提醒企業注意,預防其泄露企業機密。“棱鏡”計劃也可以被理解為應用大數據方法進行安全分析的成功故事。通過收集各個國家各種類型的數據,利用安全威脅數據和安全分析形成系統方法發現潛在危險局勢,在攻擊發生之前識別威脅。
3 基于認證分析的大數據
分析技術
相比于傳統技術方案,基于大數據的威脅發現技術具有以下優點。
(1)分析內容的范圍更大。傳統的威脅分析主要針對的內容為各類安全事件。一個企業的信息資產則包括數據資產、軟件資產、實物資產、人員資產、服務資產和其他為業務提供支持的無形資產。由于傳統威脅檢測技術的局限性,其并不能覆蓋這6類信息資產,因此所能發現的威脅也是有限的。通過在威脅檢測方面引入大數據分析技術,可以更全面地發現針對這些信息資產的攻擊。例如通過分析企業員工的即時通信數據、Email數據等可以及時發現人員資產是否面臨其他企業“挖墻腳”的攻擊威脅。再比如,通過對企業的客戶部訂單數據的分析,也能夠發現一些異常的操作行為,進而判斷是否危害公司利益。可以看出:分析內容范圍的擴大使得基于大數據的威脅檢測更加全面。
(2)分析內容的時間跨度更長。現有的許多威脅分析技術都是內存關聯性的,也就是說實時收集數據,采用分析技術發現攻擊。分析窗口通常受限于內存大小,無法應對持續性和潛伏性攻擊。引入大數據分析技術后,威脅分析窗口可以橫跨若干年的數據,因此威脅發現能力更強,可以有效應對高級持續性威脅(APT)類攻擊。
(3)攻擊威脅的預測性。傳統的安全防護技術或工具大多是在攻擊發生后對攻擊行為進行分析和歸類,并做出響應。基于大數據的威脅分析,可進行超前的預判,它能夠尋找潛在的安全威脅,對未發生的攻擊行為進行預防。
(4)對未知威脅的檢測。傳統的威脅分析通常是由經驗豐富的專業人員根據企業需求和實際情況展開,然而這種威脅分析的結果很大程度上依賴于個人經驗。同時,分析所發現的威脅也是已知的。大數據分析的特點是側重于普通的關聯分析,而不側重因果分析,因此通過采用恰當的分析模型,可發現未知威脅。
雖然基于大數據的威脅發現技術具有上述的優點,但是該技術目前也存在一些問題和挑戰,主要集中在分析結果的準確程度上。一方面,大數據的收集很難做到全面,而數據又是分析的基礎,它的片面性往往會導致分析出的結果的偏差。為了分析企業信息資產面臨的威脅,不但要全面收集企業內部的數據,還要對一些企業外的數據進行收集,這些在某種程度上是一個大問題。另一方面,大數據分析能力的不足影響威脅分析的準確性。例如,紐約投資銀行每秒會有5 000次網絡事件,每天會從中捕捉25 TB數據。如果沒有足夠的分析能力,要從如此龐大的數據中準確地發現極少數預示潛在攻擊的事件,進而分析出威脅是幾乎不可能完成的任務。
身份認證是信息系統或網絡中確認操作者身份的過程。傳統的認證技術主要通過用戶所知的秘密,例如口令,或者持有的憑證,例如數字證書,來鑒別用戶。這些技術面臨著兩個問題:(1)攻擊者總是能夠找到方法來騙取用戶所知的秘密,或竊取用戶持有的憑證,從而通過認證機制的認證。例如攻擊者利用釣魚網站竊取用戶口令,或者通過社會工程學方式接近用戶,直接騙取用戶所知秘密或持有的憑證。(2)傳統認證技術中認證方式越安全往往意味著用戶負擔越重。例如,為了加強認證安全而采用的多因素認證。用戶往往需要同時記憶復雜的口令,還要隨身攜帶硬件USB Key,一旦忘記口令或者忘記攜帶USB Key,就無法完成身份認證。為了減輕用戶負擔,一些生物認證方式出現,利用用戶具有的生物特征,例如指紋等,來確認其身份。然而,這些認證技術要求設備必須具有生物特征識別功能,例如指紋識別。因此很大程度上限制了這些認證技術的廣泛應用。
認證技術中引入大數據分析則能夠有效地解決這兩個問題。基于大數據的認證技術指的是收集用戶行為和設備行為數據,并對這些數據進行分析,獲得用戶行為和設備行為的特征,進而通過鑒別操作者行為及其設備行為來確定其身份。這與傳統認證技術利用用戶所知秘密,所持有憑證,或具有的生物特征來確認其身份有很大不同。這種新的認證技術具有如下優點。
(1)攻擊者很難模擬用戶行為特征來通過認證,因此更加安全。利用大數據技術所能收集的用戶行為和設備行為數據是多樣的,可以包括用戶使用系統的時間,經常采用的設備,設備所處物理位置,甚至是用戶的操作習慣數據。通過這些數據的分析能夠為用戶勾畫一個行為特征的輪廓。攻擊者很難在方方面面都模仿到用戶行為,因此其與真正用戶的行為特征輪廓必然存在一個較大偏差,無法通過認證。
(2)減輕了用戶負擔。用戶行為和設備行為特征數據的采集、存儲等都由認證系統完成。相比于傳統認證技術,極大地減輕了用戶負擔。
(3)可以更好地支持各系統認證機制的統一。基于大數據的認證技術可以讓用戶在整個網絡空間采用相同的行為特征進行身份認證,避免不同系統采用不同認證方式,且用戶所知秘密或所持有憑證也各不相同而帶來的種種不便。
雖然基于大數據的認證技術具有上述優點,但同時也存在一些問題和挑戰亟待解決。
(1)初始階段的認證問題。基于大數據的認證技術是建立在大量用戶行為和設備行為數據分析的基礎上,而初始階段不具備大量數據。因此,無法分析出用戶行為特征,或者分析的結果不夠準確。
(2)用戶隱私問題。基于大數據的認證技術為了能夠獲得用戶的行為習慣,必然要長期持續地收集大量的用戶數據。那么如何在收集和分析這些數據的同時,確保用戶隱私也是亟待解決的問題。它是影響這種新的認證技術是否能夠推廣的主要因素。
目前,基于大數據的數據真實性分析被廣泛認為是最為有效的方法。許多企業已經開始了這方面的研究工作,例如Yahoo和Thinkmail等利用大數據分析技術來過濾垃圾郵件;Yelp等社交點評網絡用大數據分析來識別虛假評論;新浪微博等社交媒體利用大數據分析來鑒別各類垃圾信息等。基于大數據的數據真實性分析技術能夠提高垃圾信息的鑒別能力。一方面,引入大數據分析可以獲得更高的識別準確率,例如,對于點評網站的虛假評論,可以通過收集評論者的大量位置信息、評論內容、評論時間等進行分析,鑒別其評論的可靠性,如果某評論者為某品牌多個同類產品都發表了惡意評論,則其評論的真實性就值得懷疑;另一方面,在進行大數據分析時,通過機器學習技術,可以發現更多具有新特征的垃圾信息。然而該技術仍然面臨一些困難,主要是虛假信息的定義,分析模型的構建等。
4 結束語
前面列舉了部分當前基于大數據的信息安全技術,未來必將涌現出更多、更豐富的安全應用和安全服務。由于此類技術以大數據分析為基礎,因此如何收集、存儲和管理大數據就是相關企業或組織所面臨的核心問題。除了極少數企業有能力做到之外,對于絕大多數信息安全企業來說,更為現實的方式是通過某種方式獲得大數據服務,結合自己的技術特色領域,對外提供安全服務。一種未來的發展前景是:以底層大數據服務為基礎,各個企業之間組成相互依賴、相互支撐的信息安全服務體系,總體上形成信息安全產業界的良好生態環境。大數據帶來了新的安全問題,但它自身也是解決問題的重要手段。文章從大數據的隱私保護、信任、訪問控制等角度出發,梳理了當前大數據安全與隱私保護相關關鍵技術。但總體上來說,當前全球針對大數據安全與隱私保護的相關研究還不充分,只有通過技術手段與相關政策法規等相結合,才能更好地解決大數據安全與隱私保護問題。
參考文獻
[1] 馮登國, 張敏, 李昊. 大數據安全與隱私保護[J]. 計算機學報, 2014, 36(01): 246-258
[2] 謝邦昌, 姜葉飛. 大數據時代 隱私如何保護[J]. 中國統計, 2013(06): 24-28
[3] 應欽. 大數據安全與隱私保護技術探究[J]. 硅谷, 2014(10): 15-19. doi:10.3969/j.issn.1671-7597.2014.10.044