曾青云
(湖南云麓高新材料有限公司,湖南長沙 410000)
大數據、人工智能技術、信息技術的快速發展之下,機器學習的應用領域正在不斷延伸,對人類的各種日常行為從技術上進行了深入的影響。但在信息技術有效使用的同時,技術搜集的大量信息如何合理地利用和使用成為當前信息技術發展必須面臨的主要問題。例如在醫療過程中,人的生理特征、醫療記錄甚至收入狀況等敏感的數據均可以在機器學習的過程中進行全面的收集,若不對其進行有效的監管和規制,該數據的惡用會導致相關社會問題的頻發。不但對企業的信用、經濟利益造成不良的影響,甚至對社會的穩定、國家的安全產生安全隱患。例如在輿論操作的過程中,Facebook通過分析用戶的行為,并對其進行精準的輿論、廣告投放,從而對其的社會行為進行直接影響,最終導致社會輿論走向的扭曲。特別是在數據、信息大爆炸的網絡時代,大數據、機器學習等技術可以從個人隱私中分析得出的關鍵信息非常驚人。雖然從2017年起,我國制定了網絡安全法,要求對個人隱私信息進行有效的保護,但在執行的過程中依然面臨技術、制度等多方面的原因,使相關的條例無法得到有效的落實。不少企業也會利用該隱私問題非法獲取巨額的利潤。例如某外賣平臺在使用大數據和機器學習分析用戶消費習慣的過程中,采取嚴重的價格欺詐行為對不同的用戶標定不同的價格,以榨取巨額的經濟利潤。這種行為極其嚴重地影響了正常的市場消費行為,從最終的結果上來看,這種行為會極大地打擊消費者的消費積極性,從而對市場的發展造成極其不利的影響。
多方安全計算主要采用動態加密的方式對機器學習技術應用過程中的數據進行編碼加密,僅允許具有訪問權限的人員、設備進行解碼,以保障傳輸過程中的數據隱秘性[1]。同時可以借助軟硬件的安全協議對密文進行有效的加密和解密。由于在加密和解密的過程中會伴隨著大量的數據計算,導致極大的計算資源負擔。在實際應用的過程中,會因為硬件計算能力以及計算設備的開銷而受到一定程度的制約。
差分隱私則是建立在數學理論基礎上的加密方式,與傳統的加密方式相比,該加密方式主要通過向數據添加噪聲,在信息泄露或者受到攻擊的情況下,由于噪聲的添加而無法精確得出相關的數據,從而對敏感信息進行有效加密[2]。這種方式雖然不需要大量的計算資源,但同時也會對數據的精準性和預測的可靠性造成不良的影響,在其應用的過程中,最主要的挑戰是如何合理地添加噪聲,在增加數據擾動的同時確保數據可以得到有效保存和精準解密,以提升其實用價值。
現階段機器學習面臨的隱私保護問題主要有:大范圍地收集數據致使相關隱私數據直接泄露,以及對數據模型的泛化能力不足從而導致隱私間接泄露的問題兩部分組成。前者是指機器學習的過程中需要采用大量的數據樣本以保證機器學習、計算的效率,在采集數據的過程中,沒有經過用戶的許可私自采集數據并進行共享的行為會導致數據安全與隱私問題的直接產生。后者則是因為在機器學習的過程中,不可靠的數據分析過程并沒有對隱私數據進行有效加密,導致在逆向推理的過程中,對機器學習采用的數據樣本進行逆向推測,從而間接導致安全與隱私問題的產生[3]。由于機器學習的過程中,越大的數據樣本、越復雜的數據模型會直接影響機器學習技術的性能和應用效果,因此在隱私保護的過程中,訓練數據的逆向推理也很容易導致隱私保護問題的產生。
從機器學習安全問題的角度上來講,隱私保護問題屬于內部數據的安全問題,另一部分則是針對機器學習所發起的外部隱私攻擊。由于攻擊者無法直接訪問機器學習過程中的數據模型和訓練數據,所以只能通過外部攻擊對機器學習的數據庫進行攻擊,從其中泄漏的部分來進行逆向推理。有可能攻擊者對機器學習的模型和數據具有一定的認識,也有可能完全不知道當前機器學習的模型和數據內容,因此隱私攻擊的方式也被分為重構攻擊和成員推斷攻擊。
2.2.1 重構攻擊
重構攻擊是一種有針對性的隱私攻擊方式,主要針對機器學習的特定隱私數據進行攻擊:一方面可以被分為模型反演攻擊,該攻擊方式主要針對數據結構相對簡單的機器學習模型,對其在訓練過程中采用的數據進行查詢和對比,通過找出相關的信息對機器學習模型采用的數據進行隱私數據、敏感數據的分析,從而找到自身想要獲取的隱私數據[4]。這種攻擊方式通常只能用于數據樣本較少,數據模型不夠完善的機器學習模型中。當數據樣本較大時,會增加其對比和分析的計算量,從而取得的攻擊效果有限。另一方面則是模型竊取攻擊,主要通過對決策模型進行自適應算法的攻擊,例如通過記住機器學習模型的訓練數據、訓練方式將其應用到替代模型的運算過程中,從而竊取機器學習模型,并將機器學習模型記錄的所有數據進行全面的掌握。這種方式對于企業的危害程度較大,同時也需要具備一定的專業技術能力才能展開模型竊取攻擊,既是企業安全防護的重點,也是未來機器學習安全與隱私問題研究的重要方向。
2.2.2 成員推斷攻擊
該攻擊方式是將一個攻擊的數據加入機器學習模型的訓練過程中,使攻擊數據成為機器學習模型的“成員”,這種攻擊方式在特定情況下會對機器學習的有效應用造成巨大的影響。例如在傳染病防治的過程中,錯誤的訓練數據會致使傳染病的判斷、診療存在巨大的誤差,進而導致傳染病防治工作受到阻礙。
但總體上來說,現階段針對機器學習的隱私攻擊數量相對較少,只有在特定的情況下才會產生嚴重后果。機器學習在各個行業中不斷深入會加劇該問題的產生數量,這些攻擊不但會對機器學習模型造成不良的影響,也會對機器學習模型應用的領域產生巨大的震動。一方面需要通過法律和社會的制約、監管,使信息數據的收集、處理和傳播行為得到有效的規范,從而避免隱私數據的泄露問題;另一方面還需要加強對機器學習模型在訓練和應用過程中的安全問題的重視,采取數據加密、噪聲干擾、外部防護等方式來避免外部攻擊導致的安全及隱私問題。
由于機器學習的過程中,模型本身會附帶巨量的訓練數據,其中的個體信息和隱私數據是導致隱私泄露的主要問題。這就需要從模型訓練的模式和方式上進行有效完善。而現階段主要采用集中和聯邦兩種學習類型,集中學習主要將訓練數據存儲在集中的服務器、單機或者云端,對相關隱私數據的管理、部署以及訓練都相對比較方便,具有更好的可控性。同時也是現階段主要采用的機器訓練學習模式,由于該模式下數據在收集后,數據的控制權將歸管理者所有,具體其用于何處、怎么使用都無法得到公眾的有效監管。而在機器學習發展的過程中,應當對其進行查封隱私的保護。基于深度學習的方法,在各個數據參數域中搜索如何將隱私數據泄露的風險進行最小化的控制,一方面可以采用經驗風險最小化的數據模型來求解隱私數據保護的主要方式,另一方面還需要在決策邊界進行訓練樣本的有效控制,以實現良好的隱私保護[5]。
聯邦模型的學習過程中,其主要采用分布式的機器學習來提升機器學習的訓練效率,多個節點同時展開機器學習,并構建中心模型,展開獨立訓練。這種訓練模式可以有效提升訓練效率,由于多數的模型訓練數據保存在各個節點服務器,因此隱私泄露的風險得到有效的降低。但由于這種學習訓練模式尚處于發展的過程中,面臨的問題較多。現階段主要采用深度學習的隱私保護對其進行有效處理,一方面,需要加強深層網絡模型的參數優化,使機器學習模型能夠滿足大量訓練數據下的隱私保護,還需要根據有效的隱私預算,梯度式地用在隱私保護以及機器學習成本的平衡過程中;另一方面還需要采用寬松差分隱私的保護方式降低隱私保護的要求,使其采用更加寬松的差分隱私定義,合理控制隱私泄露的概率。
現階段針對機器學習所采用的隱私保護技術多為加密和擾動,這2種方式各有各的特點,但在實際應用的過程中,需要根據具體的情況進行有效選擇。
3.2.1 加密
加密作為隱私保護技術應用的歷史十分悠久,通過將數據信息進行特定的編碼加密,使敏感數據在存儲和傳輸的過程中,不會因為攻擊、泄漏等問題而出現數據被解析的現象。這種方式具有較高的保密性,同時也僅限定于掌握編碼方式的人員才能夠獲取對應的信息,但在機器學習的過程中,由于攻擊者可以根據機器學習模型對已經加密的數據進行反向推測,因此在數據的加密和解密方式的應用和計算過程中需要加強其機密性。在此基礎上,機器學習采用同態加密的方式來處理加密的數據,同態加密方式不需要訪問數據本身,在不公開的情況下對真實數據進行任意形式的加密。由于這種加密形式可以在互不信任的環境中進行數據的協同處理,因此可以確保參與協同計算各方不公開自身數據的基礎上確保最終計算結果的正確性和準確性,因此可以適用在各種多方參與的隱私加密環境中[6]。機器學習模型的過程中,聯邦學習的模式通常可以采用同態加密方法,使其能夠面對各種分析和學習任務。總體上來說,對隱私數據進行加密的方式可以有效保證數據在傳輸與保存過程中的安全性,也依賴于加密函數的復雜程度,在采用非線性計算的深度學習模型中,加密算法的費用和開發成本較高也導致該技術在應用的過程中面臨較多的阻礙。
3.2.2 擾動
該技術在數據中加入隨機性的噪聲,使最終輸出的數據結果與真實結果具有較大的差異,防止數據在攻擊以及泄露后被攻擊者進行惡意推理。現階段最主要的擾動方式是采用差分擾動機制,該技術最早應用于數據庫開發和保存過程中存在的隱私泄露問題。差分擾動的加密方式可以增加數據輸出結果的不規律性,也不會因為數據的增加或減少而帶來計算量的變化。保證了在采用差分擾動時,攻擊者不太可能利用記錄差異而進行敏感數據的屬性值推算。這種機制也是當前機器學習中隱私保護所最常用的保護方法。一方面在機器學習的過程中會重復多次訪問敏感數據,若使用傳統預處理等方式的情況下,很容易導致隱私、敏感數據的泄露。另一方面,在簡單機器學習模型的發展過程中,添加擾動并不會對數據處理的效率造成較大的影響,并提升隱私保護的效果,而在數據量較大、數據結構較為復雜的深度學習模型中,擾動的增加會進一步加大數據計算的總量,使學習模型的有效性與隱私保護的效果無法得到可靠的保障,這一問題也是導致差分擾動技術無法得到有效發展的主要原因。
現階段機器學習技術的發展過程中,安全問題與隱私保護成為該技術廣泛應用的阻礙,因此需要對其加強研究,使其成為社會真正信任的技術,使其能夠長久造福人類的社會發展。